更新时间:2023-10-13 来源:黑马程序员 浏览量:

通用网络爬虫的采集目标是整个互联网上的所有网页,它会先从一个或多个初始URL开始,获取初始URL对应的网页数据,并不断从该网页数据中抽取新的URL放到队列中,直至满足一定的条件后停止。
通用网络爬虫的工作原理如图1所示。

通用网络爬虫的工作原理
关于图1中各环节的介绍如下。
(1)获取初始URL。初始URL是精心挑选的一个或多个URL,也称种子URL,它既可以由用户指定,也可以由待采集的初始网页指定。
(2)有了初始URL之后,需要根据初始URL抓取对应的网页,之后将该网页存储到原始网页数据库中,并且在抓取网页的同时对网页内容进行解析,从中提取出新URL。
(3)有了新URL之后,需要将新URL放入URL队列中。
(4)从URL队列中读取新URL,以准备根据URL抓取下一个网页。
(5)若网络爬虫满足设置的停止条件,则停止采集;若网络爬虫没有满足设置的停止条件,则继续根据新URL抓取对应的网页,并重复步骤(2)~步骤(5)。需要注意的是,如果没有设置停止条件,网络爬虫会一直采集下去,直到没有可以采集的新URL为止。
黑马程序员 AI 运维|大厂师资 + 全程服务,3.5 个月实现零基础高薪就业
2026-04-09黑马程序员 AI 运维|10 大就业方向 + 90%+ 就业率,解锁高薪职业路径
2026-04-09黑马程序员 AI 运维|10 大企业级项目实战,毕业即具备独立运维能力
2026-04-09黑马程序员 AI 运维|10 大技术阶段 + 10 大实战项目,从 Linux 到 AI 大模型运维全掌握
2026-04-09黑马程序员 AI 运维|云原生 + 大模型 + 信创三位一体,培养企业紧缺复合型运维人才
2026-04-09黑马程序员AI测试|上市品牌背书,实战赋能,助力冲击年薪30万+
2026-04-09