数据词典：网络爬虫（Web Crawler）

大麦哥 · 发表于 2025-10-29 07:40:06

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。爬虫从一个或若干个初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。实际上，网络爬虫的行为和人们访问网站的行为是类似的。举个例子，比如用户平时到天猫商城购物（PC端），他的整个活动过程就是打开浏览器→搜索天猫商城→单击链接进入天猫商城→选择所需商品类目（站内搜索）→浏览商品（价格、详情参数、评论等）→单击链接→进入下一个商品页面……周而复始。现在，这个过程不再由用户自己手动去完成，而是由网络爬虫自动去完成。

网络爬虫的类型可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。

（1）通用网络爬虫。通用网络爬虫又称“全网爬虫（Scalable Web Crawler）”，爬行对象从一些种子URL扩充到整个Web，该架构主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以包括页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列和初始URL集合。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略和广度优先策略。

（2）聚焦网络爬虫。聚焦网络爬虫（Focused Crawler）又称“主题网络爬虫（Topical Crawler）”，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，以便用于之后的查询和检索；对于聚焦网络爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。聚焦网络爬虫常用的策略包括：基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略和基于语境图的爬行策略。

（3）增量式网络爬虫。增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式爬虫有两个目标：保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标，增量式爬虫需要通过重新访问网页来更新本地页面集中页面的内容。为了实现第二个目标，增量式爬虫需要对网页的重要性排序，常用的策略包括广度优先策略和PageRank优先策略等。

（4）深层网络爬虫。深层网络爬虫将Web页面按存在方式分为表层网页（Surface Web）和深层网页（Deep Web，也称Invisible Web Page或Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的Web页面。深层网络爬虫体系结构包含6个基本功能模块（爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器）和两个爬虫内部数据结构（URL列表、LVS表）。

【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版

		自动登录	找回密码
密码			立即注册

数据词典：网络爬虫（Web Crawler）

浏览过的版块