找回密码
 立即注册
查看: 76|回复: 0

数据词典:反爬机制(Anti Reptile Mechanism)

[复制链接]

108

主题

1

回帖

478

积分

管理员

积分
478
发表于 2025-10-29 07:40:41 | 显示全部楼层 |阅读模式
为什么会有反爬机制?原因主要有两点:第一,在大数据时代,数据是十分宝贵的财富,很多企业不愿意让自己的数据被别人免费获取,因此,很多企业都为自己的网站运用了反爬机制,防止网页上的数据被爬走;第二,简单低级的网络爬虫,数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展。
反爬机制也是一把双刃剑,一方面可以保护企业网站和网站数据,但是,另一方面,如果反爬机制过于严格,可能会误伤到真正的用户请求,也就是真正用户的请求被错误当成网络爬虫而被拒绝访问。如果既要和“网络爬虫”死磕,又要保证很低的误伤率,那么又会增加网站研发的成本。
通常而言,伪装度高的网络爬虫,速度慢,对服务器造成的负担也相对较小。所以,网站反爬的重点也是针对那种简单粗暴的数据采集。有时反爬机制也会允许伪装度高的网路爬虫获得数据,毕竟伪装度很高的数据采集与真实用户请求没有太大差别。
【出处】林子雨.大数据导论.人民邮电出版社,20209月第1

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|全数联人才测评中心 ( 京ICP备2024094898号 )

GMT+8, 2025-11-18 05:27 , Processed in 0.139786 second(s), 19 queries .

版权所有: 全数联人才测评(北京)中心

友情链接: 中华全国数字人才培育联盟 全数联人才测评中心学习平台 全数联人才测评中心存证平台 全数联人工智能专员认证中心

快速回复 返回顶部 返回列表