|
为什么会有反爬机制?原因主要有两点:第一,在大数据时代,数据是十分宝贵的财富,很多企业不愿意让自己的数据被别人免费获取,因此,很多企业都为自己的网站运用了反爬机制,防止网页上的数据被爬走;第二,简单低级的网络爬虫,数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展。 反爬机制也是一把双刃剑,一方面可以保护企业网站和网站数据,但是,另一方面,如果反爬机制过于严格,可能会误伤到真正的用户请求,也就是真正用户的请求被错误当成网络爬虫而被拒绝访问。如果既要和“网络爬虫”死磕,又要保证很低的误伤率,那么又会增加网站研发的成本。 通常而言,伪装度高的网络爬虫,速度慢,对服务器造成的负担也相对较小。所以,网站反爬的重点也是针对那种简单粗暴的数据采集。有时反爬机制也会允许伪装度高的网路爬虫获得数据,毕竟伪装度很高的数据采集与真实用户请求没有太大差别。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版
|