网站文章采集(方法4.8年多爬虫经验的人告诉你,国内ADSL是王道)

优采云 发布时间: 2021-10-19 22:01

  网站文章采集(方法4.8年多爬虫经验的人告诉你,国内ADSL是王道)

  本文文章主要介绍了几种解决使用爬虫时被封IP的方法的相关资料采集网站。有需要的朋友可以参考以下

  方法1.

  因为公司项目需要,我有采集google map数据,还有一些大的网站数据。

  体验如下:

  1.IP必须是必须的,@alswl说的很对,ADSL。有条件的话,其实可以去机房申请额外的IP。

  2. 在有外部 IP 的机器上部署代理服务器。

  3.你的程序,用轮换代替代理服务器访问网站你要采集。

  优点:

  1.程序逻辑变化不大,只需要代理功能。

  2.根据对方的网站屏蔽规则,您只需要添加更多的代理即可。

  3.即使具体IP被屏蔽了,你只要把代理服务器下线就可以了,程序逻辑不需要改动。

  方法2.

  有少数网站的防范措施相对较弱。可以伪装IP,修改X-Forwarded-for(好像是这个拼写……)绕过。

  网站的大部分,如果想频繁爬取,通常需要更多的IP。我比较喜欢的解决方案是国外的VPS配置多个IP,通过默认网关切换实现IP切换。比HTTP代理效率高很多,估计大部分情况下比ADSL切换效率高。

  方法3.

  ADSL+脚本,监控是否被屏蔽,然后不停的切换ip

  设置查询频率限制

  正统的做法是调用网站提供的服务接口。

  方法4.

  8年以上爬虫经验的人告诉你,国内ADSL才是王道。申请更多线路,分布在不同的电信区。最好能跨省市。编写您自己的断开重拨组件。自己写动态IP跟踪服务,远程硬件复位(主要是针对ADSL modem防止其宕机),其他任务分配,数据恢复,都不是什么大问题。我的已经稳定运行好几年了,大功告成!

  方法5.

  1 个用户代理伪装和轮换

  2 使用代理ip和轮换

  3 对于 cookie 的处理,一些 网站对登录用户有更宽松的政策

  友情提示:考虑爬虫给别人带来的负担网站,做一个负责任的爬虫:)

  方法6.

  尽可能模仿用户行为:

  1、UserAgent 频繁更改;

  2、设置较长的访问时间间隔,设置访问时间为随机数;

  3、访问页面的顺序也可以随机化

  方法8.

  网站区块一般是根据单位时间内对特定IP的访问次数。

  我根据目标站点的IP对采集的任务进行分组,通过控制单位时间内每个IP发送的任务数量来避免被阻塞。当然,这个前提是你采集很多网站。如果只有采集一个网站,那么只能通过多个外部IP来实现。

  方法9.

  1. 爬虫爬行的压力控制;

  2.可以考虑使用代理访问目标站点。

  -降低爬取频率,设置更长的时间,访问时间使用随机数

  - 频繁切换UserAgent(模拟浏览器访问)

  -多页数据,随机访问然后抓取数据

  -更改用户IP

  以上是使用爬虫解决被封IP的几种方法的详细内容采集网站。更多详情请关注其他相关html中文网站文章!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线