抓取网页数据违法吗(通过app加微信的方式解决单个IP访问频率控制问题 )
优采云 发布时间: 2022-04-07 11:05抓取网页数据违法吗(通过app加微信的方式解决单个IP访问频率控制问题
)
其实在抓数据的时候,如果有大量的离散账户和离散IP,抓数据问题不大。但老猿猴认为,大部分爬虫玩家并没有那么多资源,所以才会绞尽脑汁去研究,尝试对方的各种门禁策略。比如多使用对方的产品,包括APP、网站、微信等,抓包看它们之间的url是否相关,访问控制策略是否一致等。有时你会发现新的突破。
老猿曾经想在专业的社交APP中获取一些用户详情页的信息进行分析,但面临以下问题:
我注册了这个APP的10个账号,模拟登录一天后只能抓到100万多。还有一些不完整的数据(因为我没有互相关注),与我想要的数据量相差甚远。
总结一下上面的问题就是账号不够,就算有足够的账号,每个账号和每个ip也是有爬取限制的。
于是我把产品的APP、微信、网站里里外外都翻了一遍,随便点。
有了新发现:
经过分析,老猿猴松了口气,想出了一个新的抓法,就是:
使用10个账号以一定的频率通过APP不断获取每个用户详情页的url分享给微信,让另一个程序模仿微信的user-agent不断访问这些分享给微信的url(使用adsl拨号解决单IP访问频率控制问题)。
这样一来,通过在app中加入微信,解决了账号限制的问题,曲线救国。
后来老猿发现很多爬虫问题都有这种解法。正如我们在网络爬虫的小秘诀之一中谈到的,一些 网站 放宽了来自百度的 referer 对 SEO 流量的访问控制。相同的。
对于部分产品,对于微信的流量(微信中分享的页面可以直接打开,点击其他页面会提示注册登录),但是微信点击的访问控制已经放宽了。
友情提示:在抓取这些社交信息时,一定要合理合法使用。最好对关键信息进行脱敏处理,不要买卖此类数据。