抓取网页数据违法吗(关于python爬虫的一些事儿,你了解多少?(一))

优采云 发布时间: 2022-01-29 22:06

  抓取网页数据违法吗(关于python爬虫的一些事儿,你了解多少?(一))

  这个问题在我没有接触到这条线的时候困扰了我很久,也让我不明白什么是爬虫。它是实体工具吗?,直到我学会了python来深入分析和理解它。

  

  什么是爬行动物?有简单爬虫和复杂爬虫之分。其实简单的爬​​虫就是一个脚本,一个程序或者脚本,按照一定的规则自动从万维网上抓取信息。

  脚本很粗糙,但往往是非常实用的小程序(一般不超过几千行,有时只有几百行代码)。举个简单的例子,您现在正在阅读来自学生出租屋 网站 的学生公寓出租信息。你一个一个地复制肯定是不现实的。所以使用爬行动物。信息类别 网站 中的数千条信息可以一次全部提取。你也可以把百度、谷歌等搜索引擎想象成一种爬虫,但这种技术非常复杂,不是简单的脚本。

  搜索引擎是如何工作的?事实上,通过网络爬虫技术,将互联网上数百亿的网页信息保存在本地,形成镜像文件,为整个搜索引擎提供数据支持。

  这样的技术首先会涉及到一个非常重要且大家都关心的问题——是否违法?

  

  经过仔细研究,得出以下结论:

  1.遵守Robots协议,但Robots的存在并不代表你可以自由爬行。

  2.限制你的爬虫行为,禁止接近DDOS的请求频率。服务器一旦瘫痪,就相当于网络攻击;

  3.强行突破明显反爬或者正常情况下无法到达的页面,否则是Hacker行为;

  4.回顾你正在攀登的东西,永远不要触碰法律的红线。

  至此,您应该明白爬虫本身并不违法,但取决于您使用的方式和目的,也取决于它的商业用途。

  如果你对python爬虫1感兴趣或者可以私聊我

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线