抓取网页数据违法吗(关于python爬虫的一些事儿，你了解多少？（一）)

优采云发布时间: 2022-01-29 22:06

　　这个问题在我没有接触到这条线的时候困扰了我很久，也让我不明白什么是爬虫。它是实体工具吗？，直到我学会了python来深入分析和理解它。

　　什么是爬行动物？有简单爬虫和复杂爬虫之分。其实简单的爬虫就是一个脚本，一个程序或者脚本，按照一定的规则自动从万维网上抓取信息。

　　脚本很粗糙，但往往是非常实用的小程序（一般不超过几千行，有时只有几百行代码）。举个简单的例子，您现在正在阅读来自学生出租屋网站的学生公寓出租信息。你一个一个地复制肯定是不现实的。所以使用爬行动物。信息类别网站中的数千条信息可以一次全部提取。你也可以把百度、谷歌等搜索引擎想象成一种爬虫，但这种技术非常复杂，不是简单的脚本。

　　搜索引擎是如何工作的？事实上，通过网络爬虫技术，将互联网上数百亿的网页信息保存在本地，形成镜像文件，为整个搜索引擎提供数据支持。

　　这样的技术首先会涉及到一个非常重要且大家都关心的问题——是否违法？

　　经过仔细研究，得出以下结论：

　　1.遵守Robots协议，但Robots的存在并不代表你可以自由爬行。

　　2.限制你的爬虫行为，禁止接近DDOS的请求频率。服务器一旦瘫痪，就相当于网络攻击；

　　3.强行突破明显反爬或者正常情况下无法到达的页面，否则是Hacker行为；

　　4.回顾你正在攀登的东西，永远不要触碰法律的红线。

　　至此，您应该明白爬虫本身并不违法，但取决于您使用的方式和目的，也取决于它的商业用途。

　　如果你对python爬虫1感兴趣或者可以私聊我

0

2022-01-29

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据违法吗(关于python爬虫的一些事儿，你了解多少？（一）)

0 个评论

发起人