爬虫要违规了吗？告诉你们：守住规则，大胆去爬

优采云发布时间: 2020-05-19 08:02

　　Robots协议（也称为爬虫协议、机器人合同等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉爬虫什么页面可以抓取，哪些页面不能抓取。

　　robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器关于网络爬虫协议文件robotstxt，比如Windows系统自带的Notepad，就可以创建和编辑它。robots.txt是一个合同，而不是一个命令。robots.txt是搜索引擎中访问网站的时侯要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上哪些文件是可以被查看的。

　　如何查看采集的内容是的有rebots合同？

　　其实技巧很简单。你想查看的话就在IE上打你的网址/robots.txt要是说查看剖析robots的话有专业的相关工具站长工具就可以!

　　爬虫作为一种计算机技术就决定了它的中立性，因此爬虫本身在法律上并不被严禁，但是借助爬虫技术获取数据这一行为是具有违规甚至是*敏*感*词*的风险的。

　　举个反例：像微软这样的搜索引擎爬虫，每隔几天对全网的网页扫一遍，供你们查阅，各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。但是象购票软件这样的爬虫，对着 12306 每秒钟恨不得撸几万次，铁总并不认为很开心关于网络爬虫协议文件robotstxt，这种就被定义为“恶意爬虫”。

　　爬虫所带来风险主要彰显在以下3个方面：

　　违反网站意愿，例如网站采取反爬举措后，强行突破其反爬举措；

　　爬虫干扰了被访问网站的正常营运；

　　爬虫抓取了遭到法律保护的特定类型的数据或信息。

　　解释一下爬虫的定义：网络爬虫（英语：web crawler），也叫网路蜘蛛（spider），是一种拿来手动浏览万维网的网路机器人。

　　网络爬虫抓取的数据有如下规则：

　　数据完全公开

　　不存在也未能做到越权访问爬取

　　常见错误观点：认为爬虫就是拿来抓取个人信息的，与信用基础数据相关的。

0

2020-05-19

爬虫抓取协议

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫要违规了吗？告诉你们：守住规则，大胆去爬

0 个评论

发起人