抓取网页数据违法吗(“车来了”五名五名实时公交数据，竟构成敏感词行为)

优采云发布时间: 2022-02-12 05:14

　　抓取网页数据违法吗(“车来了”五名五名实时公交数据，竟构成*敏*感*词*行为)

　　爬虫你大概并不陌生，它们出道这么久，却不知道你对爬虫*敏*感*词*了解多少。今天，我们将通过一个事件来详细谈谈爬虫类*敏*感*词*。

　　作为互联网从业者必备的通勤工具之一，公共交通是出行领域的必备。实时公交APP也成为热门应用场景。它们不仅可以为用户提供定位、公交路线查询等信息，还涉及路线规划、公交信息实时地理位置等服务。其中，“Kumike”和“车来”是大众经常使用的两款实时公交出行APP。

　　《车来了》指使五名程序员爬取实时公交数据，构成*敏*感*词*行为

　　2012年10月，Kumike实时公交APP上线。通过在公交车上安装定位器，Kumike获得了大量实时公交车位置数据，具有定位精度高、实时误差小等明显优势，迅速吸引了大量市场用户。目前，Kumike APP注册量超过5000万，日活跃用户超过400万。

　　然而，2015年11月，为了提高市场占有率和信息查询的准确性，同样是实时公交APP的“车来”居然指导5名程序员和员工使用爬虫软件获取公交Kumic公司服务器的行车信息。、到达时间等实时数据。

　　令人惊奇的是，五位程序员分工非常明确：一位负责编写爬虫软件程序；另一位负责编写爬虫软件程序；一是负责不断更改爬虫软件程序中的IP地址，防止被检测到；一个使用不同的IP地址集和爬虫。程序向Kumike发送数据请求；一个负责破解Kumike客户端的加密算法；破解失败后，另一名员工聘请其他公司的技术人员帮助破解加密系统，使爬虫工作得以顺利实施。这一系列数据操作取得了显著成效，帮助“车来”获取了大量实时久米克数据，每天可达3-4百万条。

　　花费大量人力、时间和经济成本获得的信息被同行窃取，直接挤压了自身的竞争优势和交易机会。久木怎么能和解？

　　2016 年，久米克一怒之下将这辆车告上法庭。这场争端花了两年时间才最终得到解决。今年5月，*敏*感*词*裁定车来应立即停止获取和使用久米克实时公交位置数据的不正当竞争行为，并赔偿其经济损失。

　　想必看到这里，大家最关心的问题就是五名程序员会不会被定罪？虽然在诉讼过程中，五名程序员员工第二次使用网络爬虫获取公交车辆实时信息，只是出于工作职责，而非谋取私利。但是，Kumike 后端服务器中存储的数据具有巨大的商业价值。未经其许可，任何人不得非法获取软件后台数据并将其用于商业行为——因此必须承担连带责任。

　　对此，中关村大数据联盟副秘书长陈新和先生对CSDN（ID：CSDNnews）表示，“数据爬虫的非法边界一直是互联网争议的热点，尤其是在大数据时代。数据，随着内容数据价值的日益凸显，爬虫的侵权*敏*感*词*也越来越多。” 身处其中的程序员很难置身于上级发出的“爬虫需求”之外，一不小心就有可能入局。

　　爬虫类*敏*感*词*认定仍不明朗，仍处于灰色地带

　　事实上，爬虫类*敏*感*词*一直是一个难以界定的灰色地带。

　　如果你是正在学习web前端或者想学习web前端的小伙伴，那么可以加入群：834349641一起学习交流~不进群就会有大牛解决问题，和很多小伙伴一起讨论学习，赶快加入吧~

　　网络爬虫是一种自动获取网页内容的程序。通常，这并不违法。比如百度搜索，很多人用的，除了自己的百度知道、百度百科等，几乎都是爬虫采集down。作为一项技术，爬虫本身并不违法，因此在大多数情况下都可以放心使用。一般来说，常见的爬虫方法包括构造合理的HTTP请求头、设置cookie、降低访问频率、隐式输入字段值、使用代理等。

　　例如，CSDN此前分享了北京二手房数据、网易云音乐评论、马蜂窝旅游数据、大众点评、福利3D信息等应用数据爬取。但并非所有数据都有“可攀爬的机会”，陈新和表示，“爬不上去，能不能超越规则，能不能用技术手段越过封锁……球？很容易失准。” ——尤其是当网站明确声明爬行动物采集或禁止转载用于商业化，或者当网站声明机器人协议时。

　　Robots协议又称爬虫协议、机器人协议，全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉爬虫哪些页面可以爬取，哪些页面禁止爬取。

　　机器人协议是搜索引擎行业公认的商业道德，应予以遵守。

　　尽管如此，仍有无数“勇者”尝试过自己的风险，包括我们熟悉的百度、360搜索、大众点评、今日头条等：

　　2012年，360搜索违反机器人协议，强行抢占百度知乎、百度百科、*敏*感*词*、百度旅游等内容，最终被勒令赔偿百度70万元。

　　2016年，大众点评起诉百度。2012年以来，百度公司擅自抄袭、抄袭百度地图和百度知道的大众点评网用户评论信息，直接替换大众点评网向用户提供的内容，给自己造成了巨大损失。百度最终败诉，停止在百度地图等产品中使用评论信息，并赔偿300万元。

　　2017年，秀淘破解了今日头条服务器的防抓措施，导致后者损失2万元技术*敏*感*词*。最终，*敏*感*词*裁定，涉案人员因非法获取计算机信息系统数据罪，被判处九个月以上一年以下有期徒刑，并处罚金。这也是中国第一起“爬虫*敏*感*词*”*敏*感*词*。

　　……

　　事实上，可以预见的是，由于目前监管法律的不完善，仍有不少鱼漏网之鱼。但随着数据价值的不断挖掘，未来爬虫侵权*敏*感*词*只会越来越多。

　　第三方网站应该如何应对日益猖獗的爬虫行为？

　　面对日益猖獗的爬虫行为，作为网站党的你应该如何应对？

　　既然有“爬虫”，自然就有“反爬虫”。网站常用的反爬虫技术可以分为四类：通过User-Agent控制访问、通过IP限制反爬虫、通过JS脚本阻止爬虫、通过robots.txt限制爬虫。

　　下面我们通过几个热门网站来分析常见的反爬机制：

　　一、豆瓣

　　很多新爬虫都会爬豆瓣练手，但豆瓣也不是完全豁达。其反爬机制如下：

　　在不携带cookie的情况下，如果某个IP在短时间内有高并发请求网站，该IP会立即被阻塞。当IP被封禁时，登录豆瓣网站会解除封禁。

　　某 IP 携带 cookie 时请求网站过于频繁。豆瓣的反爬机制改为只屏蔽cookie不屏蔽IP。也就是说，当您退出或更改您的帐户时，您可以继续访问。

　　可以看出，豆瓣对于新爬虫来说是一个非常体贴的网站。只要爬虫在代码中登录账号，减少并发数，然后随机延迟等待一段时间，爬虫程序就不会被阻塞。

　　二、拉钩网

　　拉狗网原来的反爬机制没有现在那么严格，但是随着关注者的增加，网站管理员增加了一些保护服务器的手段。网站的反爬机制如下：

　　在没有登录的情况下，程序只能连续访问3个Url。如果我们继续，网站将重定向链接并提示我们登录。

　　如果您已登录，则在不断请求部分 URL 后，该 IP 将被阻止。

　　对于这样的爬虫机制，爬虫只能使用IP代理池进行突围。

　　三、汽车之家

　　汽车之家论坛的反爬机制比较先进。它采用前端页面自定义字体的方式，实现反爬的技术手段。具体来说，CSS3中的自定义字体模块用于将自定义Web字体嵌入到指定的网页中。这导致在抓取论坛帖子的口碑时，返回的文本中每隔几个单词就会出现一个乱码。

　　每次访问论坛页面，字体不变，但字符编码发生变化。因此，爬虫需要根据每次访问动态解析字体文件。具体来说，需要先访问爬取的页面，获取字体文件的动态访问地址，下载字体，读取JS渲染的文本内容，将自定义的字体编码替换为实际的文本编码，然后再将网页恢复为页面上看到的内容。.

　　……

　　然而，反爬虫并不是万能的。“以保护用户数据为名，全面禁止数据垄断爬取的策略，也将受到数据经济时代新反垄断法的挑战。” 陈新和说。

　　程序员如何才能“远离”数据抓取？

　　然而，技术是无罪的，那么程序员应该有罪吗？按照上级的指示写了几行代码，你就莫名被关起来了？可怕的是，他不仅傻眼，而且还无处申诉。

　　在知乎上，关于爬虫*敏*感*词*的问题也不少。在“爬行动物合法还是非法？”的问题下 ()、知乎user@pen核心设计师表示，爬虫开发者的道德自给和经营者的良知是避免触碰法律底线的根本所在：

　　我们周围的网络已经密密麻麻地布满了各种网络爬虫。他们善恶不同，各有各的想法。作为爬虫开发者，如何避免在使用爬虫时陷入困境的厄运？

　　1. 严格遵守网站制定的Robots 协议；

　　2.在规避反爬措施的同时，需要优化你的代码，避免干扰被访问的网站的正常运行；

　　3.在设置采集策略时，要注意对可能构成作品的视频、音乐等数据的编码和采集，或者针对某些特定的网站批量采集用户生成的内容；

　　4. 在使用和传播捕获的信息时，您应该查看捕获的内容。如发现属于用户的个人信息、隐私或他人商业秘密，应及时停止并删除。

　　因此，面对来自上级的危险爬虫请求，程序员应该采取良好的措施。

　　对于涉及法律风险的数据爬取需求，程序员应该在采集之前与上级进行深入的交谈，并给上级科普一下所涉及的法律风险。如果对方仍然坚持采集，建议提前与公司签订免责协议，避免风险出现时被拉入水中。

　　相信你也在网络前端找学习资料或者想找老师指导，那么你可以跟着小编学习。以下是小编整理的一套完整的web前端学习教程。

　　关注小编头条号，私信【前端】即可免费领取

0

2022-02-12

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据违法吗(“车来了”五名五名实时公交数据，竟构成敏感词行为)

0 个评论

发起人