抓取网页数据违法吗(“车来了”五名程序员爬取实时公交数据,竟构成*敏*感*词*行为)

优采云 发布时间: 2021-09-23 23:33

  抓取网页数据违法吗(“车来了”五名程序员爬取实时公交数据,竟构成*敏*感*词*行为)

  编者按:本文来自微信公众号“”(ID:CSDNnews),作者郭锐。经 36kr 许可转载。

  近日,一桩关于爬虫、反爬虫的官司又被推到了大众面前。

  公共交通作为互联网从业者必备的通勤工具之一,是出行领域不可或缺的板块。实时公交APP也成为流行的应用场景。它们不仅可以为用户提供定位、公交路线查询等信息,还涉及路线规划、实时公交信息地理位置等服务。其中,“久美”和“车来了”是大众经常使用的两款实时公交出行APP。

  

  《车来了》指使五名程序员爬取公交车实时数据,实为*敏*感*词*行为

  2012 年 10 月,Kumicke 实时公共交通应用程序上线。Coolmic通过在公交车上安装定位器,获得了海量的实时公交车位置数据,具有定位精度高、实时误差小等明显优势,迅速吸引了大量的市场用户。目前,Komiike APP注册量超过5000万,日活跃用户超过400万。

  但在2015年11月,为了提高市场占有率和信息查询的准确性,实时公交APP“Come Car”居然指导5名程序员和员工使用爬虫软件从Kumicco服务器获取公交行车信息。,到达时间等实时数据。

  令人惊奇的是,这五位程序员的分工非常明确:一个负责编写爬虫软件程序;一个负责编写爬虫软件程序;一是负责不断改变爬虫软件程序中的IP地址以防止检测;一种是使用不同的IP地址和爬虫设置的程序向久美可发送数据请求;一个负责破解久美惠客户端的加密算法;破解失败后,另一名员工聘请其他公司的技术人员帮助破解加密系统,使爬虫得以顺利实施。这一系列的数据操作取得了显著成效,帮助《车来了》获得了Komiike的海量实时数据,每天可达3-400万条。

  通过巨大的人力、时间和经济成本获得的信息被同行窃取,直接挤压了自身的竞争优势和交易机会。这怎么能让久美池和解呢?

  一气之下,2016年久美惠将这辆车告上法庭。这场纠纷花了两年时间才最终敲定。今年5月,*敏*感*词*判决该车立即停止获取和使用Kumicco实时公交位置数据的不正当竞争行为,并赔偿其经济损失。

  看到这里,大家最关心的问题是这五位程序员会不会被定罪?虽然在诉讼过程中,五名程序员和员工利用网络爬虫获取公交车辆实时信息的行为只是为了履行工作职责,而非谋取私利。但是,久美家后端服务器中存储的数据具有很大的商业价值。未经其许可,任何人不得非法获取本软件的后台数据并将其用于经营活动,须承担连带责任。

  对此,中关村大数据联盟副秘书长陈新和先生告诉CSDN(ID:CSDNnews),“数据爬虫的非法边界一直是互联网争议的热点,尤其是在互联网时代。大数据。随着内容数据的价值越来越高,爬虫的侵权*敏*感*词*也越来越多。”身处其中的程序员很难置身于上级下达的“爬虫需求”之外,稍不留神就有可能进入游戏。

  爬虫类*敏*感*词*的判决尚不明朗,仍处于灰色地带

  事实上,爬行动物*敏*感*词*一直是一个难以界定的灰色地带。

  网络爬虫是一种自动获取网络内容的程序。通常,这并不违法。例如,很多人使用百度搜索。除了其自营的百度知乎、百度百科等,几乎所有爬虫采集Down。作为一种技术,爬虫本身并不违法,所以大多数情况下你可以放心使用。一般来说,常见的爬取方法包括构造合理的HTTP请求头、设置cookies、降低访问频率、隐含输入字段值、使用代理等。

  比如CSDN之前就有共享、、、、等应用数据爬取。但并不是所有的数据都有“爬行的机会”,陈新河说,“不许爬行,能不能越规越爬,能不能用技术手段越过封锁线……这些边球爬行者?很容易擦*敏*感*词*走火misfire。”-尤其是当网站明确声明禁止抓取采集或转载商业化时,或者网站声明机器人协议时。

  机器人协议也叫爬虫协议、机器人协议,其全称是“机器人排除协议”(Robots Exclusion Protocol)。网站通过Robots协议告诉爬虫哪些页面可以爬取,哪些页面禁止爬取。

  机器人协议是搜索引擎行业公认的商业道德,应予以遵守。

  尽管如此,仍有无数“勇者”拼尽全力,包括熟悉的百度、360搜索、大众点评、今日头条等:

  事实上,可以预见的是,由于目前监管法规不完善,还有不少鱼儿被遗漏。但是,随着数据价值的不断挖掘,未来爬虫侵权*敏*感*词*只会越来越多。

  第三方网站如何应对日益猖獗的爬虫行为?

  面对日益猖獗的爬虫行为,网站fang应该如何应对?

  既然有“爬虫”,自然就会有“反爬虫”。网站一般使用的反爬虫技术可以分为四类:通过User-Agent控制访问,通过IP限制反爬虫,通过JS脚本阻止爬虫,通过robots.txt限制爬虫。

  下面我们通过几个热门站点分析常见的反爬虫机制:

  一、豆瓣

  很多新手爬虫都会爬豆瓣练手,但豆瓣并没有完全开放。其反爬虫机制如下:

  可见豆瓣是个很体贴的爬虫新手网站。爬虫只需要在代码中登录账号并减少并发数,然后随机延时等待一段时间,爬虫程序就不会被阻塞。

  二、拉勾网

  原来拉勾网的反爬虫机制没有现在这么严格,但是随着粉丝的增加,网站administrator增加了一些保护服务器的措施。网站反爬虫机制如下:

  对于这种爬虫机制,爬虫只能使用IP代理池来突破。

  三、汽车之家

  汽车之家论坛的反爬虫机制比较先进。它使用前端页面自定义字体来实现反爬虫的技术手段。具体使用CSS3中的自定义字体模块,将自定义Web字体嵌入到指定的网页中。这导致在抓取论坛帖子的口碑时,在获取的返回文本中每隔几个单词就会出现一个乱码。

  每次访问论坛页面时,字体保持不变,但字符编码发生变化。因此,爬虫需要根据每次访问动态解析字体文件。具体需要先访问爬取的页面,获取字体文件的动态访问地址,下载字体,读取JS渲染的文本内容,将里面的自定义字体代码替换为实际的文本代码,然后web页面可以恢复到页面上看到的内容。

  ......

  然而,抗爬行动物并不是万能的。“以保护用户数据的名义,全面禁止基于数据垄断的爬取策略,也将受到数据经济时代新反垄断法的挑战。” 陈新河说。

  程序员如何在数据爬取中“让路”?

  但如果技术无罪,程序员应该有罪吗?上级吩咐写几行代码就莫名其妙被关起来了?可怕的是,他不仅丢脸,还无处倾诉。

  在知乎上,也有很多关于爬虫*敏*感*词*的问题。在“爬虫合法还是非法?”的问题下 ()、知乎User@笔芯设计大师表示,爬虫开发者的道德自给和经营者的良心是避免触碰法律底线的根本:

  我们周围的网络已经被各种网络爬虫密集覆盖。他们善恶不同,各有各的心思。作为爬虫开发者,在使用爬虫时如何避免进入游戏的厄运?

  1.严格遵守网站设定的Robots协议;

  2.在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问的网站的正常运行;

  3.设置爬取策略时,要注意视频、音乐等可能构成作品的数据的编码和抓取,或者针对某些特定的网站批量抓取用户生成的内容;

  4. 在使用和传播捕获的信息时,应对捕获的内容进行审查。如发现属于用户的个人信息、隐私或他人商业秘密,应及时予以制止和删除。

  因此,面对上级危险的爬虫请求,程序员应该好好看看。

  对于涉及法律风险的数据爬取需求,程序员最好在采集面前与上级深度聊一聊,与上级分担法律风险。如果对方仍然坚持采集,建议提前与公司签订免责协议,以免风险下降时被拉下水。

  参考资料:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线