抓取网页数据违法吗(“酷米客”和“车来了”——实时公交APP)

优采云发布时间: 2022-01-17 16:23

　　导读：近日，一场关于爬虫和反爬虫的官司再次被推向公众。

　　本文经授权转自公众号CSDN（ID：CSDNnews），作者郭锐

　　作为互联网从业者必备的通勤工具之一，公共交通是出行领域的必备。实时公交APP也成为热门应用场景。它们不仅可以为用户提供定位、公交路线查询等信息，还涉及路线规划、公交信息实时地理位置等服务。其中，“Kumike”和“车来”是大众经常使用的两款实时公交出行APP。

　　01《车来了》指使5名程序员爬取实时公交数据，构成*敏*感*词*行为

　　2012年10月，Kumike实时公交APP上线。通过在公交车上安装定位器，久米科获得了大量实时公交车位置数据，具有定位精度高、实时误差小等明显优势，迅速吸引了大量市场用户。目前，Kumike APP注册量超过5000万，日活跃用户超过400万。

　　然而，2015年11月，为了提高市场占有率和信息查询的准确性，同样是实时公交APP的“车来”居然指导5名程序员和员工使用爬虫软件获取公交Kumic公司服务器的行车信息。、到达时间等实时数据。

　　令人惊奇的是，五位程序员分工非常明确：一位负责编写爬虫软件程序；另一位负责编写爬虫软件程序；一是负责不断更改爬虫软件程序中的IP地址，防止被检测到；一个使用不同的IP地址集和爬虫。程序向Kumike发送数据请求；一个负责破解Kumike客户端的加密算法；破解失败后，另一名员工聘请其他公司的技术人员帮助破解加密系统，使爬虫工作得以顺利实施。

　　这一系列数据操作取得了显著成效，帮助“车来”获取了大量实时久米克数据，每天可达3-4百万条。

　　花费大量人力、时间和经济成本获得的信息被同行窃取，直接挤压了自身的竞争优势和交易机会。久木怎么能和解？

　　2016 年，久米克一怒之下将这辆车告上法庭。这场争端花了两年时间才最终得到解决。今年5月，*敏*感*词*裁定车来应立即停止获取和使用久米克实时公交位置数据的不正当竞争行为，并赔偿其经济损失。

　　想必看到这里，大家最关心的问题就是五名程序员会不会被定罪？尽管在诉讼过程中，五名程序员的员工第二次使用网络爬虫获取公交车车辆的实时信息，只是因为他们履行了本职工作，并未用于谋取私利。但是，Kumike 后端服务器中存储的数据具有巨大的商业价值。未经其许可，任何人不得非法获取软件后台数据并将其用于商业行为——因此必须承担连带责任。

　　对此，中关村大数据联盟副秘书长陈新和先生表示，“数据爬虫的非法边界一直是互联网争议的热点，尤其是在大数据时代，随着越来越突出的内容数据的价值，爬虫侵权*敏*感*词*越来越多。” 身处其中的程序员很难置身于上级发出的“爬虫需求”之外，一不小心就有可能入局。

　　02 爬虫类*敏*感*词*认定仍不明朗，仍处于灰色地带

　　事实上，爬虫类*敏*感*词*一直是一个难以界定的灰色地带。

　　网络爬虫是一种自动获取网页内容的程序。通常，这并不违法。比如百度搜索，很多人用的，除了自己的百度知道、百度百科等，几乎都是爬虫采集down。作为一项技术，爬虫本身并不违法，因此在大多数情况下都可以放心使用。一般来说，常见的爬虫方法包括构造合理的HTTP请求头、设置cookie、降低访问频率、隐式输入字段值、使用代理等。

　　例如，大数据（ID：hzdashuju）、CSDN等平台此前分享了北京二手房数据、网易云音乐评论、马蜂窝旅游数据、大众点评、福利3D信息等应用数据爬取。但并不是所有数据都有“爬墙机会”，陈新和说，“能不能不爬，能不能越界爬，能不能用技术手段越过封锁……这些打擦边球的爬虫？很容易错过目标。” ——尤其是当网站明确声明爬行动物采集或禁止转载用于商业化，或者当网站声明机器人协议时。

　　Robots协议又称爬虫协议、机器人协议，全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉爬虫哪些页面可以爬取，哪些页面禁止爬取。

　　机器人协议是搜索引擎行业公认的商业道德，应予以遵守。

　　尽管如此，仍有无数“勇者”尝试过自己的风险，包括我们熟悉的百度、360搜索、大众点评、今日头条等：

　　事实上，可以预见的是，由于目前监管法律的不完善，仍有不少鱼漏网之鱼。但随着数据价值的不断挖掘，未来爬虫侵权*敏*感*词*只会越来越多。

　　03 第三方网站应该如何应对日益猖獗的爬虫行为？

　　面对日益猖獗的爬虫行为，作为网站党的你应该如何应对？

　　既然有“爬虫”，自然就有“反爬虫”。网站常用的反爬虫技术可以分为四类：通过User-Agent控制访问、通过IP限制反爬虫、通过JS脚本阻止爬虫、通过robots.txt限制爬虫。

　　下面我们通过几个热门网站来分析常见的反爬机制：

　　1. 豆瓣

　　很多新爬虫都会爬豆瓣练手，但豆瓣也不是完全豁达。其反爬机制如下：

　　可以看出，豆瓣对于新爬虫来说是一个非常体贴的网站。只要爬虫在代码中登录账号，减少并发数，然后随机延迟等待一段时间，爬虫程序就不会被阻塞。

　　2. 拉钩网

　　拉狗网原来的反爬机制没有现在那么严格，但是随着关注者的增加，网站管理员增加了一些保护服务器的手段。网站的反爬机制如下：

　　对于这样的爬虫机制，爬虫只能使用IP代理池进行突围。

　　3. 汽车之家

　　汽车之家论坛的反爬机制比较先进。它采用前端页面自定义字体的方式，实现反爬的技术手段。具体来说，CSS3中的自定义字体模块用于将自定义Web字体嵌入到指定的网页中。这导致在抓取论坛帖子的口碑时，返回的文本中每隔几个单词就会出现一个乱码。

　　每次访问论坛页面，字体不变，但字符编码发生变化。因此，爬虫需要根据每次访问动态解析字体文件。具体来说，需要先访问爬取的页面，获取字体文件的动态访问地址，下载字体，读取JS渲染的文本内容，将自定义的字体编码替换为实际的文本编码，再将网页恢复为页面上看到的内容。.

　　……

　　然而，反爬虫并不是万能的。“以保护用户数据为名，全面禁止数据垄断爬取的策略，也将受到数据经济时代新反垄断法的挑战。” 陈新和说。

　　04 程序员如何在数据爬取中“不碍事”？

　　然而，技术是无罪的，那么程序员应该有罪吗？按照上级的指示写了几行代码，你就莫名被关起来了？可怕的是，他不仅傻眼，而且还无处申诉。

　　在知乎上，关于爬虫*敏*感*词*的问题也不少。在“爬行动物合法还是非法？”的问题下 ()、知乎user@pen核心设计师表示，爬虫开发者的道德自给和经营者的良知是避免触碰法律底线的根本所在：

　　我们周围的网络已经密密麻麻地布满了各种网络爬虫。作为爬虫开发者，如何避免在使用爬虫时陷入困境的厄运？

　　严格遵守网站设定的Robots协议；在规避反爬措施的同时，需要优化自己的代码，避免干扰被访问的网站的正常运行；在设置抓取策略时，要注意编码抓取抓取可能构成视频、音乐等作品的数据，或者针对某些特定的网站批量抓取用户生成的内容；在使用和传播捕获的信息时，应对捕获的内容进行审核，如发现属于用户的个人信息、隐私或他人商业秘密，应及时停止并删除。

　　因此，面对来自上级的危险爬虫请求，程序员应该采取良好的措施。

　　对于涉及法律风险的数据爬取需求，程序员最好在采集之前和上级进行一次深入的交谈，并给上级简单介绍一下所涉及的法律风险。如果对方仍然坚持采集，建议提前与公司签订免责协议，避免风险出现时被拉入水中。

　　参考：

　　本文经授权转自公众号CSDN（ID：CSDNnews），作者郭锐

　　问：科技有罪还是无罪？

0

2022-01-17

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据违法吗(“酷米客”和“车来了”——实时公交APP)

0 个评论

发起人