抓取网页数据违法吗(Web爬取时代Linkedin很难确定网页抓取的合法性时代(组图))

优采云 发布时间: 2022-03-29 09:25

  抓取网页数据违法吗(Web爬取时代Linkedin很难确定网页抓取的合法性时代(组图))

  网页抓取,也称为网页抓取、数据抓取或爬虫,是一种计算机程序技术,用于从 网站 中抓取大量数据并将其处理成结构化数据。

  网页抓取常用:

  基本上,网络抓取是互联网的一项功能。例如,SEO 需要创建一个站点地图并授予其允许 网站 由 Google 抓取它,以便在搜索结果中排名更高。许多咨询公司聘请专门从事网络抓取的公司来丰富他们的数据库,以便为他们的客户提供专业服务。

  在数字时代,很难确定网络抓取的合法性。

  为什么网页抓取具有负面含义:

  网页抓取可用于恶意目的,例如:

  采集私人或机密信息。忽略 网站 的条款和服务并在未经所有者许可的情况下将其删除。以一种可能导致 Web 服务器在超重负载下崩溃的方式滥用数据请求。

  请务必注意,在以下情况下,负责的数据服务提供商将拒绝您的请求:

  数据是私密的,需要用户名和密码 服务条款 (TOS) 明确禁止网络抓取 数据受版权保护 有人可以起诉的理由是什么?

  网络数据使用不当可能会导致意想不到的后果。

  HiQ 与 LinkedIn

  你可能听说过 2017 年的 HiQ vs Linkedin 案。HiQ 是一家为企业人力资源部门抓取数据的数据科学公司。Linkedin 随后发了一封终止信,以阻止 HiQ 的爬取行为。HiQ随后提起诉讼,阻止Linkedin限制其访问网站。因此,*敏*感*词*作出有利于 HiQ 的裁决。这是因为 HiQ 在未登录的情况下从 Linkedin 上的公共*敏*感*词*中抓取数据。也就是说,抓取在互联网上公开共享的数据是完全合法的。

  让我们再举一个例子来说明刮擦何时有害。示例:eBay 对 Bidder's Edge 的诉讼。如果您出于个人目的抓取网页,在合法使用的原则下是合法的。如果您想将抓取的数据用于其他目的,尤其是用于商业目的,那么复杂性就开始了。(引自 100 F.Supp.2d 1058(ND Cal. 2000))。

  2000 年,eBay 成功地利用“侵权动产”理论获得了初步禁令,以阻止投标数据聚合商 Bidder's Edge 使用“爬虫”从 eBay网站 采集数据。该意见是将“动产侵权”应用于在线活动的一个典型例子。

  只要您不以破坏性的速度进行抓取,并且来源是公开的,那么它就是合法的。建议您在抓取前检查目标网站 是否有任何与数据抓取相关的服务条款。如果显示“不允许爬取”,则应予以尊重。

  建议:谨慎抓取,在开始抓取之前检查“Robots.txt”以保守。对数据的激进请求可能会对 Internet 服务器造成负担。请温柔一点。没有人愿意让服务器崩溃。明智地使用数据。您可以从采集的数据中获得洞察力并帮助您的业务发展。请在开始抓取之前联系 网站 的所有者。不要将抓取的数据不加选择地传递给任何人。如果是有价值的数据,请妥善保管。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线