谷歌网页视频抓取工具(谷歌开源robots.txt解析器排除协议（REPExclusion寺）)

优采云发布时间: 2022-04-13 12:06

　　鱼羊起源于奥飞寺

　　量子位报告 | 公众号QbitAI

　　Robots.txt 对于接触过网络爬虫的人来说并不陌生。这个存放在网站根目录下的ASCII码文件表示网站中哪些内容可以被爬取，哪些内容被禁止爬取。

　　今年，robots.txt 已经 25 岁了。为了庆祝这位互联网 MVP 的生日，谷歌又采取了开源 robots.txt 解析器的举措，试图推动机器人排除协议（REP）成为互联网行业标准。

　　非标标准

　　Robots Exclusion Protocol是荷兰软件工程师Martijn Koster于1994年提出的标准，其核心是通过robots.txt等简单的文本文件来控制爬虫机器人的行为。

　　REP以其简单和高效征服了互联网行业。超过 5 亿个网站正在使用 robots.txt。可以说已经成为限制爬虫的事实标准。例如，Googlebot 在抓取网页时会浏览机器人。.txt 以确保它不会冒犯网站的特殊声明。

　　然而，在服务互联网行业 25 年之后，REP 仍然只是一个非官方的标准。

　　这会带来很多麻烦。

　　比如拼写错误。很多人会忽略 robots.txt 规则中的冒号，而将 Disallow 拼写为 Dis Allow 让爬虫蒙蔽双眼并非闻所未闻。

　　另外，REP本身并不能涵盖所有情况，比如出现服务器错误500时，爬虫能不能全部抓到？

　　对于网站的所有者来说，模糊的事实标准使得正确编写规则变得困难。这已经够令人头疼的了，更不用说并非所有爬虫都尊重 robots.txt 的事实。

　　来自谷歌的生日礼物

　　REP的尴尬在谷歌眼里，从搜索开始。于是在REP诞生25周年之际，谷歌送了一份大礼，宣布将与REP原作者Martijn Koster、网站管理员等搜索引擎合作，向互联网工程报到工作组 (IETF) 提交草案以标准化 REP 的使用，并努力使其成为真正的官方标准！

　　为此，谷歌还开源了其网页抓取工具robots.txt解析器之一，以帮助开发者构建自己的解析器，以期创建更通用的格式并推广标准。

　　这个开源 C++ 库已经存在了 20 年，涵盖了 Google 在生产中使用过的许多 robots.txt 文件示例。开源包还包括一个测试工具，可以帮助开发者测试一些规则。

　　谷歌表示他们希望帮助网站所有者和开发者在互联网上创造更多令人惊叹的体验，而不是担心如何限制爬虫。

　　草案内容尚未完全公布，但一般会重点关注以下几个方向：

0

2022-04-13

谷歌网页视频抓取工具

0 个评论

要回复文章请先登录或注册