谷歌网页视频抓取工具(谷歌希望将发展数十年的robots.txt解析器文件)
优采云 发布时间: 2021-12-26 11:02谷歌网页视频抓取工具(谷歌希望将发展数十年的robots.txt解析器文件)
外媒VentureBeat报道称,谷歌希望开源已经开发了几十年的robots.txt解析器,以推动REP成为搜索引擎爬虫的行业标准。机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 在 1994 年提出的标准,几乎成为了网站不希望被搜索引擎收录的评论的事实上的标准。
(截图来自 VentureBeat)
例如,Googlebot 在为网站编制索引时会扫描 robots.txt 文件,以确定它应该忽略哪些部分。如果文件不收录
在根目录中,搜索引擎默认会索引整个站点内容。
值得一提的是,这个文件不仅可以用来提供直接的爬虫索引,还可以用来填充一些关键词来实现“搜索引擎优化”(SEO)。此外,并非所有爬虫都严格遵循 robots.txt 文件。
比如几年前,互联网档案馆只选择为其“时光机”(Wayback Machine)归档工具提供支持,一些恶意爬虫也会故意忽略REP。
但是,需要指出的是,尽管 REP 已经成为默认的实现标准,但它实际上从未真正成为互联网工程任务组(IETF-一个非营利性开放标签组织)定义的互联网标准。
为了推动这一变化,谷歌正在积极参与行动。这家搜索巨头表示,目前的 REP 可以“解释”,但并不总是涵盖*敏*感*词*案例。
作为补充,谷歌提出了更全面的“未定义场景”。例如,在执行“扫描已知内容”的任务时,爬虫应该如何处理“服务器出现无法访问的故障”或规则拼写错误的robots.txt文件?
谷歌在一篇博文中写道:“对于网站所有者来说,这是一个非常具有挑战性的问题。由于模糊的事实上的标准,他们很难适当地编写规则。”
我们希望帮助网站所有者和开发人员在 Internet 上创造惊人的体验,而不必担心限制爬虫。
于是Google与REP的原作者Martijn Koster、站长等搜索引擎合作,向IETF提交了一份关于“How to Apply REP on the Modern Web”的提案。
该公司尚未发布草案的全貌,但确实提供了一些指导。例如,robots.txt 可以应用于任何基于 URI 的传输协议。并且不再局限于HTTP,还面向FTP或CoAP。
据悉,开发者必须至少解析robots.txt的前500KB。定义文件的大小可以保证每个连接的打开时间不会太长,从而减少不必要的服务器压力。
此外,新的最长缓存时间设置为24小时(或可用缓存指令值),让网站站主可以随时灵活更新自己的robots.txt,爬虫不会让网站超载。
例如,在 HTTP 的情况下,可以使用 Cache-Control 标头来确定缓存时间。当之前可访问的 robots.txt 文件因服务器故障而无法使用时,将在相当长的一段时间内无法检索该网站。
这里需要指出的是,爬虫可以通过不同的方式解析robots.txt文件中的指令,这可能会给网站站长造成混淆。
为此,Google 专门推出了一个 C++ 库,该库支持 Googlebot 在 GitHub 上给出的解析匹配系统,供任何人访问。
根据GitHub上的发布说明,谷歌希望开发者自己构建解析器,以更好地体现谷歌robots.txt文件的解析匹配。