谷歌网页视频抓取工具(谷歌希望将发展数十年的robots.txt解析器文件)

优采云发布时间: 2021-12-26 11:02

　　外媒VentureBeat报道称，谷歌希望开源已经开发了几十年的robots.txt解析器，以推动REP成为搜索引擎爬虫的行业标准。机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 在 1994 年提出的标准，几乎成为了网站不希望被搜索引擎收录的评论的事实上的标准。

　　（截图来自 VentureBeat）

　　例如，Googlebot 在为网站编制索引时会扫描 robots.txt 文件，以确定它应该忽略哪些部分。如果文件不收录

在根目录中，搜索引擎默认会索引整个站点内容。

　　值得一提的是，这个文件不仅可以用来提供直接的爬虫索引，还可以用来填充一些关键词来实现“搜索引擎优化”（SEO）。此外，并非所有爬虫都严格遵循 robots.txt 文件。

　　比如几年前，互联网档案馆只选择为其“时光机”（Wayback Machine）归档工具提供支持，一些恶意爬虫也会故意忽略REP。

　　但是，需要指出的是，尽管 REP 已经成为默认的实现标准，但它实际上从未真正成为互联网工程任务组（IETF-一个非营利性开放标签组织）定义的互联网标准。

　　为了推动这一变化，谷歌正在积极参与行动。这家搜索巨头表示，目前的 REP 可以“解释”，但并不总是涵盖*敏*感*词*案例。

　　作为补充，谷歌提出了更全面的“未定义场景”。例如，在执行“扫描已知内容”的任务时，爬虫应该如何处理“服务器出现无法访问的故障”或规则拼写错误的robots.txt文件？

　　谷歌在一篇博文中写道：“对于网站所有者来说，这是一个非常具有挑战性的问题。由于模糊的事实上的标准，他们很难适当地编写规则。”

　　我们希望帮助网站所有者和开发人员在 Internet 上创造惊人的体验，而不必担心限制爬虫。

　　于是Google与REP的原作者Martijn Koster、站长等搜索引擎合作，向IETF提交了一份关于“How to Apply REP on the Modern Web”的提案。

　　该公司尚未发布草案的全貌，但确实提供了一些指导。例如，robots.txt 可以应用于任何基于 URI 的传输协议。并且不再局限于HTTP，还面向FTP或CoAP。

　　据悉，开发者必须至少解析robots.txt的前500KB。定义文件的大小可以保证每个连接的打开时间不会太长，从而减少不必要的服务器压力。

　　此外，新的最长缓存时间设置为24小时（或可用缓存指令值），让网站站主可以随时灵活更新自己的robots.txt，爬虫不会让网站超载。

　　例如，在 HTTP 的情况下，可以使用 Cache-Control 标头来确定缓存时间。当之前可访问的 robots.txt 文件因服务器故障而无法使用时，将在相当长的一段时间内无法检索该网站。

　　这里需要指出的是，爬虫可以通过不同的方式解析robots.txt文件中的指令，这可能会给网站站长造成混淆。

　　为此，Google 专门推出了一个 C++ 库，该库支持 Googlebot 在 GitHub 上给出的解析匹配系统，供任何人访问。

　　根据GitHub上的发布说明，谷歌希望开发者自己构建解析器，以更好地体现谷歌robots.txt文件的解析匹配。

0

2021-12-26

谷歌网页视频抓取工具

0 个评论

要回复文章请先登录或注册