网页视频抓取工具 知乎(微软与*敏*感*词*搜索引擎Yandex推出新爬虫协议提高搜索引擎爬虫效率)
优采云 发布时间: 2022-01-15 06:23网页视频抓取工具 知乎(微软与*敏*感*词*搜索引擎Yandex推出新爬虫协议提高搜索引擎爬虫效率)
站长之家()新闻:为了在网站上发现很多新发布的页面,搜索引擎往往需要爬取和渲染上万个页面,可能需要几天到几周的时间才能发现内容发生了变化. 然而,这种低效的索引问题有望得到解决。
去年 10 月,微软与*敏*感*词*搜索引擎 Yandex 推出了 IndexNow 的新爬虫协议,旨在提高搜索引擎爬虫和索引的效率。
IndexNow 协议到底是什么?
具体来说,IndexNow 是由 Microsoft Bing 和 Yandex 创建的新协议,它允许 网站 在创建、更新或删除其 网站 内容时通过使用 API 轻松通知搜索引擎。
几天前,微软再次宣布,通过确保提交的 URL 在搜索引擎之间共享,它使该协议更易于实施。
这意味着 网站 管理员只需要一个 API 接口,所有 URL 将与所有支持 IndexNow 协议的搜索引擎共享。除了为内容发布者节省时间和精力之外,这还有助于搜索引擎的内容发现工作,从而使整个网络更加高效。
你可能已经觉得这个协议和百度的链接提交 API 很像。确实是这样,但是不保证内容被爬取或者内容提交后收录,搜索引擎只会被“通知”变化,并提升这些URL的爬取优先级到更高的水平。
注:站长之家已实现IndexNow接口推送。推送成功后,可以通过必应站长平台入口查看网址。
IndexNow 带来了搜索索引的演变
了解 IndexNow 协议后,您会发现它非常重要,因为它带来了搜索引擎发现更新和新发布网页的方式的重大变化。
我们知道搜索引擎获取网页数据有两种方式:拉取和推送。拉取是指搜索引擎爬虫访问 网站 以请求网页并从服务器“拉取”数据。这就是搜索引擎传统上的工作方式。
IndexNow 所做的是将内容发现更改为推送方法,这使发布者可以从快速索引和更少的服务器负载中受益,因为机器人不必不断地爬取他们的页面。主要搜索引擎的采用将是内容发布者和搜索引擎之间关系的演变,这将使双方受益。
适合内容发布者
对于内容发布者来说,它可以帮助减少爬取服务器的需要,搜索引擎不需要进行探索性爬取来检查页面是否已更新,并且减少了发现和索引内容的时间。
此外,减少服务器负载有助于服务器以最佳方式运行,而不会增加搜索引擎已经拥有的网页的冗余服务。
最终,它还通过减少爬行和索引的能源需求来减少全球变暖压力,从而使世界受益。
已经涉及多个搜索引擎,谷歌正在测试
最新数据显示,IndexNow 协议已被 Bing 和 Yandex 等多个搜索引擎采用,超过 80,000 个 网站 已开始发布并受益于更快的索引提交。
目前采用 IndexNow 协议的公司名单包括:
更让人担心的是,谷歌未来是否也会采用IndexNow协议。对此,谷歌发言人也在去年11月发表声明,确认谷歌将测试新的IndexNow协议。这意味着 IndexNow 的性能将显着提升。
此外,占据全球最大市场份额的cmsWordPress也在考虑支持IndexNow协议。然而,目前他们似乎在鼓励插件的开发,而不是急于将它们集成到 WordPress 核心本身中。可以说,WordPress目前还处于观望状态,等待谷歌等搜索引擎更广泛的行业接受。
如何部署 IndexNow?
对于网站的管理者,当网站页面发生变化时,只要通过该协议ping搜索引擎,搜索引擎就会收到成功通知。
图注:密钥生成过程,页面为机器翻译
如果您是开发人员,可以按照以下步骤部署 IndexNow:
1)使用在线密钥生成工具生成协议支持的密钥。
2) 将密钥托管在由 网站 根目录中的密钥值命名的文本文件中。
3)在添加、更新或删除 URL 后开始提交 URL。您可以为每个 API 调用提交一个 URL 或一组 URL。
4)提交 URL 就像使用更改后的 URL 和您的密钥发送一个简单的 HTTP 请求一样简单,如下所示:
有关实施的更多详细信息,请参见 IndexNow。
(网址:)
关于 IndexNow 的常见问题
▶ 搜索引擎提交 URL 的端点是什么?
- 启用 IndexNow 的搜索引擎会立即共享提交给所有其他启用 IndexNow 的搜索引擎的所有 URL,因此您只需通知一个端点。
▶ 提交网址会有什么效果?
- 如果搜索引擎喜欢你提交的URL内容,搜索引擎会根据自己的爬取逻辑和网站的配额尝试爬取,快速获取最新内容。
▶ 一天内提交 10,000 个 URL 会发生什么?
- 如果搜索引擎喜欢这些网址的内容并且网站有足够的抓取配额,搜索引擎将尝试抓取部分或全部网址。
▶ 如果 URL 已提交但未编入索引怎么办?
- 使用 IndexNow 可确保搜索引擎知道您的 网站 更新,但不保证页面会立即被搜索引擎抓取或编入索引,并且可能需要一些时间才能编入索引。
▶ 刚开始使用IndexNow,我应该发布去年更改的URL吗?
- 不,只需发布自您开始使用 IndexNow 以来已更改(添加、更新或删除)的 URL。
▶提交的网址是否计入抓取配额?
- 会议。每次爬网都计入 网站 的爬网配额。
▶为什么我没有看到搜索引擎索引的所有提交的 URL?
- 如果内容不符合搜索引擎选择标准,您可以选择不抓取和索引 URL。
▶IndexNow适合页面少的小网站吗?
- 当然。如果您希望您的内容一经更改就被搜索引擎发现,建议使用 IndexNow。
同一个 URL 一天可以提交多次吗?
- 建议避免一天多次提交相同的 URL。如果页面被频繁编辑,最好在两次编辑之间等待 10 分钟,然后再通知搜索引擎。如果页面不断更新,最好不要每次更改都使用 IndexNow。
▶ 我可以通过 API 提交 404 URL 吗?
- 能。失效链接(http 404、http 410) 页面可以提交通知搜索引擎关于新的死链接。
▶ 可以提交新的重定向吗?
- 能。可以通过提交新的重定向 URL(例如 301 重定向、302 重定向等)来通知搜索引擎内容已更改。
▶ 什么时候需要更换钥匙?
- 搜索引擎在收到新密钥时只会尝试抓取 {key}.txt 文件一次以验证所有权。此外,密钥不需要经常修改。
▶ 每个主机可以使用多个密钥吗?
- 能。如果您的 网站 使用不同的内容管理系统,每个系统都可以使用自己的密钥;在主机的根目录发布不同的密钥文件。
▶ 如果我有站点地图,我还需要 IndexNow 吗?
- 是的。搜索引擎访问站点地图的频率也可能非常低。使用 IndexNow,网站 管理员“不必”等待搜索引擎发现和抓取站点地图,并直接将新内容通知搜索引擎。
- -结尾 - -