谷歌网页视频抓取工具(robots.txt文件规定了抓取工具可以访问您网站上的哪些网址)

优采云 发布时间: 2022-01-14 22:04

  谷歌网页视频抓取工具(robots.txt文件规定了抓取工具可以访问您网站上的哪些网址)

  robots.txt 文件定义了搜索引擎爬虫可以访问 网站 上的哪些 URL。该文件主要用于防止你的 网站 收到过多的请求;它不是阻止 Google 抓取页面的机制。要阻止 Google 访问页面,请使用 noindex 来防止它被编入索引,或者使用密码保护页面。

  robots.txt 文件有什么用?

  robots.txt 文件主要用于管理抓取工具对您的流量网站,通常是为了防止 Google 访问文件(取决于文件类型):

  robots.txt 对不同文件类型的影响

  网页

  对于网页(包括 HTML、PDF 或其他 Google 可以读取的非媒体格式),如果您认为来自 Google 的爬虫的请求会导致您的日语服务器过载,则可以使用 robots.txt 文件来管理抓取流量;或者,您不希望 Google 在您的 网站 上抓取不重要或类似的页面。

  警告:如果您不希望自己的网页出现在 Google 搜索结果中,请不要使用 robots.txt 文件来隐藏您的网页。

  如果其他网页使用描述性文字指向您的网页,Google 仍然可以将其网址编入索引,而无需访问您的网页。如果您想从搜索结果中屏蔽您的网页,请使用其他方法,例如密码保护或 noindex。

  如果您使用 robots.txt 文件阻止 Google 抓取您的网页,其网址可能仍会出现在搜索结果中,但搜索结果不会收录该网页的说明。此外,图像文件、视频文件、PDF 文件和其他非 HTML 文件被排除在外。如果您看到这样的网页搜索结果并想要修复它,请删除阻止该网页的 robots.txt 条目。如果您想从 Google 搜索结果中完全隐藏该页面,请使用其他方法。

  媒体文件

  您可以使用 robots.txt 文件来管理抓取流量并防止图片、视频和音频文件出现在 Google 搜索结果中。这不会阻止其他网页或用户链接到您的图像/视频/音频文件。

  详细了解如何防止图片出现在 Google 中。

  详细了解如何从 Google 中删除您的视频文件或限制您的视频文件出现在 Google 上。

  资源文件 如果您认为不重要的图像、脚本或样式文件等资源不会对您的页面在加载页面时产生太大影响而无法跳过,您可以使用 robots.txt 文件阻止此类资源。但是,如果此类资源的缺乏使 Google 的爬虫更难解释页面,请不要阻止此类资源,否则 Google 将无法有效分析依赖于此类资源的页面。

  了解 robots.txt 文件的限制

  在创建或修改 robots.txt 文件之前,您应该了解这种 URL 阻止方法的局限性。根据您的目标和情况,您可能需要考虑其他机制来确保搜索引擎无法在网络上找到您的 URL。

  并非所有搜索引擎都支持 robots.txt 指令。

  robots.txt 文件中的命令不会强制爬虫对 网站 的行为;是否遵守这些命令由爬虫自行决定。Googlebot 和其他合法网络爬虫遵循 robots.txt 文件中的命令,但其他爬虫不一定。因此,如果您想确保某些信息不被网络爬虫抓取,我们建议使用其他阻止方法,例如对您服务器上的私人文件进行密码保护。

  不同的爬虫以不同的方式解析语法。

  虽然普通的网络爬虫遵循 robots.txt 文件中的说明,但每个爬虫可能会以不同的方式解析这些说明。您需要仔细查看不同网络爬虫的正确语法,因为某些爬虫可能无法理解某些命令。

  如果其他 网站 上有链接,则可能仍会索引被 robots.txt 文件阻止的页面

  尽管 Google 不会抓取或索引被 robots.txt 文件阻止的内容,但如果网络上其他地方存在指向被阻止 URL 的链接,我们仍可能会找到该 URL 并将其编入索引。因此,相关 URL 和其他公开显示的信息(例如相关页面链接中的锚文本)可能仍会出现在 Google 搜索结果中。要正确防止您的 URL 出现在 Google 搜索结果中,您应该对服务器上的文件进行密码保护,使用 noindex 元标记或响应标头,或完全删除该页面。

  注意:组合多个爬取和索引指令可能会导致某些指令与其他指令发生冲突。了解如何将爬网指令与索引和内容显示指令相结合。推荐相关阅读:rob​​ots.txt文件是什么?》

  有关的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线