*敏*感*词*的搜索引擎优化论文(Google来说,使用robots也未必能阻止Google将网址编入索引)
优采云 发布时间: 2021-09-27 07:04*敏*感*词*的搜索引擎优化论文(Google来说,使用robots也未必能阻止Google将网址编入索引)
robots.txt 是存放在网站 根目录下的文本文件。用来告诉搜索引擎的蜘蛛,这个网站中的哪些内容不应该被搜索引擎索引。哪些可以被索引。一般认为robots.txt文件是搜索引擎用来抓取目标网页的。
robots.txt 协议不是规范,而是约定。通常搜索引擎会识别这个文件,但也有一些特殊情况。
对于 Google,使用漫游器可能不会阻止 Google 将 URL 编入索引。如果此页面还有其他 网站 链接,Google 仍可能将其编入索引。根据谷歌的说法,如果你想完全阻止一个网页的内容出现在谷歌网络索引中(即使还有其他网站链接到该网页),你需要使用 noindex 元标记或 x-机器人标签。例如,将以下行添加到网页的标题部分。
如果 Google 在某个页面上看到 noindex 元标记,它将从 Google 的搜索结果中完全丢弃该页面,无论是否有其他页面链接到该页面。
对于百度来说,情况与谷歌类似。如果目标页面还有其他网站链接,也可能是百度收录。从百度的描述页面来看,百度不像谷歌那样支持noindex。网页完全从索引中删除,仅支持noarchive元标签,禁止百度显示网页快照。具体语句如下。
上面的标签只是禁止百度显示网页的快照。百度将继续对网页进行索引,并在搜索结果中显示网页摘要。