搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

优采云发布时间: 2021-12-13 16:21

　　1. robots.txt 文件是什么？

　　搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。当蜘蛛访问一个网站时，它首先会检查网站的根域下是否有一个名为robots.txt的纯文本文件。这个文件是用来指定蜘蛛在你的网站爬取范围上的。您可以在您的网站中创建一个robots.txt，并在文件中声明网站中不想被搜索引擎收录搜索到的部分或指定搜索引擎仅是收录特定部分。

　　请注意，只有当您的网站收录您不想被收录搜索的内容时，您才需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建robots.txt 文件。

　　2. robots.txt 文件在哪里？

　　robots.txt文件应该放在网站的根目录下。例如，当蜘蛛访问一个网站（例如）时，它会首先检查网站中是否存在该文件。如果蜘蛛找到该文件，它会根据文件的内容确定其访问权限的范围。

　　网站网址

　　对应robots.txt的URL

　　:80/

　　:80/robots.txt

　　:1234/

　　:1234/robots.txt

　　3.我在robots.txt中设置了禁止百度收录I网站，为什么还是出现在百度搜索结果中？如果您的robots.txt文件中设置了禁止收录的其他网站链接，这些网页可能仍会出现在百度的搜索结果中，但您网页上的内容将不会被抓取，索引和显示，百度搜索结果中显示的只是您相关网页的其他网站描述。

　　4. 禁止搜索引擎跟踪网页链接，只索引网页

　　如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权重，请将此元标记放在页面的一部分中：

　　如果您不想让百度跟踪特定链接，百度也支持更精确的控制，请直接在链接上写下这个标记：

　　登入

　　要允许其他搜索引擎跟踪，但仅阻止百度跟踪指向您页面的链接，请将此元标记放置在页面的一部分中：

　　5. 禁止搜索引擎在搜索结果中显示网页快照，只索引网页

　　为了防止所有搜索引擎显示您的网站快照，请将此元标记放在页面的一部分中：

　　要允许其他搜索引擎显示快照，但只阻止百度显示，请使用以下标签：

　　注意：此标签仅禁止百度显示网页快照。百度将继续对网页进行索引，并在搜索结果中显示网页摘要。

　　6. 我想禁止百度图片搜索收录部分图片，如何设置？

　　禁止百度蜘蛛抓取网站上的所有图片，禁止或允许百度蜘蛛抓取网站上某种格式的图片可以通过设置robots来实现，请参考“robots.txt文件使用示例”示例1 0、11、12。

　　7. Robots.txt 文件格式

　　“robots.txt”文件收录一个或多个记录，由空行分隔（以CR、CR/NL或NL作为终止符）。每条记录的格式如下：

　　：

　　可以在这个文件中使用#做注释，具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头，后跟几行 Disallow 和 Allow 行。详情如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，表示多个robots会被“robots.txt”限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则对任何机器人都有效。在“robots.txt”文件中，只能有“User-agent:*”这样的一条记录。如果您在“robots.txt”文件中添加“User-agent:SomeBot”和几行禁止和允许行，则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行的限制。

　　不允许：

　　该项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如，“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html，而不是访问 /help/index.html。“禁止：”表示允许机器人访问网站的所有URL。“/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”不存在或为空文件，则此网站对所有搜索引擎机器人开放。

　　允许：

　　此项的值用于描述您要访问的一组 URL。与 Disallow 项类似，该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如，“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有 URL 默认都是 Allow 的，所以 Allow 通常与 Disallow 结合使用，允许访问某些网页，同时禁止访问所有其他 URL。

　　需要注意的是，Disallow 和 Allow 行的顺序是有意义的，机器人会根据第一个匹配成功的 Allow 或 Disallow 行来决定是否访问 URL。

　　使用“*”和“$”：

　　百度蜘蛛支持使用通配符“*”和“$”来模糊匹配URL。

　　"$" 匹配行尾。

　　“*”匹配 0 个或多个任意字符。

　　注：我们将严格遵守机器人的相关协议。请注意区分您不想被抓取的目录或收录的大小写。我们会处理robots中写的文件，你不想被爬取和收录的目录做精确匹配，否则robots协议不会生效。

　　8. URL 匹配示例

　　允许或禁止值

　　网址

　　比赛结果

　　/tmp

　　是的

　　/tmp

　　/tmp.html

　　是的

　　/tmp

　　/tmp/a.html

　　是的

　　/tmp

　　/tmhoho

　　不

　　/你好*

　　/你好.html

　　是的

　　/He*lo

　　/你好，哈哈

　　是的

　　/堆*lo

　　/你好，哈哈

　　不

　　html$

　　/tmpa.html

　　是的

　　/a.html$

　　/a.html

　　是的

　　htm$

　　/a.html

　　不

　　9. robots.txt 文件使用示例

　　示例 1. 禁止所有搜索引擎访问网站的任何部分

　　下载 robots.txt 文件

　　用户代理： *

　　不允许： /

　　示例 2. 允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”）

　　用户代理： *

　　允许： /

　　示例 3. 只有百度蜘蛛被禁止访问您的网站

　　用户代理：百度蜘蛛

　　不允许： /

　　示例 4. 只允许百度蜘蛛访问您的网站

　　用户代理：百度蜘蛛

　　允许：/用户代理：*

　　不允许： /

　　示例 5. 只允许百度蜘蛛和谷歌机器人访问

　　用户代理：百度蜘蛛

　　允许：/用户代理：Googlebot

　　允许：/用户代理：*

　　不允许： /

　　示例 6. 禁止蜘蛛访问特定目录

　　本例中网站有3个目录限制搜索引擎访问，即robot不会访问这3个目录。需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 7. 允许访问特定目录中的某些 URL

　　用户代理： *

　　允许：/cgi-bin/see

　　允许：/tmp/hi

　　允许：/~joe/look

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 8. 使用“*”限制对 url 的访问

　　禁止访问/cgi-bin/目录下所有后缀为“.htm”的URL（包括子目录）。

　　用户代理： *

　　禁止：/cgi-bin/*.htm

　　示例 9. 使用“$”限制对 url 的访问

　　只允许访问带有“.htm”后缀的 URL。

　　用户代理： *

　　允许：/*.htm$

　　不允许： /

　　示例1 0.禁止访问网站中的所有动态页面

　　用户代理： *

　　不允许： /*？*

　　示例11.禁止百度蜘蛛抓取网站上的所有图片

　　只允许抓取网页，不允许抓取图片。

　　用户代理：百度蜘蛛

　　禁止：/*.jpg$

　　禁止：/*.jpeg$

　　禁止：/*.gif$

　　禁止：/*.png$

　　禁止：/*.bmp$

　　示例12.只允许百度蜘蛛抓取.gif格式的网页和图片

　　允许抓取 gif 格式的网页和图片，但不允许抓取其他格式的图片

　　用户代理：百度蜘蛛

　　允许：/*.gif$

　　禁止：/*.jpg$

　　禁止：/*.jpeg$

　　禁止：/*.png$

　　禁止：/*.bmp$

　　示例13.仅禁止百度蜘蛛抓取.jpg格式的图片

　　用户代理：百度蜘蛛

　　禁止：/*.jpg$

　　10. robots.txt 文件参考

　　关于robots.txt文件更具体的设置，请参考以下链接：

　　机器人排除协议的 Web 服务器管理员指南

　　机器人排除协议的 HTML 作者指南

　　最初的 1994 年协议描述，目前已部署

　　修订后的 Internet-Draft 规范，尚未完成或实施

　　如果您对搜索引擎收录的封禁方法还有其他疑问，可以到【学院同学汇】【学习讨论】“搜索引擎封禁方法收录”讨论帖发表您的看法，我们的工作人员会关注这里并与您讨论。

　　如何只禁止百度搜索引擎收录抓取网页

　　1、编辑robots.txt文件，设计标志为：

　　用户代理：百度蜘蛛

　　不允许： /

　　上述robots文件将禁止所有来自百度的抓取。

　　这里说一下百度的user-agent，什么是百度蜘蛛的user-agent？

　　百度产品使用不同的用户代理：

　　产品名称对应于用户代理

　　无线搜索百度蜘蛛

　　图片搜索百度蜘蛛-image

　　视频搜索百度蜘蛛-视频

　　新闻搜索百度蜘蛛-新闻

　　百度采集百度蜘蛛-最爱

　　百度联盟baiduspider-cpro

　　商业搜索Baiduspider-ads

　　网页和其他搜索百度蜘蛛

　　您可以根据每个产品的不同用户代理设置不同的抓取规则。以下robots实现禁止所有来自百度的抓取，但允许图片搜索抓取/image/目录：

　　用户代理：百度蜘蛛

　　不允许： /

　　用户代理：Baiduspider-image

　　允许：/图像/

　　请注意：Baiduspider-cpro 和Baiduspider-ads 抓取的网页不会被索引，但会执行与客户约定的操作。因此，如果您不遵守机器人协议，则只能通过联系百度人员来解决。

　　如何禁止只有谷歌搜索引擎收录抓取网页，方法如下：

　　编辑robots.txt文件，设计标志为：

　　用户代理：googlebot

　　不允许： /

　　在网站主页代码之间添加代码。此标签禁止搜索引擎抓取网站并显示网页快照。

　　在网站首页代码之间，添加禁止百度搜索引擎抓取网站并显示网页快照。

　　在网站首页代码之间添加，禁止谷歌搜索引擎抓取网站，显示网页快照。

　　另外，当我们的需求很奇怪的时候，比如以下几种情况：

　　1. 网站添加了Robots.txt，百度可以搜索到吗？

　　因为搜索引擎索引数据库的更新需要时间。虽然百度蜘蛛已经停止访问您在网站上的网页，但清除百度搜索引擎数据库中已建立网页的索引信息可能需要几个月的时间。另请检查您的机器人是否配置正确。如果收录急需您的拒绝，您也可以通过投诉平台反馈请求处理。

　　2.希望网站的内容被百度收录，但快照不会被保存。我该怎么办？

　　百度蜘蛛符合互联网元机器人协议。您可以使用网页元设置，让百度只显示网页索引，而不在搜索结果中显示网页快照。和robots的更新一样，更新搜索引擎索引库也是需要时间的，所以虽然你已经禁止百度通过网页上的meta在搜索结果中显示网页快照，但是如果百度已经建立了网页索引搜索引擎数据库信息，可能需要两到四个星期才能在线生效。

　　想被百度收录，但不保存网站快照，以下代码解决：

　　如果你想禁止所有搜索引擎保存你网页的快照，那么代码如下：

　　一些常用的代码组合：

　　：您可以抓取此页面，并且可以继续索引此页面上的其他链接

　　：不抓取此页面，但您可以抓取此页面上的其他链接并将其编入索引

　　：您可以抓取此页面，但不允许抓取此页面上的其他链接并将其编入索引

　　: 不爬取此页面，也不沿此页面爬行以索引其他链接

　　原文/转自：禁止搜索引擎的方法收录

0

2021-12-13

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

相关问题