robots.txt中禁止百度收录我网站的内容怎么设置

优采云发布时间: 2021-06-02 04:14

　　:80/:80/机器人...

　　:1234/:1234/抢...

　　...

　　返回顶部

　　我在robots.txt中设置了百度收录和I网站的禁言，为什么还是出现在百度搜索结果中？

　　如果您的robots.txt文件中的其他网站链接到收录禁止的网页，这些网页可能仍会出现在百度的搜索结果中，但您网页上的内容不会被抓取，索引和显示，百度搜索结果只显示您相关网页的其他网站描述。

　　返回顶部

　　禁止搜索引擎在搜索结果中显示网页快照，只能索引网页

　　百度支持设置网页的meta，防止搜索引擎显示网站的快照。方法如下：

　　为防止所有搜索引擎显示您的网站快照，请将此元标记放在页面的一部分：

　　要允许其他搜索引擎显示快照，但只阻止百度显示，请使用以下标签：

　　注意：此标签仅禁止百度显示网页快照。百度将继续为该网页编制索引，并在搜索结果中显示该网页的摘要。

　　返回顶部

　　我想禁止百度图片搜索收录中的某些图片，我该如何设置？

　　禁止百度蜘蛛抓取网站上的所有图片，禁止或允许百度蜘蛛抓取网站上某种格式的图片文件可以通过设置robots实现，请参考“robots.txt文件使用示例”示例10、11、12。

　　返回顶部

　　我在robots.txt中设置了百度收录和I网站的禁言，为什么还是出现在百度搜索结果中？

　　如果您的robots.txt文件中的其他网站链接到收录禁止的网页，这些网页可能仍会出现在百度的搜索结果中，但您网页上的内容不会被抓取，索引和显示，百度搜索结果只显示您相关网页的其他网站描述。

　　返回顶部

　　robots.txt 文件的格式

　　“robots.txt”文件收录一条或多条记录，以空行分隔（以CR、CR/NL或NL作为终止符）。每条记录的格式如下：

　　":".

　　在这个文件中，可以使用#进行标注，具体用法与UNIX中的约定相同。此文件中的记录通常以一行或多行 User-agent 开头，后跟几行 Disallow 和 Allow 行，详细信息如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，表示多个robots会被“robots.txt”限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则对任何机器人都有效。在“robots.txt”文件中，只能有“User-agent:*”等一条记录。如果您在“robots.txt”文件中添加“User-agent: SomeBot”和几行禁止和允许行，则名称“SomeBot”仅受“User-agent: SomeBot”之后的禁止和允许行限制。

　　禁止：

　　该项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如，“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“Disallow:/help/”则允许机器人访问/help.html、/helpabc。 html，但不是访问 /help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”不存在或为空文件，则此网站对所有搜索引擎机器人开放。

　　允许：

　　此项的值用于描述您要访问的一组 URL。与 Disallow 项类似，该值可以是完整路径或路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问。例如，“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有 URL 默认都是 Allow 的，所以 Allow 通常与 Disallow 结合使用，允许访问某些网页，同时禁止访问所有其他 URL。

　　需要注意的是 Disallow 和 Allow 行的顺序是有意义的。机器人将根据匹配成功的第一个 Allow 或 Disallow 行来确定是否访问 URL。

　　使用“*”和“$”：

　　百度蜘蛛支持使用通配符“*”和“$”来模糊匹配url。

　　"$" 匹配行尾。

　　"*" 匹配 0 个或多个任意字符。

　　返回顶部

　　网址匹配示例

　　允许或禁止值 URL 匹配结果

　　/tmp /tmp 是

　　/tmp /tmp.html 是

　　/tmp /tmp/a.html 是

　　/tmp/ /tmp 否

　　/tmp/ /tmphoho 否

　　/tmp/ /tmp/a.html 是

　　/Hello* /Hello.html 是

　　/He*lo /Hello,lolo 是的

　　/Heap*lo /Hello,lolo no

　　html$ /tmpa.html 是

　　/a.html$ /a.html 是

　　htm$ /a.html 否

　　返回顶部

　　robots.txt 文件使用示例示例 1. 禁止所有搜索引擎访问网站的任何部分

　　下载robots.txt文件用户代理：*

　　禁止：/

　　示例 2. 允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”）

　　用户代理：*

　　禁止：

　　或

　　用户代理：*

　　允许：/

　　示例 3. 只有百度蜘蛛被禁止访问您的网站用户代理：百度蜘蛛

　　禁止：/

　　示例 4. 只允许百度蜘蛛访问您的网站用户代理：百度蜘蛛

　　禁止：

　　用户代理：*

　　禁止：/

　　示例 5. 防止蜘蛛访问特定目录

　　本例中，网站有三个目录限制搜索引擎访问，即robots不会访问这三个目录。需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　用户代理：*

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 6. 允许访问特定目录中的某些 URL

　　用户代理：*

　　允许：/cgi-bin/see

　　允许：/tmp/hi

　　允许：/~joe/look

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 7. 使用“*”限制对 url 的访问

　　禁止访问/cgi-bin/目录下所有后缀为“.htm”的URL（包括子目录）。

　　用户代理：*

　　禁止：/cgi-bin/*.htm

　　示例 8. 使用“$”限制对 url 的访问

　　只允许访问带有“.htm”后缀的 URL。用户代理：*

　　允许：.htm$

　　禁止：/

　　示例9.禁止访问网站中的所有动态页面

　　用户代理：*

　　禁止：/*?*

　　例10.禁止百度蜘蛛抓取网站上的所有图片

　　只允许抓取网页，禁止抓取任何图片。用户代理：百度蜘蛛

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　示例 11. 只允许百度蜘蛛抓取 .gif 格式的网页和图片

　　允许抓取gif格式的网页和图片，但不允许抓取其他格式的图片。用户代理：百度蜘蛛

　　允许：.gif$

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.png$

　　禁止：.bmp$

　　Example 12. 只有百度蜘蛛禁止抓取.jpg格式的图片用户代理：百度蜘蛛

　　禁止：.jpg$

　　返回顶部

　　Robots.txt 文件参考资料

　　robots.txt 文件更具体的设置请参考以下链接：

　　· 机器人排除协议的 Web 服务器管理员指南

　　· 机器人排除协议的 HTML 作者指南

　　· 1994 年的原创协议描述，目前已部署

　　· 修订后的 Internet-Draft 规范，尚未完成或实施

0

2021-06-02

百度搜索指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

robots.txt中禁止百度收录我网站的内容怎么设置

0 个评论

发起人

AI时代内容工厂

robots.txt中禁止百度收录我网站的内容怎么设置

0 个评论

发起人

相关问题