搜索指定网站内容(网站robots.txt文件的配置和使用方法，路径匹配)

优采云发布时间: 2021-12-11 04:26

　　前言

　　搜索引擎使用网络蜘蛛抓取网页内容并将其显示在相关搜索结果中。但是有些网页内容可能不想被搜索引擎收录收录，比如管理员后台。

　　我们可以使用robots.txt文件来声明允许或禁止搜索引擎蜘蛛抓取某些目录或网页，从而限制搜索引擎的收录范围。

　　本文介绍如何配置和使用网站的robots.txt文件，以及如何编写robots.txt文件。

　　什么是robots.txt

　　robots.txt 是存放在网站根目录下的纯文本文件。用于告诉网络蜘蛛本站哪些内容允许爬取，哪些内容不允许爬取。

　　搜索引擎蜘蛛在访问网站时，会先检查网站的robots.txt文件，获取网站允许的爬取范围。

　　需要注意的是，robots.txt 只是一个习惯规则，并不是强制性的。部分搜索引擎不支持，无法保证网页内容会/不会被抓取。

　　robots.txt 文件设置规则#格式和位置

　　# 命令语法说明

　　每条记录由 field: 值组成，例如 Sitemap:。

　　一组记录的示例：

　　# 禁止谷歌抓取网站 news 标签下的所有内容

user-agent: googlebot

disallow: /tag/news

　　编写实用 robots.txt 的示例和说明

　　如果网站中没有robots.txt文件，可以手动创建并上传到网站的根目录；即使没有网页需要禁止搜索引擎收录，也建议添加一个空的robots.txt文件。

　　请注意文中“仅”、“允许”、“禁止”的区别！

　　路径匹配示例：（↓Google Developers 截图）

　　Tips#常用搜索引擎蜘蛛（机器人）名称

　　如果不知道蜘蛛的名字，可以查看一些大网站的写法参考，比如/robots.txt。

　　# robots.txt *敏*感*词*

　　#相关信息结论

　　网站的robots.txt文件相当于一个网站语句，用于通知访问蜘蛛“网站希望/不想被搜索引擎搜索收录指定的网页和内容路径”。

　　它对大多数搜索引擎有效，但也有一些搜索引擎不支持它。您可以使用元标记强制禁止它们（请参阅 Robots Meta Tag 和 X-Robots-Tag HTTP Header Specification）。

0

2021-12-11

搜索指定网站内容

0 个评论

要回复文章请先登录或注册