百度搜索指定网站内容(robots是站点与spider沟通的重要渠道,帮助站长正确设置robots )
优采云 发布时间: 2021-12-15 22:20百度搜索指定网站内容(robots是站点与spider沟通的重要渠道,帮助站长正确设置robots
)
机器人是网站与蜘蛛交流的重要渠道。该网站通过robots文件声明了网站中不希望被搜索引擎收录的部分,或者指定搜索引擎仅具有收录的特定部分。请注意,如果您的网站收录您不想被搜索引擎搜索的内容,您只需要使用robots。如果您想要搜索引擎上的所有内容,请不要创建robots Txt文件。为了避免站长设置机器人文件时出现问题,百度站长平台专门推出了机器人工具,帮助站长正确设置机器人
机器人。Txt文件格式
Robots文件通常放在根目录中,并收录一个或多个记录。这些记录以空行分隔(Cr、Cr/NL和ORNL作为终止符)。每条记录的格式如下:
“:”
在此文件中,可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行user agent开始,然后是几行disallow和allow。详情如下:
用户代理:此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中,如果存在多个用户代理记录,则表示多个机器人将受到“robots.TXT”的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为,则对任何机器人都有效。“robots.TXT”文件中只能有一条记录,如“user agent:”。如果在“robots.TXT”文件中添加了“user agent:somebot”和几个不允许和允许行,“somebot”名称仅受“user agent:somebot”后面的不允许和允许行的限制
不允许:此项的值用于描述不希望访问的一组URL。此值可以是完整路径或路径的非空前缀。机器人将不会访问以disallow item值开头的URL。例如,“禁止:/help”阻止机器人访问/help html、/helpabc。html、/help/index。HTML和“disallow:/help/”允许机器人访问/help HTML、/helpabc。“不允许:”表示允许机器人访问网站的所有URL。“/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”不存在或是空文件,网站对所有搜索引擎robots打开
允许:此项的值用于描述要访问的一组URL。与“不允许”类似,此值可以是完整路径或路径的前缀。以值allow开头的URL允许机器人访问。例如,“允许:/hibaidu”允许机器人访问/hibaidu htm、/hibaiducom。html、/hibaidu/com。默认情况下,网站的所有URL都是允许的,因此allow通常与disallow一起使用,以允许访问某些网页并禁止访问所有其他URL
使用“”和“$”:百度pider支持使用通配符“”和“$”模糊匹配URL
“*”匹配0个或多个任意字符
“$”与行终止符匹配
最后,需要注意的是,百度将严格遵守机器人的相关协议。请注意区分您不希望捕获的目录或收录的大小写。百度将准确地将机器人中写入的文件与您不希望被捕获的目录和收录进行匹配,否则机器人协议将无法生效
机器人。Txt文件使用示例