搜网站内容(如何只禁止百度搜索引擎抓取收录网页的任何部分。。)
优采云 发布时间: 2021-09-16 10:04搜网站内容(如何只禁止百度搜索引擎抓取收录网页的任何部分。。)
首先,robots.txt方法
默认情况下,搜索引擎遵守robots.txt协议。创建robots.txt文本文件并将其放入网站root目录。编辑代码如下:
用户代理:*
禁止:/
通过上面的代码,你可以告诉搜索引擎不要抓取收录this网站。小心使用上述代码:这将禁止所有搜索引擎访问网站的任何部分@
如何只禁止百度搜索引擎收录抓取网页
1、编辑robots.txt文件并将设计标记为:
用户代理:Baiduspider
禁止:/
上述机器人文件将禁止所有从百度抓取
让我们来谈谈百度的用户代理。百度pider的用户代理是什么
百度产品使用不同的用户代理:
产品名称对应于用户代理
无线搜索百度皮德尔
图像搜索拜杜斯皮德图像
视频搜索百度派珀视频
新闻搜索百度风笛新闻
百度方面的青睐
百度领头羊CPRO
商业搜索Baiduspider广告
网页等搜索百度皮德尔
您可以根据每个产品的不同用户代理设置不同的爬网规则。以下机器人禁止百度的所有爬网,但允许图像搜索和爬网/image/目录:
用户代理:Baiduspider
禁止:/
用户代理:Baiduspider图像
允许:/image/
请注意:Baiduspider CPRO和Baiduspider ads捕获的网页不会被编入索引,只执行与客户商定的操作,因此不符合机器人协议。只有联系百度的人才能解决这个问题
如何仅禁止谷歌搜索引擎收录抓取网页,如下所示:
编辑robots.txt文件并将设计标记为:
用户代理:谷歌机器人
禁止:/
编辑robots.txt文件
搜索引擎默认遵循robots.txt协议
robots.txt文件位于网站root目录中
例如,当搜索引擎访问网站目录时,它将首先检查文件robots.txt是否存在于网站根目录中。如果搜索引擎找到该文件,它将根据该文件的内容确定其权限范围
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中,如果存在多个用户代理记录,则表示多个机器人将受到协议的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则协议对任何机器人都有效。在“robots.TXT”文件中,只能有一条记录,如“user agent:*”
禁止:
此项的值用于描述不希望访问的URL。此URL可以是完整路径或部分路径。机器人不会访问任何以“禁止”开头的URL。例如,“disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“disallow:/help/”允许机器人访问/help.html,但不允许访问/help/index.html。如果任何不允许的记录为空,则允许访问网站的所有部分。“/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”是空文件,则网站对所有搜索引擎robots打开
以下是robots.txt使用的一些示例:
用户代理:*
禁止:/
禁止所有搜索引擎访问网站的所有部分@
用户代理:Baiduspider
禁止:/
禁止百度收录全站
用户代理:谷歌机器人
禁止:/
禁止Google收录全站
用户代理:谷歌机器人
禁止:
用户代理:*
禁止:/
禁止所有搜索引擎,Google收录all站点除外
用户代理:Baiduspider
禁止:
用户代理:*
禁止:/
禁止所有搜索引擎收录网站,百度除外
用户代理:*
不允许:/css/
不允许:/admin/
禁止所有搜索引擎访问目录
(例如,在根目录中禁用admin和CSS)
第二,网页编码方法
在网站主页代码之间添加代码。此标志禁止搜索引擎捕获网站并显示网页快照
在网站主页代码之间,添加可以禁止百度搜索引擎捕获网站并显示网页快照
在网站主页代码之间添加,以禁止谷歌搜索引擎捕获网站并显示网页快照
此外,当我们的需求非常奇怪时,如以下情况:
1.网站已添加robots.txt。你能在百度上搜索吗
因为更新搜索引擎索引数据库需要时间。虽然百度Piper已经停止访问您网站上的网页,但清除百度搜索引擎数据库中已建立的网页索引信息可能需要几个月的时间。此外,请检查您的机器人是否配置正确。如果您的拒绝是收录紧急的,您也可以通过投诉平台反馈请求
2.希望网站内容被百度索引,但不保存为快照。我该怎么办
Baiduspider遵守互联网元机器人协议。您可以使用网页元的设置,使百度只显示该网页的索引,而不在搜索结果中显示该网页的快照。就像机器人的更新一样,因为搜索引擎索引数据库的更新需要时间,虽然您已经禁止百度在网页中通过meta在搜索结果中显示网页快照,但是如果在百度搜索引擎数据库中已经建立了网页索引信息,可能需要两到四周的时间才能在网上生效
你想被百度索引,但不要保存网站快照。以下代码用于解决此问题:
如果要阻止所有搜索引擎保存网页快照,代码如下:
一些常见的代码组合:
:您可以抓取此页面并继续索引此页面上的其他链接
:不允许您获取此页面,但您可以获取此页面上的其他链接
:您可以获取此页面,但不允许获取此页面上的其他链接
:不允许抓取此页面,也不允许抓取此页面上的其他链接