搜索引擎禁止的方式优化网站(2.禁止百度图片搜索收录某些图片文件放在哪里?(图))

优采云 发布时间: 2022-02-03 13:18

  搜索引擎禁止的方式优化网站(2.禁止百度图片搜索收录某些图片文件放在哪里?(图))

  2.robots.txt 文件在哪里?

  robots.txt 文件应放在 网站 根目录中。例如,当蜘蛛访问一个网站(例如)时,它会首先检查该文件是否存在于网站中。如果蜘蛛找到文件,它会根据文件的内容进行判断。其访问权限的范围。

  网站网址

  对应 robots.txt 的 URL

  :80/

  :80/机器人.txt

  :1234/

  :1234/机器人.txt

  3.我在robots.txt中设置了禁止百度的内容收录我的网站,为什么百度搜索结果里还出现?

  如果其他网站s链接到你robots.txt文件中被屏蔽的页面收录,这些页面可能仍然会出现在百度搜索结果中,但是你页面上的内容不会被抓取、索引和显示,百度搜索结果只显示您相关页面的其他网站描述。

  4.禁止搜索引擎跟踪网页链接,但只索引网页

  如果您不希望搜索引擎跟踪此页面上的链接,并且不传递链接的权重,请将此元标记放置在页面的部分中:

  如果不希望百度跟踪特定链接,百度也支持更精准的控制,请直接在链接上写下这个标签:

  登入

  要允许其他搜索引擎关注,但只阻止百度关注您页面的链接,请将此元标记放置在您页面的部分中:

  5.禁止搜索引擎在搜索结果中显示网页快照,但只索引网页

  要防止所有搜索引擎显示您的 网站 快照,请将此元标记放置在您网页的部分中:

  要允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标记:

  注意:该标签仅禁止百度显示页面快照。百度将继续对页面进行索引,并在搜索结果中显示页面摘要。

  6.我要禁止百度图片搜索收录一些图片,怎么设置?

  禁止百度蜘蛛抓取网站上的所有图片,或者允许百度蜘蛛抓取网站上某种格式的图片文件可以通过设置robots来实现,请参考“robots.txt文件使用示例”示例1 0、11、12。

  7.robots.txt 文件的格式

  “robots.txt”文件收录一条或多条以空行分隔的记录(以CR、CR/NL或NL结尾),每条记录的格式如下:

  “:”

  在这个文件中可以使用#作为注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 和 Allow 行。详情如下:

  用户代理:

  该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个机器人会受到“robots.txt”的限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。如果在“robots.txt”文件中,添加“User-agent: SomeBot”和几行Disallow和Allow行,那么“SomeBot”的名称只受“User-agent: SomeBot”后面的Disallow和Allow行的限制。

  不允许:

  该项目的值用于描述一组不想被访问的 URL。该值可以是完整路径,也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html,但不能访问 /help/index.html。“Disallow:”表示允许机器人访问网站的所有URL,且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件,则 网站 对所有搜索引擎机器人开放。

  允许:

  该项目的值用于描述您希望访问的一组 URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认为 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。

  使用“*”和“$”:

  百度蜘蛛支持使用通配符“*”和“$”来模糊匹配url。

  "$" 匹配行终止符。

  "*" 匹配零个或多个任意字符。

  注意:我们会严格遵守robots的相关协议,请注意区分您不想被爬取的目录或收录的情况,我们会将robots编写的文件与您不想爬取的目录区别对待想要被爬取和收录@收录的目录必须完全匹配,否则robots协议不会生效。

  8.网址匹配示例

  允许或禁止的值

  网址

  比赛结果

  /tmp

  /tmp

  是的

  /tmp

  /tmp.html

  是的

  /tmp

  /tmp/a.html

  是的

  /tmp

  /tmphoho

  不

  /你好*

  /你好.html

  是的

  /他*洛

  /你好,洛洛

  是的

  /堆*lo

  /你好,洛洛

  不

  html$

  /tmpa.html

  是的

  /a.html$

  /a.html

  是的

  htm$

  /a.html

  不

  9.Robots.txt 文件使用示例

  示例 1.禁止所有搜索引擎访问 网站 的任何部分

  下载 robots.txt 文件

  用户代理:*

  不允许:/

  示例 2.允许所有机器人访问

  (或者您可以创建一个空文件“/robots.txt”)

  用户代理:*

  允许:/

  示例 3.仅禁止百度蜘蛛访问您的 网站

  用户代理:百度蜘蛛

  不允许:/

  示例 4.只允许百度蜘蛛访问您的 网站

  用户代理:百度蜘蛛

  允许:/

  用户代理:*

  不允许:/

  示例 5.只允许百度蜘蛛和 Googlebot 访问

  用户代理:百度蜘蛛

  允许:/

  用户代理:Googlebot

  允许:/

  用户代理:*

  不允许:/

  示例 6.禁用蜘蛛对特定目录的访问

  在这个例子中,网站有三个目录限制了搜索引擎的访问,即机器人不会访问这三个目录。需要注意的是,每个目录都必须单独声明,不能写成“Disallow:/cgi-bin//tmp/”。

  用户代理:*

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/~joe/

  示例 7. 允许访问特定目录中的部分 url

  用户代理:*

  允许:/cgi-bin/see

  允许:/tmp/hi

  允许:/~joe/look

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/~joe/

  示例 8.使用“*”限制对 url 的访问

  禁止访问/cgi-bin/目录下所有以“.htm”为后缀的URL(包括子目录)。

  用户代理:*

  禁止:/cgi-bin/*.htm

  示例 9.使用“$”限制对 url 的访问

  只允许使用后缀为“.htm”的 URL。

  用户代理:*

  允许:/*.htm$

  不允许:/

  示例 1 0. 禁用对 网站 中所有动态页面的访问

  用户代理:*

  不允许:/*?*

  示例一 1. 禁止百度蜘蛛抓取 网站 上的所有图片

  只允许网页,不允许图像。

  用户代理:百度蜘蛛

  禁止:/*.jpg$

  禁止:/*.jpeg$

  禁止:/*.gif$

  禁止:/*.png$

  禁止:/*.bmp$

  示例12. 只允许Baiduspider爬取网页和.gif格式的图片

  允许抓取网页和gif格式的图片,不允许抓取其他格式的图片

  用户代理:百度蜘蛛

  允许:/*.gif$

  禁止:/*.jpg$

  禁止:/*.jpeg$

  禁止:/*.png$

  禁止:/*.bmp$

  例1 3. 只禁止百度蜘蛛抓取.jpg格式图片

  用户代理:百度蜘蛛

  禁止:/*.jpg$

  10.robots.txt 文件参考

  robots.txt文件中更具体的设置,请参考以下链接:

  Web 服务器管理员指南机器人排除协议

  HTML作者指南机器人排除协议

  原创 1994 协议描述,当前部署

  修订的互联网草案规范,尚未完成或实施

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线