php禁止网页抓取(基于网站安全与盈利的因素,搜索引擎不能属性屏蔽收录)
优采云 发布时间: 2022-04-09 21:05php禁止网页抓取(基于网站安全与盈利的因素,搜索引擎不能属性屏蔽收录)
基于网站安全和盈利因素,网站管理员不希望某些目录或页面被爬取和收录,例如付费内容、处于测试阶段的页面以及具有重复内容的页面。
虽然在构建网站的过程中,使用JavaScript、Flash链接和Nofollow属性可以让搜索引擎蜘蛛远离,导致页面不是收录。
但在某些情况下,搜索引擎可以读取它们。基于网站排名考虑,我们建议谨慎使用JavaScript、Flash链接和Nofollow属性来阻止收录。
我强调,使用JavaScript和Flash链接建站其实是在给网站制造蜘蛛陷阱,让搜索引擎无法正确判断和抓取页面的主题和文字。
为保证网站某些目录或页面不被收录阻塞,需要正确使用robots文件或Meta Robots标签来实现网站的阻塞收录@ > 机制。
1、机器人文件
当搜索引擎蜘蛛访问网站时,它会首先检查网站的根目录下是否有一个名为robots.txt的纯文本文件。它的主要作用是让搜索引擎抓取或禁止网站的一些内容。
用户代理:* 适用于所有蜘蛛
禁止:/上传/
禁止:.jpg$ 禁止抓取所有 .jpg 文件
禁止:*.html 禁止抓取所有 html 文件
禁止:/upload/index.html
Disallow 禁止抓取哪些文件或目录。 Allow 告诉搜索引擎应该抓取哪些页面。由于没有指定,所以允许爬取,所以单独写allow是没有意义的。
2、元机器人标签
元机器人标签是页面头部的一种元标签,用于指示搜索引擎禁止对该页面的内容进行索引。
最简单的元机器人标签格式是:
name=”robots” content=”noindex,nofollow”>
效果是禁止所有搜索引擎对该页面进行索引,并禁止该页面上的链接。
name=”robots” content=”noindex”>
效果是禁止对该页面进行索引,但允许蜘蛛跟踪页面上的链接,并且还可以传递权重。
Google、Bing、Yahoo 支持的标签如下:
Noindex:不索引此页面
Nofollow:不要关注此页面上的链接
Nosnippet:不在搜索结果中显示片段文本
Noarchive:不显示快照
Noodp:不要使用打开目录中的标题和描述
百度支持:Nofollow 和 Noarchive
只有在禁止索引时使用元机器人才有意义。
带有 noindex 肉机器人标签的页面将被抓取,但不会被编入索引,并且该页面 URL 不会出现在搜索结果中,这与 robots 文件不同。