php禁止网页抓取(robots.txtMeta标签的功能是怎么放在网站中的?)
优采云 发布时间: 2021-10-12 22:04php禁止网页抓取(robots.txtMeta标签的功能是怎么放在网站中的?)
robots.txt放在网站,文件级网络蜘蛛授权;而robots Meta标签放置在网页中,一般在某些网页需要单独设置时使用。两者的功能是一样的。
Meta robots标签必须放在中间,格式:
content中的值决定了允许爬取的类型,必须同时收录两个值:是否允许索引(index)和是否关注链接(follow,也可以理解为是否允许继续爬行)沿着网页中的超链接)。共有4个参数可选,形成4种组合:
index,follow:允许抓取此页面并允许跟踪链接。
index, nofollow:允许抓取此页面,但禁止跟踪链接。
noindex,follow:禁止抓取此页面,但允许链接跟踪。
noindex、nofllow:禁止抓取本页,禁止关注本页链接。
允许搜索引擎收录您的网页,但禁止其收录网页上的图片:
注意:需要屏蔽或删除哪个网页,在该网页上添加标签,其他网页不受影响。
该标签用于特定网页,而不是整个 网站。
上面的1和4还有另外一种写法:
index,follow 可以写成all,如:
noindex,nofollow 可以写成none,如:
需要注意的是,很多搜索引擎不支持robots Meta标签,只有少数搜索引擎可以识别并根据给定值抓取。因此,尽量使用robots.txt文件来限制爬行。
最后,我想给你一个建议。不要在robots.txt中设置太多禁止的文件或目录,只设置你真的不想被搜索引擎索引的目录和文件。
尤其是当你不确定文件或目录的作用时,不要轻易禁止爬行。前段时间旅行的朋友,网站里面有很多旅游景点的图片,但是都没有被几大搜索引擎收录。后来查看网站,发现图片目录上传在管理目录admin下,被robots.txt禁止爬取。