php禁止网页抓取(robots.txtMeta标签的功能是怎么放在网站中的？)

优采云发布时间: 2021-10-12 22:04

　　robots.txt放在网站，文件级网络蜘蛛授权；而robots Meta标签放置在网页中，一般在某些网页需要单独设置时使用。两者的功能是一样的。

　　Meta robots标签必须放在中间，格式：

　　content中的值决定了允许爬取的类型，必须同时收录两个值：是否允许索引（index）和是否关注链接（follow，也可以理解为是否允许继续爬行）沿着网页中的超链接）。共有4个参数可选，形成4种组合：

　　index,follow：允许抓取此页面并允许跟踪链接。

　　index, nofollow：允许抓取此页面，但禁止跟踪链接。

　　noindex,follow：禁止抓取此页面，但允许链接跟踪。

　　noindex、nofllow：禁止抓取本页，禁止关注本页链接。

　　允许搜索引擎收录您的网页，但禁止其收录网页上的图片：

　　注意：需要屏蔽或删除哪个网页，在该网页上添加标签，其他网页不受影响。

　　该标签用于特定网页，而不是整个网站。

　　上面的1和4还有另外一种写法：

　　index,follow 可以写成all，如：

　　noindex，nofollow 可以写成none，如：

　　需要注意的是，很多搜索引擎不支持robots Meta标签，只有少数搜索引擎可以识别并根据给定值抓取。因此，尽量使用robots.txt文件来限制爬行。

　　最后，我想给你一个建议。不要在robots.txt中设置太多禁止的文件或目录，只设置你真的不想被搜索引擎索引的目录和文件。

　　尤其是当你不确定文件或目录的作用时，不要轻易禁止爬行。前段时间旅行的朋友，网站里面有很多旅游景点的图片，但是都没有被几大搜索引擎收录。后来查看网站，发现图片目录上传在管理目录admin下，被robots.txt禁止爬取。

0

2021-10-12

php禁止网页抓取

0 个评论

要回复文章请先登录或注册