百度搜索指定网站内容(公司网站一个问题怎么写?解决方法发表出来!)
优采云 发布时间: 2022-03-09 10:13百度搜索指定网站内容(公司网站一个问题怎么写?解决方法发表出来!)
工作还是一如既往的忙碌,所以最近没有分享技术文章。今天遇到一个问题,可能很多网络管理员都会遇到。该解决方案现已发布给所有志同道合的朋友。借鉴!
问题是:公司的网站个人信息被搜索引擎采集泄露。
Abo 的解决方案:防止搜索引擎搜索敏感和重要的网站信息。
详细情况如下:
如何拒绝搜索引擎?
其实很简单,在网站的根目录下放一个名为Robots.txt的文件即可。文件写得很好。
哦,一定要按要求写,写法如下:
1)什么是 Robots.txt?
Robots.txt是一个文本文件,关键是这个文件的位置:网站的根目录。如果你犯了错误,你买不起
有效!
2)Robots.txt 是如何工作的?
前面说过,搜索引擎对信息的自动提取会遵循一定的算法,但不管是什么算法,第一步都是要找到
找到这个文件。它的意思是,“您的网站对我们的机器人有什么限制?” 所谓Robots就是搜索引擎派
出蜘蛛或机器人。如果没有得到响应(文件未找到),说明没有限制,来抓
拿着。如果有这样的文件,机器人就会读取,如果被拒绝,就会停止爬取过程。
3)如何编写 Robots.txt 文件?
只有符合语法的 Robots.txt 才能被机器人识别。至于语法,介绍起来很复杂。这是一个简单的例子:
1)禁止所有搜索引擎访问网站的任何部分(即网站完全拒绝所有搜索引擎收录)
用户代理: *
不允许: /
2)允许所有机器人访问(即网站允许所有搜索引擎收录)
用户代理: *
不允许:
3)禁止访问某个搜索引擎(比如禁止百度收录,写如下)
用户代理:baiduspider
不允许: /
4)允许访问某个搜索引擎(比如允许百度收录,写法如下)
用户代理:baiduspider
不允许:
用户代理: *
不允许: /
5)禁用搜索引擎对某些目录的访问
用户代理: *
禁止:/cgi-bin/禁止:/tmp/
禁止:/图像/
使用方法:很简单,将代码保存为文本文件,命名为Robots.txt,放在网页根目录下。