搜索引擎禁止的方式优化网站(如何让搜索引擎不收录的我的网站?-八维教育)
优采云 发布时间: 2021-09-21 07:16搜索引擎禁止的方式优化网站(如何让搜索引擎不收录的我的网站?-八维教育)
你有没有担心过你的隐私在强大的搜索引擎面前无处藏身?想象一下,如果你想向世界上的每个人公开你的私人日记,你能接受吗?这的确是一个非常矛盾的问题。大多数站长担心“如何让搜索引擎收录my网站?”,我们还需要研究“如何让搜索引擎不收录our网站”。也许我们也可以用它
1.搜索引擎是如何工作的
简言之,搜索引擎实际上依赖于一个巨大的网络数据库。根据搜索方法,可分为全文搜索和目录搜索
所谓全文搜索是指搜索引擎自动从网页中提取信息以建立数据库的过程。至于提取的原理,这是搜索引擎优化爱好者研究的算法。在理想情况下,网页应该为搜索引擎设计,并具有最好的收录效果。当然,这不是本文的主题。搜索引擎的自动信息采集功能分为两类。一种是定期搜索,即每隔一段时间(比如谷歌一般是28天),搜索引擎主动发送一个“蜘蛛”程序,在一定的IP地址范围内搜索互联网网站。一旦发现一个新的网站,它将自动提取网站信息和网址,并将其添加到自己的数据库中。另一种是提交网站search,即网站owner主动将网站提交给搜索引擎。它会在一定时间内(从2天到几个月)向您的网站发送一个“蜘蛛”程序,扫描您的网站并将相关信息存储在数据库中供用户查询
与全文搜索引擎相比,目录索引有很多不同之处。目录索引是完全手动的
首先,搜索引擎属于自动网站检索,而目录索引完全依靠人工操作。在用户提交网站后,目录编辑器将浏览您的网站,然后根据一组自行确定的评估标准甚至编辑器的主观印象来决定是否接受您的网站
第二,当搜索引擎收录网站,只要网站本身没有违反相关规则,一般都可以成功登录。目录索引对网站的要求更高。有时甚至多次登录也可能不成功。尤其像雅虎!有了这样一个超级索引,登录就更加困难了
最后,搜索引擎中每个网站的相关信息都是从用户的网页中自动提取出来的,所以从用户的角度来看,我们有了更多的自主权;目录索引需要手动填写额外的网站信息,并且有各种限制。此外,如果工作人员认为您提交的目录和网站信息不合适,可以随时进行调整。当然,他不会事先和你讨论的
顾名思义,目录索引是将网站按类别存储在相应的目录中。因此,用户在查询信息时,可以根据分类目录选择关键词search或分层搜索。如果使用关键词search,返回的结果与搜索引擎的结果相同。它们也根据信息相关性的程度被安排在K14,但有更多的人为因素
2.如何拒绝搜索引擎
事实上,这很简单。只需将一个名为robots.txt的文件放在网站. 文件的写入方法非常特殊。一定要按要求写。写作方法如下:
1)what is robots.txt
Robots.txt是一个文本文件。密钥是该文件的位置:在网站的根目录中。如果你犯了一个错误,它就不会起作用
2)Robots.txt它是如何工作的
如前所述,搜索引擎自动提取信息将遵循一定的算法,但无论算法是什么,第一步都是查找此文件。意思是,“你对我们的机器人有什么限制?”所谓的机器人是蜘蛛或搜索引擎发送的机器人。如果没有得到响应(找不到文件),则没有限制。抓住它。如果有此文件,机器人将读取并查看。如果被拒绝,它将停止捕获过程
3)how to write robots.txt文件
Robots.txt可以被Robots识别。至于语法,介绍起来很麻烦。以下是一些简单的例子:
1)禁止所有搜索引擎访问网站的任何部分(即网站完全拒绝所有搜索引擎收录)
用户代理:*
禁止:/
2)允许所有机器人访问(即网站允许所有搜索引擎收录)
用户代理:*
禁止:
3)禁止访问搜索引擎(例如,禁止百度收录,写如下)
用户代理:baiduspider
禁止:/
4)允许访问搜索引擎(例如,允许百度收录,按以下方式写入)
用户代理:baiduspider
禁止:
用户代理:*
禁止:/
5)禁止搜索引擎访问某些目录
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/图像/
使用方法:非常简单。将代码另存为名为robots.txt的文本文件,并将其放在网页的根目录中
注意:所有语句都是单一规则,即每行只声明一条规则。例如,示例5中的三个目录必须分为三行和三列
注意写作
1.第一个英文字母应大写。冒号是英文的。冒号后面有一个空格。这些观点不能写错
2.slash:/表示整个网站
3.如果“/”后面还有一个空格,则整个网站将被屏蔽@
4.不禁止正常内容物
5.有效时间为几天到两个月
路径后有一条斜线,没有斜线:例如,不允许:/images/带斜线意味着禁止抓取整个文件夹中的图像,不允许:/images不带斜线意味着任何路径中都有斜线/images关键词所有人都将被屏蔽