网页css js 抓取助手(一个优化得比较完美的网站有必要屏蔽、哪些设置方法)
优采云 发布时间: 2022-02-02 06:22网页css js 抓取助手(一个优化得比较完美的网站有必要屏蔽、哪些设置方法)
经过良好优化的 网站 必须在根目录中收录 robots.txt 文件。这个文件的效果对于所有操作网站的朋友来说都不陌生,网上也有很多制作。robots.txt文件的方法和软件描述得恰当方便。但是,你真的知道网站的robots.txt文件设置是否合理,哪些文件或目录需要屏蔽,哪些设置方式有利于网站的运行?
那么,带着这些问题,杨紫会给出具体的解答,希望对菜鸟站长朋友们有所帮助,不要喷老鸟。
一、什么是 robots.txt
杨紫引用百度站长的中二段来澄清。搜索引擎使用蜘蛛程序自动访问互联网上的页面并获取页面信息。当蜘蛛访问一个网站时,它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件。此文件用于指定蜘蛛在您的 网站 爬网计划中。您可以在 网站 中创建 robots.txt,在文件中声明您不想被搜索引擎输入的 网站 的某些部分或指定搜索引擎只输入某些部分.
网站 二、robots.txt 文件的优缺点
1、快速添加网站权重和流量;
2、防止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;
3、为搜索引擎提供简洁明了的索引环境
三、哪些网站目录需要使用robots.txt文件来防止爬取
1),图片目录
图片是 网站 的主要组成部分。随着建站越来越方便,出现了很多cms,能打字就建一个网站,也正是因为这样的方便,出现了很多同质化的模板网上的网站,被反复使用,这样的网站搜索引擎肯定是不喜欢的,即使你的网站被输入了,那你的效果也很差。如果非要用这个网站,建议在robots.txt文件中屏蔽,常用的网站图片目录为:imags或img;
2), 网站 模板目录
正如上面图片目录中提到的,cms 的强大和灵活性也导致了许多同质的网站 模板的出现和乱用。高度重复的模板构成了一种搜索引擎。冗余,而且模板文件往往与生成的文件高度相似,同样容易构成相同内容的外观。对搜索引擎很不友好,直接被搜索引擎狠狠地放入冷宫,翻不过去。很多cms都有独立的模板存放目录,所以要屏蔽模板目录。通常模板目录的文件目录为:templets
3)、CSS、JS目录的屏蔽
CSS 目录文件在搜索引擎的抓取中没有用处,并且不提供有价值的信息。因此,强烈建议站长朋友在Robots.txt文件中屏蔽,以遍历搜索引擎的索引质量。为搜索引擎提供一个干净简洁的索引环境更容易网站友好。CSS样式的目录通常是:CSS或style
JS文件在搜索引擎中无法识别,这只是一个建议,可以屏蔽,这样做还有一个好处:为搜索引擎提供简洁明了的索引环境;
4),屏蔽双页内容
以 DEDEcms 为例。我们都知道 DEDEcms 可以使用静态和动态 URL 来访问相同的内容。如果生成静态站点范围,则必须阻止动态地址的 URL 连接。这里有两个好处:1、搜索引擎对静态网址更友好,比动态网址更容易进入;2、避免静态和动态网址可以访问相同的文章,搜索引擎判断重复内容。这样做有利于搜索引擎的友好性。
5),模板缓存目录
许多 cms 程序都有一个缓存目录。我认为我们不需要提及这个缓存目录的好处。提高网站 的访问速度和减少网站 的带宽非常有用。用户体验也很棒。但是这样的缓存目录也有一定的弊端,那就是会导致搜索引擎反复爬取。网站 中的内容重复也是一个很大的牺牲,这对网站 是有害的。很多用cms搭站的朋友都没有注意到,有必要关注一下。
6)已删除目录
过多的死链接对于搜索引擎优化来说是致命的。不能不引起站长的高度重视。在网站的打开过程中,目录的删除和调整在所难免。假设当时你的网站目录不存在,那么就需要为这个目录屏蔽robots并返回准确的目录。404错误页面(注意:在IIS中,有些朋友在设置404错误时对设置有疑问。在自定义错误页面中,404错误的精确设置应该选择:默认值或文件,而不是它应该是:url,避免搜索引擎返回200的状态码,至于怎么设置,网上教程很多,自己查)
这里有个有争议的问题,网站后台处理目录是否需要屏蔽,原来是可选的。只要能保证网站的安全,假设你的网站操作计划很小,即使网站处理目录出现在robots.txt文件中,也没有太大的疑问. 我也见过很多这样的 网站 设置;但是假设你的网站运营计划比较大,竞争也比较多,强烈建议不要显示你的网站后台处理目录的任何信息,以免被恶意利用人并损害您的利益;原来的搜索引擎越来越智能,网站的处理目录 仍然可以完美识别和丢弃。另外,我们在处理网站的后台时,还可以在页面元标记中添加:阻止搜索引擎的抓取。
毕竟需要澄清的是,很多站长朋友喜欢把sitemap地址放在robots.txt文件中。当然,这并不是要屏蔽搜索引擎,而是让搜索引擎在第一次对网站进行索引时,可以快速通过站点地图。抓取 网站 内容。这里需要注意:1、站点地图的制作一定要规范;2、网站一定要有优质的内容。