谷歌网页视频抓取工具(奶爸建站笔记一下如何正确编写robots.txt文件助力网站SEO)
优采云 发布时间: 2021-10-04 15:18谷歌网页视频抓取工具(奶爸建站笔记一下如何正确编写robots.txt文件助力网站SEO)
对于新站长来说,他们可能不一定知道 robots.txt 文件的用途。所以不知道robots.txt和网站SEO是什么关系。
今天爸爸的建站笔记就和大家分享如何正确编写robots.txt文件,帮助网站SEO。
文章内容
什么是robots.txt
robots.txt 也称为机器人协议,它是互联网社区中流行的道德规范。
robots.txt 是位于 网站 根目录中的文本文件。用于通知搜索引擎哪些页面可以爬取,哪些页面不能爬取;网站中的一些较大的可以屏蔽文件,比如图片、音乐、视频等,节省服务器带宽;您可以阻止网站上的一些死链接。方便搜索引擎抓取网站的内容;设置地图链接,引导蜘蛛抓取页面。
如何创建robots.txt文件
您只需要使用记事本等文本编辑软件创建一个名为robots.txt的文本文件,然后将该文件上传到网站的根目录即可创建。
也可以使用robots生成工具在线生成。
如何编写robots.txt规则
仅创建 robots.txt 文件是不够的。本质就是自己写网站机器人规则。
robots.txt 支持以下规则
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
建议大家使用站长工具的robots生成工具来编写规则,这样会更简单明了。
机器人发电机
爸爸提醒:提示禁止:后面没有斜线表示允许整个网站被抓取。
WordPress robots.txt 规则推荐
wordpress安装后,默认会有一个robots.txt规则文件是虚拟的(即在网站目录下是看不到的,但是可以通过“URL/robots.txt”访问)
默认规则如下:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
这条规则意味着禁止所有搜索引擎抓取wp-admin文件夹的内容,但允许抓取文件/wp-admin/admin-ajax.php。
不过出于网站SEO和安全方面的考虑,老爸建议应该完善规则。以下是爸爸网站建设笔记的当前robots.txt规则。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
User-agent: YandexBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: YaK
Disallow: /
Sitemap: https://blog.naibabiji.com/sitemap_index.xml
上述规则在默认规则之上添加了以下两行:
Disallow: /wp-content/plugins/
Disallow: /?s=*
禁止爬取/wp-content/plugins/文件夹和URL为/?s=*的网页。
/wp-content/plugins/是WordPress插件目录,避免隐私风险被爬取(比如有些插件存在隐私泄露bug,正好被搜索引擎爬取。)
禁止抓取搜索结果页面,以免被他人用来刷权重:
网页网址是 /?s=*。这也是我爸最近发现的一个bug,被SEO灰产项目使用。
/?s=*的URL是WordPress网站的默认搜索结果页面,如下图:
基本上,大多数WordPress主题搜索页面的标题都是“关键字+网站标题”的组合。
但是这样会有一个问题,那就是百度有机会抓取这种网页。比如我爸有台的时候,被别人用就很麻烦。
接下来的几条规则是禁止特定搜索引擎抓取规则和站点地图地址链接。WordPress生成sitemaps_sitemap插件的几种方法推荐
如何检查robots.txt是否有效
创建并写入robots.txt规则后,可以使用百度站长的robots检测工具判断是否有效。
百度机器人检测