txt的其他规则出于安全,建议您阻止您的网站页面进行搜索索引
优采云 发布时间: 2021-04-01 07:05txt的其他规则出于安全,建议您阻止您的网站页面进行搜索索引
请注意,.txt文件中的“”命令与页面标题中的元描述效果不完全相同。您的.txt将阻止抓取,但除网站文件(例如图片和文档)外,它可能未编入索引。如果搜索引擎从其他地方链接,它们仍然可以为您的“不允许抓取”页面编制索引。
因此,Gold不再使用.txt禁止规则来阻止对网站页进行搜索和索引。相反,我们使用元标记,这也可以帮助和其他搜索引擎为网站上的内容正确分配它们的入站链接值。
建议保持.txt整洁,并且不要阻止以下任何内容:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-content/plugins/
Disallow: /wp-includes/
还同意理想的.txt文件不应禁止任何内容。实际上,/ wp-//和/ wp- /目录收录图像或CSS文件,您的主题和插件可能会使用这些图像或CSS文件正确显示网站。阻止这些目录意味着插件和所有脚本,样式以及图像都将被阻止,这使其他搜索引擎的爬网程序很难分析和理解您的网站内容。同样,您也不应从/ wp-//停止。
简而言之,禁止您的资源,上载和插件目录。许多人声称可以增强网站的安全性,并防止任何有针对性的易受攻击的插件被利用,但实际上这样做弊大于利,特别是在SEO方面。或者,您应该卸载这些不安全的插件以更实用。
这就是为什么我们默认从.txt中删除这些规则的原因。但是,您仍可能希望将它们收录在.txt中。
建议收录文件
尽管强烈建议您直接将XML网站地图直接提交给Bing 网站管理员工具,但仍可以将其添加到.txt,以帮助搜索引擎快速抓取收录您的网站页面。
Sitemap: http://yourdomain.com/post-sitemap.xml
Sitemap: http://yourdomain.com/page-sitemap.xml
Sitemap: http://yourdomain.com/author-sitemap.xml
Sitemap: http://yourdomain.com/offers-sitemap.xml
.txt的其他规则
为了安全起见,建议您阻止对.html,.txt和wp-。php文件的访问,以使未经授权的人员无法检查和查看您使用的版本。
User-agent: *
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
您还可以使用.txt为不同的搜索引擎采集器自定义不同的搜寻规则,如以下示例所示。
# block Googlebot from crawling the entire website
User-agent: Googlebot
Disallow: /
# block Bingbot from crawling refer directory
User-agent: Bingbot
Disallow: /refer/
这是防止蜘蛛抓取搜索结果的方法。强烈建议添加以下规则:
User-agent: *
Disallow: /?s=
Disallow: /search/
Host&-是您可能考虑使用的其他.txt指令,尽管它不是很流行。第一个命令允许您指定网站的首选域(www或非www):
User-agent: *
#we prefer non-www domain
host: yourdomain.com
以下规则用于告诉搜索引擎蜘蛛在每次爬网之前要等待几秒钟。
User-agent: *
#please wait for 8 seconds before the next crawl
crawl-delay: 8
完成.txt
总而言之,我们建议.txt的内容编写如下:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s=
Disallow: /search/
#we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)
host: yourdomain.com
#please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数)
crawl-delay: 8
Sitemap: http://yourdomain.com/post-sitemap.xml
提醒:上面的完整.txt仅供参考。请根据您的实际情况写内容。用户-:*规则对所有搜索引擎蜘蛛都通用;•规则允许爬网;•规则即不允许爬网; host:规则用于指定网站的首选域; -:规则用于设置爬网程序的爬网间隔;;规则用于设置网站的映射地址。