php 抓取网页标题(很多建站新手对robots.txt文件的重要作用很清楚)
优采云 发布时间: 2022-01-29 22:02php 抓取网页标题(很多建站新手对robots.txt文件的重要作用很清楚)
很多新手网站建设者对 robots.txt 文件的重要作用不是很清楚。用这个文章普及WordPress网站编写robots.txt文件的知识。
最近发现搜索引擎收录有很多“夏末微笑博客”的重复页面。当然,这与前段时间删除网站根目录下的Robots.txt文件有直接关系。机器人 .txt 文件是用于告诉搜索引擎实施机器人协议的文件。我们在 Robots.txt 文件中编写 Robots 协议来告诉搜索引擎我的 网站 的哪些页面可以是 收录 哪些页面不是。是的 收录。
当搜索引擎机器人访问网站时,它会首先在站点的根目录中查找robots.txt文件。如果有这个文件,收录的范围会根据文件的内容来确定。如果没有,则默认访问收录所有页面。另外,当搜索蜘蛛发现robots.txt文件不存在时,会在服务器上产生404错误日志,从而增加服务器的负担。因此,在站点中添加 robots.txt 文件仍然非常重要。
那为什么要删除我们网站下的Robots.txt文件呢?这与搜索引擎不久前无法抓取服务器 文章 图片有关。为了让搜索引擎更好地抓取网站内容,我最终决定删除Robots.txt文件。让搜索引擎蜘蛛抓取我们所有的 网站 内容。
当然,效果是有的。目前搜索引擎索引页网站的图片率已经正常,但是随着图片率的恢复,文章重复页面的收录的问题是也出现了,大家都知道WordPress是一个动态建站程序,它不像织梦cms和帝国cms的静态网站,所以我们使用WordPress构建它网站 @网站以后一般先要进行伪静态设置,这也是搜索引擎更好抓取网站内容的必要设置。
什么是机器人?Robots 是 网站 和爬虫之间的协议。它告诉相应的爬虫简单直接的txt格式文本所允许的权限。也就是说,在搜索引擎中访问网站时要查看Robots.txt。的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查站点根目录中是否存在 Robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果文件不存在, all 的搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。
什么是动态地址?什么是静态地址?但是我们设置了伪静态,搜索引擎还是会爬取动态地址。这里你可能有点不明白。让我给你解释一下。比如我们用WordPress发布了一篇文章文章,而这个文章我们不设置伪静态的时候,他的文章链接就是默认的动态地址,比如:你的URL /?p=123,而我们设置了伪静态规则后,他的地址就是“你的URL/123.html”这样的静态链接地址,而当搜索引擎蜘蛛在抓取内容,他看到两个标题相同但地址不同的 URL 链接。于是他以为是两个文章,于是爬回了两个指向同一个文章的链接,导致重复收录 在我们的搜索引擎索引页面问题。示例:静态:动态;
一种是动态页地址,另一种是静态页地址。这就是我们上面提到的文章repetitive收录问题。如果这个问题严重,会导致网站被降级甚至被封号。K 本身也会导致相关页面的权重分散,那么我们的 WordPress 有没有办法避免这种情况呢?答案是肯定的,这就是我们这篇文章要讲的,通过设置Robots协议告诉搜索引擎我们WordPress的哪些页面网站可以收录,哪些页面不能收录@ >。
如何编写 WordPress 的 Robots 协议?如何在 WordPress 上编写 Robots 协议?知道大家在网上查了很多大神的相关教程,又因为每个大神要向搜索引擎展示不同的网站内容,所以他们的Robots协议设置也不同,但一般都会通过这些两行代码”
禁止:/wp-admin/
禁止:/wp-includes/
“要禁止搜索引擎蜘蛛爬取相关的WordPress网站根目录,这里的“Disallow:”就是禁止爬取的意思,我们来看看Robots协议是怎么写的。
机器人协议命令
用户代理:
User-agent:用于指定搜索引擎。这里我们网站一般是允许搜索引擎访问的,所以写成“User-agent:*”,其中“*”是通用的命令字符。
不允许:
我们上面说过“Disallow:”表示禁止爬取,使用“Disallow:”我们告诉搜索引擎那些网站内容是不允许的收录和爬取。
允许:
“允许:”表示允许,即我用“允许:”告诉搜索引擎网站内容可以被收录抓取。
网站地图:
“Sitemap:”用于告诉搜索引擎在哪里抓取我们的 网站map Sitemap.xml 文件。
我根据网上大神分享的Robots协议重写了WordPress Robots协议
用户代理: *
允许: *
禁止:/wp-admin/
禁止:/wp-content/
禁止:/wp-includes/
禁止:/wp-
禁止:/wp-*
禁止:/wp-*.php
禁止:/wp-content/plugins
禁止:/wp-content/themes
禁止:/*?connect=*
禁止:/page/
禁止:/page/*
禁止:/*/*/page/
禁止:/page/1$
不允许:/日期/
禁止:/xmlrpc.php
禁止:/*/comment-page-*
不允许:/*?replytocom=*
不允许:/category/*/page/
禁止:/tag/*/page/
禁止:/trackback/
禁止:/*/trackback
不允许:*/trackback
禁止:/*/*/trackback
禁止:/feed
禁止:/feed/
禁止:/*/feed
不允许:*/feed
不允许:*/feed*/feed
禁止:/*/*/feed
禁止:/评论/
禁止:/comments/feed
不允许:/?s=*
不允许:/*/?s=*\
不允许:/*/?s=*
不允许:/?p=*
不允许:/?p=*&preview=true
不允许:/?page_id=*&preview=true
禁止:/附件/
禁止:/wp-login.php
允许:/wp-content/uploads/
站点地图:您的 网站地址/sitemap.xml
以上是我重写的一些大神的WordPress Robots协议。这里我在“User-agent:*”下面添加了一个“Allow:*”命令所有搜索引擎都可以抓取网站,然后就是我们要禁止收录的一些网站内容@>,因为我们应该告诉搜索引擎我们网站可以收录爬取,然后要求他遵守我们设置的一些规则,可以是收录,哪些不能是 收录。
1:User-agent:* 启动配置:所有搜索引擎
2:允许:*允许所有搜索引擎访问*目录(包括子目录)
3:Disallow:/wp-admin/禁止所有搜索引擎访问/wp-admin目录
4:Disallow:/wp-content/禁止所有搜索引擎访问/wp-content目录
5:Disallow:/wp-includes/禁止所有搜索引擎访问/wp-includes目录
6:Disallow:/wp-禁止所有搜索引擎访问/wp-目录(包括子目录)
7:Disallow:/wp-*禁止所有搜索引擎访问/wp-*目录(包括子目录)
8:Disallow:/wp-*.php 禁止所有搜索引擎访问根目录下的wp-*.php文件
9:Disallow:/wp-content/plugins禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录)
10:Disallow:/wp-content/themes禁止所有搜索引擎访问/wp-content/themes目录(包括子目录)
11: Disallow: /*?connect=* 禁止所有搜索引擎访问 /*, 参数为connect=*的页面
12:Disallow:/page/禁止所有搜索引擎访问/page目录
13:Disallow:/page/*禁止所有搜索引擎访问/page/*目录(包括子目录)
14: Disallow: /*/*/page/ 禁止所有搜索引擎访问/*/*/page目录
15: Disallow: /page/1 如果你想把沉醉换成悲伤,唱歌的时候别伤了你的心。这个混乱的世界充满了绝望和悲伤。你想成为一个勇敢的人,为爱和信仰而奋勇拼搏。nbsp; 阻止所有搜索引擎访问所有以 /page 结尾的文件
16:Disallow:/date/禁止所有搜索引擎访问/date目录
17:Disallow:/xmlrpc.php禁止所有搜索引擎访问根目录下的xmlrpc.php文件
18:Disallow:/*/comment-page-*禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录)
19: Disallow: /*?replytocom=* 禁止所有搜索引擎访问/*,参数为replytocom=*的页面
20:Disallow:/category/*/page/禁止所有搜索引擎访问/category/*/page目录
21:Disallow:/tag/*/page/禁止所有搜索引擎访问/tag/*/page目录
22:Disallow:/trackback/禁止所有搜索引擎访问/trackback目录
23:Disallow: /*/trackback 禁止所有搜索引擎访问/*/trackback目录(包括子目录)
24:Disallow: */trackback 禁止所有搜索引擎访问 */trackback 目录(包括子目录)
25:Disallow: /*/*/trackback 禁止所有搜索引擎访问/*/*/trackback目录(包括子目录)
26:Disallow:/feed禁止所有搜索引擎访问/feed目录(包括子目录)
27: Disallow: /feed/ 禁止所有搜索引擎访问 /feed 目录
28: Disallow: /*/feed 禁止所有搜索引擎访问/*/feed目录(包括子目录)
29:Disallow: */feed 禁止所有搜索引擎访问 */feed 目录(包括子目录)
30: Disallow: */feed*/feed 禁止所有搜索引擎访问 */feed*/feed 目录(包括子目录)
31: Disallow: /*/*/feed 禁止所有搜索引擎访问/*/*/feed目录(包括子目录)
32: Disallow: /comments/ 禁止所有搜索引擎访问/comments目录
33: Disallow: /comments/feed 禁止所有搜索引擎访问/comments/feed目录(包括子目录)
34: Disallow: /?s=* 禁止所有搜索引擎访问任何带参数的页面
35: Disallow: /*/?s=*\ 禁止所有搜索引擎访问/*/?s=*目录下带参数的任何页面
36: Disallow: /*/?s=* 禁止所有搜索引擎访问/*目录下带参数的任何页面
37: Disallow: /?p=* 禁止所有搜索引擎访问任何带参数的页面
38: Disallow: /?p=*&preview=true 禁止所有搜索引擎访问任何带参数的页面
39:Disallow: /?page_id=*&preview=true 禁止所有搜索引擎访问任何带参数的页面
40: Disallow: /attachment/ 禁止所有搜索引擎访问 /attachment 目录
41: Disallow: /wp-login.php 禁止所有搜索引擎访问根目录下的wp-login.php文件
42: Allow: /wp-content/uploads/ 允许所有搜索引擎访问/wp-content/uploads目录
43:网站地图:
站点地图地址:
WordPressRobots 文件下载
链接:提取码:uxae