php 抓取网页标题(很多建站新手对robots.txt文件的重要作用很清楚)

优采云 发布时间: 2022-01-29 22:02

  php 抓取网页标题(很多建站新手对robots.txt文件的重要作用很清楚)

  很多新手网站建设者对 robots.txt 文件的重要作用不是很清楚。用这个文章普及WordPress网站编写robots.txt文件的知识。

  最近发现搜索引擎收录有很多“夏末微笑博客”的重复页面。当然,这与前段时间删除网站根目录下的Robots.txt文件有直接关系。机器人 .txt 文件是用于告诉搜索引擎实施机器人协议的文件。我们在 Robots.txt 文件中编写 Robots 协议来告诉搜索引擎我的 网站 的哪些页面可以是 收录 哪些页面不是。是的 收录。

  当搜索引擎机器人访问网站时,它会首先在站点的根目录中查找robots.txt文件。如果有这个文件,收录的范围会根据文件的内容来确定。如果没有,则默认访问收录所有页面。另外,当搜索蜘蛛发现robots.txt文件不存在时,会在服务器上产生404错误日志,从而增加服务器的负担。因此,在站点中添加 robots.txt 文件仍然非常重要。

  那为什么要删除我们网站下的Robots.txt文件呢?这与搜索引擎不久前无法抓取服务器 文章 图片有关。为了让搜索引擎更好地抓取网站内容,我最终决定删除Robots.txt文件。让搜索引擎蜘蛛抓取我们所有的 网站 内容。

  当然,效果是有的。目前搜索引擎索引页网站的图片率已经正常,但是随着图片率的恢复,文章重复页面的收录的问题是也出现了,大家都知道WordPress是一个动态建站程序,它不像织梦cms和帝国cms的静态网站,所以我们使用WordPress构建它网站 @网站以后一般先要进行伪静态设置,这也是搜索引擎更好抓取网站内容的必要设置。

  什么是机器人?Robots 是 网站 和爬虫之间的协议。它告诉相应的爬虫简单直接的txt格式文本所允许的权限。也就是说,在搜索引擎中访问网站时要查看Robots.txt。的第一个文件。当搜索蜘蛛访问一个站点时,它会首先检查站点根目录中是否存在 Robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果文件不存在, all 的搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。

  什么是动态地址?什么是静态地址?但是我们设置了伪静态,搜索引擎还是会爬取动态地址。这里你可能有点不明白。让我给你解释一下。比如我们用WordPress发布了一篇文章文章,而这个文章我们不设置伪静态的时候,他的文章链接就是默认的动态地址,比如:你的URL /?p=123,而我们设置了伪静态规则后,他的地址就是“你的URL/123.html”这样的静态链接地址,而当搜索引擎蜘蛛在抓取内容,他看到两个标题相同但地址不同的 URL 链接。于是他以为是两个文章,于是爬回了两个指向同一个文章的链接,导致重复收录 在我们的搜索引擎索引页面问题。示例:静态:动态;

  一种是动态页地址,另一种是静态页地址。这就是我们上面提到的文章repetitive收录问题。如果这个问题严重,会导致网站被降级甚至被封号。K 本身也会导致相关页面的权重分散,那么我们的 WordPress 有没有办法避免这种情况呢?答案是肯定的,这就是我们这篇文章要讲的,通过设置Robots协议告诉搜索引擎我们WordPress的哪些页面网站可以收录,哪些页面不能收录@ >。

  如何编写 WordPress 的 Robots 协议?如何在 WordPress 上编写 Robots 协议?知道大家在网上查了很多大神的相关教程,又因为每个大神要向搜索引擎展示不同的网站内容,所以他们的Robots协议设置也不同,但一般都会通过这些两行代码”

  禁止:/wp-admin/

  禁止:/wp-includes/

  “要禁止搜索引擎蜘蛛爬取相关的WordPress网站根目录,这里的“Disallow:”就是禁止爬取的意思,我们来看看Robots协议是怎么写的。

  机器人协议命令

  用户代理:

  User-agent:用于指定搜索引擎。这里我们网站一般是允许搜索引擎访问的,所以写成“User-agent:*”,其中“*”是通用的命令字符。

  不允许:

  我们上面说过“Disallow:”表示禁止爬取,使用“Disallow:”我们告诉搜索引擎那些网站内容是不允许的收录和爬取。

  允许:

  “允许:”表示允许,即我用“允许:”告诉搜索引擎网站内容可以被收录抓取。

  网站地图:

  “Sitemap:”用于告诉搜索引擎在哪里抓取我们的 网站map Sitemap.xml 文件。

  我根据网上大神分享的Robots协议重写了WordPress Robots协议

  用户代理: *

  允许: *

  禁止:/wp-admin/

  禁止:/wp-content/

  禁止:/wp-includes/

  禁止:/wp-

  禁止:/wp-*

  禁止:/wp-*.php

  禁止:/wp-content/plugins

  禁止:/wp-content/themes

  禁止:/*?connect=*

  禁止:/page/

  禁止:/page/*

  禁止:/*/*/page/

  禁止:/page/1$

  不允许:/日期/

  禁止:/xmlrpc.php

  禁止:/*/comment-page-*

  不允许:/*?replytocom=*

  不允许:/category/*/page/

  禁止:/tag/*/page/

  禁止:/trackback/

  禁止:/*/trackback

  不允许:*/trackback

  禁止:/*/*/trackback

  禁止:/feed

  禁止:/feed/

  禁止:/*/feed

  不允许:*/feed

  不允许:*/feed*/feed

  禁止:/*/*/feed

  禁止:/评论/

  禁止:/comments/feed

  不允许:/?s=*

  不允许:/*/?s=*\

  不允许:/*/?s=*

  不允许:/?p=*

  不允许:/?p=*&preview=true

  不允许:/?page_id=*&preview=true

  禁止:/附件/

  禁止:/wp-login.php

  允许:/wp-content/uploads/

  站点地图:您的 网站地址/sitemap.xml

  以上是我重写的一些大神的WordPress Robots协议。这里我在“User-agent:*”下面添加了一个“Allow:*”命令所有搜索引擎都可以抓取网站,然后就是我们要禁止收录的一些网站内容@>,因为我们应该告诉搜索引擎我们网站可以收录爬取,然后要求他遵守我们设置的一些规则,可以是收录,哪些不能是 收录。

  1:User-agent:* 启动配置:所有搜索引擎

  2:允许:*允许所有搜索引擎访问*目录(包括子目录)

  3:Disallow:/wp-admin/禁止所有搜索引擎访问/wp-admin目录

  4:Disallow:/wp-content/禁止所有搜索引擎访问/wp-content目录

  5:Disallow:/wp-includes/禁止所有搜索引擎访问/wp-includes目录

  6:Disallow:/wp-禁止所有搜索引擎访问/wp-目录(包括子目录)

  7:Disallow:/wp-*禁止所有搜索引擎访问/wp-*目录(包括子目录)

  8:Disallow:/wp-*.php 禁止所有搜索引擎访问根目录下的wp-*.php文件

  9:Disallow:/wp-content/plugins禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录)

  10:Disallow:/wp-content/themes禁止所有搜索引擎访问/wp-content/themes目录(包括子目录)

  11: Disallow: /*?connect=* 禁止所有搜索引擎访问 /*, 参数为connect=*的页面

  12:Disallow:/page/禁止所有搜索引擎访问/page目录

  13:Disallow:/page/*禁止所有搜索引擎访问/page/*目录(包括子目录)

  14: Disallow: /*/*/page/ 禁止所有搜索引擎访问/*/*/page目录

  15: Disallow: /page/1 如果你想把沉醉换成悲伤,唱歌的时候别伤了你的心。这个混乱的世界充满了绝望和悲伤。你想成为一个勇敢的人,为爱和信仰而奋勇拼搏。nbsp; 阻止所有搜索引擎访问所有以 /page 结尾的文件

  16:Disallow:/date/禁止所有搜索引擎访问/date目录

  17:Disallow:/xmlrpc.php禁止所有搜索引擎访问根目录下的xmlrpc.php文件

  18:Disallow:/*/comment-page-*禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录)

  19: Disallow: /*?replytocom=* 禁止所有搜索引擎访问/*,参数为replytocom=*的页面

  20:Disallow:/category/*/page/禁止所有搜索引擎访问/category/*/page目录

  21:Disallow:/tag/*/page/禁止所有搜索引擎访问/tag/*/page目录

  22:Disallow:/trackback/禁止所有搜索引擎访问/trackback目录

  23:Disallow: /*/trackback 禁止所有搜索引擎访问/*/trackback目录(包括子目录)

  24:Disallow: */trackback 禁止所有搜索引擎访问 */trackback 目录(包括子目录)

  25:Disallow: /*/*/trackback 禁止所有搜索引擎访问/*/*/trackback目录(包括子目录)

  26:Disallow:/feed禁止所有搜索引擎访问/feed目录(包括子目录)

  27: Disallow: /feed/ 禁止所有搜索引擎访问 /feed 目录

  28: Disallow: /*/feed 禁止所有搜索引擎访问/*/feed目录(包括子目录)

  29:Disallow: */feed 禁止所有搜索引擎访问 */feed 目录(包括子目录)

  30: Disallow: */feed*/feed 禁止所有搜索引擎访问 */feed*/feed 目录(包括子目录)

  31: Disallow: /*/*/feed 禁止所有搜索引擎访问/*/*/feed目录(包括子目录)

  32: Disallow: /comments/ 禁止所有搜索引擎访问/comments目录

  33: Disallow: /comments/feed 禁止所有搜索引擎访问/comments/feed目录(包括子目录)

  34: Disallow: /?s=* 禁止所有搜索引擎访问任何带参数的页面

  35: Disallow: /*/?s=*\ 禁止所有搜索引擎访问/*/?s=*目录下带参数的任何页面

  36: Disallow: /*/?s=* 禁止所有搜索引擎访问/*目录下带参数的任何页面

  37: Disallow: /?p=* 禁止所有搜索引擎访问任何带参数的页面

  38: Disallow: /?p=*&preview=true 禁止所有搜索引擎访问任何带参数的页面

  39:Disallow: /?page_id=*&preview=true 禁止所有搜索引擎访问任何带参数的页面

  40: Disallow: /attachment/ 禁止所有搜索引擎访问 /attachment 目录

  41: Disallow: /wp-login.php 禁止所有搜索引擎访问根目录下的wp-login.php文件

  42: Allow: /wp-content/uploads/ 允许所有搜索引擎访问/wp-content/uploads目录

  43:网站地图:

  站点地图地址:

  WordPressRobots 文件下载

  链接:提取码:uxae

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线