干货内容:码迷SEO独家内参(八) 从百度网页质量评估浅析个人怎么做流量站(下)
优采云 发布时间: 2022-11-24 07:33干货内容:码迷SEO独家内参(八) 从百度网页质量评估浅析个人怎么做流量站(下)
这是码粉SEO的第26篇原创文章
很多天前,摩天内容助理群里的一个同学问我站点,给了我2个旅游站点。
两个旅游网站的内容模板很相似,域名也不是很好用的老域名,但基本达到一个月5个的爱站
权重。
因为码粉之前主要做的是文艺流量站,没做过行业的。也说很新鲜。
今天,我们结合百度网页质量测评,和大家一起挖掘一下他们是怎么做到的。
因为毕竟自己努力做大了,所以代码爱好者都做了代码处理,尊重别人。
码友在《百度SEO内参》系列中一直强调一个原则,就是通过现象看规律,通过规律看本质,通过本质谈对策。
我们敬爱的毛爷爷也说过:“世上没有无缘无故的爱,也没有无缘无故的恨”。
网站火爆,一定是有原因的。
要么是过人精湛的SEO功力,要么就是辛苦了。
分析网站的思路
流量站码友认为主要有两种:垃圾流量站和优质流量站。
垃圾流量站看字基本能看出套路,但行业站因为行业性质不同,挖矿方式也不同。
码友一般按照以下流程进行挖掘。
1 看域名外链
2 到5118或爱站查看排名词和落地页类型
3 从网站标题找规律
4 从内容的构成中寻找规律
5 查看采集率看效果
" />
Step 1 查看域名外链
您可以在这里使用 Orange SEO 工具找到它。这个域名大约有 3 年的历史,不算太旧。另外,外链来源的域名只有20个左右,外链强度不高。
码友觉得奇怪,就去别的公司查了下外链,引用域不超过100个。
与附子的网站相比,这个域名的外链基本没有买链接的嫌疑,但是从历史锚文本来看,地域相关性很强,都是在重庆做生意的。
PS:重庆是直辖市。与北京相比,互联网竞争较小,但人口基数远高于其他直辖市。想一想,是不是很多SEO网站都喜欢在重庆做起?
结论:域名是老域名,没有黑点,地域相关性强,但外链不是很强。缓和。
第 2 步检查排名词和着陆页
我们在使用5118或者爱站工具的时候,可以看到这个站点还有很多索引词,除了首页的landing page,基本都在聚合页。
结论:关键词网站索引较多,说明是优质站点,登陆页多为聚合页。
Step 3 从网页标题中找到模式
我们在做网站内容的时候,不管是手动运行还是程序运行,都是先采集
标题,然后根据标题来生产内容。
然后做流量站,作为屌丝,不可能人为的,这辈子都得靠采集。毕竟自己连老婆都养不起,何必去养小编呢?
所以基本上交通站上的字都是一波接一波的。
这是一个小技巧:
使用谷歌查看该站点最近产生了哪些内容。
因为比起垃圾度娘,谷歌的采集
不仅及时,而且采集
率要高很多。
近一个月没发新页,难怪上升曲线有点弱~
然后翻看最近两个月,哦~,真是有新内容,从标题我们可以看出,标题主要有两种,一种是“多少钱”,一种是“有什么好玩的地方” “。
" />
“多少钱”类目关键词对应的是聚合列表页,所以另外一个词有多少内容。
“什么好玩的地方”内容不多,只有48条,继续挖掘吧。
《旅行路线》内容很多,1700多条
还有不少“团线、费用报价单”,400左右。
挖了这么多,迫不及待想看看标题是怎么来的。
结论:标题应该按{region}+{fixed root}批量生成
Step 4 从内容的构成中寻找规律
“有什么好玩的”类别
以一篇文章为例,我们使用谷歌搜索该段落的出处。一定不要用不是最新的度娘,因为度娘根本无法判断谁是原创的。
我们发现,这篇文章的每一段都是从百度百科、新浪、携程等5个以上的网站采集
整理而成。
找另一篇《旅行路线》的文章,大致看一遍。这是一种美德。
不过仔细一看,下面这篇文章其实介绍的是平利县旅游景点中的天枢峡景区、平利县龙头旅游村、千家坪、八仙乌真寺等,所以内容不是随便搜集拼凑的.
仔细看,下图红色区域,每篇文章都有这一段,在标题中收录
关键词,并生成内链。
总结:
干货教程:码迷SEO独家内参(三)学会这四招爬虫抢着来
关于百度蜘蛛的分类,元芳你怎么看这件事?
在知乎、搜外问答、QQ群里,很多同学都有这样的疑问:
百度爬虫多久爬一次?
百度爬虫采集多长时间?
百度爬虫多久更新一次?
本篇码友将带大家一起探讨一下百度爬虫规则频率相关的问题。我们的推导顺序是通过现象看规律,通过规律看本质,通过本质谈对策。
来吧,跟随码粉SEO,让我们一步步解开影响百度爬虫频率的因素和有效的优化策略。
上一篇码友和大家一起探讨了百度蜘蛛的爬行规则和蜘蛛的种类。
百度蜘蛛主要由两个蜘蛛组成:索引蜘蛛(123IP开头)和快照蜘蛛(220IP开头)。通过这两个蜘蛛的访问日志,基本可以反映出一个网站在百度眼中是高富帅还是差评。矬。
先来看4组爬虫数据:
码友从几个站点中选取了典型的爬虫日志数据,记录了索引蜘蛛(蓝色)和快照蜘蛛(橙色)的每日访问频率,并生成了可视化表格。我们可以从这里直观地分析规则。
第 1 组单站点单页
本站只有一个页面,做单页SEO,2019年4月上线,使用旧域名。
- 爬虫每日爬取频率不超过5次。
- 上线后有一波访问小高峰(这里写了1),爬取老域名历史页面。
第二批优质站持续打造
本站从一月份开始持续写文章,都是优质的原创内容。前面的文章基本没有快照。3月中旬左右,突然发布了大量快照。
目前每日pv 1000+。
- 百度爬虫的访问频率基本呈上升趋势。
- 灰色阴影区间为突然收录大量内页的时间节点,与索引蜘蛛频率基本一致。
第三组垃圾站持续更新中
淘旧域名,采集
文章上线后做垃圾站实验,每天采集
更新文章
- 灰色区域是两次小访问的峰值,应该是蜘蛛判断老页面访问是否正常。
- 旧页面正常后,百度爬虫频率趋于稳定。
- 采集更新文章后,引来一波蜘蛛访问高峰(尤其是高蓝线),页面比较差,没有快照蜘蛛访问。
- 依旧持续更新合集文章,但是爬虫的频率并没有明显增加。
第4组改版上线前后
Mamioo曾经是一个母婴网站,收录了1800左右,16年后没有新的更新。2019年7月开始改版,新增页面约20个,旧页面全部保留。
同时,主页的布局也发生了变化。以前是问答列表页,现在是摩天大楼介绍,也就是说首页的导出链接数量减少了。
- 改版上线一周左右,来了一波蜘蛛拜访小枫。可以理解为百度感知到你修改了。
" />
- 改版上线后(绿色箭头节点),蜘蛛访问量整体呈下降趋势。也就是说之前的老页面层级比较深,也会影响蜘蛛的访问频率。
百度爬虫规则总结
通过以上四组数据,基本同意我们的经验总结:
1、网站页面越多,并不代表蜘蛛访问的频率越高。
2、网站上有快照的页面越多,即网站质量越好,被索引的页面越多,蜘蛛访问的频率就越高。
3、网站的链接层次越合理,离首页越近的页面越多,蜘蛛访问的频率就越高。
通过百度专利探寻本质
百度爬虫多久爬一次,百度爬虫多久更新一次,百度爬虫爬完后多久采集一次,带着这些问题,码友带你一起去探寻百度的相关专利。
百度爬虫相关专利1:资源均衡策略
码友觉得《2.7 资源平衡的确定方法、装置、设备和存储介质》足以破译上述许多问题,也能让SEOer们深思。
百度对网站的爬取策略很大程度上参考了经济学中的基尼系数算法,有效平衡爬虫资源的分布。
百度专利是这样说的:
搜索资源是搜索引擎产品的基石。一个资源(一般是在资源站点更新的网页)从生成到呈现给搜索用户需要经过资源抓取和存储(即资源收录到资源库)。、召回(即资源分配)、排序、展示等一系列过程。其中,资源捕获和入库是召回的基础;请求召回的资源数量是资源抓取入库质量的有效指标,也是影响用户体验的主要因素。现有技术中,没有衡量资源库中资源采集
和分配平衡的方法。
本发明实施例提供一种资源平衡判断方法、装置、装置及存储介质。通过应用目标经济参数的计算方法来衡量经济分配的公平性,利用资源库在设定的时间间隔内对每个资源站点的资源采集
量和资源分配量,计算资源平衡的技术手段用于衡量资源库中资源采集
和分配平衡的参数,
码友大白话:排名靠前的网页数量占网站总数的比例,是决定爬虫爬取频率的重要指标。
百度专利还说:
[0086]
例如,余额阈值条件可以设置为:0.4-0.6。若计算出的资源均衡参数满足均衡阈值条件,则可以判断当前资源获取策略合理,资源收配过程较为均衡;如果计算出的资源平衡参数不满足平衡阈值条件,则可以判断当前的资源获取策略不合理,进而可以得到资源采集
量和资源分配量的差值超过设定的阈值(例如,资源采集
量-资源分发量大于1000,或资源分发量-资源采集
量大于1000的异常资源站点等)。
相应地,根据异常资源站点的资源采集量和资源分配量的差异类型(资源采集量大于资源分配量,或资源分配量大于资源采集量),异常资源站点 对资源爬取策略进行自适应调整(例如:增加或减少异常资源站点的爬取频率和/或爬取深度等)。
代码爱好者的大白话:垃圾内容越来越少爬虫
百度爬虫相关专利2:IP和域名的爬虫分配策略
《CN2.8一种网站数据抓取装置及方法》
本发明提供一种抓取网站数据的装置及方法,能够更合理、更快速地抓取网站数据,使得搜索引擎抓取到的网站数据在有限的资源下得到尽可能多的更新。等级。
具体方案如下:提供一种网站数据抓取方法,包括:a.获取多个爬虫日志,形成日志文件,其中所述每个爬虫日志包括相互关联的站点名称、IP地址、站点数据和爬取时间;b. 将日志文件合并到基于站点名称的合并日志文件中,在合并日志文件中,每个站点名称关联一个或多个爬虫日志中站点名称关联的IP地址,每个站点名称进一步与爬虫日志中站点名称相关联的抓取时间和网站数据相关联;C。以IP地址为参考,对合并后的日志文件进行逆向,得到逆向后的日志文件。在反向日志文件中,每个 IP 地址都与一个或多个合并日志文件相关联。所述站点名称中与所述IP地址相关联的站点名称,每个所述站点名称还与所述合并日志文件中与所述站点名称相关的抓取时间和网站数据相关联;d. 将日志文件中每个IP地址下的站点名称应用策略计算,得到多个按优先级排列的待抓站点名称和对应的待抓IP地址,形成待抓列表。
代码爱好者的大白话:
相同IP的网站会优先抓取权重高的网站,抓取次数根据服务器性能预估。
如果一个服务器一天最多能有1000个IP,里面有8个站,权重最高的站每天更新10000个内容,那么其他站连被爬虫访问的机会都没有。
百度爬虫的SEO优化策略
根据百度的专利,一个网页被搜索和点击的概率、网站上的网页数量、IP资源的分配都会影响爬虫的访问频率。通过以上百度分析,码友总结了一个爬虫频率公式如下。我们暂时称它为 Code Fans Crawler。频率公式
百度爬虫频率=链接发现概率*有效排名页面占比*有效收录页面数量-同IP其他网站数量*其他网站权重
显然,如果我们想要吸引百度爬虫蜘蛛,我们可以使用以下手段
" />
策略 1 增加链接发现机会
如果网站的外部链接越多,爬虫找到它的机会也越大。
所以很多人问:蜘蛛池有用吗?
码友还没有发现外链和爬虫的关系,但是根据以往的经验,一个网站的外链越有效,就越容易被百度蜘蛛发现。蜘蛛池只会增加网页被蜘蛛抓取的机会。不过码友这里没有证据证明蜘蛛池可以提高有效采集
率。
蜘蛛池是有效的,但蜘蛛池本质上是一个站点组系统。如果蜘蛛池里的内容是灰色地带的内容,建议对合法行业的网站尽量保持距离。
策略二:增加有效排名页面的比例和有效索引页面的数量
新站如何吸引爬虫?
我的网站上线很久了,发了很多内容,为什么不收录?
持续的优质内容输出,一方面提高百度的有效索引率,另一方面提高搜索曝光率是吸引蜘蛛最重要的方式。
如果你消耗了百度的爬虫资源,就算了,即使百度收录了你的网页,也没有人来搜索或者没有前三页的排名。
如果百度认为你的网站内容多到没人会用,这就和狼的故事一样。
策略 3 将网站迁移到单独的 IP 地址
这个不解释
攻略4高级爬虫吸引手段
某些行业的老师会使用蜘蛛池来增加链接发现的机会,使用泛目录程序生成大量的内容页面,增加有效收录页面的数量。
这时候怎么让百度觉得你生成的网页被别人搜索和浏览,从而提高有效排名页面的比例,那么你查过快速排名吗?
给朋友的问题
百度爬虫多久爬一次?
这取决于您网站上的页面数量和网站质量。一般单页站点一天一次左右。
您从百度获得的流量越多,爬虫就越难爬。
百度爬虫采集多长时间?
首先,新站点被抓取后,不会立即被收录。如果内容质量好,不断补充内容,估计1个月左右。
其次,优质老站当天收录,即秒收录。
最后,垃圾站就看你的态度了。垃圾内容越多,收录的就越少。
百度爬虫多久更新一次?
有两种情况:
类型一:网站内容被爬虫访问后,如果内容质量垃圾,在索引蜘蛛访问后的1-3天内,如果没有快照蜘蛛访问,会很长时间没有更新。
第二种,网站内容质量好,快照蜘蛛访问后1-3天内更新快照。否则,您的站点还没有通过检查期,并且需要1-3个月。
福利在文末
今天就到此为止,下一节我们再分析一个案例。
微信公众号优质评论前10名,将获得码友组织的66个百度专利,先到先得。
本系列首发于公众号“码粉SEO”,未经许可不得转载。
关于代码爱好者:
7年SEOer,摩天内容助手作者,专注SEO算法研究,提倡精益科学SEO识别。,欢迎志同道合的人加入我一起交流。