php如何抓取网页内容(百度搜索引擎网站设置的协议对一个网站的抓取频次的影响)

优采云 发布时间: 2021-11-04 12:25

  php如何抓取网页内容(百度搜索引擎网站设置的协议对一个网站的抓取频次的影响)

  蜘蛛爬取系统包括链接存储系统、链接选择系统、dns分析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

  百度蜘蛛根据上面网站设置的协议抓取站点页面,但不可能对所有站点一视同仁。它会综合考虑网站的实际情况,确定一个抓取额度,每天对网站内容进行定量抓取,也就是我们常说的抓取频率。

  那么百度搜索引擎是用什么指标来判断爬取一个网站的频率的。主要有四个指标:

  1、网站更新频率

  更新来得快,更新来得慢,直接影响百度蜘蛛的访问频率;

  2、网站更新质量

  更新频率增加了,这才引起了百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果百度蜘蛛每天更新的大量内容被判定为低质量页面,仍然没有意义;

  3、连通性

  网站应该是安全稳定的,对百度蜘蛛保持开放。经常养百度蜘蛛可不是什么好事;

  4、网站评价

  百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。是百度搜索引擎对网站的基本评分(不是外界所说的百度权重),是百度内部非常保密的。数据。网站评分从不单独使用,会与其他因素和阈值共同影响网站的爬取和排名。

  百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引库建了多少页,也就是我们常说的“建库”。

  众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到低级别的图书馆作为补充资料。

  目前60%的检索需求只调用重要的索引库就可以满足,这就解释了为什么有些网站的收录量超高,但流量并不理想。

  哪些网页可以进入优质索引库?

  其实总的原则是一个:对用户有价值。

  包括但不仅限于:

  1、时间敏感和有价值的页面

  在这里,及时性和价值是平行关系,两者缺一不可。有的网站为了生成时间敏感的内容页面,做了很多采集的工作,结果产生了一堆百度不想看到的毫无价值的页面;

  2、高质量内容的专题页面

  专页的内容可能不完全原创,即可以很好的整合各方内容,或者添加一些新鲜的内容,比如意见、评论,给用户更全面的内容;

  3、高价值原创内容页

  百度将原创定义为文章花费一定的成本和大量的经验后形成的。不要问我们伪原创是不是原创;

  4、重要的个人页面

  这里只是一个例子。科比已经在新浪微博上开设了账号,需要不经常更新,但对于百度来说,它仍然是一个极其重要的页面。

  哪些页面不能建索引库

  上述优质网页均收录在索引库中。其实网上的大部分网站根本就不是百度的收录。不是百度没找到,而是建库前的筛选链接被过滤掉了。那么一开始被过滤掉了什么样的网页:

  1、 重复内容的网页:百度无需收录 任何已经在互联网上的内容。

  2、主要内容短而空的网页

  2.1、 部分内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户访问时可以看到丰富的内容,但还是会被搜索引擎抛弃

  2.2、 加载过慢的网页也可能被视为空的短页面。请注意,广告加载时间收录在网页的整体加载时间中。

  2.3、很多主题不显眼的网页,即使爬回来也会被丢弃在这个链接里。

  3、一些作弊页面

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线