搜索引擎如何抓取网页(被搜索引擎抓取是让网站获得好的搜索排名的第一步)

优采云 发布时间: 2022-02-09 10:04

  搜索引擎如何抓取网页(被搜索引擎抓取是让网站获得好的搜索排名的第一步)

  ?? 被搜索引擎爬取是网站获得好的搜索排名的第一步,那么如何让他容易被爬取呢?今天,时代财富网就和我们聊聊这件事。

  

  ??1、简单明了网站结构

  ?? 爬虫相当于遍历web的有向图,所以一个简单、清晰、有条理的网站一定是自己喜欢的,尽量保证爬虫的可读性。

  ??(1)树形结构的最优结构是“首页-频道-详情页”;

  ??(2)平面首页到详情页的层级要尽量少,对爬取友好,能很好的传递权重。

  ??(3)Net保证每个页面至少有一个文本链接可以指向,这样网站可以尽可能全面的爬取收录,内链建设也可以产生积极影响。

  ??(4)Navigation 为每个页面添加导航,以便用户知道路径。

  ??(5)子域和目录的选择相信被大量站长质疑。在我们看来,当内容较少,内容相关度高的时候,建议在目录的形式,有利于权重的继承和收敛;当内容较大,与主站相关性稍差时,建议以子域的形式实现。

  ??2、简洁美观的url规则

  ??(1)唯一网站同一内容页面只对应一个url,url过多会分散页面权重,系统风险中过滤目标url;

  ??(2)动态参数尽量少,url尽量短;

  ??(3)美学让用户和机器通过url来判断页面的内容;我们推荐如下的url形式:url尽量短,便于阅读,方便用户快速理解,比如使用拼音作为目录名;相同的内容在系统中只生成一个唯一对应的url,去掉无意义的参数;如果不能保证url的唯一性,尝试对目标url做不同形式的url301 ; 防止用户在主域名中输入错误的备用域名301。

  ??3、其他说明

  ??(1)不要忽略不幸的robots文件。默认情况下,部分系统robots被搜索引擎禁止抓取。当网站建立时,检查并写入相应的robots文件时间,网站@ >日常维护时注意定期检查;

  ??(2)创建网站站点地图文件和死链接文件,并通过百度站长平台及时提交;

  ??(3)部分电商网站存在地域跳转的问题,如果没有库存,建议创建统一页面,说明有没有就够了页面有存货,本区无存货请勿返回。无效页面,由于spider的导出限制,正常页面无法收录。

  ??(4)合理利用站长平台提供的robots、sitemap、索引量、爬取压力、死链提交、网站revision等工具。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线