搜索引擎如何抓取网页(被搜索引擎抓取是让网站获得好的搜索排名的第一步)
优采云 发布时间: 2022-02-09 10:04搜索引擎如何抓取网页(被搜索引擎抓取是让网站获得好的搜索排名的第一步)
?? 被搜索引擎爬取是网站获得好的搜索排名的第一步,那么如何让他容易被爬取呢?今天,时代财富网就和我们聊聊这件事。
??1、简单明了网站结构
?? 爬虫相当于遍历web的有向图,所以一个简单、清晰、有条理的网站一定是自己喜欢的,尽量保证爬虫的可读性。
??(1)树形结构的最优结构是“首页-频道-详情页”;
??(2)平面首页到详情页的层级要尽量少,对爬取友好,能很好的传递权重。
??(3)Net保证每个页面至少有一个文本链接可以指向,这样网站可以尽可能全面的爬取收录,内链建设也可以产生积极影响。
??(4)Navigation 为每个页面添加导航,以便用户知道路径。
??(5)子域和目录的选择相信被大量站长质疑。在我们看来,当内容较少,内容相关度高的时候,建议在目录的形式,有利于权重的继承和收敛;当内容较大,与主站相关性稍差时,建议以子域的形式实现。
??2、简洁美观的url规则
??(1)唯一网站同一内容页面只对应一个url,url过多会分散页面权重,系统风险中过滤目标url;
??(2)动态参数尽量少,url尽量短;
??(3)美学让用户和机器通过url来判断页面的内容;我们推荐如下的url形式:url尽量短,便于阅读,方便用户快速理解,比如使用拼音作为目录名;相同的内容在系统中只生成一个唯一对应的url,去掉无意义的参数;如果不能保证url的唯一性,尝试对目标url做不同形式的url301 ; 防止用户在主域名中输入错误的备用域名301。
??3、其他说明
??(1)不要忽略不幸的robots文件。默认情况下,部分系统robots被搜索引擎禁止抓取。当网站建立时,检查并写入相应的robots文件时间,网站@ >日常维护时注意定期检查;
??(2)创建网站站点地图文件和死链接文件,并通过百度站长平台及时提交;
??(3)部分电商网站存在地域跳转的问题,如果没有库存,建议创建统一页面,说明有没有就够了页面有存货,本区无存货请勿返回。无效页面,由于spider的导出限制,正常页面无法收录。
??(4)合理利用站长平台提供的robots、sitemap、索引量、爬取压力、死链提交、网站revision等工具。