搜索引擎如何抓取网页(唯一性网站中同一内容页只与唯一一个url相对应)

优采云发布时间: 2021-10-07 11:50

　　1、简单明了的网站结构

　　蜘蛛爬行相当于遍历网络的有向图，所以网站的简单明了的结构一定是自己喜欢的，尽量保证蜘蛛的可读性。

　　（1）最优树结构为“首页—频道—详情页”；

　　（2）从扁平化首页到详情页的层级越小越好，对抓取友好，可以很好的传递权重。

　　（3）Netlike 保证每个页面至少有一个文本链接指向它，这样网站可以尽可能全面地抓取收录，内部链构建也可以有正对排名的影响。。

　　（4）Navigation 为每个页面添加了导航，方便用户知道自己所在的位置。

　　（5）子域和目录的选择，相信是很多站长的问题。我们认为，当内容较少，内容相关性高时，建议以表格的形式实现一个目录，有利于权重继承和收敛；当内容较大，与主站的相关性稍差时，建议以子域的形式实现。

　　2、简单漂亮的 URL 规则

　　（1）唯一性网站同一内容页面只对应一个url，url过多会分散页面权重，目标url有被系统过滤的风险；

　　（2）为了简洁起见，尽量少的动态参数，并保证URL尽量短；

　　（3）审美让用户和机器通过URL来判断页面内容的主题；

　　我们推荐以下网址形式：网址尽量简短易读，以便用户快速理解，例如使用拼音作为目录名；系统中相同的内容只生成一个唯一的URL对应，去掉无意义的参数；如果无法保证URL的唯一性，则尝试对目标url做不同形式的url301；防止用户输入错误的备用域名 301 到主域名。

　　3、其他注意事项

　　（1）不要忽略倒霉的robots文件。默认情况下，一些系统robots被搜索引擎屏蔽了。当网站建立后，及时检查并写入相应的robots文件，网站日常保养过程中注意定期检查；

　　（2）创建网站站点地图文件和死链文件，并及时通过百度站长平台提交；

　　（3）部分电商网站有地域跳转的问题，如果没有库存，建议做单页，在页面上标注库存与否。不要'如果该区域没有库存，t返回无效页面，由于蜘蛛导出有限，正常页面不能收录。

　　（4）合理使用站长平台提供的robots、sitemap、索引量、抓取压力、死链提交、网站改版等工具。

　　如果您对搜索和爬虫还有其他疑问，可以到【学院同学汇】【学习讨论】“建立网站符合搜索和爬虫习惯”讨论帖发表您的意见，我们的工作人员会支付关注这里和大家一起讨论。

0

2021-10-07

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册