搜索引擎如何抓取网页(唯一性网站中同一内容页只与唯一一个url相对应)
优采云 发布时间: 2021-10-07 11:50搜索引擎如何抓取网页(唯一性网站中同一内容页只与唯一一个url相对应)
1、简单明了的网站结构
蜘蛛爬行相当于遍历网络的有向图,所以网站的简单明了的结构一定是自己喜欢的,尽量保证蜘蛛的可读性。
(1)最优树结构为“首页—频道—详情页”;
(2)从扁平化首页到详情页的层级越小越好,对抓取友好,可以很好的传递权重。
(3)Netlike 保证每个页面至少有一个文本链接指向它,这样网站可以尽可能全面地抓取收录,内部链构建也可以有正对排名的影响。。
(4)Navigation 为每个页面添加了导航,方便用户知道自己所在的位置。
(5)子域和目录的选择,相信是很多站长的问题。我们认为,当内容较少,内容相关性高时,建议以表格的形式实现一个目录,有利于权重继承和收敛;当内容较大,与主站的相关性稍差时,建议以子域的形式实现。
2、 简单漂亮的 URL 规则
(1)唯一性网站同一内容页面只对应一个url,url过多会分散页面权重,目标url有被系统过滤的风险;
(2) 为了简洁起见,尽量少的动态参数,并保证URL尽量短;
(3) 审美让用户和机器通过URL来判断页面内容的主题;
我们推荐以下网址形式: 网址尽量简短易读,以便用户快速理解,例如使用拼音作为目录名;系统中相同的内容只生成一个唯一的URL对应,去掉无意义的参数;如果无法保证URL的唯一性,则尝试对目标url做不同形式的url301;防止用户输入错误的备用域名 301 到主域名。
3、其他注意事项
(1)不要忽略倒霉的robots文件。默认情况下,一些系统robots被搜索引擎屏蔽了。当网站建立后,及时检查并写入相应的robots文件,网站日常 保养过程中注意定期检查;
(2)创建网站站点地图文件和死链文件,并及时通过百度站长平台提交;
(3)部分电商网站有地域跳转的问题,如果没有库存,建议做单页,在页面上标注库存与否。不要'如果该区域没有库存,t返回无效页面,由于蜘蛛导出有限,正常页面不能收录。
(4)合理使用站长平台提供的robots、sitemap、索引量、抓取压力、死链提交、网站改版等工具。
如果您对搜索和爬虫还有其他疑问,可以到【学院同学汇】【学习讨论】“建立网站符合搜索和爬虫习惯”讨论帖发表您的意见,我们的工作人员会支付关注这里和大家一起讨论。