搜索引擎如何抓取网页( 百度站长平台给出了自己的网站结构标准。)
优采云 发布时间: 2021-12-12 22:39搜索引擎如何抓取网页(
百度站长平台给出了自己的网站结构标准。)
如何养成搜索引擎爬行习惯网站
由于百度搜索引擎近两年每周都会更新网站的数据,SEOer不断抛出一些关于搜索引擎新算法的猜测。百度站长平台也将在百度大算法发布前上线。长平台为站长们提供了预热,让靠作弊做排名的站长们做好被罚网站的心理准备,让难做的排名网站不会是K出品的,想不到就骂街满天飞。
其实每一次搜索引擎算法的改变,都是在改进自己的算法的同时,让排名结果更加真实公平,拥有更好的用户体验,让网站能够更好的满足用户的需求排名第一,体现了搜索引擎的价值。满足用户需求是站长提供网站的内容需要做的事情,而搜索引擎算法毕竟是命令语言,还没有达到超智能的水平。所以,同志们也需要把自己的网站Build 更符合搜索引擎的算法技术标准。
网站 排名最基本的要求是被搜索引擎抓取到页面内容网站。建立符合搜索引擎抓取习惯的网站成为网站的基础上的焦点。如何构建符合搜索引擎抓取习惯的网站?近日,百度站长平台给出了自己的标准。
1、简单明了的网站结构
蜘蛛爬行相当于遍历网络的有向图,所以网站的简单明了的结构一定是自己喜欢的,尽量保证蜘蛛的可读性。
(1)最优树结构为“首页—频道—详情页”;
(2)从扁平化首页到详情页的层级越小越好,对爬行友好,可以很好的传递权重。
(3)Netlike 保证每个页面至少有一个文本链接指向它,这样网站可以被尽可能全面地抓取收录,内部链构建也可以有积极的对排名的影响。。
(4)Navigation 给每个页面添加了导航,方便用户知道自己在哪里。
(5)子域和目录的选择,相信是很多站长的问题。我们认为,当内容较少,内容相关性高时,建议以表格的形式实现一个目录,有利于权重继承和收敛;当内容较大,与主站的相关性稍差时,建议以子域的形式实现。
2、 简单漂亮的 URL 规则
(1)唯一性网站同一内容页面只对应一个URL,URL过多会分散页面权重,目标URL可能在系统中被过滤掉;
(2) 尽量少用简洁的动态参数,URL尽量短;
(3) 审美让用户和机器通过URL来判断页面内容的主题;
我们推荐以下网址形式: 网址尽量简短易读,便于用户快速理解,例如目录名使用拼音;系统中相同的内容只生成一个唯一的URL对应,去掉无意义的参数;如果无法保证URL的唯一性,则尝试对目标url做不同形式的url301;防止用户在主域名中输入错误的备用域名301。
3、其他注意事项
(1)不要忽略倒霉的robots文件。默认情况下,一些系统robots被搜索引擎屏蔽了。当网站建立后,及时检查并写入相应的robots文件,网站日常 保养时注意定期检查;
(2)创建网站站点地图文件和死链文件,并及时通过百度站长平台提交;
(3)一些电商网站有地域重定向的问题,如果没有库存,建议做一个页面。只要在页面上标记是否没有库存就行了。不要'如果该区域没有库存,t返回无效页面,由于蜘蛛导出有限,正常页面不能收录。
(4)合理使用站长平台提供的robots、sitemap、索引量、抓取压力、死链提交、网站改版等工具。