搜索引擎如何抓取网页(关于站点地图的必要性讨论理论上的讨论和讨论)
优采云 发布时间: 2022-01-29 18:02搜索引擎如何抓取网页(关于站点地图的必要性讨论理论上的讨论和讨论)
站点地图作为网站的基础文件,起到引导谷歌快速准确理解和抓取网站的作用,所以建议大家及时做好网站配置。
虽然理论上目前谷歌已经能够主动发现和抓取网站,但是对于营销网站来说,仅仅依靠谷歌的主动性是不够的,所以这篇文章文章我们会做关于sitemaps这个话题比较系统的讨论,希望能向大家学习。
一、关于站点地图需求的讨论
理论上建议配置每个网站,但可以根据实际情况在形式和复杂度上进行调整。参考谷歌官方声明。
以下是您必须配置站点地图的几种情况:
1、网站*敏*感*词*:当你的网站变得非常大时,就意味着网站会收录成百上千个页面,虽然页面之间会有超链接,但是谷歌依靠链接发现新内容还是比较困难的。
此外,您还需要考虑 Google Bot 对 网站 的“耐心”。如果 Google 蜘蛛总是在你的 网站 中四处寻找新内容,很可能会影响它的后续工作。您的 网站 抓取频率。
2、网站内部/外部链接不足:内部链接不足意味着网站收录大量专业页面或内容存档页面,而这些页面与其他页面之间没有足够的链接. 这意味着谷歌很难找到。
不到一半的外链指向新站点,网上没有或很少有其他的网站点,这也会让谷歌很难找到你的网站或完全遍历< @网站 抓住。
3、网站内容形式问题:很多网站因为视觉效果或者特殊行业本身的原因,网站上的富媒体内容很多。这些东西不是由站点地图引导的,谷歌也很难找到。
二、站点地图创建
目前主流搜索引擎支持的sitemap格式主要有xml、pss、text(txt)等几种,也有其他的格式,比如Atom1.0等,不过是推荐使用最常用的xml。或者TXT形式,sitemap的原则是通用性高,易用性强,没必要标新立异。
1、XML
这是最推荐的站点地图形式。它对几乎所有搜索引擎都很常见,并且使用和维护效率很高。它也是与网站建设者最兼容的。
/schemas/sitemap/0.9">
2018-06-04
以上是 XML 站点地图的一种特别典型和标准的形式。现在,站点地图一般不需要由SEO人员制作。建站程序一般支持生成和实时更新,可以做相关配置。
2、文本 (TXT) 表单
可以用,是次优的站点地图形式,其他不多说,注意几个地方。
必须用UFT-8编码,否则无法识别;
请勿在其中写入 URL 以外的任何内容;
虽然理论上你如何称呼这个文件并不重要,但还是建议诚实地命名为sitemap.txt;
三、站点地图提交
目前,几乎所有的搜索引擎都支持站点地图文件的主动提交。入口和方法大同小异,以谷歌为例。如果其他搜索引擎不懂操作,可以单独找我。
1、谷歌控制台,帮助中心,可以直接提交;
2、可以使用ping工具直接在浏览器中输入命令发送GET请求。格式如下:
/ping?sitemap=FULL_URL_OF_SITEMAP,实际使用时,将sitemap=替换为你的网站站点地图的地址。
3、使用robots文件提交,可以在robots文件中标明sitemap的位置,谷歌也可以抓取。
站点地图:/my_sitemap.xml,使用时,替换“;”后的URL 与您的站点地图的链接。
四、sitemap分割问题(适用于站点太大导致sitemap文件过大)
如果站点地图由于站点太大而超过50MB,建议拆分。无论是谷歌还是国内百度,对过大的站点地图的支持度都不高。
不过,谷歌和百度在这个问题上看法不一。对于 Google,建议以站点地图索引文件的形式提交多个站点地图。
简单的理解就是为多个站点地图创建一个“站点地图”,通过站点地图索引让谷歌抓取不同的站点地图,从而抓取特定的网页链接。
/schemas/sitemap/0.9">
如上,是标准的sitemap索引格式,可以参考上面进行修改。
解释其中几个标签的含义:
l Sitemapindex:可以理解为sitemap索引开始和结束的标签;
l Sitemap:在里面标注不同的sitemap;
l Loc:站点地图的具体链接;
作为站点地图索引,同样大小不能超过50MB,其中收录的URL数量不能超过50000个,不过这个一般不用担心。一般企业级的网站Sitemap index收录网站不会超过这个数字。
五、关于站点地图的扩展和注释
先说一些和百度不一样或者容易被误解的东西。有些事情不必做,但同样,站点地图的原则是通用且易于使用。请遵守相关规则,诚实做事,确保正确。
1、建议使用绝对路径而不是相对路径,这点和百度不一样;
2、站点地图仅支持一种形式的规范 URL。比如你的网站可以带www和不带www都可以访问,那么sitemap只能收录其中一种url,即使打开后页面内容是一样的,两种url不能放置;
3、站点地图的目的是告诉 Google 如何更有效地抓取您的 网站,但这并不意味着 Google 必须抓取您放入站点地图和 收录@ 的所有 URL >,两种不同的东西;
4、原则上,网址在站点地图中的位置和顺序并不重要,Google 不会因此而区别对待网址;
好吧,站点地图基本上有很多东西。对于大部分公司网站来说,保证不出错就足够了。
一些特殊类型的sitemaps在操作方式上和上面的有所不同,比如纯图片站、新闻站等,但是这是一个比较小众的领域,就不赘述了,有需要的人了解或感兴趣的可以单独找我。