好的收录搜索引擎网站的构建

优采云 发布时间: 2021-05-14 07:44

  好的收录搜索引擎网站的构建

  好收录

  网站搜索引擎的构建

  

  搜索引擎只是网站上的普通访问者。 网站的爬网方法和网站 /网页的值的判断均基于用户的观点。对用户体验的任何改进,都是对搜索引擎的改进。搜索引擎的优化也将使用户受益。

  网站搜索引擎的构建主要分为三个部分:如何更好地使搜索引擎中的内容收录 网站,如何在搜索引擎中获得良好的排名以及如何让用户学习在众多搜索结果中单击网站。简而言之,它是收录,排序和显示。下面我们将分别介绍这三个方面。

  机器可读

  百度使用名为Baiduspider的程序对Internet上的网页进行爬网,并在处理后将其构建到索引中。目前,百度蜘蛛只能读取文本内容。诸如Flash和图片之类的非文本内容无法临时处理。放置在Flash中的文字和图片无法被百度识别。

  建议使用文本而不是Flash,图像,Javascript等来显示重要内容或链接。搜索引擎无法暂时识别Flash,图像和Javascript中的内容。内容的这一部分无法搜索;仅收录在Flash和Javascript中链接指向的网页,百度可能无法收录。

  百度建议使用文本而不是Flash,图片,Javascript等来显示重要内容或链接;

  如果必须使用Flash制作网页,建议同时为搜索引擎收录制作文本版本,并使用主页上的文本链接指向该文本版本;

  Ajax和搜索引擎无法识别的其他技术仅在需要用户交互的地方使用,并且您希望搜索引擎“看到”的导航和文本内容不应放在Ajax中;

  不使用框架和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。 网站结构

  网站应该具有清晰的结构和清晰的导航,这可以帮助用户从网站中快速找到所需内容,还可以帮助搜索引擎快速了解网站中每个页面的位置。层次结构。

  网站建议使用树形结构。树结构通常分为以下三个级别:homepage-channel- 文章页面。像一棵大树一样,首先是树干(主页),然后是分支(渠道),最后是叶子(普通内容页面)。树结构更可扩展。当网站的内容更多时,您可以通过细分分支(渠道)来轻松地对其进行处理。

  理想的网站结构应该更平坦,从首页到内容页面的层次尽可能少,以便搜索引擎更轻松地进行处理。

  同时,网站也应该是网格结构。 网站上的每个页面都应具有指向上层和下层以及相关内容的链接:主页上具有指向频道页面的链接,而频道页面上具有指向主页的链接。指向公共内容页面的链接,公共内容页*敏*感*词*有指向更高级别的频道和主页的链接,与内容相关的网页具有彼此的链接。

  网站中的每个网页都应该是网站结构的一部分,并且应该能够链接到其他网页。

  总而言之,合理的网站结构应该是扁平的树状网络结构。

  百度建议每个页面至少可以通过一个文本链接访问;

  重要的内容应该可以从首页访问,也可以在网站结构中相对较浅的级别访问;

  对网站上的内容进行合理分类,并且不要过度细分。

  网站应该具有简洁明了的导航,以便用户快速找到所需内容,还可以帮助搜索引擎更好地了解网站的结构。

  百度建议在每个页面上添加一个导航栏,以便用户可以轻松返回频道,网站主页和搜索引擎,从而轻松地在网络结构中定位网页的级别;

  对于具有更多内容的网站,建议使用面包屑导航,这样用户可以更轻松地了解他们当前所在的位置:网站首页>频道>当前页面;

  在导航中使用文本链接,请勿使用复杂的js或Flash;

  在使用图片进行导航时,您可以使用Alt注释来告诉搜索引擎网页的内容。合理的返回码

  百度抓取工具进行抓取和处理时,会根据http协议规范设置相应的逻辑,因此网站站长还应尝试参考http协议中返回代码的定义进行设置。

  Baiduspider对常用的http返回码的处理逻辑如下:

  404返回码的含义是“未找到”。百度会认为该网页无效,因此通常会将其从搜索结果中删除,并且即使在短期内再次找到该网址,蜘蛛也不会抓取该网址。

  503返回码的含义是“服务不可用”。百度会认为该网页暂时无法访问,通常网站暂时关闭,带宽有限等都会导致这种情况。对于返回503的网页,百度蜘蛛不会直接删除该URL,而是会在短期内再次访问。届时,如果网页已还原,则将正常爬网;如果继续返回到503,它将在短时间内访问几次。但是,如果网页长时间返回503,则该网址仍会被百度视为无效链接,并将其从搜索结果中删除。

  403返回码的含义是“禁止访问”,百度会认为当前禁止访问该网页。在这种情况下,如果它是新发现的URL,百度蜘蛛将不会临时对其进行爬网,并会在短期内再次对其进行检查;如果它是百度已经收录的URL,则目前不会直接删除,并且会在短期内再次访问。届时,如果允许访问该网页,它将被正常爬网;如果仍然不允许,它将在短时间内访问几次。但是,如果该网页长时间返回403,百度也会将其视为无效链接,并将其从搜索结果中删除。

  301返回码的含义是“永久移动”,百度会认为该网页当前已重定向到新的URL。在进行站点迁移,域名替换和站点修订的情况下,建议使用301返回码,以最大程度减少由修订引起的流量损失。尽管百度蜘蛛现在对301次跳跃的响应周期更长,但我们仍然建议您这样做。

  百度建议,如果该网站暂时关闭,则在无法打开网页时,请不要立即返回404。建议使用503状态。 503可以通知百度蜘蛛该页面暂时不可用,请稍后再试。

  如果百度蜘蛛对您的网站施加太大的压力以进行爬网,请尝试不要使用404。建议您返回503。这样,百度蜘蛛将在一段时间后尝试再次爬网此链接。如果该站点当时免费,则将成功对其进行爬网。

  有些网站希望百度仅收录部分内容,例如经过审核的内容,一段时间内积累的新用户页面,等等。在这种情况下,建议暂时将403返回到新发布的内容,然后在检查或做好处理后再返回到正常的返回码。

  对于网站迁移或域名更改,请使用301返回码。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线