网页内容抓取 php(网站改版、换域名需要考虑的第一要点(组图))
优采云 发布时间: 2021-10-14 00:01网页内容抓取 php(网站改版、换域名需要考虑的第一要点(组图))
网站 在互联网的高速发展下,改版和域名变更是不可避免的,但处理不当会造成重大的流量损失。修改和更改域名时需要考虑的第一点是如何确保不丢失旧用户。当用户访问旧内容时,可以引导到新网站上对应的内容,防止用户无法访问以前喜欢的网页。*敏*感*词*。
我们建议在修改或变更域名时,将旧网页301永久重定向到内容对应的新网页,以便百度更容易检测到这种变化,并快速将旧网页积累的权重转移到相应的新网页上。网页。
其他建议:
• 如非必要,请勿完全替换整个网站的内容
当网站修改或网站中重要页面的链接发生变化时,修改前的301页面要永久重定向到修改后的对应页面
• 网站 更改域名,旧域名的所有301页面都要永久重定向到新域名对应的页面
网站 更改域名后,尽量保持旧域名能够稳定访问,让用户有更多时间记住新域名
• 网站修改/更换域名后,请通过站点地图将新域名下的新网址/网址提交给百度,以帮助百度更快地查找和调整。
合理的返回码
百度爬虫在抓取和处理的时候,会根据http协议规范设置相应的逻辑,所以站长也应该尽量参考http协议中返回码含义的定义来设置。
百度蜘蛛对常用http返回码的处理逻辑如下:
• 404
404 返回码的意思是“NOT FOUND”。百度会认为该网页无效,因此通常会从搜索结果中删除,而蜘蛛会在短期内再次找到该网址而不会对其进行抓取。
• 503
503 返回码的含义是“服务不可用”。百度会认为网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内还会再次访问。届时,如果网页已经恢复,就可以正常抓取;如果继续返回503,那么短时间内会被多次访问。但是如果网页长时间返回503,那么这个url仍然会被百度认为是失效链接,会从搜索结果中删除。
• 403
403返回码的意思是“禁止访问”,百度会认为该网页当前被禁止访问。在这种情况下,如果是新发现的网址,百度蜘蛛暂时不会抓取,短期内会再次检查;如果百度已经有收录url,暂时不会直接删除,短期内会再次访问。. 那个时候,如果网页被允许访问,就会正常抓取;如果仍然不允许,将在短时间内访问多次。但如果网页长时间返回403,百度也会认为是无效链接,从搜索结果中删除。
• 301
301返回码的意思是“Moved Permanently”,百度会认为网页当前重定向到了新的url。在网站迁移、域名更换或网站改版的情况下,建议使用301返回码,以尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应周期更长,但我们仍然建议您这样做。
我们建议:
• 如果网站暂时关闭,无法打开网页时,不要立即返回404。建议使用 503 状态。503可以通知百度蜘蛛页面暂时不可用,请稍后再试。
• 如果百度蜘蛛对您的网站抓取压力过大,请尽量不要使用404,也建议返回503。这样,百度蜘蛛过一段时间会再次尝试抓取该链接。如果该站点当时是免费的,它将被成功抓取。
• 一些网站希望百度只会收录部分内容,比如审核后的内容,一段时间积累的新用户页面等等。在这种情况下,建议对新发布的内容暂时返回403,待审核或做好处理后再返回正常返回码。
• 网站搬迁或域名变更时,请使用301返回。
井井有条
覆盖页面主要内容的标题
网页的标题是用来告诉用户和搜索引擎这个网页的主要内容是什么。搜索引擎在判断网页内容的权重时,标题是主要的参考信息之一。网页标题是网页主要内容的概括,搜索引擎可以通过网页标题快速判断网页的主题。每个网页的内容都不一样,每个网页都应该有一个唯一的标题。
我们建议页面的标题可以这样描述:
• 主页:网站姓名或网站姓名_提供服务介绍或产品介绍
• 频道页面:频道名称_网站名称
• 文章页面:文章title_channel name_网站title
title指的是html文档中的标签,不是文章的标题,以如下形式放在html文档的标签中
推荐做法
• 每个网页都应该有一个唯一的标题,不要为所有页面使用默认标题
• 标题应明确主题并收录页面最重要的内容
• 简洁明了,不罗列与网页内容无关的信息
• 用户浏览通常是从左到右,重要的内容应该放在标题的顶部
• 用用户熟悉的语言描述。如果你有中英文网站名字,尽量使用用户熟悉的名字作为标题描述
好的内容建设