搜网站内容(机器可读百度通过一个叫做Baiduspider的程序抓取上的网页)
优采云 发布时间: 2022-03-16 11:15搜网站内容(机器可读百度通过一个叫做Baiduspider的程序抓取上的网页)
机器可读
百度通过一个名为Baiduspider的程序抓取互联网上的网页,该程序经过处理并内置到索引中。目前百度蜘蛛只能读取文本内容,暂时无法处理flash、图片等非文本内容。放在flash和图片中的文字百度无法识别。
建议使用文字代替flash、图片、Javascript等显示重要内容或链接。搜索引擎暂时无法识别Flash、图片、Javascript中的内容,无法搜索到这部分内容;只有flash和Javascript收录网页链接,百度未必能收录。
建议:
网站结构
网站应该有清晰的结构和清晰的导航,可以帮助用户快速从你的网站中找到他们需要的东西,帮助搜索引擎快速了解网站的每一个结构层次网页。
网站结构推荐使用树形结构。树形结构通常分为以下三个层次:主页-频道-文章页面。就像一棵大树,先是树干(主页),然后是树枝(频道),最后是叶子(正常内容页面)。树形结构更具扩展性,网站当内容增加时,可以通过细分分支(通道)轻松处理。
理想的网站结构应该更扁平,从首页到内容页的层数尽量少,这样搜索引擎处理起来会更容易。
同时网站也应该是网状结构,网站上的每个网页都应该有上下级页面和相关内容的链接:首页有频道的链接页面,并且频道页面有指向频道页面的链接。主页和普通内容之间的链接?普通内容页面有上级频道和首页的链接,内容相关页面之间有链接。
网站 中的每个页面都应该是 网站 结构的一部分,并且应该被其他页面链接到。
综上所述,一个合理的网站结构应该是扁平的树状网络结构。
建议:
网站应该有简洁明了的导航,可以让用户快速找到自己需要的东西,也有助于搜索引擎更好地理解网站的结构。
建议:
子域和目录选择
选择使用子域或目录来合理分发网站内容会对网站在搜索引擎中的表现产生较大影响。
1. 在一个频道的内容不够丰富,不能作为一个独立的站点存在之前,使用目录形式;等待频道积累足够的内容,然后将其转换为子域的形式。
一个网页能否排在搜索结果的前面,“来源”很重要,如果来自权重较高的网站网站,排在前面的可能性就更大,反之反之亦然。通常主站点的权重最高,子站点会从主站点继承一部分权重。继承量取决于子站点的质量。
在内容丰富到可以作为独立站点使用之前,通过将内容放在主站点的下一个目录中,可以在搜索引擎中获得更好的性能。
2. 对于差异大、相关性低的内容,使用子站形式。
搜索引擎将识别网站的主题。如果网站中的内容相关性不高,可能会导致搜索引擎的错误识别。不高度相关的内容可以放在不同的子域下,这可以帮助搜索引擎更好地理解网站的主题。
3. 域名之间的内容要经过适当的授权和相互分离。a下的内容。无法通过 b 访问。
子域之间的内容可以相互访问,并且可能被搜索引擎作为重复内容进行去重。保留的 url 不一定在普通域名下。
4. 不要滥用子域。
滥用大量内容不丰富的子域,会被搜索引擎视为作弊处罚。
规范的,简单的网址
创建一个描述性强、标准化、简单的url,有利于用户更方便地记忆和判断网页内容,也有利于搜索引擎更有效地抓取你的网站。网站在设计之初,应该有一个合理的URL规划。
1.网站中的同一个网页只对应一个url。如果 网站 上的多个 URL 可以访问相同的内容,会有以下危险:
如果你的网站上有多个url表单,建议按如下方式处理:
2. 允许用户从url 中判断网页的内容和网站 的结构信息,并且可以预测他们将看到的内容。
3.URL 应该尽可能短。
长 URL 不仅不美观,而且用户也难以从中获取额外的有用信息。另一方面,短网址还可以帮助减小页面大小,加快页面打开速度,改善用户体验。
4.普通动态网址对搜索引擎没有影响。
url是动态的还是静态的对搜索引擎没有影响,但是建议尽量减少动态url中收录的可变参数,这样不仅有利于减少url的长度,还可以降低搜索的风险引擎掉进黑洞。
5.不要在url中添加系统无法自动识别的字符。
重新设计/更改域名
网站在互联网高速发展的情况下,改版和域名变更在所难免,但处理不当会造成较大的流量损失。
重新设计或更改域名时要考虑的第一点是如何确保老用户不会流失。当用户访问旧内容时,可以将用户引导到新的网站上对应的内容,从而防止用户无法访问以前喜欢的网页的情况。
我们建议在重新设计或更改域名时将旧网页301永久重定向到内容对应的新网页,以便更容易检测到这种变化,并快速将旧网页的累积权重转移到相应的新网页。
合理的返回码
百度爬虫在抓取和处理时,会根据http协议规范设置相应的逻辑,所以请参考http协议中返回码含义的定义进行设置。
百度蜘蛛对常用http返回码的处理逻辑如下:
1.404
404 返回码的含义是“NOT FOUND”。百度会认为网页已经失效,所以一般会从搜索结果中删除,短期内蜘蛛不会再次抓取该url。
2.503
503 返回码的意思是“服务不可用”。百度会认为该网页暂时无法访问。通常,它在 网站?、带宽受限等时关闭。这种情况会发生。对于返回503的网页,百度蜘蛛不会直接删除这个url,短期内会再次访问。届时,如果网页已经恢复,则正常爬取;如果继续返回503,短时间内会被多次访问。但如果网页长时间返回503,该url仍会被百度视为无效链接,从搜索结果中删除。
3.403
403返回码的意思是“禁止访问”,百度会认为该网页目前被禁止访问。在这种情况下,如果是新发现的url,百度蜘蛛暂时不会抓取,短期内会再次检查;如果是百度有的url 收录 。那时,如果允许访问该网页,则会被频繁爬取;如果仍然不允许访问,则会在短时间内重复访问多次。但是如果网页长时间返回403,百度也会认为是无效链接,从搜索结果中删除。
4.301
301返回码的意思是“永久移动”,百度会认为网页当前正在跳转到新的url。遇到网站迁移、域名变更、网站改版等情况,建议使用301返回码,尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应时间更长,但还是建议大家这样做。
建议: