网站内容优化(成年人的世界最基本的逻辑:这个世界根本不在乎你的感受)

优采云 发布时间: 2022-03-12 04:19

  网站内容优化(成年人的世界最基本的逻辑:这个世界根本不在乎你的感受)

  *敏*感*词*世界最基本的逻辑就是这个世界不在乎你的感受

  concise concise SPA对SEO不友好,是后续页面内容滞后造成的,SSR可以提高SEO Google推荐对SPA sitemap.xml/canonical/TDK等的SEO优化使用渐进增强和特征检测的方式曝光 想想sitemap.xml 作为指南,引导爬虫对网站文章进行有针对性的探索概述为什么 SPA 对 SEO 不友好解决方案增加 SPA 曝光率的其他方法1. 为什么 SPA 对 SEO 不友好

  在传统的 Web 开发模式中,网站内容(html)是通过服务器端渲染(SSR)产生的。这样方便爬虫定位到网站的内容。过程是:爬虫发现你的网站内容,然后放到公众面前。

  

  但是,按照传统的web开发模式,在生成页面的过程中存在一个致命的问题。每当页面发生小数据变化(例如:提交表单)时,服务器需要重新渲染整个页面,并通过网络将最新的页面传输给客户端。

  另一方面,客户端渲染(CSR)允许单页应用程序(SPA)在不刷新页面的情况下动态获取和显示页面信息。在页面的初始阶段,浏览器只需要接受页面最基本的结构信息(html),然后通过JS获取或显示其余的页面内容。

  当页面中的部分内容发生变化时,浏览器只需向服务器发送AJAX即可获取与变化相关的信息。服务器接收到指定的请求后,经过组装处理后返回浏览器想要的结果(通常是JSON数据格式)。

  

  虽然SPA可以很好的避免SSR渲染时需要刷新整个页面进行数据更新的弊端,但是由于SPA只在页面初始阶段返回页面的基本结构,后续页面的内容是通过JS动态获取的. 这对于爬虫的网站后续内容的收录是非常不利的。

  SPA对SEO不友好,是其后续页面内容滞后造成的

  2. 解决方案2.1 避免使用 Google 的 Ajax Crawler 解决方案

  2009 年,Google 发布了针对 SEO 不友好的 SPA 的解决方法。

  先决条件:什么是 Goolebot

  Google bot 是一种特殊的软件,通常称为蜘蛛,旨在爬取公共 网站 页面。它遵循从一个页面到下一个页面的一系列链接,然后将找到的数据处理成一个集合索引。

  把它想象成一个库存不断扩大的图书馆

  在说解决方案之前,先简单介绍一下Googlebot对网站的应用的处理流程

  

  爬取渲染(rendering)索引

  

  当 Googlebot 尝试通过发出 HTTP 请求从抓取队列中抓取网址时,它首先会检查是否允许抓取该网页。Googlebot 会读取 robots.txt 文件。如果此文件将 URL 标记为不允许,Googlebot 将跳过向该 URL 发出 HTTP 请求,然后跳过该 URL。

  接下来,Googlebot 会解析来自 HTML 链接的 href 属性中其他 URL 的响应,并将这些 URL 添加到抓取队列中。如果您不希望 Googlebot 发现链接,请使用 nofollow 机制

  抓取 URL 并解析 HTML 响应非常适合经典 网站 或服务器端呈现的网页(其中 HTTP 响应中的 HTML 收录所有内容)

  Google 的 Ajax 爬虫解决方案

  该协议收录许多操作步骤。

  最后,爬虫可以将原创 URL 与页面在某个时刻的快照关联起来,并将快照内容展示给外界。

  

  补充:2015年,谷歌宣布放弃AJAX爬虫方案。并于 2018 年正式停止支持。

  现在 Googlebot 可以处理带有额外信息 (#!) 的 URL,而无需用户提供预呈现的页面。

  如果您希望您的应用程序在百度、Yandex(*敏*感*词*搜索引擎)、必应或雅虎等搜索引擎中获得高 SEO 分数,请记住:就像 Google 处理 JS 一样,不要太轻信他们的 AJAX 爬虫解决方案

  下图展示了各种浏览器对各种JS框架的爬虫支持程度

  

  2.2 JS框架+服务端渲染(SSR)

  虽然,大多数搜索引擎或多或少都支持 JS 框架的爬虫处理。但是,由于 CSR 的页面内容存在延迟。使网站信息无法及时传递给用户。

  您可以使用一些 JS 框架(React/Vue)进行 网站 开发,并将应用程序转换为静态 HTML 并存储在指定的服务器上。

  当客户端向服务器发起页面请求时,浏览器可以获得一个完整的初始化结构,不像CSR:只有一个收录指定JS的简单HTML shell。使用SSR渲染页面,当JS还在后台加载时,用户已经看到了完整的页面信息。

  网络爬虫还可以访问页面的完整 HTML 版本,索引并显示在搜索结果中。

  在后续的操作中,应用变成了客户端渲染,保证了页面的变化可以更快的到达用户。

  

  您可以使用图表来比较 CSR 和 SSR 呈现同一页面所需的时间。很明显,SSR 渲染,页面的 payload 出现的更早。

  

  其实SSR还有其他一些技术细节需要考虑,比如什么是同构、数据脱水、渲染注入(水合物)等。关于SSR,我们后面会有专门的文章来解释。

  接下来,我们直接进入一个React SSR的实现步骤。

  

  2.3 使用渐进增强和特征检测

  

  

  Google 建议对 SPA 进行 SEO 优化的渐进增强和特征检测

  优化页面加载速度3.增加SPA曝光的其他方法3.1个列表网站完整页面列表

  来自 SEO 专家的建议:为 网站 创建一个 Sitemap.xml。即使爬虫已经移除了你的网站收录,网站的拥有者可以继续向爬虫报告网站中没有收录的页面.

  Sitemap.xml 是一个收录 网站 中所有 URL 链接的文件。你可以把sitemap.xml当作一个指南,引导爬虫对网站进行有针对性的探索。

  站点地图需要向公众发布。所以,需要在robot.txt中注册。

  //robot.txt

Sitemap: http://www.wl.com/sitemap.xml

复制代码

  这样,爬虫就会知道你的 网站 sitemap.xml 的确切位置。

  同时,在html文档中,需要添加元信息。这样,爬虫在访问了网站之后,马上就知道网站是一个SPA。

  3.2 使用 rel=canonical 的连接

  当网站中有​​多个内容相同的页面时,rel=canonical的链接标签就派上用场了。这让爬虫知道 URL 的哪些部分是强制性的,哪些不是。

  例如,这将允许爬虫检测查询参数是否影响页面的呈现(分页参数如?page=11, )或(跟踪参数如source=baidu)。

  如果您有一个可以通过多个 URL 访问的页面(这在电子商务 网站 中经常发生),或者如果有多个具有重复内容的页面,则将其中一个设为规范页面。

  选择您认为更重要的页面(或访问者/链接最多的页面)。每当访问非关键页面时,它总是被称为关键页面。

  cannoical的使用请参考上面的链接。

  3.3 TKD 优化

  可以在 HTML 标记内定义倾斜/关键字/描述。

  资料参考Optimizing Single-Page Applications什么是GooglebotcanonicalSSR掘金小册子拉钩教育分析现代前端技术

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线