方法和技巧:如何把握SEO的核心?

优采云发布时间: 2022-09-29 00:28

　　方法和技巧:如何把握SEO的核心?

　　对于seoers，您可能认为seo是免费获得流量的最佳方式。这句话是几年前放的还是有一定道理的，但我也想说，目前seo不是也不再是，你千万不能承认。

　　你会发现在过去的几年里做 seo 是超级容易的。略懂的人都知道，只需要在网站中重复关键词多次，并使用采集器直接发布内容采集，就可以获得不错的流量，您只需要同时操作和管理多个网站。如果时机成熟，这已在 2012 年 6 月 28 日修复。

　　当时百度对低质量的网站采用了*敏*感*词*的K站，主要是站群用于内容采集。当时查询流量和排名，你会发现大部分网站都是K。有站长认为百度搜索引擎算法升级可能造成了暂时的故障，后来导致越来越多人们进行交流和讨论。

　　百度官方工程师Lee给出的原解释：

　　此更新控制了搜索结果中低质量网站的存在；低质量网站是：没有原创或伪原创（很少有原创内容，很多采集内容或机器生成/修改的内容）；这部分网站不是为最终用户设计的，而只是为了从搜索引擎获得流量。

　　次年，百度搜索引擎先后推出了绿萝算法、石榴算法、Spark计划等。之前100网站只有2人操作，这次6.28事件扩大到10人，成本增加5倍。随着搜索引擎算法的不断更新升级，这个成本也在不断增加。当今互联网内容的大部分来源都是模仿品。模仿的成本远高于使用ocr软件软化的成本。一个编辑每天可以转换300到500条内容，而模仿最多只有50篇，成本增加了10倍。

　　其实做seo之前，一定要有充分的心理准备。不要简单地认为一个人、一台计算机和一个网站可以创造一个神话。在开始做seo之前，需要招聘和培训全职的内容编辑。网站的模板要由专业的外包团队定制开发，这也是seo的第一步。如果你从头开始使用下载的模板，并且内容被转载或伪原创，那么你将输在起跑线上。

　　SEO不能和作弊联系起来，从网站建设的本质来看，

　　网站成立的初衷：让用户通过网站获得信息或服务。

　　SEO目的：只是为了让网站的结构更合理，让内容编辑更符合用户的浏览习惯。

　　现阶段seo的核心演变：内容是第一要素。

　　比如：百度最近的公告，之前的百度蝶变动作，增加对原创的保护，取消新闻源等等，可见内容已经是现阶段SEO的核心。今年4月，百度站长平台开始原创网站内部保护，首批20个网站接入。原创什么是受保护站点？这样的网站比普通网站有什么优势？作为站长，你应该怎么做？

　　困惑：很多站长会遇到自己发布的优质原创文章内容网站不能及时抓取，收录又没有排名的情况，在相反，当文章被知名站点采集排名时，它可以以秒为单位收录排名。这对原创网站是不公平的，站长很容易失去做原创的动力。

　　对此，百度站长平台启动了原创保护项目，从爬取机制、建库策略、搜索结构、内容展示等方面采取措施。

　　原创受保护站点的优势是什么？（直接上干货）

　　爬取优待：批准的原创站提交的原创数据将在几分钟内被爬取。

　　建库优惠：原创站提交的原创数据分分钟建库或天机建库。

　　排序优势：此功能将适用于原创站点。

　　另外，原创内容将显示在搜索结果页面，原创报告和证明功能正在设计中。

　　如何做自己网站并成为原创受保护的网站？百度给出建议供参考，

　　1.禁止伪原创

　　2.继续制作高质量的原创内容

　　3.站长可以通过站长平台实时提交原创链接，更快获得原创保护。

　　内容是网站的核心竞争力，这也是近两年“今日头条”等新媒体火爆的原因。很多自媒体人愿意在这些平台上构建很多原创评分高的内容，而这些内容正好满足了用户的需求。

　　这里所说的原创是有价值的创作，而不是简单的随便分析创作出一个关键词，甚至不参考客观事实，这样的内容也毫无意义。比如一个熟悉家具装饰行业的小编，写了一篇与挖沟机相关的文章，并不会捕捉到挖沟机行业用户的需求。

　　核心方法:分布式链路追踪原理详解及SkyWalking、Zipkin介绍

　　背景：追踪调用链路，监控链路性能，排查链路故障

　　随着微服务架构的流行，一次请求往往需要涉及到多个服务，需要一些可以帮助理解系统行为、用于分析性能问题的工具，以便发生故障的时候，能够快速定位和解决问题。

　　单体架构中可以使用 AOP 在调用具体的业务逻辑前后分别打印一下时间即可计算出整体的调用时间，使用 AOP 来 catch 住异常也可知道是哪里的调用导致的异常。

　　基本实现原理

　　一个完整请求链路的追踪ID（traceid）用于查出本次请求调用的所有服务，每一次服务调用的跨度ID（spanid）用来记录调用顺序

　　上游服务parenetid用来记录调用的层级关系

　　调用时间timestamp，把请求发出、接收、处理的时间都记录下来，计算业务处理耗时和网络耗时，然后用可视化界面展示出来每个调用链路，性能，故障

　　还可以记录一些其他信息，比如发起调用服务名称、被调服务名称、返回结果、IP、调用服务的名称等，最后，我们再把相同spanid的信息合成一个大的span块，就完成了一个完整的调用链。

　　SkyWalking的原理及架构设计

　　节点数据的定时采样，采样后将数据定时上报，将其存储到 ES, MySQL 等持久化层，有了数据自然而然可根据数据做可视化分析。

　　skywalking的工作机制

　　skywalking的工作机制，需要三块协同。工作原理图大致如下:

　　SkyWalking 核心模块介绍：

　　SkyWalking采用组件式开发，易于扩展，主要组件作用如下：

　　1. Skywalking Agent：链路数据采集tracing（调用链数据）和metric（指标）信息并上报，上报通过HTTP或者gRPC方式发送数据到Skywalking Collector

　　2. Skywalking Collector：链路数据采集器，对agent传过来的tracing和metric数据进行整合分析通过Analysis Core模块处理并落入相关的数据存储中，同时会通过Query Core模块进行二次统计和监控告警

　　3. Storage： Skywalking的存储，支持以ElasticSearch、Mysql、TiDB、H2等主流存储作为存储介质进行数据存储,H2仅作为临时演示单机用。

　　4. SkyWalking UI： Web可视化平台，用来展示落地的数据，目前官方采纳了RocketBot作为SkyWalking的主UI

　　怎么自动采集 span 数据

　　SkyWalking 采用了插件化+javaagent的形式来实现了 span 数据的自动采集，这样可以做到对代码的无侵入性，插件化意味着可插拔，扩展性好

　　如何跨进程传递 context

　　我们知道数据一般分为 header 和 body, 就像 http 有 header 和 body, RocketMQ 也有 MessageHeader，Message Body, body 一般放着业务数据，所以不宜在 body 中传递 context，应该在 header 中传递 context，如图示

　　dubbo 中的 attachment 就相当于 header ,所以我们把 context 放在 attachment 中，这样就解决了 context 的传递问题。

　　小提示：这里的传递 context 流程均是在 dubbo plugin 处理的，业务无感知

　　traceId 如何保证全局唯一

　　要保证全局唯一，我们可以采用分布式或者本地生成的 ID，使用分布式话需要有一个发号器，每次请求都要先请求一下发号器，会有一次网络调用的开销，所以 SkyWalking 最终采用了本地生成 ID 的方式，它采用了大名鼎鼎的 snowflow 算法，性能很高。

　　不过 snowflake 算法有一个众所周知的问题：时间回拨，这个问题可能会导致生成的 id 重复。那么 SkyWalking 是如何解决时间回拨问题的呢。

　　每生成一个 id，都会记录一下生成 id 的时间(lastTimestamp)，如果发现当前时间比上一次生成 id 的时间(lastTimestamp)还小，那说明发生了时间回拨，此时会生成一个随机数来作为 traceId。

　　请求量这么多，全部采集会不会影响性能?

　　如果对每个请求调用都采集，那毫无疑问数据量会非常大，但反过来想一下，是否真的有必要对每个请求都采集呢，其实没有必要，我们可以设置采样频率，只采样部分数据，SkyWalking 默认设置了 3 秒采样 3 次，其余请求不采样,如图示

　　这样的采样频率其实足够我们分析组件的性能了，按 3 秒采样 3 次这样的频率来采样数据会有啥问题呢。理想情况下，每个服务调用都在同一个时间点(如下图示)这样的话每次都在同一时间点采样确实没问题。

　　但在生产上，每次服务调用基本不可能都在同一时间点调用，因为期间有网络调用延时等，实际调用情况很可能是下图这样。

　　这样的话就会导致某些调用在服务 A 上被采样了，在服务 B，C 上不被采样，也就没法分析调用链的性能，那么 SkyWalking 是如何解决的呢。

　　它是这样解决的：如果上游有携带 Context 过来(说明上游采样了)，则下游强制采集数据。这样可以保证链路完整。

　　SkyWalking 各模块组件视图简介

　　Skywalking已经支持从6个可视化维度剖析分布式系统的运行情况。

　　1、仪表盘：查看全局服务基本性能指标

　　仪表盘主要收录Service Dashboard和Database Dashboard

　　2、拓扑图：展示分布式服务之间调用关系：

　　SkyWalking能够根据获取的数据自动绘制服务之间的调用关系图，并能识别常见的服务显示在图标上，例如图上的tomcat、CAS服务

　　每条连线的颜色反应了服务之间的调用延迟情况，可以非常直观的看到服务与服务之间的调用状态，连线中间的点能点击，可显示两个服务之间链路的平均响应时间、吞吐率以及SLA等信息

　　展示服务的性能数据:

　　选中其中一个服务，可以查看调用关系及服务基础状态。

　　拓扑图还有个扁平展示效果

　　3、链路追踪：可以根据需求，查看链路调用过程

　　显示请求的响应内部执行情况，一个完整的请求都经过了哪些服务、执行了哪些代码方法、每个方法的执行时间、执行状态等详细信息，快速定位代码问题。

　　失败调用还有错误日志：

　　4、告警提示：

　　5、指标数据对比

　　Zipkin原理

　　Zipkin 分为两端，Zipkin 服务端和Zipkin 客户端，客户端也就是微服务的应用。客户端配置服务端的 URL 地址，一旦发生服务间的调用的时候，会被配置在微服务里面的 Sleuth 的*敏*感*词*器*敏*感*词*，并生成相应的 Trace 和 Span 信息发送给服务端。发送的方式主要有两种，一种是 HTTP 报文的方式，另一种是消息总线的方式如 RabbitMQ。

　　不论哪种方式，我们都需要：一个 Eureka 服务注册中心，先看下Zipkin运行架构：

　　左侧应用服务，同时也是Zipkin-clinet，Eureka-client，中间是依赖，包括Zipkin-server和Eureka-server，最右侧是WebUI展示及开发接口。

　　方案比较

　　Google的Dapper，阿里的鹰眼，大众点评的CAT，Twitter的Zipkin，LINE的pinpoint，国产的skywalking。

　　市面上的全链路监控理论模型大多都是借鉴Google Dapper论文，本文重点关注以下三种APM组件：

　　类型zipkinSKYwalking

　　基本原理

0

2022-09-29

站群文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

方法和技巧:如何把握SEO的核心?

0 个评论

发起人