干货内容:天企网络:网站外部SEO优化之如何评估一个外链的价值,精华!

优采云 发布时间: 2022-11-06 15:39

  干货内容:天企网络:网站外部SEO优化之如何评估一个外链的价值,精华!

  随着搜索引擎算法的不断调整,对于SEOER来说,要知道一个页面排名的决定性因素已经不是那么单一了,外链时代早已一去不复返了,搜索引擎考虑的指标也越来越多样化。传统意义上的SEO已不复存在。

  那么如果你是SEO外链专家,外链是否够高我们应该从哪些方面考虑呢?下面给出20个因素,都是SEO从业者多年经验的精华,仅供大家参考!

  1. 锚文本三星

  锚文本只获得三颗星的原因是,无论您是否有锚文本,链接都具有价值。区别在于精确的锚文本优于不太精确的锚文本,完全匹配的锚文本优于部分匹配的锚文本,锚文本优于没有锚文本。就这样。

  如果您根本没有反向链接,即使链接不是锚文本,请尝试赢得它。

  2. 一星页面权限

  之所以给出这么低的分数,主要是因为搜索引擎。谷歌已停止更新PR,百度从未给出官方BR。搜索巨头有自己独立的一套算法规则和排名逻辑,太不可预测了。

  因此,与其关注单个链接的权重,不如关注域权限、网站重要性、您网站上其他页面的重要性、相关性等。

  3.相关三星

  相关性是一个重要指标,但没有有效的工具可以给出准确的值。

  尽管如此,关联仍然是获取海量信息源的重要手段之一。可能很难找到完全相关或非常相关的网站,但看似不相关的网站也可以成为您的信息来源并与之交换链接。不要轻易排除这些不相关的链接或网站。

  4、五星级域名权威

  这是 20 个因素中最重要的因素之一。这是判断一个环节是否优于其他环节的关键。一般来说,域名权限越高越好。因为越高,越能提升排名,点击的人越多,产生的影响力也越大。

  

  5. 两星页面位置

  给它两颗星的原因是因为它很重要,仅此而已。你为什么这么说?如果链接在页脚、页面侧面或广告区域,搜索引擎很容易认为它是广告链接。如果设置了nofollow,看起来也像是在宣传什么,对你影响不大。所以,可以考虑,一点点就够了。

  6.内部链接/外部链接五颗星

  当你留下的反向链接页面有足够的内链和外链时,很明显这个页面很重要,你留下的反向链接也很重要。

  7、页面其他链接质量四星

  这实际上非常重要。不幸的是,没有一站式的方法来衡量页面上所有其他链接的质量。你必须一一检查。需要注意的是,您是否必须查看此页面是否为打开目录?如果是这样,请考虑是否需要提交自己的 URL。当然,如果这个页面的其他链接都不错,你不妨试试看。

  8.页面内容完整性三星

  这是一个非常主观的判断,因为我们可以选择 文章 关于来源、整体网站内容等。之所以选择这个,是因为搜索引擎试图通过机器跟踪或深度学习来分析网站的内容,并跟踪用户对该内容的反应和反馈,最后做出评估,这是一个大趋势。

  9. 四星级用户体验

  如果一个页面很受用户欢迎,用户会不断点击,那么搜索引擎就会从浏览器、安卓、wifi服务器等中看到,所以在社交媒体上分享有价值的内容很重要,从而促进了大量的外链转发,最终带来流量!

  10.关注和不关注五星级

  在每次后台测试中,我们发现nofollow 链接和follow 链接的处理方式不同。尽管它们都具有很好的相关性,但请记住,nofollow 链接和关注的链接本身是高度相关的,您应该尝试使用一些分析工具来找到那些 nofollow 链接。

  11. 页面深度一星

  以前一级目录的链接比二级目录的链接更容易吸引蜘蛛爬,首页比其他页面更容易吸引蜘蛛。但是今天,搜索引擎可以抓取所有页面,他们判断所有页面,他们知道所有页面。

  

  12.图片VS文字零星

  不要太担心这一点,因为它是如此明显。图片链接比锚文本弱,当然,如果图片链接带来的流量高于锚文本,那就另当别论了!

  13.链接和页面年龄是零星的

  有一些追溯工具可以查看链接和页面的年龄。您可能认为一些旧链接对排名影响不大,但事实恰恰相反。通常我们可以看到一个新页面总是喜欢链接到一个旧页面,这就是原因。

  14. 主题页面三星

  这并不是说从域名角度看本站的权威,而是指某个热点话题下的本站权威。最快的检查方法是尝试在任何搜索引擎中搜索某个主题,查看目标站点是否排在前10位,然后使用关键词搜索工具逐一检查关键词。

  15. JavaScript vs HTML 两颗星

  我给这个元素打了两星,因为代码仍然是引起搜索引擎注意的一种方式,并且 网站 操作员仍然可以更改代码以影响页面排名。您可以通过查看搜索引擎快照来查看站点或链接是否已编入索引或 收录。

  16. 垃圾邮件链接 4 星

  这个非常重要。只要搜索引擎发现该网站的垃圾链接过多,就会立即放弃该网站或受到更严重的处罚。如果可能的话,你可以打开相关的分析工具,给你的网站打分,看看有多少垃圾链接。

  17.链接增长速度是零星的

  如果您正在做白帽、非手动、非垃圾邮件链接建设,您永远不必担心这一点。如果没有,你必须担心。永远不要认为你可以比搜索引擎更聪明,它不会捕捉到你在做什么。如果必须,请尝试使链接至少在表面上看起来很漂亮。

  18.Authorauthority 授权两颗星

  这对于链接建设者的重要性更多的是从影响者的角度来看,而不是从简单的 SEO 角度来看。如果您能找到权威专家为您的网站撰写内容并链接到您,那就太棒了!你可以在推销自己时引用专家的话网站。

  超值资料:【自研】东鸽用 Go 语言写了一个能够自动解析新闻网页的算法

  “夜班”,当之无愧的明星

  的公众号。

  输入网页文本(无需输入xpath),自动结构化输出标题、发表时间、正文、作者、来源等信息。

  对于流量,标题有点虚张声势。但是,该算法确实可以在多个来源和多个站点中使用。已经在生产环境中应用,效果不错。

  先体验一下

  打开体验地址(或点击阅读下方原文)->体验页面[1],体验页面比较简单,主要分为3个区域:体验说明、参数输入区、分析结果展示区。

  在开始体验之前,您可以阅读体验说明。

  ① 打开新闻页面,如永福:林业科技专员助力麻竹种植[2]。

  ② 然后在页面空白处右击,在弹出的选项卡中选择查看页面源代码。

  然后我们看到浏览器新窗口中显示的网页原文

  ③ 选择所有文本并复制。查找 Base64 编码的在线工具 [3]

  ④ 将复制的网页原文粘贴到框1,然后点击加密按钮,框2会出现对应的Base64编码,点击复制按钮将内容复制到剪贴板

  ⑤ 回到我们的体验页面,将Base64内容粘贴到参数输入区的网页框中,在URL中填入这个文章对应的URL。

  ⑥ 点击开始分析按钮,稍等片刻,体验页面会弹出分析结果提示。然后可以滑动到下方的分析结果显示区查看分析结果。

  解析结果展示区主要分为界面信息、解析耗时统计、解析结果三部分。

  接口信息主要是后端接口返回的一些信息;

  分析耗时统计是每个环节的耗时记录,单位为毫秒;

  该算法的结果会显示在解析结果中,如文章标题、文章出处、文章发表时间、文章作者、文章正文,文本所在的HTML标签,文本所在的HTML标签的Class属性等。

  还有根据文本内容计算的文章分类、文章标签、文章摘要等。多实体命名+情感分析还在训练中,所以还没有体验页面。

  

  建议你找一些其他的新闻页面,用同样的方法复制粘贴到体验页面,看看算法是怎么工作的。

  这个算法有什么用

  事实上,我们在工具应用中已经看到了这种算法:早年360浏览器推出的阅读模式几乎就是这样的算法。阅读模式可以屏蔽那些广告、侧边栏和底栏内容,让您专注于阅读文档和小说。

  在研发层面,它也发挥着很大的作用。我们来看一些业务场景:

  ①假设一家舆情公司,它采集news文章data,经过提取内容、标注、训练,最终形成舆情产品(比如什么舆情,什么舆情波)。

  ②我们再举个栗子,假设一个投标公司,它采集投标信息,然后格式化内容提取投标标题、投标金额、投标人信息、代理信息,投标要求等,可以形成一个投标产品(例如千匹马投标)。

  无论是新闻网站还是竞价信息网站,站点的数量非常多,通常在几万个。按照惯例,招聘一批爬虫工程师+一批写xpath规则的工作人员(通常是勤奋的实习生),从上万个站点中一个一个的填写xpath,等爬虫的时候去读采集 取对应的xpath进行解析。

  几十、几百个网站,幸好这几万个站点的数据要填好几个月。另外,有些网站会有页面规则变化,导致无法解析数据,所以需要每天更新xpath。你想想工作量...

  但是有了这样的算法,就不需要填写每个xpath了。

  你的团队/公司可以采集在短时间内获得大量数据,你不开心

  这个算法强大吗?

  先不说强不强。让我们看看哪里有这样的算法或产品。

  1、之前提到过360浏览器(现在是其他厂商的浏览器)有这样的产品。

  2、微软似乎也有类似的能力,也开放了API接口。

  3. Readability,国外开源Python库。

  4.国内开源Python库GNE。

  5、部分国内硕士研究论文(可在百度图书馆查询)。

  6. 其他基于深度学习的库,名字记不住了。我记得微软工程师崔庆才写的。

  7.有个国外的网站,名字忘记了,费用很贵。

  8.有一个用Java写的外文版本,名字里有News,但是我忘记了。

  现在大家体验的算法都是受GNE启发的。在GNE的早期,我通读了源码,与原作者进行了很多交流,询问了很多知识。后来在我写的《Python3网络爬虫合集》一书中,有一章介绍了GNE算法的原理和源码。再次感谢GNE作者青楠。

  体验过浏览器的阅读模式,通过阅读源码阅读了Readability,也通读了国内能找到的相关论文。目前深度学习相关库和计费接口尚未测试。

  这类自动解析算法的好坏在于几个点:效率、提取能力和准确性。以下是我接触过的几种算法的评估:

  1. 可读性基于 HTML 标签的权重。比如p标签的权重高于div,h的权重高于span。在很标准的新闻网站中,效果还可以,但是一般计算出来的结果都离谱。

  

  2、GNE早期,GNE早期是基于标点密度的,90%以上的网页解析都没有问题。但是在实际应用中发现了几个问题:内容会被截断,正文少的会被错误识别,发布时间和页面显示不一样。与文本提取相关的问题都是由密度算法引起的。由于提取优先级和逻辑选择了另一种方式,因此时序不规则。

  3.国内论文,因为看不懂国外论文,只能搜索国内论文。一般来说,基于文字密度、标点密度、位置、距离等,效果其实不是很好。在这里你可能会问,为什么论文的结果这么好?

  那是因为测试样品选择得很好!!!

  4. GNE-modern,GNE-modern是基于人类视觉+新闻网页特征规则的。一般的逻辑是网页的内容通常在网页的中间,这样可以消除左右上下的噪音。中间的噪声通过块的长度来判断,最后可以提取出非常准确的文本。

  技术细节不能泄露太多,我举个例子。上图中的蓝色块是放置图片的位置。从 GNE-Modern 的角度来看,它会认为蓝色块的宽度和下面文字的宽度不同,所以这个块会是噪声,应该排除。

  先不说那些需要大量样本训练的深度学习算法,毕竟我自己没有体验过。但有一点是肯定的,仅仅基于分类和回归的深度学习是不可能取得好的效果的。不知道bert模型出来后有没有人训练出更好的模型。

  对比总结:上面列举的例子中,GNE-Modern的body part提取是最好的,但是我记得是需要浏览器渲染的,从效率上看好像还没有找到好的解决方案。

  本文中的算法,大家可以体验一下,毕竟实际体验可以证明好不好。我觉得这篇文章的算法目前可以​​按照效率+准确率+提取能力来排名(这是一个很谦虚的词)。

  放上群友提供的哔哩哔哩专栏的分析效果。

  算法的逻辑是什么

  不好意思,我现在不打算讨论这个问题,也不是开源的时候,下一个。

  引用了哪些算法

  前面说过,我读过Readability和GNE-early的源码,国内也读过大部分相关论文。

  一开始我是基于GNE的早期优化和改造。

  看了很多深度学习相关资料,最后决定不走这条路线,因为结果发现效果并没有达到我想要的效果。

  突然有一天,我在看《天上九歌》的那一集选了那一集,得到了灵感。经过短暂的编码,我测试了一下,发现结果是可行的,于是我就一头扎进去了。这条领带是20年...

  错误的

  是 200 天

  哪些区域可以横向缩放

  现在主要用于新闻数据分析,可以扩展到招标网页分析、电子商务网页分析、药品网页分析等。

  如果从深度学习的角度来看,它们可能需要不同的训练、不同的样本和不同的算法模型。但是从我的算法原理来看,它们都是一样的,适当的改动,就可以得到另一个领域的解析算法。

  参考

  [1] 体验页面:3597/

  [2]永福:林业科技专员助力麻竹种植:

  [3] 在线工具:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线