分享文章:SEO收集大量文章，用倒排索引找出类似标题

优采云发布时间: 2022-11-04 22:27

　　放开眼睛，戴上耳机，听~！

　　SEO采集 Massive文章，使用倒排索引查找“相似标题” 到目前为止，站群模式依然有效，使用站群方法拦截mass搜索流量被偷偷变现是正常的。一个人管理一批网站，内容更新离不开采集。本文使用倒排索引的逻辑来解决SEO采集场景下的“相似标题”问题。

　　SEO采集了很多文章，使用倒排索引查找“相似标题”

　　到目前为止，站群模式仍然有效，使用站群偷偷拦截大量搜索流量是正常的。一个人管理一批网站，内容更新离不开采集。

　　本文使用“相似标题”的SEO采集场景中倒排索引的逻辑解决方案，顺便用一个小算法，过一段时间再分享一个“重要热点自动推送”的案例到微信”用这个小算法。

　　倒排索引是搜索引擎检索的基石。了解倒排索引有助于理解搜索引擎的排名逻辑。SEO朋友连基本的排名规则都不知道，无法将这些规则与日常优化结合起来。SEO就是感觉。

　　表面上看，我在文章中偶尔出现的一些技术细节和小想法，可能看起来离赚钱还很远，但实际上，正是这些小东西支撑了一个人的判断，当机会来临时，他们是正确的选择可以制作。

　　由于网站内容的数量和质量对于推动流量非常重要，因此每个 SEOer 都会自己指导或采集这些东西。在纽约时报 PC 的早期，我们媒体的概念并不流行。如果一个网站的内容制作完全依赖公司编辑团队的几个学生，那可能支撑不住他们被解雇的那一天。版权和原创的概念当时还很模糊。网站20% 的内容是原创，80% 的内容是采集夹。我认为这是行业的良知。互相采集网站内容是行业常态，大部分个人站长的网站内容都是从第一个文章开始的。

　　在阅读了 2016 年市场上的大部分采集工具（通常是当时的优采云，好像现在一样）后，我放弃了我的几个产品创意，简单地使用它们。Python开发采集工具：

　　时隔四年，感觉越缺的人越喜欢炫耀。他们的技能很差，尤其是英语。因此，在设计界面时，相关的领域和标题应该用英文表达。现在的眼睛看起来很热。

　　但是这个工具的功能直到现在还没有过时。我曾经在曹政先生的微信公众号上发表过评论。我是一个喜欢用大脑而不是手的人。重复的事情让我重复10次、8次，我得考虑是否可以自动化，否则我会开始烦躁。

　　为什么我不喜欢市场上的采集工具，因为我遵循他们的流程，我发现流程非常不灵活和全面。

　　为什么我不喜欢市场上的采集工具，因为我遵循他们的流程，我发现流程非常不灵活，不够全面。我希望当这个工具完成后，我不需要考虑任何事情，只是一步一步地，我尽可能地设计所有可能的情况。该工具可对接三大主流开源内容管理系统：dedecms、phpcms、ecms，接口自行编写，整体模型如下：

　　以自己的网站为一级目录，该目录收录多个目标集合网站为二级目录，每个集合网站收录多个列，每列存储自己的采集规则和历史记录，正常情况下每天上万个仓库是没有问题的。

　　程序支持：随时切换不同操作网站，自动调用预设目标网站和规则。

　　每个目标网站的集合规则支持添加、删除、修改、保存和导出。单个目标可根据页面自动识别最佳爬取规则，并设置多组规则。HTML 格式（在保留原段落的同时，还有其他 HTML 标签）

　　特定字符替换，特定规则的字符替换（常规），图像提取和链接。依次采集网站和列，定时量化，自动判断权重，自动存储，等待审核。

　　说到判断权重，就是我们今天的话题：“相似标题”的判断权重问题。当你打开程序，它就开始工作，从你配置的每一个网站中获取内容，相当于整个网络的集合。文章可以在目标网站本身和目标网站之间重复。

　　除了技术或人为问题外，网站上的相同文章通常是相同的链接，因此程序很容易判断链接是否完全相同。

　　和完全一样，只是在不同的网站上，既然大家都在采集，多半是同一个文章，多个文章同名的网站上贴不是从优化的角度来看是可取的，尤其是在采集的情况下，长期自动采集，无需人工干预，久而久之就会积累大量的重复内容，网站离死不远了。远的。

　　所以除了初步的链接判断外，还要加上title的判断，不管是内部的网站还是直接的网站和网站，如果要进入图书馆，你必须做出判断。

　　所以，除了最初的链接判断外，还要加上title判断，不管是网站内部还是网站直接用网站，但是任何想进入repo的人都应该做那个判断。

　　如果标题完全一样，处理方法和链接一样，直接丢弃即可，但问题是：标题相似。

　　假设网站上有10篇文章文章，标题分别为（以微博热搜为例）：

　　四字哥把沙发借给蔡国庆，特朗普团队说美国团队回应拜登的脸. 日本首相菅义伟希望会见拜登

　　此时程序采集抓取了一篇文章文章，标题为：

　　特朗普拒绝承认选举令人尴尬

　　它的含义与现有数据库中的标题完全相同。它解释了一件事。标题差不多，文章的文字完全一样，只是编者把标题中的“人”换成了“造人”。

　　如果我们让程序自动判断两个标题是否相同，那么对于一台为 0 或 1 的计算机，它给出的结果是：否。

　　如果我们让程序自动判断这两个标题是否相同，它给出的结果不是 0 或 1 的计算机是：否。但是我们显然不能让这样的文章再次存储，所以有一个适当的方法来处理它们，以便程序可以识别它们，同时我们的网站数据库可能有数百万或更多标题的数量，这个方法有效的前提是必须考虑效率，不能几秒就做出判断。

　　在那段时间里，我没有找到任何可以解决这个问题的在线工具。都被一模一样的丢掉了，词的不同被认为是不同的文章。

　　一段时间后，我在搜索引擎书籍中了解了“倒排索引”的想法。现在我认为它可以用来解决这个问题。

　　我们想一想：为什么百度或者谷歌可以在毫秒内搜索到我们需要的东西？

　　事实上，支持的技术方案有很多，但所有的方案都是基于“倒排索引”的。前提是“倒排索引”使得“搜索”的行为大大提高了检索效率并具有一定的相关性。

　　倒排索引：

　　假设这是我们的数据库，文档是网页或文章文章，当用户搜索：Trump

　　因为没有完全相同的时刻（可以找到完全相同的时刻），所以对数据库中收录Trump的文档ID一一搜索，可以得到：2、6，这样就可以找到相关内容用户需要。

　　但是如果里面有100亿条数据，那我们就不知道猴年马月要找什么了。这时候，我们再建一张这样的表：

　　如图所示，我们为单词创建了另一个表。表中的每个单词都是唯一的。每个单词中收录哪些文档？把它放进去，所有的ID都列出来了。

　　当用户搜索：特朗普和拜登，搜索引擎词：特朗普，拜登根据第二张表，特朗普这个关键词显示涉及：2、6、拜登这个关键词是：3、6我还是记得初中路口：2、6、3、6路口，一共6个，所以搜索发现相关内容是：文档6，文档包括特朗普和拜登，满足基本相关性。

　　文章可能有上千个，但世界上的词汇量总是有限的，只要完全一样，数据库就可以立即搜索到。

　　文章可能有上千个，但世界上的词汇总是有限的，只要一模一样，马上就能查到数据库。

　　不管第一个表有多少亿的数据，我们可以通过第二个表立即找到所有收录目标关键字的文档ID，然后用文档ID取交后直接得到第一个表，而不需要检查一个一个。第二张表是：倒排索引，也称为反向索引。

　　至于所谓的正向指数，我觉得没有这个概念，只是反向之后的相对而已。

　　当我当时得知这个想法时，我真的很感动。人们最初是如何想出它的，我非常钦佩它。

　　此应用程序适用于文档 (文章)。看完后心想：能不能把文章换成标题，用这个思路来判断标题是否极其相似？如果你已经有了初步的想法，倒排索引的想法就已经明白了。

　　谈谈技术细节：

　　遇到这个问题并考虑解决办法的肯定是技术人员，所以只要给出核心代码，用Python实现，其实就是一个dict。这个过程还涉及搜索结果的初步分数的计算。看。

　　只是为了让倒排索引更容易理解，所以用一个简单的例子来解释一下它是如何为我们的搜索工作的，其实搜索引擎在搜索数据的时候，并不是所有的文档都简单的取出id的交集，会有大问题。

　　这是一个比较专业的知识，我没有深入了解，只是靠这些思维来解决业务问题。有兴趣的朋友可以看看这本书：这是对搜索引擎的详解——核心技术 PS：感谢SEO界大神ZERO在他的文章早期得到了很多帮助和提振！

　　倒排索引建立后，用户在搜索时一般有如下检索逻辑：

　　文档的本质是取交集的逻辑。我们在这里使用比较简单的词。

　　搜索：Trump和Biden Trump，所有收录它的文件对应的ID分别是：1、2、3

　　拜登，对应的文档ID为：3、4、5

　　干掉特朗普，1、2、3分

　　拿出拜登，1、2、4、5分，3累计两分

　　所以文档3是最相关的，也就是词的逻辑，最后我们得到每个相关文档的相似度，从大到小的列表就是搜索的初始排序。实际上，我们叠加文档的数量来计算分数。在实际检索中，分数并不简单。每个文档应该结合许多因素单独评分，然后加在一起，但对于我们的问题来说就足够了。

　　核心代码：#存储历史的所有标题等价于表1

　　看到的标题= {

　　二

　　}

　　# 单独建立标题对应的分词，方便提取（与表1同步更新）

　　标题字= {

　　拜登, 特朗普, 否认, 承认, 选举, 结果, 尴尬

　　团队，出现

　　}

　　# 表2，单词对应的所有标题都收录在ID中（与表1同步更新）

　　word_id = {

　　王牌组(1,2,3,

　　'拜登'：设置（[3'，'4'，'5'）

　　}

　　# 求余弦

　　defcount_cos(new_word, old_word):

　　回报率

　　# 计算相关分数

　　defget_doc_id（标题）：

　　# 默认创建的整数字典dict用来存储文档分数

　　id_c

　　百度有收录

　　分享文章:百度快照在哪里以及什么又是百度快照？快照怎么更新？怎么删除？

　　百度快照是我们的网页备份，当搜索引擎收录网页备份时。搜索引擎不保证页面会长期存在，信息会保持不变，比如标题、描述等。如果一个页面很长时间不存在，或者标题和内容发生了变化，搜索引擎还向用户显示它损害了用户体验并浪费了自己的服务器资源。结果，收录的页面将被重新捕获和更新，并且快照也将被更新。简单解释一下，百度快照是搜索引擎为网站拍摄的照片，当你的网页内容更新时，这张照片会重新拍摄！

　　1.快照和排名。收录.权重关系

　　1.快照不是越快越好

　　快照更新不超过一个月是正常的。快照的更新率受网站更新频率的影响。越早越好。每天更新快照既不是坏事也不是好事。我们看到太多网站，快照更新频繁，没有排名。

　　2.快照与权重的关系

　　首先，让我们澄清一下。我们说的百度权重并不是百度官方认可的权重，而是爱站推出的网站关键词的预估排名。网站管理工具等网站会给网站带来流量，第三方网站热门评价数据分为0-10级。不知道的请仔细阅读百度官方声明：没有百度pagerank和权重！

　　我们说的快照更新主要是指网站首页的快照更新时间，所以我用一张图来说明百度快照的更新与权重无关，如下图

　　百度快照和权重

　　可以看到，新浪首页和新浪微博首页的快照时间，如果看权重，那么它们的快照时间应该是2014-12-05，即使不是2014-12-05，至少也少超过三天。很多朋友换朋友链的时候，真的不知道要多少天才能拍一张快照！

　　3.快照和排名有什么关系？

　　不知道大家有没有看过一些网站，收录很好，快照更新很快，但是排名很差。如果你以前没有见过，以后要小心。这样的车站还有很多。

　　截图更新快，唯一能证明的就是网站内容更新快，没有别的。

　　2. 百度快照为什么要更新？

　　首先，需要澄清的是，网页被捕获的频率和快照的更新频率是完全不同的。

　　对于百度收录的每一个网站，baiduspider都会根据网站的内容更新频率不断检查是否有新的网页出现，通常情况下，Baidusspider的爬取频率会与产生网站新内容的节奏是一致的。一般来说，更新是指更新百度蜘蛛以抓取网页内容。

　　对于每个新捕获或新检查的网页，我们将根据其重要性和及时性值以不同的比率对其进行索引。通常，快照更新时间是指索引时间。对于一些经常更新重要内容的页面，我们会以更快的速度创建索引。如果页面只是一般的文本更改或内容没有及时性价值，搜索引擎可能不会认为它具有快速更新索引的价值。即使百度蜘蛛重新捕获网页内容，它的快照可能不会很快更新，但这并不意味着它不重要或百度更新很慢。

　　以上是百度官方的解释，已经说得很清楚了。百度快照更新的速度和速度主要取决于“网页内容的重要性”和“及时性价值”即使每天更新内容网站，如果更新的内容既没有价值也没有及时性，百度快照会也不会更新。

　　1.什么是时效？

　　“及时性价值”很容易理解，意思是信息只对一段时间内的决策有价值，或者更新是否新鲜。最常见和最及时的是新闻稿。新闻稿很容易收录。如果网站管理员希望快速捕获他的内容，他可以模仿新闻的编写方式。

　　2. 什么是重要的：

　　网页内容的重要性主要体现在四个方面：

　　内容的可靠性

　　权威内容

　　内容的独特性

　　内容的完整性

　　*敏*感*词*内容

　　由于文章篇幅较长，这里就不一一解释了。您可以阅读2014年最新的高质量标准文章。本文详细阐述了高质量内容的五个因素和方法。

　　但是，我们认为百度对影响快照更新的因素的解释不够全面。除了上面提到的及时性的重要性外，还应包括以下几点

　　三、影响百度快照更新的因素

　　域名是否干净，有没有使用历史，空间是否通畅，有没有慢或者打不开，特别是速度慢影响快照更新的情况。

　　不管是不是新站，新的网站缺乏推广（尤其是新手），没有分量，没有名气，所以蜘蛛很少爬网站，很难算我们的网站更新频率。

　　网站内容更新频繁，蜘蛛会参考网站的更新频率和质量来建立快照的更新频率。

　　4. 快照倒带问题

　　1.快照倒退说明

　　重要网页的快照通常保存在搜索引擎数据库中的多个网页快照中。这些快照是在不同时间捕获的。在某些特殊情况下，搜索引擎系统可能会选择与当前搜索结果不同的快照版本，导致快照时间倒退。这并不影响网站在搜索引擎中的表现，也不意味着搜索引擎减少了网站的权利。

　　2. 影响快照回归的因素

　　检查服务器日志（IIS日志）看空间和蜘蛛访问是否正常

　　是否修改网站，修改标题；

　　是否是新站，是否运营网站，吸引蜘蛛；

　　两周内的快照更新周期不能说是网站不更新；

　　百度服务器数据丢失会导致快照倒退；

　　快照不更新。回归可能伴随着网站减重，但两者无关；

　　5.站点快照与搜索关键字快照不同

　　之所以会这样是因为我们的网页快照存储在百度的不同服务器上，百度会将我们的网站快照保存一段时间，当最新版本的快照文件调用失败或丢失时，之前的快照会被保存保留，这是快照返回的原因。

　　关键字的搜索结果页面并不总是更新。为了节省搜索引擎的资源消耗，搜索引擎采用缓存搜索结果页面的方式。例如，第一次搜索关键字后，搜索引擎在输出结果后进行一系列计算。当下一个关键字被其他用户搜索时，仍然调用上一个搜索结果。并非所有关键字排名都会同时更新。

　　另一个原因是服务器数据没有统计，快照版本和搜索关键照片版本和快照版本站点快照版本不统一，所以会出现不同的快照。简而言之，不同的快照时间不会影响关键字排名和网站权重。例如，发烧可能同时引起头痛，但头痛不是由发烧引起的，也不是对发烧的必然反应，而是有时有一个共同的原因。

　　6.如何使用百度快照

　　当我们打开一个网站时，网站会提示错误代码。删除文章时无法打开搜索结果，删除文章时无法打开搜索结果，或者打开速度很慢，导致被收录页面无法访问。每个收录的网页都有一个纯文本备份。您可以理解文本格式的网页照片或文本备份。此时，您可以通过百度快照快速浏览页面的文字内容。但是，百度只保留文字内容，所以，那些非文字信息，如图片、音乐、快照页面或直接从原创页面调用。

　　那么为什么不保留图片呢？.音乐非文字信息个人认为有两个原因

　　由内容的价值决定：互联网上大部分网站都是基于文字信息的，一般网站文字传递的信息价值远大于图片的价值；

　　由建设成本决定：网上网站的数量n大，存储文本信息占用资源少。如果把图片、音频或者视频放到快照中，无非是占用大量资源。

　　7.如何使用百度快照

　　输入您要查找的关键词，例如，如下图搜索“集传媒”。我用的红框是百度快照的入口。

　　SEO百度快照

　　点击百度快照打开浏览页面。百度快照服务稳定，下载速度非常快。您将不再遭受死链接或网络拥塞的困扰。如下图所示，在快照中，您的关键字已在网页上以不同颜色着色，因此您可以一目了然。单击快照中的关键字，可以直接跳转到文本中的第一个位置，以便于浏览网页。

　　百度截图

　　让我在这里解释一下。之所以显示我的网站logo和右边的qq按钮是因为直接上传到服务器调用，所以不占用网络资源，而且幻灯片是本地上传的，所以幻灯片图片在百度快照页面无法显示。

　　8.如何删除百度快照

　　我想站长朋友或者seoers一定遇到过这样的问题，网站内容已经更新了但是快照中显示的内容确实是之前的内容，或者是快照收录你没有想成为收录内容。还有一个新注册的域名，之前用过。虽然网站已经不在了，但百度快照还在。如果收录的标题与网站的标题不匹配，或者网站已经修改但快照没有更新，需要到百度站长平台备案快照投诉并遇到这些问题快照需要删除。其实删除百度快照很简单，只要像百度一样提交投诉，

　　原文作者：周亮丨百度排名提升+品牌全案例营销《选择至尊传媒》

　　声明：致力于“百度排名提升+品牌全案营销”的话题，部分文章及图片来源于网络。由于种种原因，在推送过程中无法联系到原作者。如有版权问题，请联系删除。

0

2022-11-04

seo文章采集站群系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

分享文章:SEO收集大量文章，用倒排索引找出类似标题

0 个评论

发起人

AI时代内容工厂

分享文章:SEO收集大量文章，用倒排索引找出类似标题

0 个评论

发起人

相关问题