SEO如何处理采集的内容（5）

优采云发布时间: 2020-08-05 12:53

　　背景中还有很多问题，本文是对其中两个问题的解答

　　文本提取

　　在[SEO如何处理集合内容①]的“泛集合”部分中，提到了文本提取，有些人仍然说他们不知道该怎么做.

　　这个东西可以在Internet上开源. 在Google搜索“ {programming language}文本提取算法”时，可以找到很多解决方案，例如: 可读性，Boilerpipe，Diffbot ...大多数算法已经打包. 您可以直接使用它，而无需自己编写. 我们在做网站，而不是技术网站. 如果您有现成的车轮，就可以.

　　所以有些人还有另一个问题: 我应该使用哪个？

　　否否，这不是在考虑轮子. 首先，不可能每种算法都提取所有网页. 其次，有不止一种算法.

　　这很简单. 算法不会提取当前网页的正文. 它很容易处理. 无需做任何其他事情. 只需切出算法，然后重试即可. 如果此方法不起作用，请更改另一种. 如果网页正常，可以提取文字. 除非此页面模板凌乱且收录所有内容（例如网站首页），否则没有明显的主要内容块，这是另一回事.

　　因此，如果在平移采集过程中需要提取链接的文本，则最好首先过滤主页URL.

　　如果您需要纠结使用哪一个，请参阅: / blog / 2011/06/09 / evaluating-text-extraction-algorithms /

　　重复数据删除

　　另一个问题，如果我采集重复的内容该怎么办？

　　这种炉渣以前使用过两种方法.

　　第一种类型:

　　首先，我们定义了有效内容需要满足的指标，例如，单词数必须大于150个单词才能被视为有效内容，而删除少于150个单词将不会存储在数据库. 然后，大于150个单词的内容通常具有超过4个标点符号.

　　XXXXXXX，XXXXXXXXX。XXX：“XXXXXX，XXXXXXXXXXXX。XXXXXX，XXXXXXXXXX，XXXXXXXX，XXXXXX。XXX？”

XXXX，XXXXXXX。XXXXXXX；XXXX；XXXXXXXX；XXXXXX，XXXXXXXXXX，XXXXXXXX，XXXXXX - XXX!

　　因此，对于每篇文章，从第二个标点符号开始，连续提取两个标点符号之间的文本，并且单词数大于7，直到提取了三个文本段.

　　然后将这三个文本段合并为一个，删除该文本段的重复项，并仅保留一个. 因为基本上重复了具有相同文本段的三个连续文章，并且它们被完全重复，所以它们不会更改.

　　第二种

　　使用现成的文本重复数据删除算法，还在Google搜索中使用一堆现成的解决方案，例如simhash，Shingling ...

　　首先清理所有捕获的文本，删除不相关的词，例如停用词，辅助词（不起作用...）等，然后使用上述解决方案计算相似的文档.

　　哪个更好？渣all都是中等的，我认为没有什么好用的，但是都可以使用. .

　　但是有一个问题. 一旦大量的文章（例如数以百万计的文章）变大，程序就会运行缓慢，并且CPU会被大量消耗. 我该怎么办？？

　　所以我遵循第一种方法的思想，而不是分析全文，而是直接找到每篇文章的最长n个句子，再次进行哈希签名，然后使用上述现成的算法要运行，n通常需要3. 不仅运行速度快得多，而且找到相似文章的最终效果似乎比以前要好.

　　================================================ ====

　　知识星球->将来会有好处，例如一段可以编写*敏*感*词*句子的Python代码

　　微信公众号---->右下角

0

2020-08-05

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

SEO如何处理采集的内容（5）

0 个评论

发起人

AI时代内容工厂

SEO如何处理采集的内容（5）

0 个评论

发起人

相关问题