SEO如何处理采集的内容(5)
优采云 发布时间: 2020-08-05 12:53背景中还有很多问题,本文是对其中两个问题的解答
文本提取
在[SEO如何处理集合内容①]的“泛集合”部分中,提到了文本提取,有些人仍然说他们不知道该怎么做.
这个东西可以在Internet上开源. 在Google搜索“ {programming language}文本提取算法”时,可以找到很多解决方案,例如: 可读性,Boilerpipe,Diffbot ...大多数算法已经打包. 您可以直接使用它,而无需自己编写. 我们在做网站,而不是技术网站. 如果您有现成的车轮,就可以.
所以有些人还有另一个问题: 我应该使用哪个?
否否,这不是在考虑轮子. 首先,不可能每种算法都提取所有网页. 其次,有不止一种算法.
这很简单. 算法不会提取当前网页的正文. 它很容易处理. 无需做任何其他事情. 只需切出算法,然后重试即可. 如果此方法不起作用,请更改另一种. 如果网页正常,可以提取文字. 除非此页面模板凌乱且收录所有内容(例如网站首页),否则没有明显的主要内容块,这是另一回事.
因此,如果在平移采集过程中需要提取链接的文本,则最好首先过滤主页URL.
如果您需要纠结使用哪一个,请参阅: / blog / 2011/06/09 / evaluating-text-extraction-algorithms /
重复数据删除
另一个问题,如果我采集重复的内容该怎么办?
这种炉渣以前使用过两种方法.
第一种类型:
首先,我们定义了有效内容需要满足的指标,例如,单词数必须大于150个单词才能被视为有效内容,而删除少于150个单词将不会存储在数据库. 然后,大于150个单词的内容通常具有超过4个标点符号.
XXXXXXX,XXXXXXXXX。XXX:“XXXXXX,XXXXXXXXXXXX。XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX。XXX?”
XXXX,XXXXXXX。XXXXXXX;XXXX;XXXXXXXX;XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX - XXX!
因此,对于每篇文章,从第二个标点符号开始,连续提取两个标点符号之间的文本,并且单词数大于7,直到提取了三个文本段.
然后将这三个文本段合并为一个,删除该文本段的重复项,并仅保留一个. 因为基本上重复了具有相同文本段的三个连续文章,并且它们被完全重复,所以它们不会更改.
第二种
使用现成的文本重复数据删除算法,还在Google搜索中使用一堆现成的解决方案,例如simhash,Shingling ...
首先清理所有捕获的文本,删除不相关的词,例如停用词,辅助词(不起作用...)等,然后使用上述解决方案计算相似的文档.
哪个更好?渣all都是中等的,我认为没有什么好用的,但是都可以使用. .
但是有一个问题. 一旦大量的文章(例如数以百万计的文章)变大,程序就会运行缓慢,并且CPU会被大量消耗. 我该怎么办? ?
所以我遵循第一种方法的思想,而不是分析全文,而是直接找到每篇文章的最长n个句子,再次进行哈希签名,然后使用上述现成的算法要运行,n通常需要3. 不仅运行速度快得多,而且找到相似文章的最终效果似乎比以前要好.
================================================ ====
知识星球->将来会有好处,例如一段可以编写*敏*感*词*句子的Python代码
微信公众号---->右下角