百度伪原创工具(关于TF/IDF与向量算法的详细请收下!)
优采云 发布时间: 2021-09-09 02:03百度伪原创工具(关于TF/IDF与向量算法的详细请收下!)
最简单的查询方法是在百度中复制一些你要查询的文字内容进行搜索,一次复制两三行左右,搜索查询,如果有相同或相似的内容,百度搜索结果将显示为红色的。但是,如果是从网络上抄袭,然后再编辑,就不好查了。但如果不是学术文本,从网上抄下来再编辑也没什么大不了的。
另外,我可以给大家介绍几个更专业的概念,帮助大家区分原创和伪原创。
1.similarity
相似性是搜索引擎最常用的算法。最常用的算法是TF/IDF算法。这也是一种计算相关性的算法。 TF-IDF的主要含义是说:如果一个词或词组在一个文章中频繁出现而在其他文章中很少出现,则认为该词或词组具有良好的分类能力,适合于分类。
TF Term Frequency 是指给定单词在文件中出现的次数。
IDF 逆文档频率(Inverse Document Frequency)是指:如果收录条目的文档较少,则 IDF 越大,说明条目具有良好的类别区分能力。
当一篇文章文章根据TF/IDF进行计算时,就形成了一个多维向量。这个向量就是这个文章的内容特征向量,当两个文章的特征向量趋于相同的时候,我们认为这两个文章的内容是相似的,如果他们是相同,这意味着它们是重复的。
TF/IDF 和向量算法的详细介绍请参考 Google Blackboard 的数学之美 12-余弦定律和新闻分类
2.数据指纹
搜索引擎通过相似度采集文章时,需要判断是否与文章重复。经常使用数据指纹。数据指纹的算法有很多,比如文章的标点符号。符号提出,为了比较,你很难想象有两个不同的文章,而且标点符号是一致的。还有一个比较向量,就是TF词频(关键词密度)等等来判断。
这个时候,你可以想象很多伪原创工具只是替换了关键词。你认为关键词被替换后,标点指纹是一样的,甚至TF词的频率也没有变化。还有文章那段的重拍。这确实是打乱了标点符号,但向量和词频问题仍然存在。那么你可以想象这样的伪原创工具的价值。