伪原创(关于TF/IDF与向量算法的详细请收下！)

优采云发布时间: 2021-11-29 04:07

　　最简单的查询方式是在百度中复制你要搜索的文字的部分文字内容。一次复制大约两三行。如果搜索查询有相同或相似的内容，百度搜索结果将以红色显示。但是，如果是从网络上抄袭，然后再编辑，就不好查了。但是如果不是学术文本，从网上抄来再编辑也没什么大不了的。

　　另外我可以给大家介绍几个更专业的概念，帮助大家区分原创和伪原创。

　　1. 相似性

　　相似性是搜索引擎最可重用的算法。最常用的算法是TF/IDF算法。这也是一种计算相关性的算法。TF-IDF的主要含义是说：如果一个词或词组在一个文章文章中出现频繁，而在其他文章中很少出现，则认为该词或词组具有良好的分类能力，适合分类。

　　TF词频（Term Frequency）是指给定词在文件中出现的次数。

　　IDF逆文档频率（Inverse Document Frequency）是指：如果收录条目的文档越少，IDF越大，说明条目具有较好的类别区分能力。

　　当一篇文章文章根据TF/IDF进行计算时，就形成了一个多维向量。这个向量就是这个文章的内容特征向量。当两个文章的特征向量趋于一致时，我们认为这两个文章的内容是相似的。如果他们同意，这意味着他们是重复的。

　　TF/IDF和向量算法的详细介绍请参考谷歌黑板的数学之美12-余弦定律和新闻分类

　　2.数据指纹

　　搜索引擎通过相似度采集到文章后，需要判断是否是重复的文章。经常使用数据指纹。数据指纹有很多算法。常见的如文章标点符号提出，为了对比，你很难想象有两个不同的文章，标点符号是一致的。还有一个比较向量，就是TF词频（关键词密度）等等来判断。

　　这时候，你可以想象现在很多伪原创工具只是取代了关键词。你认为替换关键词后，标点指纹是一样的，甚至TF词的频率也不变。还有一段文章的重拍。这确实是标点符号一团糟，但向量和词频问题仍然存在。那么你可以想象这样的伪原创工具的价值。

0

2021-11-29

伪原创

0 个评论

要回复文章请先登录或注册