伪原创相似度查询(网页deduplication的任务是检测重复的内容，问题是什么)

优采云发布时间: 2021-09-22 07:26

　　近重复检测的任务是检测重复内容。这项工作在搜索引擎、版权保护、信息显示等方面有很好的应用。在搜索引擎中，主要是删除重复的页面、图片、文件、文档等。以下是讨论网页的副本

　　有什么问题吗

　　据统计，网页上大部分相同的页面占29%，而主要内容相同的占22%。这些重复网页中的一些是没有任何更改的副本，一些稍微修改了内容，例如同一文章的不同版本有一个新版本和一个旧版本，一些只是不同格式的不同网页（如HTML和postscript）[重复文档检测模型和算法1999]将内容复制分为以下四种类型：

　　1.如果两个文档的内容和格式没有差异，则这种重复称为完全布局重复

　　2.如果两个文档内容相同但格式不同，则称为完整内容副本

　　3.如果两个文档具有相同的重要内容和相同的格式，则称为部分布局副本

　　4.如果两个文档具有相同的重要内容但格式不同，则称为部分内容副本

　　网页重复数据消除的任务是删除网页中主题内容的重复部分。它与降噪和反垃圾邮件一起，是搜索引擎的三大门神

　　在我看来，不强调至少有四个好处：减少存储；提高检索效率；提高用户体验；还有另一个死链的解决方案

　　目前，根据百度的搜索结果，重复数据消除工作还不是很完善。一方面，这可能是技术上的困难（精确性和召回率超过90%，这仍然是困难的）；另一方面，它可能是重复的定义，如是否重印是重复的？因此，另一项辅助工作是为特殊处理编写个人可写页面（PWP），后续工作是识别PWP页面。^^这里不远

　　如何解决这个问题

　　对于网页复制，我们的算法应该从最简单的算法开始，当然，最简单的算法是

　　两人一组比较文档。如果比较a和B，如果它们相似，则删除其中一个

　　然而，这个简单的算法有几个未解决的问题：

　　0.需要解决的问题是什么？完整布局？全部内容？部分版面或部分内容

　　1.如何衡量a和B之间的相似性

　　2.删除a或B。如果a~B（~表相似，！~表示不同），B~C，但a！~C、移除B，无法移除C

　　另一个更深层次的问题是算法的复杂性有多大？假设文档数为n，文档的平均长度为m。如果复杂度函数的相似度计算复杂度为M:T=T（M），则文档成对比较的复杂度为O（n^2)，即O（n^2*T（M）），这种复杂度相当高。对于像搜索引擎一样处理海量数据的系统来说，这是完全不可接受的。所有其他三个问题是：

　　3.如何降低相似度计算的复杂性

　　4.如何降低文档比较的复杂性

　　5.如何处理大型数据集

　　问题0是解决的关键。不同的问题有不同的解决方案。从网页的角度来看，结构的重复并不意味着重复。例如，不同的产品展示页面有相同的文档结构。从内容的角度来看，复制网站将复制其他网站的主要内容，然后添加一些广告或进行一些修改，因此需要解决的问题是部分内容复制。首先，提取网页的主要内容。算法为：

　　提取文档的主要内容并比较内容的相似性。如果a和B相似，则删除其中一个

　　第二，问题2取决于问题1的相似性度量。如果度量函数是可传递的，那么问题2就不存在。如果没有可传递性，我们的方法是什么？哦，找到一个关系并传递相似关系。简单的聚类，我们的框架可以改为：

　　提取文档的主要内容并比较内容的相似性。如果a和B相似，则将它们聚集在一起，并在最后一个类中保留一个页面

　　最后，将其总结为几个步骤

　　步骤1：确定页面的主题内容，这是页面净化的一部分，稍后再讨论

　　步骤2：计算相似度

　　第三步：聚类算法，计算相似文档并分类

　　核心问题是，“如何计算相似性？”这里很容易想到

　　1.计算内容的编辑距离（方法很有名，但复杂度太高）

　　2.将内容逐个划分为标记，然后使用设置的Jaccard度量（好主意，但是页面内容太多了，你能减少它们吗？）

　　好的，但当然，你可以减少集合的数量。只需采样并提取符合属性的标记，例如满足mod M=0的标记，例如概念词？例如stopwords。这是一个多么美妙的音符。在将所有想法组合在一起之前，突然闪现出灵感，啊哈

　　3.计算内容的信息指纹。参考谷歌研究员吴军的《数学之美》系列

　　把它们放在一起：

　　步骤1：确定页面的主题内容，这是页面净化的一部分，稍后再讨论

　　第二步：提取页面的特征。将文章分段分为一致和非一致组合，散列出来

　　第三步：使用相似性度量计算集合的相似性，包括信息指纹、Jaccard集合相似性度量、随机投影等

　　第四步：聚类算法，计算相似文档并分类

　　方法分类：

　　根据使用的信息，现有方法可分为以下三类

　　1.只需使用内容计算相似度

　　2.结合内容和链接关系计算相似度

　　3.结合内容、链接关系和URL文本进行相似度计算

　　通常，它用于删除重复内容。事实上，有些网页

　　根据特征提取的粒度，现有的方法可分为以下三类

　　1.特征提取是根据单词的粒度进行的

　　2.特征提取是根据木瓦的粒度进行的，木瓦是一个连续的单词数，级别介于文档和单词之间，小于文档粒度，大于单词粒度

　　3.特征提取是根据整个文档的粒度进行的

　　算法-有关详细信息，请参阅真实知识

　　1.I-Match

　　2.Shingling

　　3.Locality-Sensitive散列（SimHash）

　　4.SpotSigs

　　5.合并

0

2021-09-22

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

伪原创相似度查询(网页deduplication的任务是检测重复的内容，问题是什么)

0 个评论

发起人

AI时代内容工厂

伪原创相似度查询(网页deduplication的任务是检测重复的内容，问题是什么)

0 个评论

发起人

相关问题