伪原创相似度查询(网页deduplication的任务是检测重复的内容,问题是什么)
优采云 发布时间: 2021-09-22 07:26伪原创相似度查询(网页deduplication的任务是检测重复的内容,问题是什么)
近重复检测的任务是检测重复内容。这项工作在搜索引擎、版权保护、信息显示等方面有很好的应用。在搜索引擎中,主要是删除重复的页面、图片、文件、文档等。以下是讨论网页的副本
有什么问题吗
据统计,网页上大部分相同的页面占29%,而主要内容相同的占22%。这些重复网页中的一些是没有任何更改的副本,一些稍微修改了内容,例如同一文章的不同版本有一个新版本和一个旧版本,一些只是不同格式的不同网页(如HTML和postscript)[重复文档检测模型和算法1999]将内容复制分为以下四种类型:
1.如果两个文档的内容和格式没有差异,则这种重复称为完全布局重复
2.如果两个文档内容相同但格式不同,则称为完整内容副本
3.如果两个文档具有相同的重要内容和相同的格式,则称为部分布局副本
4.如果两个文档具有相同的重要内容但格式不同,则称为部分内容副本
网页重复数据消除的任务是删除网页中主题内容的重复部分。它与降噪和反垃圾邮件一起,是搜索引擎的三大门神
在我看来,不强调至少有四个好处:减少存储;提高检索效率;提高用户体验;还有另一个死链的解决方案
目前,根据百度的搜索结果,重复数据消除工作还不是很完善。一方面,这可能是技术上的困难(精确性和召回率超过90%,这仍然是困难的);另一方面,它可能是重复的定义,如是否重印是重复的?因此,另一项辅助工作是为特殊处理编写个人可写页面(PWP),后续工作是识别PWP页面。^^这里不远
如何解决这个问题
对于网页复制,我们的算法应该从最简单的算法开始,当然,最简单的算法是
两人一组比较文档。如果比较a和B,如果它们相似,则删除其中一个
然而,这个简单的算法有几个未解决的问题:
0.需要解决的问题是什么?完整布局?全部内容?部分版面或部分内容
1.如何衡量a和B之间的相似性
2.删除a或B。如果a~B(~表相似,!~表示不同),B~C,但a!~C、 移除B,无法移除C
另一个更深层次的问题是算法的复杂性有多大?假设文档数为n,文档的平均长度为m。如果复杂度函数的相似度计算复杂度为M:T=T(M),则文档成对比较的复杂度为O(n^2),即O(n^2*T(M)),这种复杂度相当高。对于像搜索引擎一样处理海量数据的系统来说,这是完全不可接受的。所有其他三个问题是:
3.如何降低相似度计算的复杂性
4.如何降低文档比较的复杂性
5.如何处理大型数据集
问题0是解决的关键。不同的问题有不同的解决方案。从网页的角度来看,结构的重复并不意味着重复。例如,不同的产品展示页面有相同的文档结构。从内容的角度来看,复制网站将复制其他网站的主要内容,然后添加一些广告或进行一些修改,因此需要解决的问题是部分内容复制。首先,提取网页的主要内容。算法为:
提取文档的主要内容并比较内容的相似性。如果a和B相似,则删除其中一个
第二,问题2取决于问题1的相似性度量。如果度量函数是可传递的,那么问题2就不存在。如果没有可传递性,我们的方法是什么?哦,找到一个关系并传递相似关系。简单的聚类,我们的框架可以改为:
提取文档的主要内容并比较内容的相似性。如果a和B相似,则将它们聚集在一起,并在最后一个类中保留一个页面
最后,将其总结为几个步骤
步骤1:确定页面的主题内容,这是页面净化的一部分,稍后再讨论
步骤2:计算相似度
第三步:聚类算法,计算相似文档并分类
核心问题是,“如何计算相似性?”这里很容易想到
1.计算内容的编辑距离(方法很有名,但复杂度太高)
2.将内容逐个划分为标记,然后使用设置的Jaccard度量(好主意,但是页面内容太多了,你能减少它们吗?)
好的,但当然,你可以减少集合的数量。只需采样并提取符合属性的标记,例如满足mod M=0的标记,例如概念词?例如stopwords。这是一个多么美妙的音符。在将所有想法组合在一起之前,突然闪现出灵感,啊哈
3.计算内容的信息指纹。参考谷歌研究员吴军的《数学之美》系列
把它们放在一起:
步骤1:确定页面的主题内容,这是页面净化的一部分,稍后再讨论
第二步:提取页面的特征。将文章分段分为一致和非一致组合,散列出来
第三步:使用相似性度量计算集合的相似性,包括信息指纹、Jaccard集合相似性度量、随机投影等
第四步:聚类算法,计算相似文档并分类
方法分类:
根据使用的信息,现有方法可分为以下三类
1.只需使用内容计算相似度
2.结合内容和链接关系计算相似度
3.结合内容、链接关系和URL文本进行相似度计算
通常,它用于删除重复内容。事实上,有些网页
根据特征提取的粒度,现有的方法可分为以下三类
1.特征提取是根据单词的粒度进行的
2.特征提取是根据木瓦的粒度进行的,木瓦是一个连续的单词数,级别介于文档和单词之间,小于文档粒度,大于单词粒度
3.特征提取是根据整个文档的粒度进行的
算法-有关详细信息,请参阅真实知识
1.I-Match
2.Shingling
3.Locality-Sensitive散列(SimHash)
4.SpotSigs
5.合并