伪原创相似度查询(网页deduplication的任务是检测重复的内容,问题是什么)

优采云 发布时间: 2021-09-22 07:26

  伪原创相似度查询(网页deduplication的任务是检测重复的内容,问题是什么)

  近重复检测的任务是检测重复内容。这项工作在搜索引擎、版权保护、信息显示等方面有很好的应用。在搜索引擎中,主要是删除重复的页面、图片、文件、文档等。以下是讨论网页的副本

  有什么问题吗

  据统计,网页上大部分相同的页面占29%,而主要内容相同的占22%。这些重复网页中的一些是没有任何更改的副本,一些稍微修改了内容,例如同一文章的不同版本有一个新版本和一个旧版本,一些只是不同格式的不同网页(如HTML和postscript)[重复文档检测模型和算法1999]将内容复制分为以下四种类型:

  1.如果两个文档的内容和格式没有差异,则这种重复称为完全布局重复

  2.如果两个文档内容相同但格式不同,则称为完整内容副本

  3.如果两个文档具有相同的重要内容和相同的格式,则称为部分布局副本

  4.如果两个文档具有相同的重要内容但格式不同,则称为部分内容副本

  网页重复数据消除的任务是删除网页中主题内容的重复部分。它与降噪和反垃圾邮件一起,是搜索引擎的三大门神

  在我看来,不强调至少有四个好处:减少存储;提高检索效率;提高用户体验;还有另一个死链的解决方案

  目前,根据百度的搜索结果,重复数据消除工作还不是很完善。一方面,这可能是技术上的困难(精确性和召回率超过90%,这仍然是困难的);另一方面,它可能是重复的定义,如是否重印是重复的?因此,另一项辅助工作是为特殊处理编写个人可写页面(PWP),后续工作是识别PWP页面。^^这里不远

  如何解决这个问题

  对于网页复制,我们的算法应该从最简单的算法开始,当然,最简单的算法是

  两人一组比较文档。如果比较a和B,如果它们相似,则删除其中一个

  然而,这个简单的算法有几个未解决的问题:

  0.需要解决的问题是什么?完整布局?全部内容?部分版面或部分内容

  1.如何衡量a和B之间的相似性

  2.删除a或B。如果a~B(~表相似,!~表示不同),B~C,但a!~C、 移除B,无法移除C

  另一个更深层次的问题是算法的复杂性有多大?假设文档数为n,文档的平均长度为m。如果复杂度函数的相似度计算复杂度为M:T=T(M),则文档成对比较的复杂度为O(n^2),即O(n^2*T(M)),这种复杂度相当高。对于像搜索引擎一样处理海量数据的系统来说,这是完全不可接受的。所有其他三个问题是:

  3.如何降低相似度计算的复杂性

  4.如何降低文档比较的复杂性

  5.如何处理大型数据集

  问题0是解决的关键。不同的问题有不同的解决方案。从网页的角度来看,结构的重复并不意味着重复。例如,不同的产品展示页面有相同的文档结构。从内容的角度来看,复制网站将复制其他网站的主要内容,然后添加一些广告或进行一些修改,因此需要解决的问题是部分内容复制。首先,提取网页的主要内容。算法为:

  提取文档的主要内容并比较内容的相似性。如果a和B相似,则删除其中一个

  第二,问题2取决于问题1的相似性度量。如果度量函数是可传递的,那么问题2就不存在。如果没有可传递性,我们的方法是什么?哦,找到一个关系并传递相似关系。简单的聚类,我们的框架可以改为:

  提取文档的主要内容并比较内容的相似性。如果a和B相似,则将它们聚集在一起,并在最后一个类中保留一个页面

  最后,将其总结为几个步骤

  步骤1:确定页面的主题内容,这是页面净化的一部分,稍后再讨论

  步骤2:计算相似度

  第三步:聚类算法,计算相似文档并分类

  核心问题是,“如何计算相似性?”这里很容易想到

  1.计算内容的编辑距离(方法很有名,但复杂度太高)

  2.将内容逐个划分为标记,然后使用设置的Jaccard度量(好主意,但是页面内容太多了,你能减少它们吗?)

  好的,但当然,你可以减少集合的数量。只需采样并提取符合属性的标记,例如满足mod M=0的标记,例如概念词?例如stopwords。这是一个多么美妙的音符。在将所有想法组合在一起之前,突然闪现出灵感,啊哈

  3.计算内容的信息指纹。参考谷歌研究员吴军的《数学之美》系列

  把它们放在一起:

  步骤1:确定页面的主题内容,这是页面净化的一部分,稍后再讨论

  第二步:提取页面的特征。将文章分段分为一致和非一致组合,散列出来

  第三步:使用相似性度量计算集合的相似性,包括信息指纹、Jaccard集合相似性度量、随机投影等

  第四步:聚类算法,计算相似文档并分类

  方法分类:

  根据使用的信息,现有方法可分为以下三类

  1.只需使用内容计算相似度

  2.结合内容和链接关系计算相似度

  3.结合内容、链接关系和URL文本进行相似度计算

  通常,它用于删除重复内容。事实上,有些网页

  根据特征提取的粒度,现有的方法可分为以下三类

  1.特征提取是根据单词的粒度进行的

  2.特征提取是根据木瓦的粒度进行的,木瓦是一个连续的单词数,级别介于文档和单词之间,小于文档粒度,大于单词粒度

  3.特征提取是根据整个文档的粒度进行的

  算法-有关详细信息,请参阅真实知识

  1.I-Match

  2.Shingling

  3.Locality-Sensitive散列(SimHash)

  4.SpotSigs

  5.合并

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线