网页新闻抓取(基于新闻网页主题要素的网页去重方法研究(组图))
优采云 发布时间: 2022-03-12 23:06网页新闻抓取(基于新闻网页主题要素的网页去重方法研究(组图))
去重算法 CCL:TP391 文档识别码:A1 引言 随着计算机的普及和互联网的飞速发展,万维网上的信息量急剧增加,如何有效利用这一空间成为当前研究的热点. 搜索引擎系统提供的智能导航系统,更多是用来在网上找一些东西的。然而,广大网民在使用这些搜索引擎时,尤其是在搜索突发事件新闻时,往往会发现输出结果中收录大量内容重复的网页。这些网页的存在不仅增加了用户检索和阅读的负担,而且浪费了大量的存储资源,降低了索引效率,
因此,删除这些重复页面将是一项实际工作。2、网页去重和新闻话题元素 网页去重的*敏*感*词*立项(60475022),
2)有噪音。转载时一般是“照原样复制”,保持正文内容和结构一致,尊重版权,并在开头加上引文信息。也就是说,这些网页在去除了噪音之后,可以在内容和结构上保持高度的一致性。3) 新闻页面的重复也来自于对同一事件的不同报道,尤其是人们关注的热门新闻。由于这些新闻报道没有转载,从结构上可能无法达到去重的效果,但由于是同一事件的报道,其实重复率还是很高的,需要进行重复数据删除。在本文中,我们认为有两种页面重复:一种是前两种情况,另一种是第三种情况。由于之前提出的方法都是使用文章结构或者词频对网页进行去重,所以不能参照文章的内容所表达的意思去去重,所以这些方法只能deduplicate 前两种 该方法用于对网页进行去重,但不能处理后面出现的第三种情况。在本文中,我们提出了一种学习新闻内容的方法,通过该方法我们可以对出现在这三种情况下的新闻网页进行去重。新闻页面的主题元素 新闻是一种关于最近或正在进行的事实的特殊报道风格。为了让读者清楚地理解一篇报道的内容,至少要明确表达新闻的六个基本要素,即“5W”和“1H”。
这六个要素可以看作是一篇新闻文章的骨架。其中,“5W”指的是Who(谁)、Where(哪里)、What(什么)、Why(为什么)、When(何时),“1W”指的是How(如何)。它们在保证新闻声明的完整性的同时,保证了新闻的真实性和公开性。3 基于新闻主题元素的网页去重算法这里我们主要对同一事件的不同报道进行去重。我们可以看到,一条新闻可以通过六大元素[5]用它的六大元素来表示。由于我们只是想对一个新闻网页的内容进行客观的分析研究,以达到去重的目的,所以这里只建立Where和When的关系,即时间、地点和事件。时间的关系,地点和事件 我们可以根据时间和地点来表示一个新闻页面内容所报道的事件的发生过程。所以这里我们不使用元素中提到的其他四个元素。时间地点短语的提取 在中文文本中,时间信息通常由时间、日期、时间词、段时间、复杂时间短语和事件时间短语组成[6]。对时间短语的提取方法进行了很多研究,并取得了较好的效果。目前对位置短语的提取研究不多。主要关注一些基于地名数据库可以识别的地名。时间信息通常由时间、日期、时间词、段时间、复杂时间短语和事件时间短语组成[6]。对时间短语的提取方法进行了很多研究,并取得了较好的效果。目前对位置短语的提取研究不多。主要关注一些基于地名数据库可以识别的地名。时间信息通常由时间、日期、时间词、段时间、复杂时间短语和事件时间短语组成[6]。对时间短语的提取方法进行了很多研究,并取得了较好的效果。目前对位置短语的提取研究不多。主要关注一些基于地名数据库可以识别的地名。
本文讨论的时间和地点短语与传统的时间和地点短语并不完全相同。它是关于事件的时间和地点短语,而不是作为专有名词的时间和地点短语。因此,我们在提取时间地点短语时,除了提取带有词性标签的时间地点短语外,还需要提取一些与事件密切相关的时间地点短语。也就是说,我们主要提取的是事件的时间和地点短语。通过对语料库的分析,我们发现:除了一些明显可以识别的时间和地点短语外,还有一些不能清晰识别。不能明确识别的主要体现在一些介词短语上,可以表达事件发生的时间和地点。当然,在这篇文章中,提取时间和地点短语的目的是为了能够更准确地描述新闻报道中报道的事件的过程,而不是准确地提取时间和地点短语。因此,我们提出了一种提取时间和地点短语的新方法。新闻报道中时间短语的提取注重有效性和真实性,因此在新闻报道中反映事件发生的时间是新闻报道依赖的重要载体。一个好的新闻报道可以清楚地按时间报道。事件的*敏*感*词*。为了更好的用时间词组来描述事件发生的过程,我们这里主要采用点提取的方法来提取时间词组,而不是提取那些代表“一段时间”的时间词组,也就是我们要提取事件的时间,
我们主要提取了以下几种时间短语:1)表示时间名词和以时间名词为中心的短语。如:“现在”、“去年夏天”、“早上”等。2) 表示时间的名词。如:“五点十点”等。3) 表示年、月、日等时间单位,这些时间单位词与指示代词组合而成的词。例如:“2006”、“June 1”等。 4) 表示时间的位置词和由位置词和其他词组成的表示时间的位置短语也可以视为事件时间短语。如:“爆炸前”、“飞机起飞后”等地方短语的提取在地方短语的提取中,我们首先提取了一些可以被分词软件识别的专有地名,例如“中国”、“日本”等。此外,我们还提取了一些关于事件位置的位置词,特别是关于后位置词,如“东”、“里”、“中”等。有人可能会反对,认为不是所有的方位词都指地方,例如:“在演讲中”,类似这样的词不指地方。但是这里我们主要提取事件发生的地方,我们可以把演讲内容发生的地方当做演讲中,这样就可以很好的解决这个问题。在提取时间、地点短语和事件之间的联系的过程中,无论是时间短语还是地点短语,因为它们在句子中的作用是作为句子的修饰语存在的,所以我们把它们都看作短语。.
提取时,我们尝试根据标点符号将一个句子分成几个“块”。按照名词和动词分开的查询方法,我们先在找到词组的“块”中查找,如果没有找到,再到相邻的“块”中查找。在抽取的过程中,我们规定了一些抽取规则,以保证所有文章抽取的一致性。提取方式可分为以下几类: -3-1) 词组+名词+词组+动词+名词+动词 eg:原文:iran/ns a/m aircraft/q C-130/nx Military /b 运输机/n 6/m/q pm/t at/p 德黑兰/ns South/fa /m 住宅区/n hits/v last/m 建筑物/q 建筑物/n 和/c 坠毁/v 提取为:
我们采用的算法设计如下: -5- 我们定义要识别的网页为Ti,提取的短语为Wi,从对应短语中提取的句子为Si,句子中的单词分别为ni和vi。即我们可以将一个网页表示为: iiii iT {W (S ((n ),( v )))}= 定义1:句子相似度n vSsimN V+= + 提取的短语,其中n是相似的总数其中,v 是相似动词的总数,N 是句子中名词的总数,V 是句子中的动词总数。由于提取的不确定性,我们在计算提取句子的相似度时,不能只考虑提取的名词和动词,这里还要加上我们提取的核心词的对比。我们将提取的核心词定义为 ki。定义 2: kKsimK= , 其中k为比较后一致的核心词个数,K为提取的核心词总数。定义3:目标句的准确相似度为:2Ssim KsimWsim += 。通过相似度比较,得到匹配句子的总数为w,提取的句子总数为W。 定义4:新闻的相似度因子为:min( , )i jwTsimW W= ,表示总分别从第 i 个和第 j 个新闻中提取的句子数。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。K 为提取的核心词总数。定义3:目标句的准确相似度为:2Ssim KsimWsim += 。通过相似度比较,得到匹配句子的总数为w,提取的句子总数为W。 定义4:新闻的相似度因子为:min( , )i jwTsimW W= ,表示总分别从第 i 个和第 j 个新闻中提取的句子数。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。K 为提取的核心词总数。定义3:目标句的准确相似度为:2Ssim KsimWsim += 。通过相似度比较,得到匹配句子的总数为w,提取的句子总数为W。 定义4:新闻的相似度因子为:min( , )i jwTsimW W= ,表示总分别从第 i 个和第 j 个新闻中提取的句子数。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。通过相似度比较,得到匹配句子的总数为w,提取的句子总数为W。 定义4:新闻的相似度因子为:min( , )i jwTsimW W= ,表示总分别从第 i 个和第 j 个新闻中提取的句子数。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。通过相似度比较,得到匹配句子的总数为w,提取的句子总数为W。 定义4:新闻的相似度因子为:min( , )i jwTsimW W= ,表示总分别从第 i 个和第 j 个新闻中提取的句子数。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。分别。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。分别。,iW Wj 为了准确比较新闻内容报道的真实性,这里我们考虑到报道的误差,我们定义提取的词组总数为D,通过词组比较得到一致的词组总数定义为 d。
与提取的匹配句子对应的匹配短语的总数定义为 Dsim。定义5:词组的匹配一致性为:dcoherence=DsimD。定义6:短语的可靠性因子为:dcredibility=DD。在上面的描述和定义的基础上,我们给出了可重复性的评价函数: ( , , , )RM D Dcoherence Dcredibility Tsim= 我们通过预设的 D, Dcoherence, Dcredibility, Tsim 和得到的四个参数进行比较。这里我们以D和Dcredibility这两个参数作为判断网页是否重复的标准,如果大于我们给出的初始值,就用Dcoherence和Tsim这两个参数对网页进行去重。Dcoherence和Tsim的两个参数值,那么1RM = ,也就是说,可以认为两篇新闻文章内容重复,可以替换其中一篇。替换时,我们暂时选择替换内容较少的新闻;否则,可以认为两条新闻文章的内容没有重复,不能替换。0RM =4 实验结果与分析 为了更好的测试我们算法的结果,我们从召回率和准确率两个方面来验证我们提取的效果,其中召回率是找到的重复页面与所有重复页面的比例;精度是找到的精确重复页面 -6- 与找到的所有页面的比率。可以认为,两篇新闻文章的内容没有重复,无法替代。0RM =4 实验结果与分析 为了更好的测试我们算法的结果,我们从召回率和准确率两个方面来验证我们提取的效果,其中召回率是找到的重复页面与所有重复页面的比例;精度是找到的精确重复页面 -6- 与找到的所有页面的比率。可以认为,两篇新闻文章的内容没有重复,无法替代。0RM =4 实验结果与分析 为了更好的测试我们算法的结果,我们从召回率和准确率两个方面来验证我们提取的效果,其中召回率是找到的重复页面与所有重复页面的比例;精度是找到的精确重复页面 -6- 与找到的所有页面的比率。
在验证过程中,我们采集了 40 多个重复的新闻页面并将它们放入我们的测试语料库中。通过实验发现,当D大于7时,Dcoherence大于Dcredibility,Tsim大于Tsim,查全率为98%,查准率为95%。为了将我们的方法与其他网页去重算法进行比较,我们发现一些新闻网页内容基本相同进行处理,结论相差不大;我们也发现了一些不同的网站about 与同一事件报道的新闻网页相比,这些新闻网页在报道的内容上基本相同,但在句子的表达方式上有所不同. 事实证明,我们的去重效果明显优于其他去重方法。. 这主要是因为很多基于网页的特征码、基于聚类的方法和排除相同URL的方法是基于新闻内容的结构和句子非常相似的新闻网页的去重,也就是说只能识别基本的句子。 . 在同一个新闻网页上,不可能识别出不同人使用不同句子撰写的关于同一事件的新闻。5 结论 我们提出的基于新闻元素的去重算法是一个新闻内容的学习过程。从长远来看,这种方法还可以用来对新闻进行分类,去除新闻内容中的错误,跟踪和报道新闻内容。在算法中,我们使用了一系列参数,可以针对不同类型的新闻页面进行设置,以达到更好的去重效果。
此外,我们还可以考虑使用语义词典,例如知网[7],来计算算法中提到的相似度。在接下来的研究和学习过程中,我们将在新闻分类、新闻内容修正、新闻内容跟踪报道等方面进行研究。在这些方面,通过新闻元素学习新闻内容的研究方法将给我们更大的帮助。-7- 参考文献 [1] J。W. Kirriemuir & P.Willett 使用层次聚类分析在数据库搜索输出中识别重复和接近重复的全文记录,在程序自动化库和信息中,(1995)29(3)@ > :241 – 256. [2]Buckley C. Cardie C. Mardis S. Mitra M. Pierce D. Wagstaff K. Walz J. Smart/Empire TIP2 STER IR 系统,TIPSTER 第三阶段会议记录,Morgan Kaufmann, San Francisco, CA, 200 0. [3] 张文涛 www 关于元搜索引擎的研究和实施。硕士论文。清华大学,2002,5. [4] 张刚,刘婷,郑世富,车万祥,李胜。一种用于*敏*感*词*网页的快速重复数据删除算法。中国中文信息学会成立20周年论文集(续)。2001, 11:18 – 25. [5] 孙世凯. 从新闻、新闻与写作的要素,1997,06 [6]赵国荣.中文新闻语料库时间短语识别研究。硕士论文。通过提取时间和地点词组提取新闻内容;最后,通过根据研究新闻内容计算它们的相似度来判断新闻主页的重度。实验结果表明,该方法可以针对新闻内容重复网页完成,并获得较高的召回率和准确率。关键词:新闻主题元素;模糊匹配;去重算法 作者简介:张永奎(1945-),男,山西宜城人,教授,博士生导师,主要研究方向:中文信息处理与人工智能;王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。-8- 并获得高召回率和准确率。关键词:新闻主题元素;模糊匹配;去重算法 作者简介:张永奎(1945-),男,山西宜城人,教授,博士生导师,主要研究方向:中文信息处理与人工智能;王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。-8- 并获得高召回率和准确率。关键词:新闻主题元素;模糊匹配;去重算法 作者简介:张永奎(1945-),男,山西宜城人,教授,博士生导师,主要研究方向:中文信息处理与人工智能;王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。-8- 去重算法 作者简介:张永奎(1945-),男,山西宜城人,教授,博士生导师,主要研究方向:中文信息处理与人工智能;王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。-8- 去重算法 作者简介:张永奎(1945-),男,山西宜城人,教授,博士生导师,主要研究方向:中文信息处理与人工智能;王鹏(1980-),男,山西平遥人,硕士,主要研究方向:中文信息处理与人工智能。-8-