特指搜索引擎领域内的自动摘要提取技术(组图)

优采云 发布时间: 2021-06-25 07:40

  特指搜索引擎领域内的自动摘要提取技术(组图)

  中文自动摘要是搜索引擎返回给用户的搜索结果中必不可少的一部分,用户只需浏览摘要即可了解需要查询的信息。

  自动摘要的发展历程

  自动摘要技术比较复杂,涉及自然语言处理(NLP)的核心部分。在详细介绍这部分知识之前,我们先回顾一下这项技术的发展历史。

  1958年IBM的HPLuhn首先发表了第一篇关于自动摘要生成文章的文章(Luhn 1958),宣告了这项技术的诞生。迄今为止,自动文本摘要的研究已经经历了40多年历史。

  1990年代,随着电子出版系统和互联网的蓬勃发展,文本自动摘要的价值得到充分体现,越来越受到*敏*感*词*研究人员的关注。

  1993 年 12 月,第一届以“Summarizing Text for Intelligent Communication”为主题的国际研讨会在德国瓦登召开。

  1995年,国际期刊Information Processing & Management发表了题为“Summarizing Text”的特刊,标志着自动文本摘要时代的到来。

  1995年后,特别是随着以谷歌为代表的搜索引擎的兴起,自动摘要技术被应用于搜索引擎查询结果的展示。

  以下我们所称的自动摘要,特指搜索引擎领域的自动摘要提取技术。

  自动摘要的意义及实现

  自动文本摘要缩写为“自动摘要”,是自动从文档中提取的文本片段。用户只需浏览自动摘要,了解与查询相关的文档部分,然后判断是否值得详细阅读整个文档。对于同一个文档,对于不同的查询词,它的自动汇总是不同的。因此,自动汇总的计算是实时的,与查询有关。必须兼顾“效率”和“效果”。

  自动摘要在搜索引擎中的实际应用如图6-16所示。

  

  红框标出的部分为自动汇总。可以看出,自动摘要的内容是实际网页中的一段文字。查询词用红色字体标记,这种识别位置信息的技术在搜索引擎行业被称为“标记红色”。

  摘要是搜索结果的重要组成部分。严格来说,它必须收录以下四种含义:

  1.Summary 提示:摘要必须有直接查询词,并且必须能够指出查询词在文档中的位置。

  2 摘要是描述性的:如果有多个查询词,摘要的有限长度应该能够收录所有查询词。如果不能收录所有查询词,则还需要尽可能收录权重较高的查询词。

  3.Summary 简洁:摘要的长度必须控制在一定范围内,不能太短也不能太长。

  4.Summary 完整性:摘要的句子必须完整,摘要的每个组成部分必须从句首开始,中间不允许断句。

  结合第4章“搜索引擎分析系统”中提到的投票算法和这里介绍的滑动窗口方法,可以更好的解决自动提取摘要的问题,满足上述摘要的4个特征:指示性、描述性、简洁并完成。

  滑动窗口自动摘要的实现包括以下步骤:

  1. 标记查询词在文档正文中的位置(这部分工作实际上是在创建倒排索引时完成的,识别出每个关键词在文档中的位置)。我

  2.从第一个查询词开始,取出一个窗口长度的文本片段作为第一个候选窗口。接下来,每次滑动到出现的下一个查询词时。同理,取出与窗口长度相同的文本片段作为候选窗口,直到所有候选窗口都被取出。

  3.在每个候选窗口所收录的文本片段中,将所有出现在候选窗口中的查询词的权重累加作为候选窗口的得分,并选择最终得分的候选窗口作为结果自动提取摘要。

  滑动窗口的方法和第4章介绍的Shingle算法很相似,但是这里每次滑动的距离是可变的。如果查询词没有出现在章节的大部分内容中,可以立即跳过。由于减少了候选分数的计算量,提高了自动汇总计算的效率。

  下面用一个完整的例子来说明整个抽象抽取过程。假设有一个类似下面的文档(斜体表示)。

  搜索引擎收录了各个学科的概念和知识,包括计算科学、数学、心理学等。特别是数学被广泛应用于几乎所有的搜索引擎系统,如布尔代数、概率论、数理统计、等。这些数学知识的应用为搜索引擎解决了各种问题,最终使搜索技术成熟。

  假设每个滑动窗口取40个汉字,标点符号也视为汉字。查询词为“要学习的搜索引擎”,使用TF/IDF方法量化后总权重分别为6和4。然后抽象提取步骤分为以下几个阶段。

  1.计算查询词在文本中的位置信息,用这样的三元组表示,如图6-17所示。

  

  标记位置的三个分量中,第一个分量表示查询词在文档中的位置,第二个分量表示查询词的长度,第三个分量表示查询词的权重。例如,第一个位置信息的含义是一个权重为6,长度为4个汉字的查询词出现在文档的0位置。

  2.从文档正文中第一个查询词出现的位置开始,取一个窗口长度的片段作为第一个候选窗口。接下来,每次窗口滑动到下一个查询词出现的位置时,也将窗口长度的一个片段作为下一个候选窗口。这会来回循环,直到所有候选窗口都被采用。如果在上一步中确定了n个查询词出现的位置,按照这种计算方法,理论上应该有n个候选窗口。参考图6-17中的查询词位置识别(斜体下划线的词为查询词),可能的候选窗口的起始位置为0、30、41、46、80和88 . 每个窗口最多可取40个汉字,最终得到6个候选窗口

  端口如图6-18所示。

  

  图中,由于文本收录6个关键词,所以每个关键词需要取一个窗口,或者理解为每次窗口滑动到下一个关键词的开头。这样,一共有6个候选窗口,每个窗口最多可以容纳40个汉字。

  其实也需要设置一个最小的窗口长度,以保证摘要不会太短。如果将最小窗口长度设置为 30,则窗口 6 不会成为候选窗口,从而避免不必要的计算。

  3.使用投票算法对每个候选窗口进行评分,得分最高的就是最好的总结。

  分别计算每个窗口的分数如下

  候选窗口1:“搜索引擎”和“数学”各一次,得10分

  候选窗口2:收录一次“搜索引擎”和两次“数学”,因此得14分

  候选窗口3:“搜索引擎”和“数学”各一次,得10分

  候选窗口4:“搜索引擎”和“数学”各一次,得10分

  候选窗口S:收录“搜索引擎”和“数学”各一次,所以得10分

  候选人周口6:包括“搜索引擎”一次,得6分

  综上所述,最好的摘要是候选窗口2中收录的文本片段。回顾摘要中收录的4个含义,检查候选窗口2。虽然它收录查询词,但也有一定的长度,并且它通过投票算法得分来获胜。然而,候选窗口2中表达的句子并不完整,至少不是从完整句子的开头。

  在前面的例子中,假设窗口大小是固定不变的,所以难免要去掉不完整的句子,所以必须从窗口大小开始解决这个问题。即允许窗口大小在一定范围内变化。这种变化主要包括以下两种情况。

  1.Window 缺少句子的第一部分,并尽可能多地向前收录汉字。例如,候选窗口2缺少句子开头的“尤其”一词,因此可以将窗口放大以将这3个汉字收录在头部。

  2.window 收录下一句的开头,没有实际意义。例如,候选窗口3收录下一句开头的“这些数字”,这些部分可以去掉,所以可以缩小窗口,去掉结尾的这3个汉字。

  综上所述,实际候选窗口可以通过标点符号在小范围内进行调整,以尽可能收录一个完整的句子。微调后的候选窗口如图6-19所示。

  

<p>由于使用了候选窗口的微调,可能会出现重复的候选窗口,如图6-19所示。例如,候选窗口5和候选窗口6收录完全相同的文本片段,需要将这些相同的候选窗口合并为一个候选窗口。接下来,同样采用投票和评分的方法,可以得到候选窗口2作为最佳候选窗口。因此,对于诸如“搜索引擎数学”这样的查询,提取的自动摘要是文本片段“尤其是数学被广泛应用于几乎每个搜索引擎系统,例如布尔代数、概率论、数理统计等”。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线