采集的文章和关键词不符(摘要关键词抽取的大多数文档中筛选出核心的词语)

优采云 发布时间: 2021-12-12 18:15

  采集的文章和关键词不符(摘要关键词抽取的大多数文档中筛选出核心的词语)

  摘要 关键词 抽取是从文档中过滤出核心词,对文档的主题进行简要概括。对于新闻文档,有效的关键词提取可以帮助读者快速筛选感兴趣的内容,提升用户体验。传统的关键词提取技术主要考虑词的统计特征,从而选择出现频率高的词。但是,部分关键词在文档中统计词频并不高,导致文档与关键词的词汇量差异较大。另外,有些关键词语言是由多个词组成,而这些词在候选关键词列表中并不存在,这也会对关键词抽取的结果产生一定的影响。在本文中,以新华社真实新闻语料库为实验数据集,研究关键词提取技术。通过构建“文档-关键词”翻译器,训练机器翻译方法,提高文档词和关键词之间的翻译概率;抽象出训练好的模型,实现关键词抽取,取得了不错的效果。同时,通过引入维基百科词条库进行词合并,进一步提升了关键词的抽取效果。关键词 关键词 提取;新闻网页处理;机器翻译;短语合成 并训练机器翻译方法,提高文档词与关键词之间的翻译概率;抽象出训练好的模型,实现关键词抽取,取得了不错的效果。同时,通过引入维基百科词条库进行词合并,进一步提升了关键词的抽取效果。关键词 关键词 提取;新闻网页处理;机器翻译;短语合成 并训练机器翻译方法,提高文档词与关键词之间的翻译概率;抽象出训练好的模型,实现关键词抽取,取得了不错的效果。同时,通过引入维基百科词条库进行词合并,进一步提升了关键词的抽取效果。关键词 关键词 提取;新闻网页处理;机器翻译;短语合成 新闻网页处理;机器翻译;短语合成 新闻网页处理;机器翻译;短语合成

  中文图书馆分类号 G2 文献识别码 A 文章 编号 1674-6708 (2015)136-0085-021 关键词 特点及原理分析

  关键词作为一个文档的简短摘要,通常由几个词组成。适当的关键词可以作为文档的高层摘要,帮助读者快速浏览和理解文档的主题内容。

  关键词在期刊和会议论文中,作者通常给自己贴标签。但是,对于大量的新闻,文章往往不是关键词。因此,如何从新闻文档中自动提取合适的关键词具有非常重要的实际应用和研究价值。

  关键词 抽取的大多数方法主要集中在研究文档词的统计特征。这些方法有很大的局限性,特别是对于短文本内容,这些方法会显示出很差的结果。这将在文档词和 关键词 之间产生显着的词汇差异。

  另外,关键词可能是单个词,也可能是多个词的组合。因此,如果文档分词后的词合并不当,也会造成文档词与关键词的词汇差异。

  从上面的分析可以看出,如何解决文档词与关键词之间的词汇差异是关键词提取技术的关键。因此,在本文中,我们使用两种方法来解决词汇差异现象。

  1) 通过引入维基百科词条数据库,合并分词后的词,解决分词后文档不收录关键词的情况。

  百度搜索“77cn”或“免费范文”可以找到本站所有范文供免费阅读。采集本站方便下次阅读,免费范文,提供综合性经典小说新闻文献库关键词提取技术研究在线全文阅读。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线