网页采集器的自动识别算法(,本文针对Web新闻自动摘要问题展开研究(组图))

优采云 发布时间: 2021-12-13 13:30

  网页采集器的自动识别算法(,本文针对Web新闻自动摘要问题展开研究(组图))

  【摘要】随着社会发展进入互联网时代,人们获取信息的方式多样化,越来越多的人依赖互联网获取自己需要的信息。同时,信息量的快速增长给用户信息检索带来了困难。面对海量的检索结果,用户往往无法高效、准确地获取所需信息。为此,本文重点研究Web新闻的自动摘要。本文分析了TextRank算法和融合文本特征的摘要算法的不足,提出了一种融合BM25和文本特征的新的新闻摘要算法,并对五种不同的算法进行了对比实验。最后,使用提出的新算法,基于Heritrix框架开发了一个Web新闻摘要系统。具体研究内容如下: 本文首先介绍了本研究课题的意义和背景,*敏*感*词*自动文本摘要的研究现状和主要成果。其次介绍了文本自动摘要的相关知识,包括:自动摘要的分类和方法,如何使用网络爬虫进行新闻网页采集和主流的网页正文提取方法。在第3章中,首先介绍了基于行块分布函数的网页文本提取方法的主要思想以及该方法与传统方法相比的优势;其次,分析了TextRank算法在给句子打分时只考虑文本的内部结构的缺点。发现TextRank中计算句子相似度的方法不可靠;在此基础上,提出了一种结合BM25和文本特征的新闻摘要算法;另外,BM25的计算结果可能会出现负数,BM25可能是由于句子。针对所提出的算法进一步优化了长度过长而失去意义的问题。在第 4 章中,本文使用 ROUGE 评估工具,通过实验将本文改进算法与其他相关算法进行了比较。实验结果表明,与其他方法相比,本文提出的结合BM25和文本特征的新闻自动摘要算法具有更高的性能。最后,为了实际使用所提出的算法,本文使用Heritrix框架设计并实现了一个Web新闻页面自动摘要系统,包括新闻页面采集、文本提取、文本图模型表示和句子权重计算模块. 系统可以实时采集新闻网页,自动提取采集到达的新闻网页摘要,并通过HTML页面显示摘要信息。文本图模型表示和句子权重计算模块。系统可以实时采集新闻网页,自动提取采集到达的新闻网页摘要,并通过HTML页面显示摘要信息。文本图模型表示和句子权重计算模块。系统可以实时采集新闻网页,自动提取采集到达的新闻网页摘要,并通过HTML页面显示摘要信息。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线