资讯内容采集系统(基于链接块锚文本的主题过滤方法和华南木棉系统)

优采云 发布时间: 2021-12-30 10:30

  资讯内容采集系统(基于链接块锚文本的主题过滤方法和华南木棉系统)

  [摘要] 近年来,网络新闻依托互联网,利用互联网的优势,有力推动了新闻报道的发展,开创了媒体新时代。网络新闻因其快速、及时、多样化和高度互动的特点,迅速成为广大网民的主要信息来源。本文面向教育新闻,重点解决采集系统在学科信息采集、网页动态更新、网络信息提取等方面存在的问题。在此基础上,设计并实现了教育新闻采集系统,帮助用户方便快捷地获取教育新闻。本文利用网页的特性来组织每个内容块,并设计了一种基于链接块锚文本的主题过滤方法。首先根据HTML语言中的div和table标签提取链接块;然后,根据相关链接入块的特点,将块中的所有锚文本拼接成一个大文本块——链接块的锚文本;最后应用分类器对它们进行分类并提取与教育相关的链接块。在网页动态更新方面,分析了网络信息采集系统增量采集技术的特点,进一步研究了网页的变化规律。针对导航网页的更新特点,提出了一种页面级粒度自适应调整采集方法。该方法根据单页当前和历史采集结果自动调整采集间隔时间,有效减少采集新闻时延。在Web信息提取方面,本文总结了现有的Web信息提取方法,重点介绍了基于浅层文本的噪声块过滤方法和华南木棉系统基于网页结构的块方法。改进了基于浅层文本的噪声块过滤方法,利用文本块和HTML文档级特征过滤掉噪声块,最终通过拼接得到网页正文。此外,提出了一种基于统计特征的新闻标题提取方法,有效地解决了新闻标题的提取问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线