智能网络新闻文本采集方法研究
优采云 发布时间: 2020-08-08 16:00[摘要]: Web技术的创新逐渐使其成为生产和消费网络内容的平台. 互联网上充斥着无数网页形式的信息源. 随着搜索引擎的应用和研究,网络监控和新闻推送等的深入发展,互联网新闻文本的采集成为*敏*感*词*相关人士研究的热点. 网页不仅收录用户关注的文本内容,还收录大量噪音信息,例如广告,导航和相关推荐信息,这使得网页文本的智能提取成为新闻文本采集中的难题之一. . 传统的基于模板的网页文本提取不仅需要手动配置每个网站的分析模板,而且模板无法实时适应网页结构的变化,从而导致后期维护成本较高. 网页的异构特性也给现有的基于规则的学习包装器网页解析技术提出了新的挑战. 本文将重点研究新闻网页文本的智能分析技术,结合新闻网页的结构特征,新闻文本标签的特征以及网络新闻文本采集的要求,提出可以智能地适应网页结构的技术. 更改,可用于提取各种门户中的新闻网页的文本. 方法. 本文的主要贡献如下: (1)提出了一种基于文本标签特征挖掘的网页文本提取方法. 该方法主要挖掘网页的树结构的特征,文本标签的中心性,文本标签的连续性,文本标签的层次性质以及Html修改的标签的特征. 分层聚类算法用于对标签进行聚类并计算标签聚类的权重. 并进行经验调整,以确定最终的网页文本标签集群,然后为了在新闻文本采集过程中采集尽可能多的新闻网页文本信息,向该网页添加了适合新闻文本采集的方法文本标签特征挖掘的文本提取方法. 非新闻网页的自我识别方法: 最后,通过正文标签簇提取网页正文. (2)提出了一种基于智能模板的新闻正文提取方法. 此方法避免了手动配置网页分析模板的过程. 相反,根据每个门户新闻页面结构的特征,使用上述文本标签特征挖掘方法来学习站点中大量新闻页面的特征,然后自动学习页面分析模板参数,最后根据模板信息提取网站中网页的正文. 综上所述,利用实际的网页对本文提出的网页正文提取方法进行实验,实验结果不仅验证了本文提出的方法在网络新闻文本采集中的可行性和较高的准确性,而且还验证了本文中的方法在网页正文中. 提取的*敏*感*词*性和智能性.