Web采集与海量文本信息自动分类研究
优采云 发布时间: 2021-07-01 18:44Web采集与海量文本信息自动分类研究
[摘要]:近年来,随着科技的飞速发展,互联网上的各种信息呈现井喷之势,铺天盖地。如何更好地发现、获取和利用网络文本信息成为越来越值得关注的问题。 采集和海量文本信息自动分类是获取、组织和处理海量信息和数据的关键核心技术。优秀的采集和分类系统,可以根据需要快速高效地从互联网上获取相关网页,分析提取网页信息,然后将获取的文本内容按照一定的方法自动分类,这样才能更好的被人们使用。这些无疑对快速发现、研究和解决问题非常有帮助。因此,本文结合网络采集、信息处理和文本自动分类技术,引入词池进化特征词的方法,对采集和海量文本信息的自动分类问题进行深入研究,并解决海量网络信息时代文本数据有效性问题采集和自动分类问题。基于以上分析,本文主要完成了以下工作: 首先,本文分析了信息采集领域和文本自动分类领域的常用关键技术和相关算法。重点介绍信息采集过程中的源代码获取、链接分析与匹配和网页信息处理技术,以及文本分类领域的文本表示、特征选择和常用分类算法。其次,提出了用户定义的 Web采集 和处理模型。该模型在传统采集技术的基础上,实现了基于采集流程的链接分析、匹配等改进,提高了采集海量文本信息的效率和准确率。第三,在传统分类的特征词选择算法的基础上,提出了一种基于词池进化的多级特征词改进方法,增加了特征词集的规模,利用改进后的特征词集对分类进行优化模型来提高文本自动分类的准确性。第四,将提出的Web采集和分类模型应用到实际科研中,实现高效稳定的采集和分类系统。通过系统测试和相关性能分析可知,本文提出的相关算法模型具有良好的采集和分类效果。