面向字段的Web文本采集和分类
优采云 发布时间: 2020-08-07 23:23[摘要]: 随着Internet的*敏*感*词*普及和各个行业信息化的改善,与行业相关的Web文本信息正在迅速积累. 如何从海量信息中提取满足要求的知识是当前信息处理领域的研究热点. 本文以陕西省教育厅专项科研项目“针对特定领域需求的概念设计方案自动生成方法研究”为研究背景. 通过网络信息采集与分类技术,发现并采集了与现场相关的主题网络资源,并采集了网页. 研究了文本信息预处理与分类两个方面,主要研究工作如下: (1)研究在主题描述方法上,结合专业词典和特征选择,并基于专家提供的有限专业词典,对现有领域中代表文本和通过互联网采集的与主题相关的文本进行特征提取和特征选择,过滤主题特征词,扩展专业词库,并通过由主题特征词组成的向量清楚地表达主题; (2)针对主题爬虫网页采集的不确定性,分析了一般网页的结构特征,并采用基于线块分布函数的方法提取了网页文字,并提取了广告等无用文字信息. 并删除了干扰主题相关性判断和文本分类的导航. 它在网页上实现了很好的去噪效果,并且是通用的. (3)使用主题爬虫搜索策略进行综合价值评估,综合考虑网页内容分析和链接分析两个方面,结合PageRank算法,计算出网页的综合链接价值,并筛选出与之相关的URL. 话题. (4)从采集的网页中提取网页的标题和正文,将其另存为文本文档并进行预处理. 根据现有的机械主题类别信息,使用基于KNN的机械主题文本分类算法将文档集合分类为多个子类别. ,并对分类算法进行了实验分析. 最后,结合以上研究内容,以机械领域的挖掘机为主题,实现了机械领域Web文本采集与挖掘的原型系统.