网页新闻抓取(《计算机应用研究》优先出版»2022年第39卷)
优采云 发布时间: 2021-12-27 15:17网页新闻抓取(《计算机应用研究》优先出版»2022年第39卷)
《计算机应用研究》优先刊 »2022 年第 39 卷 » 第 4 期 »
NEMTF:基于多维文本特征的新闻网页内容提取方法 NEMTF:基于多维文本特征的新闻网页内容提取方法
免费全文下载(已下载...次)
获取完整的 PDF
作者
翁斌岳、秦永斌、黄瑞章、任丽娜、田岳林
机制
贵州大学计算机科学与技术学院;贵州省公共大数据重点实验室;贵州轻工业职业技术学院
统计数据
摘要已浏览...次,已下载...次
概括
目前主流的网页提取方法存在两大问题:提取的信息类型单一,难以获取各类新闻信息;并且它依赖于 HTML 标签,很难扩展到不同的来源。为此,提出了一种基于多维文本特征的新闻网页信息提取方法,利用新闻文本的书写特征对书写特征、语义特征和位置特征进行分类,并通过一个多通道卷积神经网络,用于提取各类新闻网络信息;从新来源中提取新闻网络信息只需要少量的数据集训练。
网页信息提取;卷积神经网络;网络挖掘;文字特征
基金项目
国家自然科学基金联合基金重点项目(U1836205)
国家自然科学基金重大研究项目资助项目(91746116)
国家自然科学基金项目(62066007, 62066008)
贵州省科技重大专项资助项目(千科河重大专项[2017]3002)
贵州省科技基金重点资助项目(何千科基金[2020]1Z055)
这篇文章的网址
收到的日期
修订日期
页码
——
中国图书馆分类号
TP391.1
文件标记代码