网页新闻抓取(《计算机应用研究》优先出版»2022年第39卷)

优采云 发布时间: 2021-12-27 15:17

  网页新闻抓取(《计算机应用研究》优先出版»2022年第39卷)

  《计算机应用研究》优先刊 »2022 年第 39 卷 » 第 4 期 »

  NEMTF:基于多维文本特征的新闻网页内容提取方法 NEMTF:基于多维文本特征的新闻网页内容提取方法

  

  免费全文下载(已下载...次)

  获取完整的 PDF

  作者

  翁斌岳、秦永斌、黄瑞章、任丽娜、田岳林

  机制

  贵州大学计算机科学与技术学院;贵州省公共大数据重点实验室;贵州轻工业职业技术学院

  统计数据

  摘要已浏览...次,已下载...次

  概括

  目前主流的网页提取方法存在两大问题:提取的信息类型单一,难以获取各类新闻信息;并且它依赖于 HTML 标签,很难扩展到不同的来源。为此,提出了一种基于多维文本特征的新闻网页信息提取方法,利用新闻文本的书写特征对书写特征、语义特征和位置特征进行分类,并通过一个多通道卷积神经网络,用于提取各类新闻网络信息;从新来源中提取新闻网络信息只需要少量的数据集训练。

  关键词

  网页信息提取;卷积神经网络;网络挖掘;文字特征

  基金项目

  国家自然科学基金联合基金重点项目(U1836205)

  国家自然科学基金重大研究项目资助项目(91746116)

  国家自然科学基金项目(62066007, 62066008)

  贵州省科技重大专项资助项目(千科河重大专项[2017]3002)

  贵州省科技基金重点资助项目(何千科基金[2020]1Z055)

  这篇文章的网址

  收到的日期

  修订日期

  页码

  ——

  中国图书馆分类号

  TP391.1

  文件标记代码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线