基于大数据的新闻智能选稿方式及系统与流程
优采云 发布时间: 2020-08-23 06:29基于大数据的新闻智能选稿方式及系统与流程
本发明属于信息处理技术领域,具体的说,是涉及一种基于大数据的新闻智能选稿方式及系统。
背景技术:
现有技术中,有其他公司研制了一套“新闻转载系统”,其技术原理主要是通过采集和汇总目标网站的相关信息,进而递交给后续负责编辑、审核的工作平台,以实现新闻的转载。上述统主要依赖传统的关系型数据库进行数据处理与储存,并运用一些数据采集工具进行信息采集。该系统具备几方面的缺陷,一是在数据处理上依赖mysql等传统关系型数据库,当须要处理海量数据信息时,整套平台的数据处理能力、响应能力可能会出现困局;二是实现的功能较为单一,仅能实现目标网站的信息采集与后台递交,缺少对热点新闻的挖掘方式;三是操作不友好,比如信息更新量大的目标网站,一天的内容生产量可能有上万条,如此大的信息量没有降维或其他数据过滤机制,对于系统的操作人员而言意味着十分沉重的工作负担;四是不具备文本格式手动处理的能力,编辑人员须要手工进行文字、图片等内容的调整,工作效率无法得到保障。
技术实现要素:
为了改善上述问题,本发明的目的在于提供一种实现便捷,并以大数据技术为基础,结合一些数据挖掘方式和爬虫技术的新闻智能选稿技巧。
为了实现上述目的,本发明采用的技术方案如下:
一种新闻智能选稿方式,包括以下步骤:
(1)采集并收录目标网站的内容信息的步骤;
(2)数据清洗的步骤;
(3)文本及图片格式处理的步骤;
(4)进行标题与内容的动词处理的步骤;
(5)地域辨识:对每条新闻内容的地域属性进行辨识,并标明其地域归属;
(6)人名辨识:对每条新闻内容进行人名辨识;
(7)数据入库:将数据信息写入相应的数据库表中;
(8)热点估算:新闻热点估算与热点人物估算;
(9)根据步骤(8)的估算结果判定是否为历史数据,并依据判定结果,将数据信息写入对应的数据库中;
(10)浏览、查询、调用数据信息,将符合条件的内容推献给内容管理系统,由内容管理系统发布。
进一步的,在所述步骤(1)中借助多线程手动采集、收录目标网站的内容信息。
进一步的,所述步骤(2)中数据清洗包括:垃圾数据过滤和信息去重处理。
进一步的,所述步骤(3)中对文本及图片格式进行处理,主要包括:
(1)去噪:页面多余元素的清除;不需要的图片的去噪;
(2)保障数据的完整性:图片url信息的补全;多个页面的网页数据信息的获取及低格处理;
(3)页面编码验证:通过返回的页面背部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删掉相应数据,并重新采集对应的数据。
进一步的,所述步骤(4)采用stanford segmenter动词算法,进行标题与内容的动词处理。
进一步的,所述步骤(6)的具体方式如下:调用 Stanford CoreNLP 人名算法,并判定新闻内容是否进行过人名辨识,如果早已进行过辨识,则跳过人名辨识环节,如果是一篇新的文章,则进行人名辨识估算,并储存、更新剖析结果。
进一步的,所述步骤(8)的具体方式如下:
(81)设定热点估算的时间范围;
(82)将满足条件的新闻内容加载到热点估算队列中;
(83)根据传播载体渠道权重、信息发布及时性、新闻相似度热点进行新闻估算;根据人名出现的频次进行热点人物估算。
进一步的,所述步骤(9)中,非当天数据同步到hadoop平台,当日数据则写入mysql数据库中。
进一步的,在所述步骤(10)中,需对推献给内容管理系统的新闻内容进行去噪处理,包括:
(101)根据不同的网站或格式给新闻内容中段落加上
标签,去除缩进;
(102)替换所有原有标签消除款式;
(103)获取一遍图片,根据图片大小,设定图片款式。
本发明还提供了实现所述的新闻智能选稿方式的系统,包括:
信息采集模块,采集并收录目标网站的内容信息;
数据清洗模块,对采集的内容信息进行数据清洗;
文本及图片格式处理模块,完成文本及图片格式的处理;
分词处理模块,进行标题与内容的动词处理;
地域辨识模块,对每条新闻内容的地域属性进行辨识,并标明其地域归属;
人名辨识模块:对每条新闻内容进行人名辨识;
数据入库模块:将数据信息写入相应的数据库表中;
热点估算模块:新闻热点估算与热点人物估算;
数据判定模块,根据热点估算模块的估算结果判定是否为历史数据,并按照判定结果,将数据信息写入对应的数据库中;
推送模块,浏览、查询、调用数据信息,将符合条件的内容推献给内容管理系统,由内容管理系统发布。
本发明与现有技术相比,具有以下优点及有益疗效:
本发明是大数据技术在媒体领域的全新应用,它结合了大数据处理与数据挖掘技术,为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,其响应速度快、功能丰富、对新闻内容的降维、去噪能力强,极大地提升了新闻编辑人员的工作效率。
附图说明
图1为本发明的流程*敏*感*词*。
具体施行方法
下面结合附图和施行例对本发明作进一步说明,本发明的施行方法包括但不限于下述施行例。
实施例1
如图1所示,本施行例提供了一种基于大数据的新闻智能选稿方式,该方式结合了大数据处理与数据挖掘技术,实现对海量新闻内容的数据处理和热点挖掘,与现有技术相比,不仅数据处理能力强、响应迅速,而且为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,极大的提升了新闻编辑人员的工作效率。
为了促使本领域技术人员对本发明申请有更清晰的了解和认识,下面对本方式进行详尽的说明:
一、数据的采集和收录
通过数据采集工具(主要收录javaee和webmagic技术),利用多线程手动采集、收录目标网站的内容信息。
二、数据清洗
通过数据清洗程序(该程序为现有程序),完成垃圾数据过滤,信息去重处理等工作。
三、文本及图片格式处理
对文本及图片格式进行处理,主要包括:
(1)去噪