基于大数据的新闻智能选稿方式及系统与流程

优采云 发布时间: 2020-08-23 06:29

  基于大数据的新闻智能选稿方式及系统与流程

  本发明属于信息处理技术领域,具体的说,是涉及一种基于大数据的新闻智能选稿方式及系统。

  背景技术:

  现有技术中,有其他公司研制了一套“新闻转载系统”,其技术原理主要是通过采集和汇总目标网站的相关信息,进而递交给后续负责编辑、审核的工作平台,以实现新闻的转载。上述统主要依赖传统的关系型数据库进行数据处理与储存,并运用一些数据采集工具进行信息采集。该系统具备几方面的缺陷,一是在数据处理上依赖mysql等传统关系型数据库,当须要处理海量数据信息时,整套平台的数据处理能力、响应能力可能会出现困局;二是实现的功能较为单一,仅能实现目标网站的信息采集与后台递交,缺少对热点新闻的挖掘方式;三是操作不友好,比如信息更新量大的目标网站,一天的内容生产量可能有上万条,如此大的信息量没有降维或其他数据过滤机制,对于系统的操作人员而言意味着十分沉重的工作负担;四是不具备文本格式手动处理的能力,编辑人员须要手工进行文字、图片等内容的调整,工作效率无法得到保障。

  技术实现要素:

  为了改善上述问题,本发明的目的在于提供一种实现便捷,并以大数据技术为基础,结合一些数据挖掘方式和爬虫技术的新闻智能选稿技巧。

  为了实现上述目的,本发明采用的技术方案如下:

  一种新闻智能选稿方式,包括以下步骤:

  (1)采集并收录目标网站的内容信息的步骤;

  (2)数据清洗的步骤;

  (3)文本及图片格式处理的步骤;

  (4)进行标题与内容的动词处理的步骤;

  (5)地域辨识:对每条新闻内容的地域属性进行辨识,并标明其地域归属;

  (6)人名辨识:对每条新闻内容进行人名辨识;

  (7)数据入库:将数据信息写入相应的数据库表中;

  (8)热点估算:新闻热点估算与热点人物估算;

  (9)根据步骤(8)的估算结果判定是否为历史数据,并依据判定结果,将数据信息写入对应的数据库中;

  (10)浏览、查询、调用数据信息,将符合条件的内容推献给内容管理系统,由内容管理系统发布。

  进一步的,在所述步骤(1)中借助多线程手动采集、收录目标网站的内容信息。

  进一步的,所述步骤(2)中数据清洗包括:垃圾数据过滤和信息去重处理。

  进一步的,所述步骤(3)中对文本及图片格式进行处理,主要包括:

  (1)去噪:页面多余元素的清除;不需要的图片的去噪;

  (2)保障数据的完整性:图片url信息的补全;多个页面的网页数据信息的获取及低格处理;

  (3)页面编码验证:通过返回的页面背部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删掉相应数据,并重新采集对应的数据。

  进一步的,所述步骤(4)采用stanford segmenter动词算法,进行标题与内容的动词处理。

  进一步的,所述步骤(6)的具体方式如下:调用 Stanford CoreNLP 人名算法,并判定新闻内容是否进行过人名辨识,如果早已进行过辨识,则跳过人名辨识环节,如果是一篇新的文章,则进行人名辨识估算,并储存、更新剖析结果。

  进一步的,所述步骤(8)的具体方式如下:

  (81)设定热点估算的时间范围;

  (82)将满足条件的新闻内容加载到热点估算队列中;

  (83)根据传播载体渠道权重、信息发布及时性、新闻相似度热点进行新闻估算;根据人名出现的频次进行热点人物估算。

  进一步的,所述步骤(9)中,非当天数据同步到hadoop平台,当日数据则写入mysql数据库中。

  进一步的,在所述步骤(10)中,需对推献给内容管理系统的新闻内容进行去噪处理,包括:

  (101)根据不同的网站或格式给新闻内容中段落加上

  标签,去除缩进;

  (102)替换所有原有标签消除款式;

  (103)获取一遍图片,根据图片大小,设定图片款式。

  本发明还提供了实现所述的新闻智能选稿方式的系统,包括:

  信息采集模块,采集并收录目标网站的内容信息;

  数据清洗模块,对采集的内容信息进行数据清洗;

  文本及图片格式处理模块,完成文本及图片格式的处理;

  分词处理模块,进行标题与内容的动词处理;

  地域辨识模块,对每条新闻内容的地域属性进行辨识,并标明其地域归属;

  人名辨识模块:对每条新闻内容进行人名辨识;

  数据入库模块:将数据信息写入相应的数据库表中;

  热点估算模块:新闻热点估算与热点人物估算;

  数据判定模块,根据热点估算模块的估算结果判定是否为历史数据,并按照判定结果,将数据信息写入对应的数据库中;

  推送模块,浏览、查询、调用数据信息,将符合条件的内容推献给内容管理系统,由内容管理系统发布。

  本发明与现有技术相比,具有以下优点及有益疗效:

  本发明是大数据技术在媒体领域的全新应用,它结合了大数据处理与数据挖掘技术,为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,其响应速度快、功能丰富、对新闻内容的降维、去噪能力强,极大地提升了新闻编辑人员的工作效率。

  附图说明

  图1为本发明的流程*敏*感*词*。

  具体施行方法

  下面结合附图和施行例对本发明作进一步说明,本发明的施行方法包括但不限于下述施行例。

  实施例1

  如图1所示,本施行例提供了一种基于大数据的新闻智能选稿方式,该方式结合了大数据处理与数据挖掘技术,实现对海量新闻内容的数据处理和热点挖掘,与现有技术相比,不仅数据处理能力强、响应迅速,而且为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,极大的提升了新闻编辑人员的工作效率。

  为了促使本领域技术人员对本发明申请有更清晰的了解和认识,下面对本方式进行详尽的说明:

  一、数据的采集和收录

  通过数据采集工具(主要收录javaee和webmagic技术),利用多线程手动采集、收录目标网站的内容信息。

  二、数据清洗

  通过数据清洗程序(该程序为现有程序),完成垃圾数据过滤,信息去重处理等工作。

  三、文本及图片格式处理

  对文本及图片格式进行处理,主要包括:

  (1)去噪

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线