内容采集系统(一种基于大数据的新闻智能选稿方法及系统解决方案)
优采云 发布时间: 2022-03-31 13:07内容采集系统(一种基于大数据的新闻智能选稿方法及系统解决方案)
本发明专利技术公开了一种基于大数据的智能新闻选稿方法及系统,解决了现有技术中热点信息挖掘的数据处理能力差、响应速度慢、效率低的问题。智能新闻选择的方法包括:(1)采集和收录目标网站内容信息;(2)数据清洗;(3)文本和图像格式处理;(4)标题和内容的分词处理;(5)区域识别;(6)人名识别;(7)数据存储;(8)热点计算;(10)浏览、查询、调用数据信息,将符合条件的内容推送到内容管理系统,由内容管理系统发布。本发明的专利技术结合了大数据处理和数据挖掘。该技术为新闻编辑提供海量新闻素材、实时新闻热点挖掘和快速发布功能。响应速度快,功能丰富,对新闻内容的聚类和去噪能力强,大大提高了新闻编辑的工作。效力。
下载所有详细的技术数据
【技术实现步骤总结】
该专利技术属于信息处理
具体涉及一种基于大数据的智能新闻选稿方法及系统。
技术介绍
在现有技术上,其他公司开发了一套“新闻转载系统”。实现新闻转载的工作平台。以上系统主要依靠传统的关系型数据库进行数据处理和存储,使用一些数据采集工具获取信息采集。该系统有几个缺陷。首先,它依赖于传统的关系型数据库,例如 mysql 进行数据处理。当需要处理海量数据信息时,整个平台的数据处理和响应能力可能会成为瓶颈。二是实现的功能比较少。单一,只能实现目标网站信息采集和后台提交,缺乏热点新闻的挖掘方法;三、操作不友好,比如目标网站 随着大量的信息更新,一天可能会产生数以万计的内容。如此大量的信息没有聚类或其他数据过滤机制,这对系统的操作者来说意味着非常繁重的工作量。第四,它不具备自动处理文本格式的能力。编辑人员需要手动调整文字、图片等内容,工作效率难以保证。
技术实现思路
为了改善上述问题,本专利技术的目的是提供一种基于大数据技术,结合部分数据挖掘方法和爬虫技术的、便于实施的新闻智能选稿方法。为实现上述目的,本专利技术采用的技术方案如下: 一种智能选择新闻文章的方法,包括以下步骤:(1)采集和收录target网站内容信息步骤;(2)数据清洗步骤;(3)文本和图像格式处理步骤;(4)分词处理步骤)标题和内容;(5)区域识别:识别每条新闻内容的区域属性,并标明其地理归属;(6)个人姓名识别:识别每条新闻内容的名称;(7)数据存储:将数据信息写入对应的数据库表中;(8)热门计算:新闻热点计算和热门人物计算;(9)根据步骤的计算结果(8)判断是否为历史数据),并根据判断结果将数据信息写入对应的数据库;(10)浏览、查询、调用数据信息,将符合条件的内容推送到内容管理系统,由内容管理系统发布。进一步,在步骤(1),多线程自动采集的内容信息,收录目标< 使用@网站。进一步地,在步骤(2)中,数据清洗包括:垃圾数据过滤和信息去重处理。进一步地,在步骤(3)中,对文本和图像格式进行处理,主要包括:(1)去噪:页面上多余元素的去除)去除;不需要的图片去噪;(2)保证数据完整性:图片url信息的补全;多页面网页数据信息的获取与格式化;(< @3)Pages Code校验:通过返回的页眉消息和页面自身编码格式验证页面数据是否乱码,如果是乱码,删除对应数据重新< 垃圾数据过滤和信息去重处理。进一步的,在步骤(3)中,对文本和图片格式进行处理,主要包括:(1)去噪:去除页面上多余的元素)Removal;去噪不需要的图片;(2)保证数据完整性:图片url信息补全;多页面网页数据信息的获取与格式化;(3)页面码校验:通过返回的页眉消息验证页面数据是否乱码和页面本身的编码格式,如果是乱码,删除对应的数据,重新< 垃圾数据过滤和信息去重处理。进一步的,在步骤(3)中,对文本和图片格式进行处理,主要包括:(1)去噪:去除页面上多余的元素)Removal;去噪不需要的图片;(2)保证数据完整性:图片url信息补全;多页面网页数据信息的获取与格式化;(3)页面码校验:通过返回的页眉消息验证页面数据是否乱码和页面本身的编码格式,如果是乱码,删除对应的数据,重新< 去噪不需要的图片;(2)保证数据完整性:图片url信息补全;多页面网页数据信息获取与格式化;(3)页面码校验:通过返回验证页面数据是否乱码页头消息和页面本身的编码格式,如果是乱码,删除对应的数据,重新< 去噪不需要的图片;(2)保证数据完整性:图片url信息补全;多页面网页数据信息获取与格式化;(3)页面码校验:通过返回验证页面数据是否乱码页头消息和页面本身的编码格式,如果是乱码,删除对应的数据,重新<
信息发布的及时性,新闻相似度热点,进行新闻计算;根据名字出现的频率,进行热点计算。同步到hadoop平台,将当天的数据写入mysql数据库。进一步地,在步骤(10)中,需要对推送到内容管理系统的新闻内容进行去噪处理,包括:(101)根据不同的网站@给新闻内容添加段落> 或格式
标签,去除压痕;(102)替换所有原有标签,清晰样式;(103)一次获取图片,根据图片大小设置图片样式。专利技术还提供了实现新闻智能选稿方法系统,包括:信息采集模块、采集和收录目标网站的内容信息;数据清洗模块、 采集 文字图片格式处理模块,完成文字图片格式的处理;分词处理模块,进行标题和内容的分词处理;区域识别模块,识别每个新闻内容的区域属性,并标记其地理归属;名称识别模块:对每个新闻内容进行名称识别;数据存储模块:将数据信息写入对应的数据库表中;热点计算模块:新闻热点计算和热点人物计算;数据判断模块,根据热点计算模块的计算结果,判断是否为历史数据,根据判断结果将数据信息写入对应的数据库;推送模块浏览、查询、调用数据信息,将符合条件的内容推送到内容管理系统。它由内容管理系统发布。与现有技术相比,本专利技术具有以下优势和有益效果: 本专利技术是大数据技术在媒体领域的全新应用。
附图说明图。图1是本专利技术的流程*敏*感*词*。具体实施方式下面结合附图和实施例对本专利技术作进一步的说明。专利技术的实施例包括但不限于以下实施例。实施例1 如图1所示。1、本实施例提供了一种基于大数据的新闻智能选稿方法,结合大数据处理和数据挖掘技术,实现海量新闻内容的数据处理和热点挖掘,与现有技术相比,不仅数据性强处理能力和快速反应,还为新闻编辑提供海量新闻素材、实时新闻热点挖掘和快速发布功能,大大提高了新闻编辑的工作效率。为了使本领域技术人员对本专利技术申请有更清晰的认识和理解,下面对方法进行详细说明:一、Data采集和收录Through Data采集 工具(主要包括javaee和webmagic技术),使用多线程自动采集,收录target网站内容信息。二、数据清洗通过数据清洗程序(本程序为已有程序),完成垃圾数据过滤、信息去重等任务。三、文字图片格式处理 文字图片格式处理,主要包括:(1)去噪页面去除冗余元素(如脚本等标签);@网站 logo、微信公众号二维码等)去噪;(2)保证数据的完整性和图片url信息的完整(主要是用绝对url替换图片的相对url);more 各个页面的网页数据信息的获取和格式化;( 3)页面代码校验:通过返回的页头信息和页面自身的编码格式,验证页面数据是否乱码,如果是乱码,删除对应数据,重新采集对应数据. 更多 各页面网页数据信息的获取与格式化;(3)页码校验:通过返回的页头消息和页面自身的编码格式,校验页面数据是否乱码,如果是乱码,删除对应数据,重新采集对应数据。更多 各页面网页数据信息的获取与格式化;(3)页码校验:通过返回的页头消息和页面自身的编码格式,校验页面数据是否乱码,如果是乱码,删除对应数据,重新采集对应数据。
四、分词过程调用stanfordsegmenter(斯坦福分词)分词算法来处理标题和内容的分词;识别内容的地理属性,并标注其地理属性;六、人名识别调用StanfordCoreNLP名字算法,判断这个内容是否经过名字分析,如果已经识别,跳过名字识别链接,如果是新的文章,名字进行识别计算,并存储和更新分析结果;七、数据存储通过C3P0数据库连接池与数据库建立连接,将数据信息写入对应的数据库表中。,完成数据存储;八、 Hot Calculation 用于热点计算(包括热点新闻计算和热点人物计算)。在本实施例中,热点新闻计算组件当前的工作机制是每2分钟计算一次,程序运行一次大约需要1分钟。首先,用户可以设置热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,调用热点新闻和热点人物的计算方法。热点新闻计算的数据模型包括传播载体渠道的权重和信息发布的及时性。、新闻相似度等维度,热字的计算主要是根据名字的出现 在本实施例中,热点新闻计算组件当前的工作机制是每2分钟计算一次,程序运行一次大约需要1分钟。首先,用户可以设置热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,调用热点新闻和热点人物的计算方法。热点新闻计算的数据模型包括传播载体渠道的权重和信息发布的及时性。、新闻相似度等维度,热字的计算主要是根据名字的出现 在本实施例中,热点新闻计算组件当前的工作机制是每2分钟计算一次,程序运行一次大约需要1分钟。首先,用户可以设置热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,调用热点新闻和热点人物的计算方法。热点新闻计算的数据模型包括传播载体渠道的权重和信息发布的及时性。、新闻相似度等维度,热字的计算主要是根据名字的出现 用户可以设置热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,调用热点新闻和热点人物的计算方法。热点新闻计算的数据模型包括传播载体渠道的权重和信息发布的及时性。、新闻相似度等维度,热字的计算主要是根据名字的出现 用户可以设置热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,调用热点新闻和热点人物的计算方法。热点新闻计算的数据模型包括传播载体渠道的权重和信息发布的及时性。、新闻相似度等维度,热字的计算主要是根据名字的出现
【技术保护点】
判断是否为历史数据,根据判断结果,将数据信息写入对应的数据库;(10)浏览、查询、调用数据信息,将符合条件的内容推送到内容管理系统,由内容管理系统发布。
【技术特点总结】
具体方法如下:调用StanfordCoreNLP名字算法,通过名字判断新闻内容是否被识别,如果被识别则跳过名字识别链接,如果是新的文章,则执行名字识别计算,并存储和更新分析结果。6.根据权利要求1所述的基于大数据的新闻智能选稿方法,其特征在于,所述步骤(8)的具体方法如下:(81)设置热点计算的时间范围;(82)将满足条件的新闻内容加载到热点计算队列中;(83)根据通信载体信道的权重,信息发布的及时性,和新闻相似度热点,计算新闻;
【专利技术性质】
技术研发人员:孙玉洋、于忠、段朝晖、张涛、吴磊、
申请人(专利权)持有人:,
类型:发明
国家省份:四川;51
下载所有详细的技术数据 我是该专利的所有者