资讯内容采集系统(进一步地通过将互联网新闻题材信息与新闻基本信息相关联)

优采云 发布时间: 2021-11-29 22:04

  资讯内容采集系统(进一步地通过将互联网新闻题材信息与新闻基本信息相关联)

  进一步将互联网新闻主题信息与新闻基础信息关联起来,为网络新闻资源的管理、索引和推荐提供帮助;

  互联网新闻主题信息采集包括,采集政治主题信息、军事主题信息、经济、法制、社会民主、体育、娱乐、农业、科技、教育、安全、医疗和健康、健康、旅游、文化艺术、历史地理等信息形成相应的数据标签采集。

  进一步通过采集互联网用户数据,分析用户行为,挖掘用户需求以及用户与资源的关系,实现个性化推荐;

  互联网用户信息采集包括用户名、用户来源、用户性别、用户年龄、用户职业、用户所在地、用户教育、用户偏好、关注度、粉丝数、在线时长、浏览历史、评论信息;

  通过采集互联网用户来源信息,用户是实现互联网知识共享的纽带,同时全面了解网站各大网民分布,分析网络新闻门户网站的发展;

  互联网用户的来源信息包括来自各种新闻门户网站的信息。

  基于采集系统的应用系统还包括后台管理模块和新闻数据内容标签分析应用模块,后台管理模块对用户、消息、内容、标签进行管理。新闻数据内容标签分析应用模块包括新闻素材筛选模块、新闻排版模块、新闻播报形式模块、新闻花絮生成模块和舆情分析模块;

  新闻素材分为筛选模块,对采集到的大量新闻素材进行初步筛选,对具体事实具有宏观视野,对全局作出准确判断;同时,利用数据分析内容,利用数据采集标签进行精准定位,挖掘新闻话题抓取独家报道或寻找新闻佐证,扩大报道深度;发挥盘点数据作用,编辑发布后台新闻,增加报道深度;

  新闻编排模块将反映同一主题相关新闻的采集整理,丰富新闻信息,使内容更丰富,深化主题;同时,从新闻题材入手,贴近当地生活,编排能突出地域风情和文化内涵的新闻内容,发挥“异类”的竞争优势;

  播出形式模块包括滚动播出模块和多播出模块。具体来说,播出形式模块利用大数据分析用户的观看习惯,调整新闻播出形式;同时,满足不同的观看需求 定制化用户需求,最大限度地发挥新闻传播和宣传的效果,实现多播滚动播放的方式;针对突发事件和持续跟踪事件,及时滚动插入记者采集到的最新消息和回放时发布的最新网络广播

  花絮生成模块按时间段分析每日节目内容,提取收视高峰时段的内容标签,生成摘要和花絮;

  用户舆情分析模块对节目播出后的用户评论反馈进行情感标签分析,分析评论热点,了解群众需求;对舆情热点话题进行挖掘和预测,对老百姓关心的标志性热点事件进行深度报道。释疑。

  一个存储新闻数据采集标签内容的标签库,包括:

  新闻中的数据分类表存储了各级分类名称,以分类id为主键;

  新闻节目基本信息表,存放节目基本信息,以节目id为主键;

  互联网新闻信息表,存储互联网新闻的基本信息,以新闻id为主键;

  新闻节目类型信息表,存放节目类型信息,以type id为主键;

  新闻话题信息表,存储新闻话题信息,以话题id为主键

  上网用户基本信息表,存储用户信息,以用户id为主键

  互联网用户来源信息表,存放用户来源门户网站信息,以网站id为主键。

  本发明通过对新闻数据内容特征的定义和获取,帮助记者全面获取素材,敏锐捕捉新闻热点和焦点,提高电视台和网站的生产效率和管理效率,提高用户体验 推荐准确率,解决信息过载问题,帮助政府准确把握民意,有效传播国家政策引领思想。

  同时。本发明是一种新闻数据内容特征获取与应用系统,将新闻数据分为两大类:电视新闻节目和互联网门户网站新闻信息。分为7个层次,包括基本新闻节目信息和节目制作。信息、节目类型信息、互联网基本新闻信息、新闻主题信息、互联网用户信息、用户来源门户网站信息,涉及200多个采集指标。为实现新闻内容数据的存储和分析,设计了适合新闻数据录入和存储的数据库结构,并开发了应用系统实现新闻数据的存储和应用。

  本发明的其他特征和优点将在以下描述中进行描述,并且部分从描述中变得明显,或者通过实施本发明而被理解。

  下面通过附图和实施例对本发明的技术方案作进一步详细说明。

  图纸说明

  附图用于提供对本发明的进一步理解,并构成说明书的一部分。与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

  图1为本发明的新闻内容数据分类方法*敏*感*词*;

  图2是本发明新闻节目基本信息内容的特征图。

  图3是本发明的新闻节目制作信息内容的特征图。

  图4是本发明的新闻节目类型的信息内容特征图。

  图5为本发明互联网新闻基本信息内容特征图。

  图6是本发明的新闻主题信息内容的特征图。

  图7是本发明的用户基本信息内容特性图。

  图8为本发明网络用户源网站的信息内容特征图;

  图9是本发明新闻节目的基本信息图。

  图10是本发明的互联网新闻基本信息图;

  图11是本发明的用户基本信息图;

  图12为本发明的新闻内容数据分类表;

  图13为本发明新闻节目基本信息表;

  图14为本发明互联网新闻基本信息表;

  图15为本发明的新闻节目类型信息表;

  图16为本发明的新闻主题信息表;

  图17为本发明的用户基本信息表;

  图18为本发明的用户来源信息表;

  图19为本发明新闻数据内容特征获取与应用系统的整体架构图;

  图20是本发明系统实际应用的流程图;

  详细方法

  下面将结合附图描述本发明的优选实施例。应当理解,此处所描述的优选实施例仅仅用以说明和解释本发明,并不用于限制本发明。

  本发明是一种新闻数据内容特征获取与应用系统,将新闻数据分为两大类:电视新闻节目和互联网门户网站新闻信息。分为7个层次,包括基本新闻节目信息和节目制作。信息、节目类型信息、互联网基本新闻信息、新闻主题信息、互联网用户信息、用户来源门户网站信息,涉及200多个采集指标。为实现新闻内容数据的存储和分析,设计了适合新闻数据录入和存储的数据库结构,并开发了应用系统实现新闻数据的存储和应用。

  本发明是一种新闻数据内容特征获取与应用系统。形成统一的数据存储标准,实现新闻数据的内容特征获取和应用,为广电、互联网、移动网络客户端提供跨平台、跨媒体的开放数据接口,使其嵌入到新闻数据中。相应的媒体资产管理系统 可用于实现新闻的存储、管理、制作和传播。新闻数据按电视新闻节目和互联网新闻分为两大类,共7组,包括新闻基本节目信息、节目制作信息、节目类型信息、互联网新闻基本信息、新闻主题信息、互联网用户信息。信息,和用户来源门户网站信息,涉及200多个采集指标。新闻数据内容研究采用手动和自动抓取相结合的方式,主要是采集各大电视台的典型新闻节目和各大新闻门户网站的新闻信息网站。目前已手动录入2016年湖南新闻网内容数据,自动抓取新浪、搜狐、网易、中国新闻、央视、乾隆网、新华网、人民网等十余家主要门户网站。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。新闻数据内容研究采用手动和自动抓取相结合的方式,主要是采集各大电视台的典型新闻节目和各大新闻门户网站的新闻信息网站。目前已手动录入2016年湖南新闻网内容数据,自动抓取新浪、搜狐、网易、中国新闻、央视、乾隆网、新华网、人民网等十余家主要门户网站。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。新闻数据内容研究采用手动和自动抓取相结合的方式,主要是采集各大电视台的典型新闻节目和各大新闻门户网站的新闻信息网站。目前已手动录入2016年湖南新闻网内容数据,自动抓取新浪、搜狐、网易、中国新闻、央视、乾隆网、新华网、人民网等十余家主要门户网站。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。各大电视台的典型新闻节目和各大新闻门户网站的新闻信息网站。目前已手动录入2016年湖南新闻网内容数据,自动抓取新浪、搜狐、网易、中国新闻、央视、乾隆网、新华网、人民网等十余家主要门户网站。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。各大电视台的典型新闻节目和各大新闻门户网站的新闻信息网站。目前已手动录入2016年湖南新闻网内容数据,自动抓取新浪、搜狐、网易、中国新闻、央视、乾隆网、新华网、人民网等十余家主要门户网站。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。com、新华网、人民网。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。com、新华网、人民网。网站 500条新闻数据的提取与分析。它在帮助提高新闻生产效率、提高新闻质量、实现有效的新闻管理和推荐、帮助政府控制和引导舆论等方面发挥着至关重要的作用。

  获取新闻数据的内容特征,可以帮助编辑全面获取素材,敏锐捕捉新闻热点和焦点,提高电视台和网站的管理效率,帮助政府准确把握民意,有效传播国家政策引领思想,分析提升新闻推荐精准度,解决信息过载问题。为了全面描述新闻的内容特征,其特点是:数据分为两大类,分为七层,每一层又细分新闻数据组,定义和统计的指标有200多个。

  实现新闻数据的存储和分析,设计适合新闻数据指标的录入和存储的数据库结构,并基于该数据库构建应用系统。

  一、 新闻数据内容特征获取

  结合图1新闻数据分类方法图,对采集的新闻内容数据具体介绍如下:

  1.电视新闻节目

  (1)基本程序信息

  新闻节目基本信息包括节目类型、节目内容、节目时长、节目收视率等近20个指标,数据定义的具体信息如图2所示。对新闻节目进行全面客观的分析,了解新闻节目的市场情况和发展状况,发现热点话题。

  (2)节目制作信息

  获取和分析新闻节目*敏*感*词*中各个环节的信息,从节目制作端开始,将新闻节目按照*敏*感*词*分为11组,包括剪辑、剪辑、播出、嘉宾、制作、导演、灯光、服装造型、后期制作、音响制作、策划监制等近60项指标,如图3所示,可为新闻节目的策划、制作、播出提供技术指导。

  (3)程序类型信息

  节目类型信息包括新闻信息、专题报道、连续报道、新闻评论、采访、脱口秀等7类,近15种详细类型,如图4所示。有助于深入了解各种新闻节目之间的联系和区别,为新闻节目的策划服务。

  2.网络新闻

  (1)基本消息

  新闻基础信息包括新闻内容、关键词、主题、记者、主编、图片、视频、转载等近30个指标。 如图5所示,通过对新闻基础数据的分析,一个资源可以成立。之间的关系,生成新闻主题等。

  (2)新闻资讯

  新闻话题包括军事、政治、经济等13种类型,如图6所示,将它们与基本新闻信息相关联,可以为网络新闻资源的管理、索引和推荐提供一定的帮助。

  (3)基本用户信息

  用户基本信息包括用户年龄、性别、偏好、浏览历史、语音等13项指标。通过采集用户数据,分析用户行为,挖掘用户需求以及用户与资源的关系,实现个性化推荐。

  (4)用户来源信息

  用户来源信息包括新浪、网易、腾讯、新华网、央视、千龙网等16个新闻门户网站,可以以用户为链接实现互联网知识共享,同时全面了解网络各专业用户网站的分布,分析在线新闻门户网站的发展。

  为了对本发明的数据内容进行存储和分析,新闻内容数据库的逻辑结构设计如下:

  图9为本发明新闻节目的基本信息图,显示了新闻节目与其他实体的联系。

  图10为本发明互联网新闻基本信息图,显示了门户网站新闻资源与其他实体的连接。

  图11是本发明的用户基本信息图,显示了用户与其他实体的联系。

  图12是本发明的新闻内容数据分类表。存储所有级别的分类名称,以分类id作为主键。

  图13为本发明的基本新闻节目信息表,用于存储基本节目信息,以节目id为主键。

  图14为本发明的互联网新闻信息表,用于存储互联网新闻的基本信息,以news id为主键。

  图15为本发明的新闻节目类型信息表,用于存储节目类型信息,以类型id为主键。

  图16是本发明的新闻话题信息表,用于存储新闻话题信息,以话题id为主键。

  图17是本发明的用户基本信息表,用于存储用户信息,以用户id为主键。

  图18为本发明的用户来源信息表,用于存储用户来源门户网站信息,以网站id为主键。

  应用系统总体架构如图19所示,系统根据新闻数据的内容特征获取标准对新闻数据进行统一存储和管理,并进行数据挖掘和分析,可进一步实现新闻素材筛选、新闻采集安排、新闻节目播出形式。针对调整、生成亮点片段、用户舆情分析等实际应用,系统实际运行流程图如图20所示。

  1.新闻素材筛选(为采集记者服务)

  对大量搜集的新闻素材进行初步筛选,宏观看待具体事实,大局下准确判断。

  用数据分析内容,利用标签精准定位、挖掘新闻话题,抓取独家报道或寻找新闻佐证,扩大报道深度。

  充分发挥盘点数据作用,编辑发布背景新闻,增加报道深度。

  2.新闻采集安排(供编辑服务)

  对反映同一主题的相关新闻进行采集整理,将丰富新闻的信息量,使内容更丰富,主题更深。

  从新闻话题出发,贴近当地生活,编排能够突出地域风情和文化内涵的新闻内容,发挥“异类”竞争优势。

  3.新闻播报形式滚动,多播

  提供大数据分析用户观看习惯、调整新闻播报格式的服务

  为满足不同观看习惯用户的需求,最大化新闻传播效果,可实现多播滚动模式。

  针对突发事件和连续跟踪事件,可在回放时滚动播放记者采集到的最新消息和网络上最新发布的消息,并及时插入和播放。

  4. 琐事片段生成

  按时间段分析每日节目内容,提取收视高峰期的内容标签,生成摘要和花絮。

  5.用户舆情分析

  对节目播出后的用户评论反馈进行情感标签分析和评论热点分析,了解群众需求。

  探索预测舆情的热点话题,深入报道百姓关心的标志性热点事件,澄清百姓疑虑。

  至少可以达到以下有益效果:

  新闻数据内容特征采集与应用系统是一个具有良好扩展性、稳定性和高效率的新闻数据管理与应用平台。同时,从新闻生产和用户角度,利用多维度指标获取新闻内容特征,提供了一种新的更有效的资源整合方式,实现新闻数据资源的有效管理,促进新闻数据资源的发展。融合媒体。信息资源管理全自动化,提高传媒行业节目制作流程的效率,使信息的维护和发布更容易,降低二次开发成本,带来明显的经济效益和社会效益,提高传统广电的应对能力到信息的变化。

  实现新闻素材的自动筛选,节省人力物力,避免重复获取,减少选择新闻的工作量,有效避免遗漏有价值的新闻事件,从而选择和编辑既结合当地实际,又也面向全国观众。指导和参考新闻。

  实现新闻采编,制作合适的本地节目,尽可能贴近生活,从主题出发,分析本地热点政策信息与分析,本地文化艺术,深度报道本地事件,精准目标受众定位,树立认同感,体现原创性与亲近感,在促进地方经济、政治、文化等整体发展的同时,从小处看大,吸引全国关注,并创建您自己的品牌新闻视图和报告模式。

  实现新闻播出形式的有效调整,让更多的用户可以同时收到最新的新闻信息,提高新闻传播的影响力和渗透率。

  实现新闻花絮片段生存,提升新闻优势,增加关注度,更深入了解受众关注的焦点。它可以对一些受关注的特定事件进行跟踪报告,甚至可以进行专题报告。它对未来的新闻内容有一定的选择。新闻的参考价值,更好地体现新闻的价值,形成良性循环

  实现用户舆情分析,增加用户粘性,同时增加收视率和节目影响力。更重要的是,通过对关注群众的热点事件的报道分析,引导舆论,推动我国公民道德和法制建设。

  最后需要说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明。虽然本发明已经结合上述实施例进行了详细描述,但对于本领域技术人员来说仍然是可以的。可以对上述实施例中描述的技术方案进行修改,或者对部分技术特征进行等效替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应收录在本发明的保护范围之内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线