解决方案:百分点科技大数据技术团队:媒体数据中台建设方法论和落地实践

优采云 发布时间: 2022-11-21 22:12

  解决方案:百分点科技大数据技术团队:媒体数据中台建设方法论和落地实践

  编者按

  媒体融合的下半场,重点将放在智能化趋势上。如何打造实用有效的媒体数据产品和服务,进而完成数字化、智能化转型,成为媒体行业最为关注的问题。

  本文围绕当前媒体机构的转型需求,系统介绍了百成科技媒体数据中心建设的方法论和实践成果。

  1、媒体数据中心建设背景 以报纸、出版、广播电视等为代表的传统媒体,以及以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒体产品,是否就是呈现方式、沟通渠道、建设目标、技术体系都千差万别,导致系统建设重复浪费,各种应用系统和发布渠道各自为政,业务系统之间碎片化和孤立,数据标准不规范,以及各系统数据难以整合,数据质量得不到保障,数据无法有效利用,无法应对业务快速迭代创新。

  传统的媒体技术架构体系已经难以满足当前媒体行业的业务需求,而中台可以很好的解决这些问题。媒体数据平台以内容建设为基础,以互联网思维聚合内*敏*感*词*绕内容、渠道、平台、运营、运营等建设需求,形成“数据融合、能力共享、应用创新”的媒体数据。管理。中台服务体系可为媒体生产辅助、媒体运营辅助、媒体出版端应用、媒体智库等前端应用提供支持。

  通过媒体数据中心的建设,赋能业务前行,实现业务和应用的创新;向后积累数据,实现数据的融合,让数据支撑更厚更强。因此,媒体数据平台带来的是新闻选题、内容制作、质量控制、发布渠道、传播效果、内容运营等多个方面的提升和变革。通过媒体数据中心平台架构,“下数据能力,上业务应用”,打造“大、中、小前台”的技术布局,形成可持续发展的媒体数据和服务支撑平台。

  2、媒体数据中心建设方法 媒体数据中心是涵盖数据采集、数据处理、数据资产管理、数据治理、数据服务、数据分析、数据应用等多个层面的综合平台。不仅汇聚媒体机构内外部资源,提供统一的数据存储,构建统一的数据标准和数据资源管理,为业务方提供统一的基础数据服务。同时,为加强媒体机构的大数据分析能力,还需要引入智能分析服务,实现各种符合业务需求的公共智能分析应用服务。媒体数据中心的总体建设目标主要是提高服务复用率,赋予业务快速创新能力,最终打造平台化、资产化、智能化、场景化、服务化的“中央厨房”式媒体数据平台。1、媒体数据中心平台的四大组成 从战略建设的角度,媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台 本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。最终打造平台化、资产化、智能化、场景化、服务化的“中央厨房”式媒体数据平台。1、媒体数据中心平台的四大组成 从战略建设的角度,媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台 本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。最终打造平台化、资产化、智能化、场景化、服务化的“中央厨房”式媒体数据平台。1、媒体数据中心平台的四大组成 从战略建设的角度,媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台 本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。以服务为导向的“中央厨房”式媒体数据平台。1、媒体数据中心平台的四大组成 从战略建设的角度,媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台 本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。以服务为导向的“中央厨房”式媒体数据平台。1、媒体数据中心平台的四大组成 从战略建设的角度,媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台 本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台的本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。媒体数据中心平台包括数据资产管理平台、数据智能分析平台、资源发布展示平台、资源服务共享平台等部分:数据资产管理平台的本质是数据资产化;数据智能分析平台的本质是让数据智能化;资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。资源发布展示平台的本质是做数据场景;资源服务共享平台的本质是做数据服务。

  (1)数据资产管理平台数据资产管理平台主要构建媒体数据资产的管控能力。是集数据采集、融合、治理、组织管理、智能分析为一体的数据平台。最终数据将以服务的形式提供给前端应用,以提升业务运营效率,持续推动业务创新为目标。最终输出适用于各种业务的主题库,辅助新闻制作、智能发布、媒体运营、舆情分析等业务场景。数据资产管理平台可实现稿件数据、产品数据、运营数据、行为数据、媒体机构的外部互联网资源和其他数据资源。通过构建统一的数据标准和数据资源管理,实现对业务方统一的基础数据服务。同时,在全球数据多元化的理念指引下,媒体数据中心一般会采集和引入全业务(编辑、投稿等)、多端(PC、H5、APP等) 、多形态(自有业务系统、第三方购买等)、互联网定向抓取)数据,实现媒体数据资源的有效利用与整合。通过AI智能技术与人工智能的结合,进行文字、图片、音频、视频的数据索引,实现内容资源的数字化,充分挖掘数据之间的关系,并提升数据的潜在价值。使用自动主题、自定义主题等功能,实现业务库和主题库的快速生成,提供快速建库的能力。(2)数据智能分析平台数据智能分析平台提供认知智能和商业智能两类AI能力。

  其中,认知智能主要以机器学习、深度学习、迁移学习等人工智能技术为基础,提供自然语言处理、图像识别、OCR识别、视频分析等基础能力。商业智能是在基础智能的基础上,对基础智能进行组织和封装,包括一系列业务共有的基础服务能力,在数据层面提供数据的深度处理,在业务层面提供对业务的深度分析。商业智能包括智能推荐、用户画像、内容索引、话题分析、内容审核、智能话题等。通过大数据中心能力平台建设,提升媒体机构的智能处理能力,有利于实现能力复用,降低开发成本,实现产品创新。数据智能分析平台的目标是构建媒体AI能力,为社会内外提供AI能力支撑,实现媒体从数字化到智能化的转型升级,为媒体生产、智能发布、媒体运营提供智能辅助。 、传播效果评价、舆情分析。(3) 资源发布展示平台 资源发布展示平台可以说是整个媒体数据平台的脸面。对于媒体机构,可以将数据和能力集中打包展示,这是为相关用户服务的共享资源。门户实现了共享资源的统一展示,以及资源的检索、资源的灵活组织和页面发布,并提供灵活的权限管理,打造“一门式”服务平台。资源发布展示平台主要包括前台资源展示部分和后台资源发布部分两部分。前端展示提供媒体数据中心内容数据的浏览和使用,包括网站门户首页、浏览频道、浏览文章、集成智能检索能力等。灵活组织资源和页面发布,提供灵活的权限管理,打造“一站式”服务平台。资源发布展示平台主要包括前台资源展示部分和后台资源发布部分两部分。前端展示提供媒体数据中心内容数据的浏览和使用,包括网站门户首页、浏览频道、浏览文章、集成智能检索能力等。灵活组织资源和页面发布,提供灵活的权限管理,打造“一站式”服务平台。资源发布展示平台主要包括前台资源展示部分和后台资源发布部分两部分。前端展示提供媒体数据中心内容数据的浏览和使用,包括网站门户首页、浏览频道、浏览文章、集成智能检索能力等。

  后台管理主要是对用户和内容的管理,包括内容管理、菜单管理、模板管理、标签管理和用户管理。(4)资源服务共享子平台 当媒体机构有效整合分散、异构的信息资源,消除“信息孤岛”的束缚,形成自身的数据资产和人工智能能力时,需要借助这些资源对外提供服务能力。为实现其价值,资源服务共享的需求应运而生。目前,企业资源共享主要面临三个问题。首先,由于数据格式不一致,数据提取效率低,数据需求方无法直接获取数据。二是开发效率低下、数据授权管理体系不完善、数据服务方式不完善、调用关系复杂等问题导致数据拥有者无法高效管理。三是数据需求方和数据拥有方无法实现无缝数据互联,单一方式提供数据服务,无法满足大数据时代多场景共享需求。资源服务共享平台将数据能力和分析能力以微服务的形式封装成统一的API服务接口,从而对外提供数据服务和能力的支持,形成数据服务资源目录,实现快速开发和外化的数据接口。发布实时响应业务端的数据服务能力需求。通过简单的可视化配置,即可实现数据接口API创建、API发布、API版本管理、API文档管理等问题,降低日常运维成本。因此,整个媒体数据中心由以上四个平台支撑和协调,共同构成了媒体数据中心的整体系统架构,贯穿于数据采集、存储、分析、发布的*敏*感*词*。2. 数据架构设计 整个媒体数据中心由以上四个平台支撑和协调,共同构成了媒体数据中心的整体系统架构,贯穿于数据采集、存储、分析、发布的*敏*感*词*。2. 数据架构设计 整个媒体数据中心由以上四个平台支撑和协调,共同构成了媒体数据中心的整体系统架构,贯穿于数据采集、存储、分析、发布的*敏*感*词*。2. 数据架构设计

  数据中心平台整体架构如上图所示,可分为资源聚合、数据预处理、数据存储、数据整理、数据资产、数据服务等流程。

  数据资源聚合包括数据获取和数据集成。这些资源数据主要来自内容生产数据、第三方数据、互联网定向数据等,包括手稿、报纸、期刊、社交媒体、移动客户端、网站等数据类型。支持数据库、文件、流式等多种访问方式访问多源异构数据,整合数据资源。值得注意的是,聚合过程需要根据当前业务系统规划进行聚合处理,并对数据进行统一的存储规划。

  数据预处理主要包括数据的初步清洗和标准化。数据入库前的预处理包括字段解析、映射、转换、字段不全、错误、去重等处理。清洗后的数据需要标准化,不同格式的数据会按照统一的数据格式规范进行转换。同时,数据入库前一般需要进行自动索引、数据分类等工作:对于文本数据,会进行自动分类、自动摘要、关键词、情感分析等方面的识别和标签抽取;对于图像类数据,将进行图片人物、图片场景、图片属性、新闻事件、地标建筑等识别和标签提取;对于音频数据,将对语音识别、音频属性、新闻事件等进行识别和内容提取;对于视频数据,将对视频人物、视频场景、视频属性、新闻事件、地标建筑等进行识别和标签提取。

  数据存储是将解析后的文本、图片、音视频、文件等数据分层、分区存储。存储的数据需要保证数据的完整性、规范性和时效性,必须按照平台要求的数据格式规范进行转换存储。

  数据整理主要是对存储在数据库中的数据进行人工索引和数据整合。通过数据的选择、索引、校对等功能,对数据进行索引、组织、检索、展示等工作有序进行。同时可以根据标签聚合资源区,形成服务接口供第三方系统调用。通过人工标引,可以提高数据标签的准确性,为一些重要话题制作的准确性打下基础。

  数据资产链路是根据业务现状和未来规划,将接入数据划分为数据资产,对接入数据进行深度处理,实现数据资源的分类管理、元数据管理和资产管理。媒体数据资产主要由内容库和主题库两部分组成。业务库基于业务系统构建,为前端业务提供专题库、语料库、实体库、知识库等面向业务的数据资产。主题数据库是为了满足快速建库的需要。通过简单的搜索筛选,形成符合业务需求的主题库,降低数据开发成本。

  数据能力和智能分析能力均以微服务的形式对外提供,数据中心平台保障数据服务的性能和稳定性、数据质量和准确性,实现服务的统一管控和综合治理。

  三、媒体数据中心建设的三个阶段

  很难一次完成媒体数据中心的所有内容。许多公司分阶段进行,尤其是传统媒体部门。很多企业还没有完成数字化,更不用说建设数据中心了。媒体数据中心的总体规划建设采用“分阶段、分批垂直业务”的思路。整个媒体数据中心可分三期建设。

  第一阶段:基础平台建设

  建设目标:

  媒体数据中心第一阶段主要是搭建框架、建立标准、采集

数据。一期建设的重点是对接各部门的生产数据,建立统一的数据接入、数据分类、数据接口、数据存储标准,优先接入影响业务发展的基础数据。同时梳理数据分类标准,通过智能文本处理能力实现自动分类、汇总、关键词、情感分析等方面的识别和标签提取,支持数据内容和分类的处理和维护系统。同时,平台提供满足不同业务的基础数据服务和页面能力支持。为数据管理者提供资源管理功能,实现对内容的处理和分类。为开发者提供基础数据服务接口,提供资源检索、查看、下载等接口服务。为用户提供资源门户接入服务,支持用户查看和检索数据资源。

  建设内容:

  建设成果:

  完成数据接入、数据存储、数据分类、数据服务标准建设;

  完成自动分类、摘要、关键词抽取、命名实体等文本智能处理能力建设;

  完成数据资产管理平台中仓储资源的内容管理和分类系统管理功能的建设和完成;

  

" />

  完成资源发布展示平台资源入口部分的资源展示和资源检索功能;

  已完成资源检索、资源下载等基础数据服务建设。

  第二阶段:增强数据集成能力

  建设目标:

  媒体数据平台二期主要以数据深度加工整理、数据智能服务、快速建库和内容发布为阶段目标。第二阶段将引入手动索引功能。通过索引工具,可以实现数据的选择、索引、校对等过程,深入挖掘数据的价值。可以通过标签对收录的稿件进行组织、检索和展示,同时利用标签实现数据聚合,为专题图书馆的快速生成奠定基础。

  快速建库将专题数据的自动采集与人工处理相结合,利用机器学习的聚类算法自动发现和生成专题集群,通过人工标注集群实现专题自动发现和生产的功能。同时,定制主题为业务人员提供以“主题”为中心的资源聚合服务。通过相关维度(关键词、实体词、分类标签、属性等)的组合,实现历史数据和实时数据的快速聚合。内容发布支持快速生成特殊页面,通过模板技术实现特殊页面的展示和访问。同时,该阶段将完善检索和推荐能力,提供智能纠错、智能补全、智能联想、语义搜索、内容推荐等功能,优化内容检索和推荐效果,提升用户体验。数据服务方面,加强数据服务管理和监控,对数据服务进行统一注册和授权,形成数据服务目录,对外提供服务能力支持。

  建设内容:

  建设成果:

  完成数据资产管理平台中数据索引模块数据选择、任务分配、数据索引、索引工作量统计等功能;

  完成数据资产管理平台中专题管理模块的专题聚类、专题定制、专题管理功能的构建;

  完成了资源发布展示平台中发布管理模块的模板管理和特殊发布功能;

  完成资源检索、资源下载等基础数据服务建设,形成数据订阅、数据检索、智能分析、数据统计等服务目录和服务。

  第三阶段:持续提升能力

  建设目标:

  媒体数据中心三期主要以辅助内容生产和媒体运营、数据多维统计、大屏可视化、数据智能分析为阶段目标。通过人工智能和大数据技术赋能财经媒体转型升级,为未来业务创新提供更多技术支持。构建信息采集、选题策划、辅助制作、用户画像、渠道分发、传播效果监测、舆情监督等智能化、精准化、实时化功能,助力媒体单位实现生产力、引导力、影响力、公信力. 改进。媒体制作辅助应用主要用于支撑选题策划、新闻采访、新闻编辑、新闻评论、新闻发布等业务流程,提供智能选题、新闻写作、媒体资源库、智能选题等制作辅助能力和个性化推荐。. 媒体运营辅助应用提供媒体传播分析、媒体影响力分析、用户全息画像、决策分析等运营辅助能力。建设内容:建设成果:完成资源发布展示平台大屏可视化、指标统计等功能建设;完成数据智能分析平台中认知智能相关功能和应用的构建;完成数据智能分析平台生产及媒体运营应用中商业智能相关辅助内容的建设。

  4、平台在媒体数据中心的实施过程

  (一)数据研究

  通过数据盘点,让数据成为一种资产,了解企业有哪些数据,在什么地方,有多少数据。主要包括业务流程整理、数据流程整理、数据识别与分类等。

  盘点需要访问的结构化、半结构化和非结构化数据,通过调查表和访谈等方式采集

数据信息。数据来源通常包括报纸、期刊、网站、APP、社交媒体等,确认是否需要迁移历史数据。

  结构化数据需要采集

的信息通常包括:

  非结构化数据需要采集

的信息通常包括:

  (2)架构设计与技术选型

  根据项目需求确定总体设计思路,设计总体系统架构、技术架构和应用架构。在此基础上,确定数据整体规划,根据数据的数据类型、业务使用场景、表现形式设计相应的存储方式,满足数据服务需求。必要时可进行集中测试,根据读写速度、可靠性等指标的测试结果综合判断,最终确定数据存储的选择。

  (三)数据标准体系制定

  结合国家标准、行业标准和业务实际,对各数据源的数据进行梳理和挖掘,制定关键业务流程数据和业务结果数据的数据接入标准、数据分类标准、数据存储标准和数据服务标准。

  准入标准。数据接入负责数据中心各种资源的统一接入。需要制定相应的数据访问规范,以适应不同的数据访问需求,并能够提供数据库、消息队列、API、文件等通用的访问方式。只要符合数据访问规范,就可以访问新添加的数据类型。通过这种标准的数据访问管道和扩展方式,可以灵活应对业务端不断变化的访问需求,保证数据访问的通用性和统一性。

  分类。参考《新闻素材分类法》、《中国新闻信息分类法》等*敏*感*词*分类标准,在现有分类体系的基础上,结合数据的实际特点,配合客户完成设计、调整和发布。完善分类体系。

  存储标准。对于来自多个数据源的不同数据类型,需要确定相应的字段转换、存储方式和存储标准。规范数据存储组件、存储路径、存储格式、复制策略、备份机制等,对数据进行分层分区设计,保证数据存储的合理性和可扩展性。

  服务标准。整理需要构建的服务列表,并对服务列表中的接口进行分类。根据服务接口承载的服务类型,对服务进行拆分。定义数据接口访问方式、访问路径、请求格式、返回结果格式、返回状态码类型,保证数据服务的整体标准化和一致性。

  (4) 数据模型设计

  

" />

  数据模型设计。媒体数据是非常非结构化的。与传统行业数仓最大的区别在于,媒体行业90%以上的数据都是非结构化的,比如文本、图片、视频等。因此,数据存储根据业务场景和各种异构数据源,采用分区、域、层次的设计思想,创建原创

数据库、业务数据库、主题数据库、知识数据库。

  (5) 数据访问

  通过数据接入,建立数据标准化流程,实现数据采集、清洗、标准化。

  数据标准化将各种资源统一接入数据中心。

  支持文本、图片、音视频、文件、结构化和非结构化等不同数据类型。

  访问方式可灵活配置和管理,能适应不同数据资源的访问,保证数据的完整性。

  数据接口具有良好的容错性和安全性,避免因数据接口问题影响整个系统的稳定性和可靠性。

  具有可视化的WEB配置管理和运维管理界面,支持数据管理人员配置定义访问任务的各个要素,支持数据访问任务和日常运维操作的监控,支持数据访问过程被记录,以及采集

提供系统工作结果报告;支持数据访问系统异常告警能力,主动反馈数据访问失败等信息。

  (6) 数据预处理

  数据清洗:在访问数据时,进行数据有效性检查、过滤去重等数据预处理,保证数据质量。分析数据,映射字段,完成数据的标准化操作。

  针对媒体行业数据的特点,数据预处理采用批流相结合的方式来满足业务场景的数据需求。数据来自不同的数据源,如API、MQ、日志、文件等,在实时计算中需要对数据进行去重、数据结构化、内容标记、轻实时统计。数据入库后,需要进行主题构建、关系挖掘、知识图谱计算、算法训练,因此,需要通过批流结合的方式来满足数据本身的需求。

  其中,内容标注是通过自动索引来了解新闻,了解新闻与哪些信息相关,实现基于文本挖掘的内容数据的分类和标注。

  具体来说,自动索引就是调用中文语义接口对传入的数据进行标记。主要标签包括关键词、文本分类、自动文摘、中文分词、词性索引、命名实体等。

  文本实现过程:

  (7) 数据分层存储

  整个数据架构基于现有数据资产状况,合理选择和设计相关数据架构和系统架构模型,以支撑平台当前和未来的数据存储压力需求和对外服务需求。

  (8) 数据处理

  通过数据处理,重组数据,让数据更有用。通过人工索引,梳理重要报表数据,建立报表标签维度。并根据要求和数据内容整理出索引规范,形成工作指导书。对索引结果进行校对、全检、标签修改等操作,通过索引聚合成主题。

  平台将所有数据划分为不同的主题,按照不同的主题进行构建、存储和处理。媒体是一个非常复杂的行业,各个行业都有数据需求。媒体需要挖掘大量来自不同行业的数据来支撑新闻的生产和报道。用户做主题选择等工作。

  (九)数据治理

  数据治理贯穿于整个数据处理过程的每一个阶段。数据治理确保数据得到管理,数据管理确保管理的数据实现指定目标。指导和监督元数据管理、标准管理、质量管理、安全管理等职能的具体数据控制。质量管理主要分析源系统表数据,对源系统数据的及时性、完整性、准确性、有效性和一致性进行数据验证,发现并记录数据质量问题,生成数据质量问题报告。元数据管理描述了数据使用过程中的信息。血缘关系分析可用于跟踪和记录关键信息。影响分析有助于了解分析对象的下游数据信息,快速掌握元数据变化可能带来的影响。数据管理是数据治理的延伸,包括数据资产视图、智能搜索等功能。

  (十)能力整合

  整合数据资源管理、数据服务、数据发布等能力,通过系统化的平台建设,为业务系统和应用开发提供更高效、简洁、灵活的数据服务,让上层应用不受底层限制层。数据格式、数据类型、数据处理和管理逻辑、复杂的基础设施建设和运维,最大限度地发挥数据发布的价值。

  数据平台能力融合和开放主要体现在三个方面。

  一是数据融合开放。任何数据进入平台后,都会在整个大数据处理链中进行处理,如计算、整合、内容结构化、添加标签等。同时根据用户感兴趣的数据范围,过滤标签的特征,过滤出用户想要什么。数据。

  第二,提供智能分析能力的集成和开放。通过开放算法能力,帮助用户应用数据能力和算法能力,提供文本内容实体识别服务、文本去重判断服务、图像字符识别服务、图像标注服务。

  三是产品能力的融合和开放,比如开放用户画像、内容推荐、传播分析等能力。

  5、中国及台湾地区媒体数据的实施。目前,百分店科技已服务多家国家级报刊出版客户,包括新华社、中国日报、科技日报、新华网、南方报社、人民出版社等。南方报业汇聚全媒体大数据资源,对采集的海量全媒体数据进行分布式存储、高效检索、智能分析。目前,南方数据服务平台拥有上千个数据库集和上百个数据智能应用工具,可提供热点聚类、话题延伸、内容摘要、机器翻译、机器人协作等多端融合编辑支持,和实体影响力 画像、个性化推荐等新技术和应用,帮助南方报业夯实数据服务能力,以数据和AI能力赋能策划、编辑、出版等各个环节。百分科技还为新华社搭建了全媒体平台。尤其是去年疫情期间,仅用一个月的时间,就快速打造并上线了《两会报告》和《习总书记视察》两款新闻应用创新产品。通过中台提供的专业数据服务,助力全媒体采编。综上所述,当媒体机构具备一定的数据基础和业务规模,即自身数据多样,业务规模不断扩大时,且业务相互独立,需要全媒体中台帮助其解决效率、成本、质量等问题。但是,全媒体平台的建设需要自上而下,需要详细的前期规划和设计。必须符合各媒体机构的实际情况,不能完全照搬。必须根据实际情况进行调整,才能实现价值最大化,驱动媒体数字化转型。

  南方报业传媒集团作为百分店科技在媒体领域的长期服务合作伙伴,一直走在媒体智能化转型的前沿。集团副总编辑曹可认为,困难和挑战在于从媒体到数据,从传播到服务,从采访到采集,从内部到*敏*感*词*绕不同的用户需求和市场需求打造实用有效的平台。媒体数据产品和数据服务。注:文章部分观点引用自《智能传媒,

  解决方案:非结构化海量网络数据处理技术研究

  摘要: 为实现网络测试系统下海量非结构化网络数据的快速分析处理,从关键算法和系统集成处理两方面提出了解决方案。利用内存映射文件快速读取海量数据,设计时间矩阵算法进行快速同步分析处理;利用分布式中间件实现海量数据的并发处理和数据分发,为飞行试验进行网络数据采集和分析处理,使用这些算法的数据处理软件可以使处理效率满足飞行试验海量网络的需要数据处理。这些都为新一代机载采集系统在飞行试验中的应用提供了技术支持。

  关键词:IENA;网络/网络;PCAP;飞行试验

  试飞数据处理是试飞工程中一个非常重要的环节。是对各种试飞数据信息进行详细、充分、全面的分析处理。数据处理结果是飞行试验鉴定结论的核心依据。随着计算机网络技术在试飞试验领域的深入应用,网络化试验技术逐渐成为试飞试验技术发展的又一核心。同时,随着现代飞行器设计技术的发展,飞行器系统越来越复杂,飞行试验对象、试验参数、试验数据类型和试验数据总量不断增加。对试飞数据处理在质量、速度、数据安全、和可靠性。机载网络化测试系统架构技术应用于最新的飞行器测试系统。系统采集记录的网络数据记录了飞行器一次试飞起降的各种试验数据信息。新一代飞机试验参数总量大幅增加。达到数百GB。为了缩短单次飞行试验的周期,如何高效、快速地对这些非结构化的海量网络数据包进行同步分析处理,以方便科研人员应用,成为必须解决的实际问题。系统采集记录的网络数据记录了飞行器一次试飞起降的各种试验数据信息。新一代飞机试验参数总量大幅增加。达到数百GB。为了缩短单次飞行试验的周期,如何高效、快速地对这些非结构化的海量网络数据包进行同步分析处理,以方便科研人员应用,成为必须解决的实际问题。系统采集记录的网络数据记录了飞行器一次试飞起降的各种试验数据信息。新一代飞机试验参数总量大幅增加。达到数百GB。为了缩短单次飞行试验的周期,如何高效、快速地对这些非结构化的海量网络数据包进行同步分析处理,以方便科研人员应用,成为必须解决的实际问题。

  1 网络化机载测试系统试飞数据特点

  在网络化机载测试系统Kam4000中,网络数据包通过二级交换机从采集器到达记录仪。一级交换机可以有多个,二级交换机作为系统的时钟接入点、遥测数据和记录仪的接入点、系统配置文件的加载点。其结构如图1所示,网络数据包被记录器完整记录下来,这里需要分析的是记录器记录的完整网络数据。网络数据由网络数据包组成,每个网络数据包的格式可以根据采集器的不同而不同。

  1.1 与Kam500采集系统的区别

  广泛应用于飞行试验的Kam500机载试验系统以标准的PCM数据格式采集和记录飞行试验数据。PCM数据由循环出现的长帧组成,每个长帧的长度是固定的,每个长帧又收录

若干个短帧。在网络化机载测试系统Kam4000中,采集和记录的飞行测试数据以网络数据包的形式存在。每个网络包的大小可以不同,每个网络包中的参数个数也可以不同。

  1.2 海量网络数据包格式

  联网测试系统采用ARCA公司最新的采集器,根据采集器的不同,采集记录的数据格式可以是IENA或XNET/INET网络数据包格式。BCU105(IENA 以太网控制器)支持 IENA 数据包结构。在采用BCU140(XNET Ethernet Controller)支持XNET/INET的同时,还支持IEN-A。在网络化测试系统中,IENA和XNET/INET网络数据包采用Ethernet II协议进行广播。根据不同的记录器,记录的网络包结构可以记录为PCAP格式或IRIG106-10格式。

  PCAP的基本格式:

  文件头数据包头数据包数据包头数据包...

  IRIG106-10基本格式:

  文件头 特殊头 数据包 特殊头 数据包...

  

" />

  根据试飞的测试特点,参考之前模拟的试飞记录数据的大小,如果参数个数为5000,则一定飞行时间内记录的试飞数据约为12国标。随着飞行器系统复杂性的增加,越来越多的飞行试验参数需要通过用于飞行试验的网络化测试系统进行测试。单次飞行试验记录的模拟数据将是本次飞行试验的4倍或5倍。更。

  1.3 网络数据包数量大

  为了提高发送数据包的效率,使发送数据包的延迟时间尽可能小,采集

后快速发送数据包,ARCA的采集

器规定每个数据包的大小不允许超过1 500 B在设计中。同时,目前的测试参数都是高采样率。在这样的测试系统条件下,一个网络数据包中可以记录的参数数量非常有限,这必然会导致唯一标记的单个网络数据包数量激增。

  1.4 非结构化网络数据包

  网络数据包通常是非结构化的。在采集端,根据测试系统的配置采集参数,形成网络数据包。对于交换机,对于单个网络数据包的到达和传递没有完整的规则。记录仪记录的原创

网络包数据,数据包顺序乱序,数据包周期不定。无法准确预测下一个网络数据包到达的顺序和时间。

  2 网络数​​据处理方法

  针对以上网络数据包的特点:最新的网络数据包格式和记录格式、海量原创

数据、大量测试参数、典型的非结构化、千万级或上亿级的单个网络数据包。根据试飞特点,必须在最短时间内给出试飞数据分析结果,以便试飞工程师安排下一次试飞。

  2.1 内存映射文件

  内存映射文件是从文件到内存块的映射。WIN32提供了一个函数(CreateFileMapping),允许应用程序将文件映射到进程。当使用内存映射文件处理存储在磁盘上的文件时,不再需要对文件进行I/O操作,使得内存映射文件在处理数据量大的文件时发挥了非常重要的作用。在处理飞行试验的海量网络数据时,需要不断地提取数据,进行判断、跳转等文件操作。如果按照以往的文件指针方式提取网络数据,数据处理效率可能无法满足飞行试验海量网络数据处理需求。对于海量原创

网络数据的快速读取,内存映射文件模式提供了解决方案。

  2.2 时间矩阵同步分析算法

  对于飞行测试原创

网络数据,每个单独的网络数据包始终带有时间戳。这些时间戳在整个原创

文件中是乱序存储的。飞行试验对象所需的数据往往存在于多个网络数据包中,而这些网络数据包中的数据往往不是同时采集的,也就是说网络数据包的时间戳不会相同时间。针对网络数据包的这些特点,为了快速分析网络数据包的时间统计,设计了一种时间矩阵同步分析算法。

  如图2网络包时间顺序所示,原来网络包的时间顺序是乱序的。

  时间矩阵同步分析算法是一种高效的同步分析算法,速度最快,最接近真实数据。以原创

数据时间为1s为单位,与实际需要的每秒采样率PerCyc取为等值,即时间轴被PerCyc等分,如图3所示。

  

" />

  假设PerCyc为6,在1s内,平均提取6个时间点。以第二个时间点10为例,从图中可以看出,一个实际的网络数据包的时间分别是10左右的08s、09s、12s,所以在提取网络数据包的时候,经过对比,选择09 s点的值作为同步分析的结果值。以此类推,可以比较得到10s时刻待提取的网络数据包的值。

  2.3 分布式应用中间件网络数据处理

  网络包接口软件以中间件(主动控制等)的形式发布在分布式网络数据处理系统中。该系统在数据管理、海量数据并发处理和数据分发等方面满足海量试飞数据的处理需求,通过基于Web的试飞数据处理子系统实现对所需数据信息的访问。如图4所示。

  (1)客户端ActiveX根据调度服务器列表中的IP和端口号尝试建立Socket通信,并发送计算请求;

  (2)客户端ActiveX与调度服务器建立连接后,调度服务器通过负载均衡计算返回计算服务器的IP和端口号给客户端ActiveX;

  (3)客户端ActiveX与计算服务器建立Socket连接;

  (4)客户端ActiveX下发执行计算命令;

  (5) 计算服务器收到计算命令后,启动确定的分布式中间件执行分布式计算任务,并将状态信息输出到控制台,计算服务器中的状态监控程序采用管道技术输出分布式计算任务中间件作为自己的输入,并通过Socket返回给客户端ActiveX;

  (6)客户端ActiveX接收到任务执行的状态信息,并显示给用户;

  (7) 分布式中间件执行时,计算服务器中的状态监控程序将最终结果文件通过Socket传递给客户端ActiveX;

  (8)客户端ActiveX控件将文件保存到客户端,分布式计算结束。

  3 结论

  本文对网络化考试系统采集和记录的网络数据进行了深入的认识和多角度的分析。同时,为实现非结构化海量网络数据的快速分析处理,研究了数据处理算法和数据处理软件集成,提出了从接口软件关键算法设计到数据系统集成的解决方案。并将这些方法应用于试飞海量网络数据处理软件的设计过程中。通过对试飞采集的网络数据进行分析处理,采用这些算法的试飞海量网络数据处理软件的处理效率满足试飞海量网络数据处理效率。数据处理需求解决了飞行试验中非结构化海量网络数据的快速分析处理问题,为新一代机载网络化试验系统在飞行试验中的应用提供了技术支撑。国外不少航空公司已经将网络化测试系统应用到试飞中,同时也在开展非结构化海量网络数据分析处理技术的研究。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线