资讯内容采集系统(交易技术前沿:解决方案和实践经验助力证券行业金融资讯业务发展)

优采云 发布时间: 2021-11-17 17:24

  资讯内容采集系统(交易技术前沿:解决方案和实践经验助力证券行业金融资讯业务发展)

  本文选自《交易技术前沿》第45期文章(2021年6月)

  林建清、王石、刘存光、曹旭峰、王伟力、熊有根、王洪涛

  /软件开发中心

  海通证券金融信息数据服务平台构建统一的信息数据模型,对海量外部数据进行处理和整合,利用人工智能技术挖掘数据价值,探索集团级信息数据应用场景,实*敏*感*词*融信息数据领域的探索与实践,针对企业数字化转型过程中遇到的外部数据标准不统一的问题一、对单一来源的强烈依赖,搭建“烟囱”系统和单一的数据服务模型。分享解决方案和实践经验,助力证券行业金融信息业务的发展。

  一、 概述

  1.1 背景

  金融信息数据在证券行业有着广泛的应用。充分挖掘信息数据的价值,提供差异化​​服务,是业界探索的重要研究课题。在使用财务信息数据的过程中也存在很多挑战。从内部应用系统集成的角度来看,公司内部与财务数据相关的各种应用系统基本是“孤立、独立运行”的。当各业务部门需要财务信息数据时,往往从采购和系统建设两方面进行管理。以上由部门独立进行,不仅造成公司内部资源的浪费,但也容易出*敏*感*词*融数据源多种多样,一旦数据源发生变化,往往需要对上层应用进行相应的调整,微小的变化可能会产生更大的影响。另外,“烟囱式”的应用系统给系统维护人员带来了很大的挑战,不利于技术栈的统一,数据服务能力没有沉淀。

  1.2 建设价值

  海通证券金融信息数据服务平台(“信息中心”)作为基础资源输入平台,通过整合各类投资信息、产品信息、服务信息,实现信息数据的统一管理。同时,通过数据的自动采集、提取、验证,按照统一的数据模型和规范,将第三方数据转化为有用可靠的信息。

  公司统一规范的金融信息数据服务,消除数据孤岛,实现数据集中管理。在数据资产化的基础上,借鉴专业的投资研究、运营管理、风险管理、舆情风控理论,进行深度数据挖掘,建立公司特定信息数据分析模型,提供风险监控、机会发现、投资决策等多元化服务支持。

  二、 金融信息数据模型

  2.1 商业模式

  数据业务模型的设计过程对相关核心业务要素的完整性和相关性进行了详细分析。示例业务模型(图1) 涉及的数据类别包括:

  ■ 中国资本市场主要金融产品的交易数据、财务数据和各类公开披露的信息。包括:上海证券交易所和深圳证券交易所所有上市公司的基本信息、发行信息、交易数据、股利数据、股本结构、财务数据、公司公告等重要信息。

  ■ 公募基金、证券公司、信托等产品的发行上市信息、净值、投资组合、收益分红数据、定期报告、财务数据等。

  ■ 国债、公司债、金融债、可转债、央行票据等债券的基本信息、计息和赎回数据、交易数据等,以及各种收益率曲线等衍生数据,并提供数据结构支持债券定价计算。

  ■ 中国股市指数(沪深指数、银行间债券市场指数、MSCI中国指数、新华富时指数、中信指数、申银万国指数等)和海外市场指数的基本信息和交易数据。

  ■ 国内期货交易所的期货合约数据和交易数据可以支持套利计算和程序化交易数据结构。

  ■ 自有数据,包括研究报告、金融产品等。

  

  图1.金融信息数据模型示例

  2.2 编码规则

  通过公司代码、证券代码、行业代码、行业代码(图2))等统一编码规则的设计,将各种金融产品有效串联起来,再设计一个通用的全球代码,与*敏*感*词*业务系统数据关联基于自定义内码,以业务主键作为唯一索引,保证数据库结构的高度标准化,同时也实现了与上游数据的解耦,降低上游数据结构变化的风险。

  

  图2.编码信息示例

  三、 金融信息数据服务平台架构

  整个金融信息数据服务平台的实*敏*感*词*融信息数据服务平台架构逻辑划分为4个层次:数据源层、数据采集和处理层、数据存储层、数据服务层(见图3) 。 详细情况如下:

  数据源:各种内部和外部数据源,包括结构化数据、非结构化数据和半结构化数据。

  ■ 数据采集及处理:基于数据清洗转换系统,提供完善的源数据跟踪管理、数据处理调度服务,支持根据实际数据需求灵活配置处理任务;并提供多种数据验证模型和灵活的配置验证规则和任务为数据源提供质量保证。

  ■ 数据存储:数据存储层存储经过采集、转换、清洗、排序后产生的各种数据。除了出于系统效率和应用支持目的的少量冗余外,中央数据库的数据是原创和精炼的,不会产生各种二次加工数据。在数据存储层,技术上主要考虑业务或数据应用的数据存储模型设计,以及数据应用效率的数据层设计。

  ■ 数据服务层:是各种与数据相关的服务器系统的集合。主要目的是为各种前端数据应用访问信息中心提供一些基础服务,可以包括数据服务API、可视化组件、数据库表和文件服务等。处理还可以进一步泛化,如标签处理、情感分析、语义识别等,为不同的业务场景提供相应的技术支持。

  

  图3.海通证券金融信息数据服务平台整体架构

  3.1 数据源层

  目前,金融信息数据服务平台的数据涵盖股票、公司、债券、基金、货币、指数、理财、期货*敏*感*词*、期权、信息等多个类别(图4),特征信息数据的引入进一步提高了数据质量和数据综合性。

  

  图4.海通证券金融信息服务平台数据分类

  3.2 数据采集 处理

  3.2.1 数据清洗与转换

  数据清洗转换系统功能模块图如下(图5)

  

  图5. 数据清洗转换系统主要功能模块

  元数据库是指定义数据清洗和转换平台的基础数据。主要功能包括数据源配置、数据字典和数据血缘关系管理。

  调度中心是管控平台的核心部件,包括配置管理、调度引擎、执行器管理、任务管理等。配置平台支持在线配置调度任务,输入参数,即时生效。

  executor支持任务节点的灵活扩缩容:一旦有新的executor机器上线或下线,下次调度时会重新分配任务。

  任务管理支持任务状态动态修改、任务暂停/恢复、定时任务触发、子任务依赖配置等。

  3.2.2 数据提取与转换

  数据清洗转换模块基于Kettle(开源工具,图6)扩展,在管理界面的模型配置菜单中,可以支持新的数据清洗转换模型,上传/下载/发布脚本,调试操作,查看操作日志和错误日志等。

  

  图6.模型开发界面

  3.2.3 调度框架和策略

  核心调度功能模块(图7)是基于Quartz的集群调度中心。该架构支持调度服务的横向扩展,实现调度服务的高可用。调度中心读取ETL(Data Extraction, Transformation和Loading)模型配置定时任务信息,任务定时启动。一个任务调度收录多个模型,模型是整个调度中的最小单位,每个模型的调度执行由负载均衡模块计算,然后选择负载最好的执行器来执行。

  

  图7. ETL任务调度架构

  由于ETL任务调度执行过程内存和CPU消耗密集的特点,传统的负载均衡策略(分布式、随机、HASH等)在这种场景下效果较差,经常导致单个执行器过载和宕机. 通过改进负载均衡机制,结合服务器实时CPU、内存、并发任务数、线程数、服务延迟等指标对每个执行器进行评分,调度时选择得分高的执行器执行,实现准实时负载均衡。通过完善的执行器自检、融合、重启策略,达到调度执行器集群的高可靠性和高可用性的目标。

  采用组调度策略,即一个任务配置一个定时策略,但该任务覆盖多个ETL模型。当一个定时任务启动时,该任务组下的所有模型都会被定时执行。

  这种调度方式的优点是减少了系统定时器的数量,避免了运营商频繁配置重复的定时任务,节省了运营成本,并且可以减少调度服务定时线程的开销。

  为了避免actuator集群压力过大导致任务调度过多的问题,在配置定时任务时采用最后的随机算法进行定时策略,使任务执行尽可能离散,大量定时任务同时触发。任务组中也采用了随机延迟调度的策略,极大地保证了调度集群的稳定性,增加了系统并发调度负载的上限,最大化了服务器的利用率。

  3.2.4 系统监控

  为确保异常情况及时准确预警,第一时间通知相关人员处理,海通信息中心监控大屏(图8))设计用于监控数据清洗转换,数据实时同步和验证系统。监控维度主要包括数据清洗转换同步及告警提示总量、校验系统校验数据总量及异常次数、数据同步实时增量等。

  

  图片 8. 海通证券信息中心监控大屏

  四、 数据应用

  4.1 舆论风控预警

  多源信息数据采集到达群内后,通过智能标签平台对信息进行相应的标注,包括股票、债券、基金、行业、概念、板块、风险事件等。 目前,有200多个风险因素。用户可以根据主题、风险事件、时间等维度快速检索舆情,并根据个人需求配置预警任务。当触发报警条件时,会在第一时间及时报警。

  4.2 智能信息运营

  标注数据通过数字化运营平台进行管理。运营商可以在线编辑信息内容、标签内容、情感正反元素,审核通过的信息可以直接对外发布。同时提供信息源管理、信息栏目管理等功能,实现信息精细化运营。

  4.3 智能语义分析服务

  信息数据结合自然语言处理能力,实现在实体识别、语义理解、情感分析、智能文档分析等领域的应用。

  实体识别可以是文档中出现的各种实体,包括公司、名称、行业、部门等;

  语义理解:长城汽车今年9月份的电动车产量可以识别长城汽车的主体。“今年9月”对应的时间区间为9月1日至9月30日。“电动汽车”对应新能源汽车行业。“产量”对应于某个指标。

  情绪分析服务可以通过算法判断主题和新闻本身的正面和负面;

  文档解析服务使用非结构化的解析相关能力,从各种文档中提取文本、表格和图片。用户可以根据需要灵活提取和使用各类信息。

  五、 数据治理

  5.1 库表命名约定

  对不同类型的数据(表1))建立统一的命名约定,从而达到“看名字就知道意思”的效果。使用下游数据时,可以大致定位表的用途根据数据表的名称来减少数据搜索和数据定位的人工成本。

  

  表 1. 库表命名约定

  5.2 数据验证

  数据验证是整个信息数据服务平台建设中尤为重要的环节。主要功能包括验证规则管理、任务管理、通知中心等。包括配置三类核心规则,字段验证、记录行验证和三方验证。

  所有验证规则均可灵活配置定时执行策略,验证执行结果提供失败数据量、通过率、异常数​​据详情等信息。提供check-not-pass的消息推送,方便业务人员及时发现和处理异常数据。

  业务规则的调度周期与模型的调度周期同步。根据业务需要,如行情数据,一般用于配置开市后每半小时的调度;证券主表、机构主表等重要基础数据,库不定时推送数据的源表,一般采用等间隔调度,配置为每5到10分钟调度一次;一些不常更新的表,如常量、行业分类等,一般采用固定时间调度,配置调度一天一次或更长时间。

  5.3 元数据管理

  元数据系统主要实现数据的可视化呈现,记录表之间的逻辑关系,方便数据的追溯(图9)。包括表信息展示、表结构数据展示、样本数据浏览导出等)。

  

  图9.海通证券信息中心元数据管理平台

  六、 总结与展望

  海通证券金融信息数据服务平台通过将多源异构数据按照统一的数据模型和规范汇入集团,解决金融信息数据使用不规范的问题。,并利用自然语言处理技术进一步挖掘数据的价值,丰富信息数据的应用场景。

  未来,金融信息数据服务领域仍有广阔的探索空间。一方面,随着人工智能技术在证券行业应用的逐步深入,信息价值的垂直挖掘充满了更多的可能性。人像等数据可以关联渗透,实*敏*感*词*融信息数据是提升机构客户服务体验、构建开放生态的良好切入点。将发挥更大的价值。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线