自媒体文章采集器(关于新华智云二、数芯-媒体大数据平台能力)

优采云 发布时间: 2022-01-19 19:10

  自媒体文章采集器(关于新华智云二、数芯-媒体大数据平台能力)

  一、关于新华智云

  二、数字核心-媒体大数据开放平台

  三、媒体大数据平台能力

  四、项目依赖

  五、一些提示

  一、关于新华智云

  新华智云是新华社与阿里巴巴共同成立的公司。它主要利用大数据和人工智能技术为媒体行业赋能。随着自媒体的发展,自媒体公司非常火爆,现在有今日头条、抖音等等。传统媒体面临着巨大的压力和挑战。传统媒体热切希望互联网技术能够帮助他们赋予他们权力。

  媒体大脑 - 数字核心

  媒体大脑是新华智云的底层产品品牌,数信是媒体大脑的基础数据平台。书信定位为媒体大数据开放平台,收录了媒体行业所依赖的各类数据。数信希望通过平台本身的数据处理能力和算法处理,将有价值的数据内容和挖掘能力开放给上层用户。目前,书信收录多种数据,覆盖超过400万互联网网站点,主要是中文网站,日增7000万文章,包括微信公众号、微信博客号、图片和多媒体源等。将不同的源存储在平台中,然后将数据连接起来进行更多的处理和应用。“数据不再是成本,

  二、数字核心-媒体大数据开放平台

  数信是一个开放的大数据平台,开放主要体现在三个方面。一是开放数据。任何数据进入数据核心后,都会在大数据处理的整个链条中进行计算,将内容结构化,添加标签。同时,根据用户感兴趣的数据范围,对标签的特征进行过滤,过滤出用户想要的数据。书信帮助用户了解互联网上的信息,了解互联网上与自己相关的事件。二是数字核心提供智能能力的开放。用户再怎么努力,也不可能获得互联网上的所有数据;并且不可能每个公司都建立自己的内容大数据平台进行数据分析,不可能所有的算法工程师都配备;而公司的数据处理能力还不够。强的; 媒体大数据平台可以帮助用户处理与其相关的数据,通过算法能力获取用户关心的信息。如果用户提供了一个文章,书信可以反馈这个文章与谁有关,同一个文章传播到哪里,文章是谁写的,在哪里它张贴等等。通过开放算法能力,帮助用户应用数据能力和算法能力,提供文本反垃圾服务、互联网内容结构化服务、文本内容实体识别服务、文本去重判定服务、图像字符识别服务、图像标注服务等等等等。第三,

  媒体数据功能

  媒体大数据具有三个特点。首先,媒体数据非常非结构化。与传统行业数据仓库最大的不同在于媒体行业90%以上的数据是非结构化的,比如文字、图片、视频等。二是数据来源的多样性。媒体行业数据的外部数据源多种多样,提供数据的方式不同,数据能力也不同。因此,必须具备强大的数据聚合能力,才能将所有数据聚合在一起,很好地服务下游客户。此外,数据有效性要求非常高。媒体行业自然追逐新闻热点。如果某事件已知为潜在热点,媒体希望尽快对热点进行追踪、报道和解读。

  批处理流处理

  数据核心平台基于媒体行业数据的特点,采用批流结合的方式,解决当前客户和业务场景的数据需求。批是指大量计算,基于平台特性完成复杂模型、算法训练、长时计算、文本实体识别、文本挖掘,利用批能力解决更深、更*敏*感*词*的数据处理。Streaming是指流式计算,完成数据清洗、结构化、轻计算和实时统计。当一条新闻出来时,在整个新闻流的过程中对信息进行实时处理。目前,数字核的整体流量计算大约需要300毫秒,即

  批流组合数据架构

  数据来自不同的数据源,如API、OTS、ROS、日志、文件等。一方面,数据需要在URL、文本结构、标签源、垃圾识别、实体识别和轻度真实等方面进行去重。实时计算时间统计。. 另外,基于MaxCompute,DataHub用于在批处理平台中存储数据。由于流计算本身不做持久化存储,所有数据都会存储在MaxCompute上。数据存储后,做主题构建、关系挖掘、知识图谱计算、算法训练。批流结合的处理方式,可以满足客户对数据本身能力的需求。之后,为用户提供搜索能力、大屏能力和BI能力。

  三、媒体大数据平台能力

  内容结构

  人们在网页中看到一条新闻,而数据库中的新闻是按字段存储的。比如分为新闻标题、发布网站、时间、新闻来源、情感等。平台需要将新闻信息结构化,成为后续计算过程需要依赖的数据结构字段。

  主题建筑

  媒体行业将按主题构建数据。平台将获取不同的数据源和不同类型的数据。这些数据不可能完全结合起来。数据核心平台将所有数据分类为不同的主题,根据不同的主题进行构建、存储和处理。媒体是一个非常复杂的行业,对各个行业的数据都有需求。媒体需要挖掘来自许多不同行业的数据来支持新闻制作和报道。目前,书信专注于媒体、体育、金融、气象等几个方面的固有数据。一方面,数信将不同的数据源聚合到平台中。另一方面,数据进来后,挖掘潜在新闻点,生成选题方案,帮助用户选题等。

  实体识别

  实体识别是媒体大数据最基本的能力。书信目前积累的实体围绕着三类数据:人、机构、地点。在新闻行业,媒体行业会关注某个实体,关注与该实体相关的数据能力。比如很多企业都会关注与自己相关的查询,消息是正面还是负面,哪些机构会发正面信息,哪些机构会发负面信息等等,只有采集到大量数据才能进行分析相关内容的完成。实体识别场景是媒体大数据领域非常基础的能力。一是建立实体库。同时,当一条新闻产生时,数据核心需要实时识别新闻与哪些人、机构和地点相关。另外,数据核心需要采集实体之间的关系,制作实体关系图。例如,很多品牌会瞄准竞争对手,调整品牌战略。实体关系图对于很多企业的品牌运营推广很有帮助。

  情绪分析

  情感分析也是媒体大数据平台的常用能力。当一条新闻出来时,用户需要知道它在情绪上是积极的还是消极的。信息量少的信息可以人工判断,但如果每天有上千篇文章,则无法人工判断最后一篇文章的内容。媒体行业的情绪分析不同于学术情绪分析。目前,自媒体出来后,短文的内容越来越多。短文本的情感分析不同于长文本的情感分析。以前用同样的算法来实现情感分析,结果发现效果不好。现在,书信将情感分析场景进行了分离。Word2vec+LSTM用于微博短文的情感分析,Word2vec+CNN+RNN用于长新闻文本的情感分析。分离后发现,每种情感分析的效果都有所提升。

  重复内容删除

  内容去重是媒体大数据平台中非常重要的一环。去重能力是准确判断常见新闻摘录、编辑、删除权重的能力。一条新闻不是一个人写的,它会被很多机构和渠道转发。如何知道一条新闻在哪些渠道转发,其实是通过去重来实现的。平台从大量渠道采集数据后,需要将一条新闻与之前的新闻相似的新闻进行比较,通过相似度比较得到结果。最早的时候,去重是基于关键词进行比较,数据核心使用关键词和语义。去重效果显着提升。内容去重可用于新闻热度计算,新闻数据关注点清洗,<

  内容标记

  搜索引擎可用于搜索新闻,根据关键词 和文章 的匹配度来判断是否向用户推荐该内容。但是,单纯的搜索方式已经不能满足用户的需求。今日头条之所以成功,是因为它根据新闻和用户习惯推荐内容。内容标注就是通过一台机器理解新闻,了解新闻与哪些信息相关,基于文本挖掘的手段实现对全网内容数据采集的分类和标注。

  四、项目依赖

  在很多情况下,是否使用大数据平台进行子项目是一个艰难的决定。不分项目的好处是开发者都在同一个平台上工作,不需要彼此过多的授权,整体工作效率会比较高。子项目的好处是使用不同的平台做不同的业务会更清晰,更有条理。书信在开始使用MaxCompute时,采用的是逐个项目的方式。其原因有以下三点。首先,子项目可以区分业务优先级,防止低优先级的任务影响高优先级的数据输出。另外,可以区分资源消耗类型,避免出现资源消耗大的任务,影响整体数据输出。内部服务和外部服务之间也有区别,以避免内部服务的交叉影响。一般来说,子项目可以为数据输出的稳定性提供很好的保障。

  五、一些提示

  首先,由于媒体行业的大部分数据都是非结构化数据,会造成单个字段容量比较大的问题。并且不同的平台和传输工具对数据的字段大小有不同的限制。这在从不同平台传输数据时尤其重要。

  其次,对于可以用UDF解决的问题,不要使用MR。使用UDF可以提高开发和运维的效率。即尽量使用简单的表达式来处理逻辑,这样有利于整体数据输出的稳定性。

  第三,对查询效率要求不高的数据报表可以直接接入MaxCompute,减少中间环节。这样可以大大降低数据转换和数据维护成本。

  第四,Datahub一方面可以连接数据源,另一方面可以更好地连接流之间的批处理和计算过程,保持数据的一致性,形成依赖关系。

  五是合理设计批流式数据处理,减少重复计算。

  第六,媒体大数据往往需要用到不同的算法,PAI可以帮助解决很多算法问题,减少开发工作量,提高数据处理效率。

  欢迎对大数据计算技术感兴趣的开发者加入“MaxCompute开发者社区”,钉钉群号11782920,或扫描下方二维码。

  

  媒体大脑强势来袭,新华智云热忱期待同仁的参与,共战未来!加入我们请点击以下链接:

  原创链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线