自媒体文章采集器(关于新华智云二、数芯-媒体大数据平台能力)

优采云发布时间: 2022-01-19 19:10

　　一、关于新华智云

　　二、数字核心-媒体大数据开放平台

　　三、媒体大数据平台能力

　　四、项目依赖

　　五、一些提示

　　一、关于新华智云

　　新华智云是新华社与阿里巴巴共同成立的公司。它主要利用大数据和人工智能技术为媒体行业赋能。随着自媒体的发展，自媒体公司非常火爆，现在有今日头条、抖音等等。传统媒体面临着巨大的压力和挑战。传统媒体热切希望互联网技术能够帮助他们赋予他们权力。

　　媒体大脑 - 数字核心

　　媒体大脑是新华智云的底层产品品牌，数信是媒体大脑的基础数据平台。书信定位为媒体大数据开放平台，收录了媒体行业所依赖的各类数据。数信希望通过平台本身的数据处理能力和算法处理，将有价值的数据内容和挖掘能力开放给上层用户。目前，书信收录多种数据，覆盖超过400万互联网网站点，主要是中文网站，日增7000万文章，包括微信公众号、微信博客号、图片和多媒体源等。将不同的源存储在平台中，然后将数据连接起来进行更多的处理和应用。“数据不再是成本，

　　二、数字核心-媒体大数据开放平台

　　数信是一个开放的大数据平台，开放主要体现在三个方面。一是开放数据。任何数据进入数据核心后，都会在大数据处理的整个链条中进行计算，将内容结构化，添加标签。同时，根据用户感兴趣的数据范围，对标签的特征进行过滤，过滤出用户想要的数据。书信帮助用户了解互联网上的信息，了解互联网上与自己相关的事件。二是数字核心提供智能能力的开放。用户再怎么努力，也不可能获得互联网上的所有数据；并且不可能每个公司都建立自己的内容大数据平台进行数据分析，不可能所有的算法工程师都配备；而公司的数据处理能力还不够。强的; 媒体大数据平台可以帮助用户处理与其相关的数据，通过算法能力获取用户关心的信息。如果用户提供了一个文章，书信可以反馈这个文章与谁有关，同一个文章传播到哪里，文章是谁写的，在哪里它张贴等等。通过开放算法能力，帮助用户应用数据能力和算法能力，提供文本反垃圾服务、互联网内容结构化服务、文本内容实体识别服务、文本去重判定服务、图像字符识别服务、图像标注服务等等等等。第三，

　　媒体数据功能

　　媒体大数据具有三个特点。首先，媒体数据非常非结构化。与传统行业数据仓库最大的不同在于媒体行业90%以上的数据是非结构化的，比如文字、图片、视频等。二是数据来源的多样性。媒体行业数据的外部数据源多种多样，提供数据的方式不同，数据能力也不同。因此，必须具备强大的数据聚合能力，才能将所有数据聚合在一起，很好地服务下游客户。此外，数据有效性要求非常高。媒体行业自然追逐新闻热点。如果某事件已知为潜在热点，媒体希望尽快对热点进行追踪、报道和解读。

　　批处理流处理

　　数据核心平台基于媒体行业数据的特点，采用批流结合的方式，解决当前客户和业务场景的数据需求。批是指大量计算，基于平台特性完成复杂模型、算法训练、长时计算、文本实体识别、文本挖掘，利用批能力解决更深、更*敏*感*词*的数据处理。Streaming是指流式计算，完成数据清洗、结构化、轻计算和实时统计。当一条新闻出来时，在整个新闻流的过程中对信息进行实时处理。目前，数字核的整体流量计算大约需要300毫秒，即

　　批流组合数据架构

　　数据来自不同的数据源，如API、OTS、ROS、日志、文件等。一方面，数据需要在URL、文本结构、标签源、垃圾识别、实体识别和轻度真实等方面进行去重。实时计算时间统计。. 另外，基于MaxCompute，DataHub用于在批处理平台中存储数据。由于流计算本身不做持久化存储，所有数据都会存储在MaxCompute上。数据存储后，做主题构建、关系挖掘、知识图谱计算、算法训练。批流结合的处理方式，可以满足客户对数据本身能力的需求。之后，为用户提供搜索能力、大屏能力和BI能力。

　　三、媒体大数据平台能力

　　内容结构

　　人们在网页中看到一条新闻，而数据库中的新闻是按字段存储的。比如分为新闻标题、发布网站、时间、新闻来源、情感等。平台需要将新闻信息结构化，成为后续计算过程需要依赖的数据结构字段。

　　主题建筑

　　媒体行业将按主题构建数据。平台将获取不同的数据源和不同类型的数据。这些数据不可能完全结合起来。数据核心平台将所有数据分类为不同的主题，根据不同的主题进行构建、存储和处理。媒体是一个非常复杂的行业，对各个行业的数据都有需求。媒体需要挖掘来自许多不同行业的数据来支持新闻制作和报道。目前，书信专注于媒体、体育、金融、气象等几个方面的固有数据。一方面，数信将不同的数据源聚合到平台中。另一方面，数据进来后，挖掘潜在新闻点，生成选题方案，帮助用户选题等。

　　实体识别

　　实体识别是媒体大数据最基本的能力。书信目前积累的实体围绕着三类数据：人、机构、地点。在新闻行业，媒体行业会关注某个实体，关注与该实体相关的数据能力。比如很多企业都会关注与自己相关的查询，消息是正面还是负面，哪些机构会发正面信息，哪些机构会发负面信息等等，只有采集到大量数据才能进行分析相关内容的完成。实体识别场景是媒体大数据领域非常基础的能力。一是建立实体库。同时，当一条新闻产生时，数据核心需要实时识别新闻与哪些人、机构和地点相关。另外，数据核心需要采集实体之间的关系，制作实体关系图。例如，很多品牌会瞄准竞争对手，调整品牌战略。实体关系图对于很多企业的品牌运营推广很有帮助。

　　情绪分析

　　情感分析也是媒体大数据平台的常用能力。当一条新闻出来时，用户需要知道它在情绪上是积极的还是消极的。信息量少的信息可以人工判断，但如果每天有上千篇文章，则无法人工判断最后一篇文章的内容。媒体行业的情绪分析不同于学术情绪分析。目前，自媒体出来后，短文的内容越来越多。短文本的情感分析不同于长文本的情感分析。以前用同样的算法来实现情感分析，结果发现效果不好。现在，书信将情感分析场景进行了分离。Word2vec+LSTM用于微博短文的情感分析，Word2vec+CNN+RNN用于长新闻文本的情感分析。分离后发现，每种情感分析的效果都有所提升。

　　重复内容删除

　　内容去重是媒体大数据平台中非常重要的一环。去重能力是准确判断常见新闻摘录、编辑、删除权重的能力。一条新闻不是一个人写的，它会被很多机构和渠道转发。如何知道一条新闻在哪些渠道转发，其实是通过去重来实现的。平台从大量渠道采集数据后，需要将一条新闻与之前的新闻相似的新闻进行比较，通过相似度比较得到结果。最早的时候，去重是基于关键词进行比较，数据核心使用关键词和语义。去重效果显着提升。内容去重可用于新闻热度计算，新闻数据关注点清洗，<

　　内容标记

　　搜索引擎可用于搜索新闻，根据关键词和文章的匹配度来判断是否向用户推荐该内容。但是，单纯的搜索方式已经不能满足用户的需求。今日头条之所以成功，是因为它根据新闻和用户习惯推荐内容。内容标注就是通过一台机器理解新闻，了解新闻与哪些信息相关，基于文本挖掘的手段实现对全网内容数据采集的分类和标注。

　　四、项目依赖

　　在很多情况下，是否使用大数据平台进行子项目是一个艰难的决定。不分项目的好处是开发者都在同一个平台上工作，不需要彼此过多的授权，整体工作效率会比较高。子项目的好处是使用不同的平台做不同的业务会更清晰，更有条理。书信在开始使用MaxCompute时，采用的是逐个项目的方式。其原因有以下三点。首先，子项目可以区分业务优先级，防止低优先级的任务影响高优先级的数据输出。另外，可以区分资源消耗类型，避免出现资源消耗大的任务，影响整体数据输出。内部服务和外部服务之间也有区别，以避免内部服务的交叉影响。一般来说，子项目可以为数据输出的稳定性提供很好的保障。

　　五、一些提示

　　首先，由于媒体行业的大部分数据都是非结构化数据，会造成单个字段容量比较大的问题。并且不同的平台和传输工具对数据的字段大小有不同的限制。这在从不同平台传输数据时尤其重要。

　　其次，对于可以用UDF解决的问题，不要使用MR。使用UDF可以提高开发和运维的效率。即尽量使用简单的表达式来处理逻辑，这样有利于整体数据输出的稳定性。

　　第三，对查询效率要求不高的数据报表可以直接接入MaxCompute，减少中间环节。这样可以大大降低数据转换和数据维护成本。

　　第四，Datahub一方面可以连接数据源，另一方面可以更好地连接流之间的批处理和计算过程，保持数据的一致性，形成依赖关系。

　　五是合理设计批流式数据处理，减少重复计算。

　　第六，媒体大数据往往需要用到不同的算法，PAI可以帮助解决很多算法问题，减少开发工作量，提高数据处理效率。

　　欢迎对大数据计算技术感兴趣的开发者加入“MaxCompute开发者社区”，钉钉群号11782920，或扫描下方二维码。

　　媒体大脑强势来袭，新华智云热忱期待同仁的参与，共战未来！加入我们请点击以下链接：

　　原创链接

0

2022-01-19

自媒体文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自媒体文章采集器(关于新华智云二、数芯-媒体大数据平台能力)

0 个评论

发起人

AI时代内容工厂

自媒体文章采集器(关于新华智云二、数芯-媒体大数据平台能力)

0 个评论

发起人

相关问题