即将上市:36氪首发 |「世通亨奇」获近千万元天使轮融资,做军工等领域的智能读写机器人
优采云 发布时间: 2022-10-07 11:17即将上市:36氪首发 |「世通亨奇」获近千万元天使轮融资,做军工等领域的智能读写机器人
36氪获悉,智能读写机器人供应商“世通恒启”已于2018年完成近千万元天使轮融资,投资方为中国科技基金。本轮融资主要用于产品开发和市场拓展。
“世通横旗”由中国科学院航空航天信息研究所孵化。其核心技术包括函数计算、知识图谱、本体推理和多文档摘要。有序组织净化。
公司创始人兼CEO黄宇告诉36氪,目前很多大数据公司只对特定组织的内部数据进行挖掘和应用,较少涉足互联网公开数据。互联网上的公共数据往往呈现海量量化、碎片化、不规则性、层级分布、数据来源不确定等特点。结果,人们仍然无法在搜索引擎和信息推送软件的帮助下找到他们想要的信息。
针对这一痛点,世通恒启研发了智能读写机器人,利用深度学习和自然语言理解,自动分析大数据集,自动生成媲美人类分析师的报告,帮助信息从业者解决两个最耗时的问题—— “阅读”和“写作”的消耗和劳动密集型方面。
围绕这一理念,公司开发了Plat-X产品体系,其中包括四种产品:黑曜石、紫罗兰、琥珀和机器人工厂。
Plat-X Obsidian 是公司所有产品的基础架构,也可作为独立产品使用。该产品为开发者和企业提供全托管、无服务器的功能计算架构,具备AI云服务市场、资源弹性伸缩、开箱即用、多语言支持等能力,可节省大量人力资源,因为开发者只需要关注自己的业务逻辑代码,不需要关注服务器配置、系统部署、分布式改造。可以实现一键部署、多云混合部署、私有裸机部署。
Plat-X Violet是一款数据采集产品,能够根据用户的语义需求自动感知数据源,对不同类型和格式的数据进行智能统一结构化提取、语义相似度分析和话题聚合。同时,该产品可以为全球分销提供一个安全的采集网络。
PlatX Amber 基于动态本体技术,提供跨平台的数据抽象建模能力。黄宇表示,动态本体是知识图谱的升级,在建立数据之间的联系的同时加入二阶逻辑表达式,从而实现图的动态更新和推理能力。动态本体以“4W+E”为核心,建立世界万物的连接,对多源数据进行整合、推理和验证。这里的“4W+E”指的是“when”、“where”、“who”、“what”和“event”。
Plat-X机器人工厂产品主要是通过组装前三款产品的功能部件,搭建信息化生产线。这条生产线的流程是:数据采集和聚合->关键元素提取->动态本体链接->关系构建和推理->点提取->报告生成。
资料来源:WorldCom Hench
黄宇表示,Plat-X产品系统目前以处理非结构化文本为主体。下一阶段将进行多语言提取和报告生成。未来将扩展到处理图像和视频信息等多媒体信息。
目前,世通恒启的读写机器人主要应用于军工行业。黄宇表示,目前军工市场规模已达1000亿元,年复合增长率将超过15%。此外,他们还在金融二级市场、企业营销、新闻自媒体等领域应用智能读写机器人。
黄宇说,他们的智能读写机器人今年预计收入3000万,并将获得多项国家重要资质。此外,他们正与中科院相关单位合作建立联合实验室,建立常态化的人才培养机制。
该公司目前正在寻求 Pre-A 轮融资。
世通恒启团队有30人,总部设在北京。黄宇,中国科学院电子研究所博士、硕士生导师,国家科技进步一等奖获得者。在NLP、图像理解和人工智能产品系统架构设计方面拥有11年的研究经验。团队核心成员来自IBM、微软、腾讯研究院、帝国理工、北大等,拥有多年技术研发和企业服务经验。
——————
我是36氪记者王艺瑾。可以加微信catherineyijin进行商务交流。请注明公司+姓名+职务+访问目的。
行业解决方案:华为诺亚开源首个亿级中文多模态数据集,填补中文NLP社区空白
华为诺亚方舟实验室研究人员提出了大型中文跨模态数据库——“悟空”,并在此基础上对标不同的多模态预训练模型,有助于中文视觉语言预训练算法的开发与开发.
在大数据上预训练*敏*感*词*模型以微调下游任务已成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而实现了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP,将这种范式进一步扩展到视觉-语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。作为通向下一代人工智能模型的途径,这一有希望的方向引起了业界和研究人员的极大关注。
VLP 模式的成功有两个原因。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常会提高模型泛化能力和学习表示的鲁棒性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到*敏*感*词*模型中,以提高模型的泛化性、可迁移性和零样本能力。在视觉或语言任务中,对*敏*感*词*数据(例如图像分类中的 JFT-300M,T5 中的 C4 数据集)进行预训练,然后进行迁移学习或即时学习已被证明在提高下游任务的性能方面非常有效。有用。此外,
因此,在*敏*感*词*数据上预训练的 VLP 模型的成功推动了对更大图像和文本数据集的持续爬取和采集。下面的表 1 显示了 VLP 领域中许多流行数据集的概述。Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本量相对较小(约 1000 万),而 LAION-400M 等较大的数据集。然而,直接使用英文数据集训练模型会导致中文翻译任务的性能显着下降。例如,大量特定的汉语成语和俚语无法被英文翻译覆盖,而机器翻译往往会在这些方面带来错误,进而影响任务表现。
目前,社区缺乏*敏*感*词*公开的中文数据集,不仅阻碍了社区的发展,而且每部作品都使用私有的大数据集,以达到其他作品无法公平相比的惊人表现。
为了弥补这一差距,华为诺亚方舟实验室的研究人员发布了一个名为“悟空”的大型中文跨模态数据集,其中收录来自网络的 1 亿个图文对。为了确保多样性和泛化性,悟空数据集是从 200,000 个高频中文单词列表中采集的。本文还采用基于图像和基于文本的过滤策略进一步细化 Wukong 数据集,使其成为迄今为止最大的中文视觉语言跨模态数据集。研究人员分析了数据集并表明它涵盖了广泛的视觉和文本概念。
研究人员进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)的大型预训练模型。本文的主要贡献如下:
“悟空”数据集
研究人员构建了一个名为 Wukong 的新数据集,其中收录从网络采集的 1 亿个图文对。为了涵盖足够多样化的视觉概念,Wukong 数据集是从收录 200,000 个术语的查询列表中采集的。这个基本查询列表取自严松等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为海量新闻文本中出现的中文单词和短语的频率进行过滤语料库。
查询列表建立后,研究人员在百度图片上搜索每个查询,得到图片URL列表和对应的标题信息。为了保持不同查询结果之间的平衡,他们每个查询最多搜索 1000 个样本。然后使用之前获得的图像 URL 下载图像,总共采集了 1.66 亿个图像-文本对。然后,像往常一样,研究人员通过下面的一系列过滤策略构建最终的 Wukong 数据集。下面的图 2 显示了 Wukong 数据集中的一些样本。
基于图像的过滤
研究人员首先根据图像的大小和纵横比过滤数据。仅保留长于或宽于 200 像素且宽高比为 3 或更低的图像。这种方法会过滤掉太小、太高或太宽的图像,因为这些图像在预训练期间经过上采样和方形裁剪等图像增强后可能会变得低分辨率。
基于文本的过滤
其次,为了使所选样本具有相应图像的高质量中文描述,我们进一步根据图像所附文本的语言、长度和频率对数据进行过滤。具体来说,他们首先检查语言和长度,保留收录至少一个但少于 32 个汉字的句子。还会丢弃无意义的图像描述,例如“000.jpg”。之后,文字与过多的图片配对,通常与图片的内容无关,例如“查看源页面”、“展开文字”、“摄影社区”。在实践中,研究人员将此阈值设置为 10,即丢弃在采集的整个语料库中出现超过 10 次的图文对。
为了保护文本中出现的个人隐私,研究人员将人名替换为特殊标签“<人名>”。此外,他们还构建了一个中文敏感词列表,收录敏感词的图文对也被丢弃。
应用上述过滤策略后,研究人员最终得到了大约 1 亿对的数据集。下表 2 显示了数据集的统计信息:数据集文本中有 20,442 个唯一标记,每个描述中的平均标记数为 22。
在下面的图 3 中,研究人员可视化了数据集中单词的分布(由一个或多个标记组成)。然后,他们使用中文分词工具 Jieba 截取单词并为数据集构建词云。
方法架构
文本图像联合对齐
与最近经过充分验证的方法类似,我们采用对比的预训练架构,如下图 1 所示。他们使用带有基于 Transformer 的文本和图像编码器的双流模型。两个编码器将文本和视觉输入标记转换为相同维度的嵌入。在这个学习的联合嵌入空间中,我们使用对比损失来鼓励图像和文本对具有相似的嵌入,而未配对的对具有不同的嵌入。
模型架构
由于视觉和文本模态的编码器是解耦的,因此可以为这两种模态探索不同的编码器架构。我们使用三种视觉编码器变体(即 ResNet、Vision Transformer 和 Swin Transformer)和一个类似 BERT 的文本编码器来训练中文 VLP 模型。
预训练目标
跨模态对比学习是一种特别有效的从配对图像-文本数据中训练模型的方法,它可以通过区分配对和非配对样本同时学习两种模态的表示。研究者遵循 FILIP (Yao et al., 2022) 中的公式标注,使用
定义一组图像样本,而
表示文本数据。给定一个图像样本
和一个文本样本
,该模型的目标是使联合多模态空间中的配对图像和文本表示更接近,而未配对的则更远。
在这项工作中,研究人员探索了两种测量图像和文本之间相似性的方法。图像和文本的学习表示被标记为
和
. 这里,n_1 和 n_2 是每个图像和文本中(未填充的)单词标记的数量。
调光
研究人员受到最近提出的微调范式 LiT-tuning(锁定图像文本调整)的启发,这表明固定权重的图像编码器和可学习的文本编码器在 VLP 模型中效果最好。他们还在对比学习设置中采用了相同的方法,即只更新文本编码器的权重,而不更新图像编码器的权重。
具体来说,研究人员采用的 LiT-tuning 方法旨在教中文文本编码器从在英文数据集上预训练的现有图像编码器中读取适当的表示。他们还为每个编码器添加了一个可选的可学习线性变换层,它将两种模式的表示映射到相同的维度。LiT-tuning 效果很好,因为它解耦了用于学习图像特征和视觉语言对齐的数据源和技术(Zhai 等人,2021b)。此外,图像描述符使用相对干净或(半)手动标记的图像进行了良好的预训练。
我们将此想法扩展到多语言数据源,并尝试将在英语数据源上预训练的固定图像编码器与可训练的中文文本编码器对齐。此外,LiT-tuning 方法显着加快了训练过程并减少了内存需求,因为它不需要视觉编码器的梯度计算。
实验结果
下面的表 3 描述了视频编码器的模型参数和细节。
零样本图像分类。我们在 17 个零样本图像分类任务上评估预训练模型。零样本图像分类结果如下表5所示。他们比较了使用不同视觉编码器的多个 LiT 调整模型,即从 CLIP 或 Swin Transformer 加载现有的视觉编码器,并在训练阶段固定它们的权重。发现使用令牌级别的相似性比使用全局相似性带来更显着的改进。
图像检索任务。研究人员评估了两个子任务,即按图像搜索文本和按文本搜索图像。下面的表 6 和表 7 分别显示了可以微调的零样本设置和图文检索的结果。对于零样本设置,与其他模型相比,Wukong_ViT 在 4 个数据集中的 3 个数据集上取得了最佳结果,而 Wukong_ViT-500M 在更大的 MUGE 数据集上取得了最佳结果。对于微调设置,Wukong_ViT-500M 在除 AIC-ICC 之外的所有数据集上都取得了最好的结果,其中 Wukong_ViT 表现最好。
词汇 - 瓷砖对齐的可视化。研究人员使用预训练模型 Wukong_ViT 和 Wukong_Swin 进行可视化。如图 4 所示,来自中国 ImageNet 的六个标签(即豆娘、救生艇、蜂鸟、平板手机、教堂和电风扇)的图像被可视化。然后应用与 FILIP (Yao et al., 2022) 相同的可视化方法来对齐文本和平铺标记。
从下图 4 中,研究人员发现两种模型都能够预测目标物体的图像块。对于具有更多图像块的 Wukong_ViT,这种词法块对齐比 Wukong_Swin 更细粒度。