全自动采集最新行业文章(小数据人工智能的巨大潜力(SmallData’sBigAIPotential))
优采云 发布时间: 2021-11-24 09:09全自动采集最新行业文章(小数据人工智能的巨大潜力(SmallData’sBigAIPotential))
2021年9月,安全与新兴技术中心(CSET)发布研究报告《Small Data's Big AI Potential》(Small Data's Big AI Potential)。报告指出一点:长期被忽视的小数据(Small Data)人工智能潜力不可估量!
传统观点认为,大量数据支持前沿人工智能的发展,而大数据一直被视为构建成功机器学习项目的关键。但AI≠大数据,该研究指出,在制定规则时,如果“人工智能依赖海量数据,数据是必不可少的战略资源,获取的数据量决定了一个国家(或公司)”作为永恒的真理,它会“误入歧途”。由于当前环境过分强调大数据而忽略了小数据人工智能的存在,并低估了其不需要大量标记数据集或采集数据的潜力,研究人员“
什么是小数据法?
小数据法是一种人工智能方法,可以用少量的数据集进行训练。适用于数据量较小或无标注数据可用的情况,减少对人采集大量真实数据集的依赖。
这里所说的“小数据”并不是一个明确的范畴,也没有正式一致的定义。学术文章 在讨论小数据和应用领域的相关性时,往往与样本大小挂钩,例如千字节或兆字节和太字节的数据。引用许多数据的最终趋势是作为一般资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和方法,这取决于要解决的问题。
本文主要从决策者的角度谈“小数据”。政府人员往往被认为是人工智能领域潜在的强大参与者,因为他们对社会运行规则有更好的理解,可以访问大量数据——例如气候监测数据、地质调查、边境管制、社会保障、选民登记、车辆和驾驶员记录等。人口多、数据采集能力强被认为是国家人工智能竞争力的重要因素。
一些美国人认为,政府拥有大量数据,可以对其进行数字化、清理和标记,以便从人工智能革命中受益。虽然有一定的道理,但将人工智能的进步归因于这些条件是有失偏颇的。因为人工智能的未来不仅仅与大数据有关,即使政府部门不加大对大数据基础设施的投入,人工智能创新仍然可以诞生。
“小数据”方法的分类
“小数据”方法大致可以分为五种:迁移学习、数据标注、人工数据生成、贝叶斯方法和强化学习。
迁移学习的工作原理是首先在数据丰富的环境中执行任务,然后将学到的知识“迁移”到可用数据稀缺的任务中。
例如,开发者想制作一个识别稀有鸟类物种的应用程序,但每只鸟类可能只有几张标记该物种的照片。使用迁移学习,他们首先用一个更大、更通用的图像数据库(如 ImageNet)训练一个基本的图像分类器,该数据库有数百万张标记有数千个类别的图像。当分类器可以区分狗和猫、花和水果、麻雀和燕子时,它们可以“喂”一个较小的稀有鸟类数据集。然后模型可以“迁移”图像分类的知识,并使用这些知识从较少的数据中学习新的任务(识别稀有鸟类)。
数据标注适用于有限标注数据和大量未标注数据。使用自动生成的标签(自动标记)或识别标签特定用途的数据点(主动学习)来处理未标记的数据。
例如,主动学习已被用于皮肤癌诊断的研究。图像分类模型最初是在 100 张照片上训练的,根据它们的描述来确定皮肤是癌变还是健康,并相应地标记皮肤。然后模型访问更大的潜在训练图像集,从中可以选择 100 个额外的照片标签并将其添加到其训练数据中。
人工数据生成是通过创建新的数据点或其他相关技术,从少量数据中提取更多信息。
一个简单的例子,计算机视觉研究人员已经能够使用计算机辅助设计软件 (CAD)——一种广泛用于从造船到广告等行业的工具——生成日常事物的逼真 3D 图像,然后使用这些图像来增强现有的图像数据集。当感兴趣的数据有单独的信息源时,例如本例中的众包CAD模型,这种方法更可行。
生成额外数据的能力不仅在处理小数据集时有用。任何独立数据的细节都可能是敏感的(例如个人健康记录),但研究人员只对数据的整体分布感兴趣。这时,人工合成数据的优势就显现出来了。它可以对数据进行随机更改。清除个人痕迹,更好地保护个人隐私。
贝叶斯方法使用统计学和机器学习将问题的结构信息(“先验”信息)整合到问题解决方法中。它与大多数机器学习方法形成鲜明对比,倾向于对问题做最少的假设更适合数据有限的情况,但你可以用有效的数学形式写出关于问题的信息。贝叶斯方法侧重于对其预测的不确定性产生良好的校准估计。
以小数据用于贝叶斯推理为例:贝叶斯方法用于监测全球地震活动,对于探测地壳运动和核条约具有重要意义。通过开发收录地震学先验知识的模型,研究人员可以充分利用现有数据来改进模型。贝叶斯方法是一个庞大的群体,它不仅包括擅长处理小数据集的方法。它的一些研究也将使用大型数据集。
强化学习是一个广义的术语,是指代理(计算机系统)通过反复试验学习与环境交互的机器学习方法。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。
例如,强化学习已被用于训练学习如何操作视频游戏的 AI 系统——从简单的街机游戏到策略游戏。一开始,系统对玩游戏知之甚少或一无所知,但它通过尝试和观察奖励信号的原因来不断学习。(在视频游戏的例子中,奖励信号通常以玩家得分的形式呈现。)
强化学习系统通常从大量数据中学习,需要大量计算资源,因此将它们收录在其中似乎是一个不直观的类别。包括强化学习是因为它们使用的数据通常是在系统训练期间生成的——主要是在模拟环境中——而不是预先采集和标记的。在强化学习问题中,代理与环境交互的能力非常重要。
图 1 显示了这些不同区域是如何相互连接的。每个点代表一个研究集群(一组论文),被确定为属于上述类别之一。连接两个研究集群的线的粗细代表它们之间引用链接的相关程度。没有行意味着没有引用链接。如图所示,簇与同类型簇的联系最多,但不同类型簇之间的联系也较多。从图中还可以看出,“强化学习”识别出的集群形成了特别连贯的分组,而“人工数据”的集群则更加分散。
“小数据”方法有什么重要意义?
1)缩小大小实体之间AI能力差距人工智能应用的大数据集价值不断增长,不同机构采集、存储和处理数据的能力差距令人担忧。因此,人工智能的“富人”(如大型科技公司)与“穷人”之间的差距拉大了。如果将迁移学习、自动标注、贝叶斯方法等应用到小数据量的人工智能中,小实体进入数据的门槛就会大大降低,可以缩小大小实体之间的能力差距.
2)减少个人数据的采集 大多数美国人认为人工智能会吞噬个人隐私。例如,大型科技公司越来越多地采集与个人身份相关的消费者数据来训练他们的人工智能算法。一些小数据方法可以减少采集个人数据的行为,人工生成新数据(如合成数据生成)或使用模拟训练算法。一种不依赖个人生成的数据,另一种具有合成数据去除敏感的个人身份属性的能力。虽然并非所有隐私问题都能得到解决,但通过减少采集*敏*感*词*真实数据的需要,让机器学习的使用变得更加容易,让人们不再担心*敏*感*词*采集、使用或泄露消费者数据。
3)推动数据匮乏地区发展 可用数据的爆发式增长推动了人工智能的新发展。但对于许多急需解决的问题,可以输入人工智能系统的数据很少或根本没有。例如,为没有电子健康记录的人构建预测疾病风险的算法,或预测活火山突然喷发的可能性。小数据方法提供了一种处理缺失或稀缺数据的原则性方法。它可以使用标记数据和未标记数据从相关问题中转移知识。小数据也可以利用少量的数据点创建更多的数据点,依靠相关领域的先验知识,
4)避免脏数据问题小数据方法可以使受“脏数据”困扰的大型组织受益。数据一直存在,但如果您希望它干净、结构良好且易于分析,还有很长的路要走。例如,由于孤立的数据基础设施和遗留系统,美国国防部拥有无数的“脏数据”,需要耗费大量的人力物力对数据进行清理、标记和整理以“净化”它们。在小数据方法中,数据标注方法通过自动生成标签可以更轻松地处理大量未标注数据。迁移学习、贝叶斯方法或人工数据方法可以通过减少需要清理的数据量来显着减少脏数据问题的规模,
对于从事人工智能工作的决策者来说,清楚地认识数据在人工智能发展中的作用和不胜任的任务是必不可少的。上述因素并不适用于所有方法。例如,强化学习一般需要大量数据,但这些数据是在训练过程中产生的(例如,当人工智能系统移动机械臂或在虚拟环境中导航时),并没有提前采集。
研究进展
就研究量而言,近十年来五种“小数据”方法的曲线变化有着不寻常的轨迹。如图2所示,强化学习和贝叶斯方法是论文数量最多的两个类别。贝叶斯集群的论文量在过去十年中稳步增长,而强化学习相关集群的论文量仅在 2015 年有所增长,2017-2019 年增长尤为迅速。因为深度强化学习一直处于瓶颈期,直到 2015 年才经历了技术变革。相比之下,近十年来,每年以集群形式发表的关于手动数据生成和数据标注的研究论文数量却很少。最后,迁移学习论文的数量在 2010 年相对较少,
发表的绝对数量不代表论文的质量。因此,研究人员使用两个指标来衡量每个类别集群中论文的质量:H 指数和年龄调整的引用。H指数是一种常用的指标,它代表一篇论文的发表活动和总被引次数。H指数的一个局限是没有考虑发表时间限制(即较早的论文有更多时间积累引用)。H 指数低估了尚未采集引用的最有影响力的新发表论文集群。为了调整上述问题,图3还描绘了按年龄校正的引文。仅就H指数而言,强化学习和贝叶斯方法大致相当,但考虑到论文的时间限制,强化学习脱颖而出。就五种“小数据”方法而言,贝叶斯方法的累积影响似乎更高。强化学习已被其相对最近的论文输出和引用影响激增所超越。
但如果你认为强化学习是过去十年增长最快的,那就大错特错了。更仔细地观察每个类别随时间的增长,图4清楚地表明,从2011年到2020年,迁移学习的增长最稳定(两年除外),其他所有年份的增长最快。该图表还显示了过去五年在手动数据生成方面取得的增长,这在图 3 中并不明显,因为该类别的论文总数很少。然而,2012年至2015年间,增长数据也出现了最大的下滑,这让人们很难根据品类的增长轨迹得出具体的结论。
图 5 是 CSET 开发的预测模型,将每一类三年增长预期与另一类“Al 评论”论文作为基准进行比较。如图所示,迁移学习是唯一一个预测增长速度快于整个 Al 研究的类别,远远超过所有其他类别,并且与前几年的持续增长趋势一致。
国家竞争力
通过查看全球前10个国家中每种方法的研究进展,可以得出小数据方法的国家竞争力。使用简单的衡量指标,如按年份调整的发表论文数、被引次数等,我们初步了解了每个国家在五种“小数据”方法中的对应状况。
与人工智能研究的整体结果一致,中国和美国是“小数据”集群论文数量前两名,其次是英国。中国在数据标注和迁移学习方法领域的学术论文总量遥遥领先,而美国在贝叶斯方法、强化学习和人工数据生成方*敏*感*词*有优势。除美国和中国外,其他小数据研究排名前10的国家都是美国的盟友或伙伴,*敏*感*词*等国明显缺席。当前学术界常用论文的引用是通过研究的质量和影响来衡量的。中国在所有小数据类别中年调整后的引用次数排名第二,
图 6 显示了按国家/地区细分的三年增长预测。与美国和世界其他地区相比,中国在迁移学习方法方面的增长预计将显着增加。如果这个测试准确,则意味着中国在迁移学习方面会发展得更快、更远。
筹款
研究人员分析了可用于小数据方法的资助数据,以确定对研究集群中资助论文类型的估计。对于上述调查结果,只有大约 20% 到 30% 的论文有资助信息。
在各个领域,在政府、公司、学术界和非营利组织中,政府通常是研究的重要资助者。在全球范围内,“小数据”方法集群的政府资助比例远高于整个人工智能领域。如图 7 所示,在所有五个类别中,与 AI 研究的总体资金细分相比,政府资金的份额非常高。与通常用于人工智能的其余资金相比,非营利组织在用于小数据研究的资金中所占的比例较小。贝叶斯方法的资助模式与一般的人工智能最相似。
图 8 进一步按国家/地区细分了政府相关资金信息。研究结果表明,政府资金投入小数据的比例总体呈上升趋势,但总体而言,美国政府在小数据研究资金中的份额低于其在人工智能领域的份额。个别机构和公司在美国提供的小数据研究的份额往往大于整个人工智能研究的份额。
总结
a) 人工智能不等于大数据。
b) 迁移学习的研究进展很快,未来迁移学习将得到更有效和广泛的应用。
c) 美国和中国在小数据方法上的竞争非常激烈。美国在强化学习和贝叶斯方法两大类上占据优势,而中国在迁移学习增长最快的类目中处于领先地位,并且差距在逐渐拉大。
d) 与整个人工智能领域的投资模式相比,美国在小数据方法上的投资份额较小。因此,移民学习可能是美国政府增加资本投资的一个前瞻性目标。