解读:智能标注原理揭秘,一文读懂人工智能如何解决标注难题
优采云 发布时间: 2022-10-30 20:24解读:智能标注原理揭秘,一文读懂人工智能如何解决标注难题
无论是在传统的机器学习领域还是当今炙手可热的深度学习领域,基于标签或结果清晰的训练样本的监督学习仍然是主要的模型训练方法。尤其是在深度学习领域,需要更多的数据来提升模型效果。目前已经有一些*敏*感*词*的公共数据集,如ImageNet、COCO等。
对于深度学习初学者来说,这些公开的数据集可以提供很大的帮助;但对于大多数企业开发者来说,尤其是在医学影像、自动驾驶、工业质检等领域,需要用到专业领域的实际业务数据。自定义AI模型的应用,确保在业务中得到更好的应用。因此,业务场景数据的采集和注解也是实际AI模型开发过程中必不可少的重要环节。
数据标注的质量和规模通常是提高人工智能模型应用效果的重要因素。然而,通过人工标注数据来构建高质量、*敏*感*词*的专业数据集并不容易:标注员的训练和人工标注成本高、耗时。为了解决这个问题,我们可以采用主动学习的方法,利用“Human-in-the-loop”交互框架(图1)进行数据标注,有效减少人工数据标注量。
图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架
主动学习(AL)是一种选择高信息数据的有效方法,它将数据标记过程呈现为学习算法与用户之间的交互。其中,算法负责选择对训练AI模型更有价值的样本,用户对这些选择的样本进行标注。比如“Human-in-the-loop”交互式数据标注框架通过用户标注的部分数据训练AI模型,通过这个模型对剩余的数据进行标注,选择难度较大的数据供AI模型标注为人工标注。然后将这些数据用于模型优化。几轮之后,用于数据标注的AI模型会有更高的准确率和更好的数据标注。
以图像分类问题为例,首先手动选择并标注一部分图像数据,训练初始模型,然后使用训练好的模型预测其余未标注数据,然后使用“查询法”在“主动学习”中选择模型,这是很难区分的。分类数据,然后人为地修正这些“难”数据的标签,加入到训练集中再次微调训练模型。“查询法”是主动学习的核心之一。最常见的“查询方法”包括基于不确定性的样本查询策略和基于多样性的样本查询策略。
基于不确定性的样本查询策略可以查询深度学习模型预测时接近决策边界的样本。以二分类问题为例,当一个未标记的样本被预测为任一标签的概率为 50% 时,该样本对于预测模型来说是“不确定的”,很可能被误分类。需要注意的是,主动学习是一个迭代的过程。在每次迭代中,模型都会收到修改后的标注数据来微调模型。通过这个过程,可以直接改变模型决策的边界,提高分类的准确性。
基于多样性的查询策略可以在当前深度学习模型下实现对未知样本的查询。将通过多样性查询选择的数据加入到训练集中,可以丰富训练集的特征组合,提高模型的泛化能力。模型学习到的数据特征越丰富,泛化能力越强,预测模型的适用场景就越广。
为解决大数据量标注的痛点,基于主动学习、融合多种查询策略的智能标注AI解决方案应运而生。通过EasyDL平台使用智能标注后,开发者只需对数据集中30%左右的数据进行标注,然后就可以启动智能标注在EasyDL后台自动标注剩余数据,然后返回小人工标注在后台难以确定的数据量。自动标注的准确性,经过多轮实际项目测试,智能标注功能可以帮助用户节省70%的数据标注量,大大降低了数据标注的人工成本和时间成本。
EasyDL是一个零门槛的AI开发平台,为企业开发者提供智能标注、模型训练、服务部署等全流程功能,为AI模型开发中的复杂任务提供便捷高效的平台化解决方案。EasyDL针对不同人群提供经典版、专业版、行业版三种产品形态。EasyDL专业版支持高精度业务模型的深度开发,内置丰富的*敏*感*词*预训练模型,只需少量数据即可取得优异的效果。模型效果。
目前,EasyDL的智能标注功能已经支持两大方向的数据标注:计算机视觉CV方向的物体检测模型,自然语言处理(NLP)方向的文本分类模型。选择EasyDL专业版模型定制,点击“智能标注”进入。使用方法也很简单,一共三步:
在“数据管理/注释”中上传训练数据集后,您可以激活“创建智能注释任务”按钮(图 2)。单击此按钮后,您可以进入数据集选择。需要注意的是,系统会自动验证选择的数据集。验证规则如下:
上述图像和文本数据集之所以采用不同的验证规则,是因为在实际场景中,文本和图像数据集的获取方式和数据规模存在较大差异,智能标注后端AI模型训练的启动样本数为不同的。一。
点击“开始智能标注”进入数据验证阶段。如果验证失败,会出现“智能标签启动失败”的提示;如果验证通过,则进入数据筛选阶段,用户需要等待一段时间。
图2 创建智能标签任务
系统会自动从需要先标注的未标注数据集中筛选出最具代表性的样本数据。用户需要手动标注这些推荐的样本数据。为提高标注效率,系统还将提供预标注供用户修改和确认。在图像智能标注中,用户选择右上角的“显示预标注”开启辅助功能(图3),点击“对预标注结果满意”确认预标注结果;在文本智能标注中,系统会自动显示预标注标签。点击每个文本右侧的“确认”或右上角的“确认所有在此页面上”,以确认预注释(图4)。
在确认所有推荐数据的预标注后,用户可以选择是否进行下一轮数据筛选。在图像智能标注中,如果用户没有停止智能标注,系统将自动进行下一轮;在文本智能标注中,由于文本数据集的规模普遍较大,确认数据预标注的人工成本较高。为了提升用户体验,系统默认不进入下一轮迭代。用户可以点击右上角的“Optimize Smart Labeling Results”进行下一轮筛选(图5)。通过多轮筛选,数据预标注的准确性将不断提升。为保证智能数据标注,
图3 智能图像标注
图 4 文本智能标签
图5 文本智能标注进入数据筛选优化迭代
当用户觉得当前推荐数据的预标注足够准确,没有进行下一轮数据标注推荐筛选,或者系统自动判断当前标注数据足够时,智能标注阶段结束进入。在图像智能标注中,系统会弹出提示(图6),选择“一键标注”,系统会自动标记剩余未标注数据,选择“立即训练”停止智能标注,然后使用确认标注数据以训练模型;在文本智能标注中,如果不选择“优化标注结果”,则认为停止智能标注,系统会自动标注所有未标注的数据,并将其归类为“
图6 端图智能标注
图7 EasyDL智能标注使用流程图
在智能标注功能的支持下,将重复枯燥的标注功能交给了AI模型,大大降低了时间和人力成本。在数据方面,EasyDL中的EasyData智能数据服务平台提供了涵盖采集、清洗、标注、处理等一站式数据处理功能,并与模型训练流程无缝对接,通过数据闭环函数。模型迭代。
百度搜索“EasyDL”,尝试智能标注,开发你的高精度商业模式!
可采集文章 解决办法:安装问题
在操作公众号时,
公众号阅读量是我们应该更加关注的一个方面,因为阅读量大意味着文章内容质量高,得到读者的喜欢。但是,文章阅读量并不能衡量文章内容是否高质量,因为文章阅读量不仅与文章内容有关,还与文章标题有关!
因为读者在浏览文章时,首先看到的就是文章标题,如果文章标题做得不好,也会极大地影响文章阅读量。因此,当文章阅读量过低时,我们应该区分是因为文章内容不好,还是文章标题不好。那么,我们怎么知道哪个环节是错误的呢?
使用打开率分析
功能进入OnePartner图文分析页面,我们不仅可以选择查看一定时间内文章的打开率,快速查看文章的打开率,还可以查看阅读次数和好看,从而进一步判断文章的阅读量低是否是由于标题造成的。