解决方案:高能预警!每个人都可以快速上手的AI项目
优采云 发布时间: 2022-11-22 04:29解决方案:高能预警!每个人都可以快速上手的AI项目
现正式进入第一讲:自动驾驶场景应用初步探索:场景分析模型开发实践。
我
我是百度AI平台研发部的高级研发工程师Mu Shirt,我稍后会为大家开发实际流程。
这是今天课程的大纲:
首先,进入数据处理方案的详细介绍,我们之所以选择自动驾驶的场景,是因为我们都知道AI与我们的生活息息相关越来越紧密,很多应用都落地在生活中,这门课程我们选择了自动驾驶的热门研究方向,利用EasyDL平台演示如何选择数据集, 模型构建,以及操作流程的实际部署。
由于自动驾驶场景较为复杂,因此在本课程中,我们从数据集中选择来演示开发过程。通过左边的数据集生成模型后,我们会像右边一样用实际的应用场景图片进行预测,希望得到右下角预测的效果。
Flypaddle企业版面向企业级AI开发者打造,是AI开发的双平台模式,包括面向企业AI应用开发者的EasyDL零门槛平台,支持零代码自动化模型训练,BML全功能AI开发平台面向企业AI算法开发者,提供不同的建模方式。EasyDL零阈值平台为不同方向提供了更好的模型,下面我将对EasyDL零阈值平台做一个简要介绍。
EasyDL零阈值AI开发平台支持图像、文本、音视频和结构化数据的模型训练。首先,EasyDL平台提供了一个数据处理模块,其中收录
多种数据服务;在模型训练模块中,为提升模型训练效果,提供了百度独家的超*敏*感*词*预训练模型,包括视觉和语义理解两个预训练模型,并提供自动超参数搜索、自动数据增强等功能。同时,EasyDL为经过训练的模型提供评估报告和多种视觉归因分析工具,帮助大家评估模型的质量。在模型部署方面,提供公有云、私有化、端端部署、软硬件一体化部署。
以我们今天展示的实际应用场景为例,如果需要在自动驾驶场景中训练车辆分割模型,如何利用EasyDL平台进行训练?首先我们可以选择图像分割模型,其次,将我们的图像上传到平台上进行标注,然后选择模型进行训练,比如选择图像分割训练以获得近90%的mAP效果,将其发布为设备端SDK,然后在Linux系统中进行离线计算, 对于不同的任务,可能只需要 15 分钟即可完成模型训练和部署过程。
让我们回到AI开发的解释和介绍。AI开发是一个系统工程,包括模型选择、数据采集、数据处理、参数调优、模型训练、模型评估、模型部署、推理服务流程,每个流程都有一些技术要点,本次EasyDL零门槛AI开发训练营系列课程是针对模型开发在不同环节需要关注和掌握的技术重点难点进行讲解, 本课程主要针对数据处理并与您分享。
首先是模型选择,将模型选择
归类为数据处理会让人感到有些困惑,为什么,因为我们在训练模型的时候,如何利用AI来训练模型,首先要决定的就是选择什么模型。以EasyDL平台为例,EasyDL在模型类型上提供了很多选择,包括图像分类、目标检测、图像分割,还支持NLP方向文本分类或文本匹配,或者机器学习数据预测表预测,那么什么模型可以有效解决问题呢?这首先需要了解场景,因此我们将此模型选择放在数据处理的第一步。如何选择模型,我们以视觉为例,首先我们需要了解不同任务类型实际可以解决的问题,比如我们的图像分类适合整个地图区域的高清预测,比下图所示,你可以给图片贴标签,你可以分类这个就是鞋子或者鞋底或者鞋垫的外观, 我们可以使用分类模型来完成任务。目标检测主要适用于图像矩形区域的标签预测,像质检场景一样,我们可以使用检测模型来完成要求。图像分割主要适用于图像中的像素级标签预测,如图像的背景识别、背景的替换,现在短视频领域的背景替换,应用场景可以用来完成这样的任务。
结合我们课程实际操作中的任务,自动驾驶场景中的车辆识别,首先要明确需要解决的问题,首先我们希望能够识别汽车、*敏*感*词*或行人,其次是隧道中可能存在一些凹形物体或需要穿越的物体, 我们要判断这条隧道的轮廓,如果采用物体检测模型,返回的是一个矩形的盒子,所以不利于我们判断隧道的位置。我们希望获取隧道的 MASK 信息,这与我们预期的输出有些不同。因此,我们选择图像分割模型,返回像素的信息,并根据场景的具体需求判断模型类型,在这个自动驾驶场景中,我们使用图像分割模型来完成训练任务。
当然,我们也有一些特殊的情况,比如我们可能会遇到像第一只猫识别这样的情况,我们发现图像分类、目标检测、图像分割可以解决我们的问题,那么选择就会比较困难,这就需要结合我们任务的实际情况,比如我们对这个任务是否有精度要求, 就是要达到90%以上的准确率,一般来说,模型的复杂度越低,精度就会降低,复杂度越高,准确率越好。二是对延迟的需求,也就是模型最终落地的是什么设备,这个设备的算力能不能支持我们运行更复杂的模型,或者是否需要设备上的内存或者预测时间。第三是数据变化的速度和维护成本,我们在这里列出考虑数据的变化和维护会有一些新的数据,如果你去培训那么里面会有一些采集、标注、清理的费用,如果分类任务,标识信息比较简单,一张图片就有标签, 检测是对象在图片上,标记一个矩形框,划分需要使用(MASK),这样的标注比较复杂,结合我们的任务情况,如果任务本身不是特别复杂,我们建议你更喜欢低复杂度的模型。
当然,也有一些场景我们建议选择高度复杂的模型,比如这个图需要识别狗,虽然图像分类模型也可以识别狗的图片,但是识别准确率只有76.4,我们观察到图片的背景有很多类似的狗图片, 如果我们用这个模型来预测一只狗只是在背景上,可能会把这张图片识别为狗牌,这和我们实际的应用场景是不一样的,在这种情况下我们会推荐大家使用物理检测模型,然后我们会看到它的准确率已经大大提高到了91.1%。这是第一种情况,即对于具有复杂背景的方案,建议使用高度复杂的模型。在第二种情况下,需要识别的对象或关注的对象对于整个画面来说不清楚或不太清晰,比如图像分类我们会识别整个图片的特征,并使用物理检测来关注矩形关注的局部对象特征,这有助于我们建模学习, 我们希望关注这个对象的主体特征,这也会将准确率从83%提高到96%。
刚才说了模型选择,接下来就是数据采集
,我们这门课程选择的数据集是开源数据集,可以直接使用,不需要考虑采集
的问题。但是,在实际应用中,此过程可能会遇到一些困难。例如,采集
物理环境的影响:第一次采集
可能在工厂、园区、生产线等,或者一些特殊场景会遇到光、油污染等物理环境影响;此外,采集设备的选择也是一个问题,比如用什么样的相机进行采集,这是采集过程中遇到的难点。EasyDL内置EasyData智能数据服务平台,不仅提供免费的数据采集SDK,还与AI市场硬件边缘设备采集设备联动,设备内置采集SDK,可以省去繁琐的设备选型、调试和开发过程,同时通过SDK完成图片、数据和云平台, 使我们的数据采集效率从数周缩短到数小时,采用这样的方案具有端云协同、软硬件一体化的特点。
采集完毕后会进入数据处理流程,本课将简单分享大家如何选择训练数据,如何提高数据质量,如何更好地完成数据标注,如何完成数据丰富,如何进一步提高数据利用率。
首先是数据划分,相信大家有些疑惑,训练数据集越多模型越好?其次,我们标记的数据越多,模型就越好?我们必须对这两个问题打上一定的问号。如下图所示,例如,实际应用场景数据是识别实际道路上感兴趣的汽车、行人、自行车或隧道的特征,采集
的数据可能是实际车展场景中的图片。是的,但是因为应用场景和实际场景相差很大,在使用这个模型的实际应用过程中,模型效果会不尽如人意,就是模型的泛化不符合业务应用的要求。这说明训练数据应该用实际业务数据进行训练,而附加的车展数据只能作为补充数据,因为有些场景数据源确实很难,训练数据相对稀缺,这时候我们可以使用一些额外的数据来丰富数据集的品类特征, 但不建议使用训练数据作为主体。
二、
标签不平衡,比如上图中右图,汽车类有5张图片,自行车类有30张图片,可想而知模型会过多地了解自行车的特性,而汽车的特征学习相对较小,样本的数据预测效果会比较差, 这意味着确保不同类别之间的平衡。数据集的划分一般分为训练任务中的训练集、验证集和测试集。训练集是直接用于训练模型的数据,需要尽可能是实际场景数据,模拟数据可用于或补充限制性场景下的训练。二是验证集合,验证模型的有效性,选择最优模型。测试集是在模型真正落地后得到一个模型,会用测试集的数据来验证模型的实际效果,即泛化的效果,测试集和测试集不能掺杂训练数据。
以下是我们列出的常见问题,比如如果训练集和验证集非常相似怎么办,这个时候会出现什么样的问题,有哪些
准备要点 此时,训练集和验证集的数据非常相似,这会导致模型过度拟合,因为它既是裁判又是运动员。验证集和测试集不是实际应用场景数据,使得实际场景无法判断,导致模型在实际使用中出现一些问题。对于上面的第一个问题,在类似的情况下,我们可以使用EasyDL平台的数据清洗,或者上传独立的数据集、验证集和测试集来避免此类问题。第三个问题是三类数据集的划分是否有一定的比例,一般平台默认为7:2:1提供最终的验证指标。
接下来是数据清洗,
首先要确定数据是否需要清洗,就需要对数据质量有一个衡量指标。二是我们如何选择大量的清洗操作。EasyDL平台依靠EasyData平台对数据提供多维度的判断报告,包括是否存在不均匀的尺寸分布,一些客观比例的不均匀分布,如果存在这样的问题,可以使用EasyData的操作来完成数据集的清理。比如像这个实际场景中的自动驾驶数据集,它的采集可能是在道路的实际场景中,如果采集设备长时间不动,一段时间采集的图片可能相似或者相差不大,这就导致这部分数据太多, 导致其他数据太少,在这种情况下,您可以使用EasyData重复该功能以删除类似的图片。例如,图片的分辨率太高,图片可以裁剪,变小,整个过程完全自动化,通过这个过程可以降低近80%的人工成本。
还有一个功能,在EasyData清洗中,支持我们调用一些过滤器,没有人体,没有人脸图片,一般适用于视频场景监控,清洗后的数据页面只收录
人体或人脸图片,更能满足实际场景数据的需求,帮你过滤一些干扰数据集,提高模型效果。此外,针对自然语言处理NLP的方向,我们的清洗解决方案还提供了删除表达式、链接、繁体字、简体字等功能,如果您有数据清扫需求,可以在EasyData平台上体验和使用。
" />
下面是数据标签。数据标注是数据处理过程中比较耗时的部分,我们也整理了一些标注过程中的问题给大家分享。第一个问题是标签错误,就像上图,比如识别长颈鹿,两个物体非常接近,用一个标签框来标记,可能会导致里面有两个物体,这是错误的标签,其实我们只需要给每只长颈鹿做一个单独的标签。接下来的问题就是缺少标记了,像这个自动驾驶场景我们要识别汽车,有的汽车被标记了,我们可以观察红框中的两辆车,这也是我们要检测的对象,但是漏掉的标记,这样就算是非汽车学习了,显然这是不对的, 所以我们必须给每辆车贴上标签。
下面简单介绍一下在遮挡的情况下如何贴标签,左图列出了四种情况,上页图中所示的两只长颈鹿,存在遮挡的问题,我们这个时候如何完成标注,我们有一个原则,设定明确明确的标注标准, 标注尽可能详细,现场覆盖尽可能全面。第一张有错误的标记,下面确实标记了两个矩形框,第三张图是第一只长颈鹿的左半部分,右半部分没有标记,右下角是长颈鹿左边的标注完全收录
了下面小长颈鹿的特征,这会导致模型学习时出现一些问题, 这里我们推荐第二种标注方法,红色框完全标明高大长颈鹿的特征,绿色框完全标明小长颈鹿的完整特征,这个标注尽可能详细,场景的覆盖面要尽可能全面。右边的图片是下面给出的零售商超级场景的例子,可以观察,和第一张图一样,是物体的侧视图,虽然标签没有被遮挡,标签部分有70%,但是我们没有明显的数据学习特征,既然是这种情况我们就不能把它作为标签。在第二种情况下,虽然前面有一些遮挡,但上部的暴露部分超过70%,并且也有明显的特征,此时我们将标记暴露部分。总的来说,标签过程应该很好,不会错过完成它。
说到标注,大家会觉得选择不同的型号,分类好,分类就是选择一个标签,比如检测,分割来标记这个矩形框,分割要完成MASK标注的图,标注的类型很复杂,标注工具够用吗?别担心,我们在EasyDL使用EasyData平台为您提供各种注释模板,即使是没有算法基础的学生也可以简单地开始。第二个问题是,如何减少标签工作量?我们提供多人批注,可以通过团队或多角色的方式划分整个批注任务,每个学生可以关注自己分配的任务,并且有管理员审核员对批注结果进行审核和统一管理,提高大家的批注效率。此外,我们还提供智能标签工具,后面会详细介绍给大家。
在注释过程中,例如
EasyDL平台在标注过程中提供了多种标注工具,像图像分割在实际演示过程中后期,岳半子老师会实际为大家演示如何标注。尺寸标注工具支持多边形、圆形、线条、画笔、橡皮擦。在标注时提供友好的注解体验,包括实时显示、全屏批注、灵活缩放,相信大家使用我们的平台都会得到很好的注解体验。
此外,我们的平台还支持上传已标记的数据,
比如我的数据集已经标注了,我想把数据上传到平台,不想去标注,也没关系,以我们的场景为例,标注数据的格式是图片名+同名的JSON文件,文件是文件长宽的描述, 以及围绕每个注释框的多边形*敏*感*词*轮廓点的组合。
刚才说到标注问题的时候提到智能标注,智能标注就是解决大量数据标注难题,目前平台支持目标检测、图像分割、文本分类3类任务场景智能标注,我们怎么用,简单介绍一下原理。首先,我们需要标注少量数据并开始智能标注,标注过程会迭代训练,得到一个模型,用这个模型来预测未标注的数据,预测结果会有一套算法来计算一个疑难情况,我们人工验证确认图片,疑难情况也可以二次迭代, 然后用之前的模型进行迭代训练,训练后再挖掘出这样的难点案例,经过两到三次迭代的过程会得到更好的模型,此时就可以完成未标注数据的一键确认过程。智能标注硬样本后,主动学习挖掘算法适应不同任务,同一模型效果指标的数据标注量降低70%。右图是使用智能标注应用、面包自结算、停机坪飞机停车检测、汽车*敏*感*词*识别的实际场景,因此使用智能标注可以解决标注问题,大大提高标注效率,降低标注成本。
最后说说数据增强,其实我们之前
的调查发现,66%的公司在数据集上都会有偏差或者错误,之前我们提到数据清洗,可以对数据去重复数据进行模糊增强,我们怎么扩展,比如我们用数据合成的方法,像单品图谱更新非常快,在实际场景中没有看到这个SKU, 新的SKU就要出来了,针对这种情况我们用合成和增强的方法,解决大家在实际场景中模拟SKU的画面,为了减少每个人90%的数据需求,类似的解决方案也会针对不同的任务在EasyData平台上推出,扩展这样的数据集,减少每个任务所需的数据量。
最后,例如,我们
数据标注,清理,扩展,我们
获取模型,如何在实际使用过程中提高数据的利用率,EasyDL支持数据返回功能,我们针对公有云,在线推理API实时服务,我们将预测结果用于存储,数据集成,数据验证和筛选,数据标注上传,自动化流程,减少人工操作,模型优化过程,主要用于迭代模型优化, 减少人工操作近75%,数据处理提高80%。
接下来,我们将进入实战阶段流程,请岳板子演示如何使用EasyDL平台创建场景分析模型。
▌实际演示
岳板子:大家好,很高兴在*敏*感*词*见到大家,我后面要介绍的话题是带大家通过一个关于如何使用EasyDL平台的实践练习,以及EasyDL平台是如何实现的。首先
简单介绍一下,包括这些方面,和我们平时用来创建AI模型是一样的,比如我们先训练一个模型,用一个模型,一般都是这样的,为什么要训练,首先要有一个模型,还要有数据,对吧。我将与您一起回答这个问题,并与您一起使用该平台。平台入口在哪里,因为这个训练时间有点长,不可能把大家一起标注数据,所以我录了一个画面。首先进入图像分割,从控制台输入,或从大分类输入。这是我自己的账号登录界面,但还没有创建模型,左边有一些介绍,大家对这个整体都有了解,包括模型中心、数据中心和部署中心,我们还有一个话题就是用一种纯离线部署的方法,就是可以部署到自己的服务器上, 非常方便。
我们先创建一个模型,因为是阿波罗数据,我们取一个名字,如果是个人比较简单,公司稍微复杂一点,我就填进去。行业比较多,大家根据自己的实际情况选择,我选择智能交通,功能描述可以写得很详细。创建模型就像几个步骤一样简单,单击“下一步”,看看接下来会发生什么,它告诉我们你没有模型,你需要上传模型才能训练。然后我们先创建一个模型数据集,在训练前创建一个数据集,点击创建,该数据集是阿波罗数据集,图像分割。数据集创建完之后,我会介绍这个数据集,因为自动驾驶这方面可能还有一些事情没有做,我们用的是 Apollo 数据集,界面比较简单,介绍一下数据集的来源,这是百度提供的带有像素级标签的数据集,这个数据集不好贡献, 让我标记一下这个数据肯定会崩溃,这里有一些类定义,你需要去首页注意,否则就是图片上找到的一堆数字,大家很难理解。
然后到下载界面,我建议大家找一个更大的数据集,因为图片分辨率很高,数据集很
大,有17000张图片,考虑到时间和效果问题,我们没有全部下载,这样我们训练的成本非常高,我们暂时只下载了一部分数据集,如果要使用这个数据集可以选择更大的服务器,更好的网络。后面我会给大家展示下载文件的目录,数据集概述是这样的,有兴趣可以自己下载进行训练,不过这里的数据已经标注好了。
然后你可以导入
我们的数据在这里,导入到EasyDL平台,有两个导入方向,一个带标注,一个不带标注,我们可以支持标注,标签有两种格式,一种是coco模式,我们用这个,如果你不明白你可以下载一个标签案例,我们来看看,如果你还不明白可以在线了解一下。我们选择这个格式后,点击上传压缩包,这里有一些上传要求你需要注意,否则平台可能会认为你的图片没有标记,你还是要注意的,包括图片的大小。我准备了一个ZIP,这个比较小,建议大家批量上传,阿波罗数据一碗7000张,打包上传在一起是对网络的又一次考验。上传后,我们可以点击确认返回,可以看到它变成了导入状态,比如数据需要读到内存中,自己标记信息,包括后面的支持预览,我们需要等待一段时间,这个时候你也可以熟悉这个界面。因为上传的数据是70张图片,上传成功后标注显示100%,我们来看看这个数据。我们来看看它是什么样子的,这个数据集非常大,平台加载也需要一点时间,这张图片有3000多个像素,非常大,这个数据集真的被标记到了非常极端的状态,我们很难用肉眼找到被标记的图片,如果你不满意也可以点击继续标注, 看类别,Coco的数据集是影射的,这里可以看到一个数据集,这个数据集质量相当高,所以在模型上进行训练也是一个比较大的测试。
一般来说,截断我们使用的是没有标签的数据,没关系,不是说这样只能导入标注的数据,我们也可以导入多次,我们选择导入方式选择状态不标注,图片也可以,图片压缩包也可以,我们上传图片,它有一些限制,这个没关系, 告诉我它将被重复数据删除,这里据说只能上传 100 张纸。好了,有一些基本的限制,这里我们就不看了,这里给大家展示一下我下载的数据集,这个有一个标签,这是实际的图片,有两个*敏*感*词*,*敏*感*词*5,*敏*感*词*6。101、点击上传,告诉我一个已经结束了,然后不上传。图片有点像,是不是,这张图估计是提取了视频帧格式,所以比较连续,拉的时候比较连续,上传图片的时候也有一些连续性,没关系,这并不影响我们的训练,因为我们的训练重点是样本总数和样本的平衡。上传100张图片,点击确认,导入一会儿,这个导入比较快,因为没有标签,不需要用你的标签验证,可以看出导入成功。
我今天说的这些行动,
其实我们已经完成了使用文档就可以看出来了,比如一个月半老师你说我记不住怎么办,我们可以去详细描述书看看,时间原因我不能把每一个细节都展示出来,大家有兴趣的都可以展开,今天就是扔砖头和玉石, 首先向您介绍部分信息。
导入数据后,你需要标注,
没办法,我上传未标注的数据,这是无法避免的,我会给你看,但是我标注比较慢,不会让大家看到我标注了所有的图片。这里已经划分了带或不带标注的数据,我们就开始标记一个,我选择了多边形,也可以用画笔、圆圈,我的手有点慢,大家忍耐一下。选好这个之后,点击标签,右边一个数字,这个可以快速标注,图片中的数据可以尽可能多地标注,刚才木衫老师说。
接下来,我将介绍Mushirt先生所说的自动标签,我们
随便提交一个,就会以任务的形式展示出来,在运行的过程中,我们看进度,这和Mushirt先生说的一样,有一个艰难的确认过程,它这个模型不知道是对不对,所以需要一个艰难的确认过程, 我们可以理解智能标注,给大家一个详细的介绍。自定义模型是指训练模型,使用它来注释新数据,祝贺您进入正循环,然后我们将拭目以待。很难确认它已经来到这边了,我们继续看状态,没有标记信息90%,已经为我标记了10,我们看这张图中的数据,可以看到中间的小车标志还可以,我放大给大家看, 旁边的共享单车标志不是特别好,这辆车还行,共享单车这部分比较像背景,认不出来,这个时候我们就自己手动划一下,不好意思,我的箱子有点大,标记不是很好,反正我的数据集也是用标签下载的。标记后,单击右侧的内容进行标记。所以总的来说,这个标签平台仍然为每个人做部分工作。
接下来,我上传了我注释的所有数据,以便为每个人演示培训。这里的点服务器,默认,缩放比例,1600×1400还是相当大的画面。选择我加到训练中的数据集,一个是汽车,一个是*敏*感*词*,这个问题的目的还是要开始,所以我先开始训练,训练过程比较长。我只是填写了我的电话号码,它会告诉我模型何时训练,所以我不必留在这里。这里你可以看到训练完成,看看训练效果,mAP这么多,大家注意这里,展示误认的画面是什么样的,有误认和缺失识别两种,这应该是标签的问题,这里应该是正确的。*敏*感*词*,200多个数据集只有一张图片无法识别,准确率接近100%,这是泄漏识别,这张图片确实有点困难。
好了,模型训练完成后,训练过程相对简单,我们就可以点击申请发布了。因为是本地部署,所以选择一个版本,点击发布,部署时没有端 SDK,我们选择一个 SDK,点击下一步,这里有一些信息,这里给大家快进。提交后,我们会进行初步审查,并认为您的模型可以很快发布,只需要等待一段时间即可发布。这是我前天发的,因为怕直播的时候来不及了,然后我点击下载,下载就黑了,我刚下载了模型包,我就给大家看看是什么。这时可以申请序列号,我们有个代码带零件填写序列号,只要第一次激活就可以离线使用。这里进入应用序列号界面,每个人可以添加几个测试序列号,比如一个序列号是一个月,它问我有多少台设备,我会一个服务器,写一个,点击确认。序列号是立即生成的,这是我自己的个人帐户。
这时,我下载
了吧,就去本地看看下载了什么,不好意思,这个图片推送流会把视频切成1080,目录结构没变,有四个子文件夹,上传过程我没给大家看,这里应该进服务器,视频流启动,上传这个包和几个文件。看看服务器的基本配置,X86Linux系统就可以了,画中画版,看pythna版本,看看现有的软件包,不用担心,这些软件包只是文件依赖,平时用PRP,直接安装这个软件包,因为我安装在这里,很快就有了。让我们看看它是否真的存在,这里已经有一个 SDK,并且已经部署了本地服务器。建议大家有一个可视化界面,就是我上传的文件夹,看图的效果更直观。看看演示文件,这是模型的目录,这个地方需要填写序列号,大家只是想像我一样测试,这里是代码中唯一需要更改的地方,其他地方不需要更改。填好序列号,记得怎么生成,填写到这里,然后回到目录尝试运行,填写型号目录地址,然后选择一张图片,我选一个4启动吧,图片选择开始运行,可以看到它一直运行正常, 变焦是1400×1600,不需要写代码也可以做到,这里你可以调整大小,它必须保证一定的比例。由于我在CPU上运行,因此每个人都必须稍等片刻。这里抓到几个目标结果,所以执行结果就打印出来了,这个运行时间有点长,第一次有认证流程,后期会比较快,我的服务器确实不是很好。目录文件中还有一个文件,我们切换到可视化界面,看看生成的文件是什么样子的。
效果出来了,勉强,因为我在数据集里过滤了,刚才木衫老师说,主体不建议作为目标训练,可能会对模型产生负面影响,70%以上的零件已经被正确识别,这个目前勉强通过。优化的空间还很大,你可以使用平台或者训练自己试一试,看看能不能比我做得更好。回顾代码,我有一台机器,没有显示多台机器的部分。至此,SDK 部署结束了,回过头来看,整个过程我给大家展示了几个功能,比如创建一个模型,它告诉我们需要先有一个数据集,我们上传了数据集,我演示了两个,标记和未标记,带标签是最好的,没有标签有点难,手动还是请朋友和多人一起标注, 你可以再标记一个,使用*敏*感*词*套娃工具智能标注,标注后我训练,训练的时候要考虑一下, 比如想要部署在云服务器上或者本地部署,训练配置上就存在一些差距,因为我们EasyDL,为了减轻开发者的负担, 这部分不是向所有人展示的。培训结束后,我会告诉你如何下载我们的软件包,然后申请序列号,然后下载,上传服务器,直接在服务器中安装相关的软件包,然后将图片上传到服务器,测试后展示给大家看,整个过程大致是这样的。
如果您对我当前的演示文稿和我之前谈到的内容有任何疑问,您可以专注于它,我们现在将进入 QA 会议。
" />
▌质量保证链接
问:什么是清洁功能培训?这是一位木衫老师的专业回答。
答:非常感谢您这次带您从数据到部署,并带您体验如何使用 EasyDL 平台构建我们的实际用例。刚才问到怎么做数据清洗,这是我们在EasyData平台上为大家提供的功能,就是通过大家的使用来设置相似度,就在休息期间我还观察到,有同学说老师上传的数据有很多相似的图片,有的朋友说清洗后没有一张图片没了, 这与相似阈值有关,阈值调整越高,例如保留相似度不超过百分之一的图片会更多,这与阈值有关。
问:在哪里可以下载数据?
答:在PPT的右上角,您可以扫描此QR码以取下数据。我再说一遍,因为群里的一些新朋友刚进来,在这门课程中,你可以扫描右上角的数据集,你可以得到和月板子老师一样的数据集,使用我们的EasyDL平台进行训练,然后扫描右下角的二维码提交,然后就可以得到100小时的V100培训时间作为礼物。
问:我可以做医用细胞标记吗?
A:这个其实是有可能的,我们也有类似的客户来解决这样的问题,但是这个小伙伴的实际情况我可能不太了解,比如细胞检测,比如红细胞白细胞检测,用视觉解决这个问题应该不是什么难题,而且很多同学也做过类似的问题, 可以实现。
问:培训的一般准确性如何?
答:这是衡量模型效果的指标,与模型的效果有关
每个模型,都比我们专业,比如用NLP进行细分,很难说一个指标能应用多少,这会和实际情况相关,我们做这个指标是在评估报告中用数据集作为泛化衡量指标,具体效果需要落地后再用。
问:我只能手动标记标签吗?
答:这不是,第一个方面,EasyDL平台支持大家上传标注数据。其次,我们支持多人注解,即在前一部分的第一部分,将任务划分为多个团队注解。第三种是智能标注,它首先训练一个模型,然后使用该模型来预测未标注的数据。
问:我需要逐个确认标记的数据吗?
A:不可以,难点情况是用一定比例的固定对比,不是每张图片都要确认,你只需要看有没有明显的错误来纠正,不需要每张图片一一确认,我们也支持一键确认按钮供大家选择。
问:我可以在离线环境中使用 SDK 吗?
答:是啊,为什么我们支持SDK,考虑到很多用户没有公网环境,我们第一次注册的时候需要连接公网,然后就不需要上网了,可以直接使用。
问:谁是多人注释?
答:我们按管理员划分标注任务,
把它分成公司的朋友,把一个工作分成几个小工作,我们设置审核员,管理员可以管理整个标签任务。
问:标签是简单的近似值还是按对象标注?
A:可能是两个场景,第一个是物理检测,遮挡问题在矩形框的标注中,我刚才简单介绍一下,尽量标记遮挡部分的明显特征,分割是像素级标注,我们需要标注出物体的周边轮廓,我们平台会闭环标记出轮廓区域, 完成这样的标注效果,在标注的时候,希望大家尽量打准准确,实物的实际情况是按原样标注,不重不漏,达到更好的标注效果。
问:我可以划分汽车以外的人吗?
答:是的。刚才老师演示了汽车或者自行车的识别,只要加上人作为标签,然后去训练,也可以训练学习。
问:我可以在平台上执行自己的分段任务吗?
答:当然,只要您上传自己的数据集并使用我们的平台,您就可以获得学习自身特征的分段模型。访问易德:
问:作业中的模型精度太低是否存在问题?
A:建议越高越好,后面的课程会讲模型优化类似的函数,然后让效果不断提升,这也是一个体验的过程。
问:人有胖有瘦,要不分不同类别?
A:我知道自动驾驶场景没什么需要的,如果你需要区分场景中的车身特征,那可能是另外一个任务。
问:是否可以识别字符?
答:字符识别一般采用业界使用的OCR,这款EasyDL已经支持自定义OCR模型。
问:我可以识别交通信号灯吗?
答:如果您只想检测灯是红色还是绿色,则可以使用图像分类或对象检测来完成。
【今晚即将上课】
EasyDL零门槛AI开发训练营,今晚8点继续聊!
零门槛无AI开发经验,研发将带你入门工业级经典项目!
小麦检测计数模型农业AI应用的突破.
1. 小麦检测模型开发必备知识:目标检测任务回顾
2. 工程师技能分享:如何提高小麦检测模型的准确性
3、动手练习:教你构建从训练到部署的高精度小麦检测计数模型
解决方案:主题内容智能聚合方法、装置、电子设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种主题内容智能聚合方法、装置、电子设备及存储介质。
背景技术
随着网络信息技术以及信息化媒体的高速发展,各大媒体网站平台中的信息量急剧增加,其中大部分媒体信息以文本形式存在。为了便于用户能够快速的获取主题信息,全面了解与主题内容相关的信息,深度理解主题内容的内涵,需要对媒体中的资讯内容进行智能化聚合,实现对主题内容的快速聚合和推送。
现有技术中,一些媒体平台虽然能够在一定程度上对资讯内容按照主题进行聚合,但是由于互联网中存在海量的数据,数据源具有多样化的特点,使得传统的聚合方法无法对主题内容进行有效地挖掘,无法实现精准主题内容的筛选,也无法实现定制主题内容的推送,导致传统媒体平台的主题内容比较缺乏,主题专栏的快建和维护过程比较繁琐,无法为用户提供智能化的资讯服务。
基于现有技术,需要提供一种能够对源数据进行有效挖掘,实现主题内容的快速推送和聚合,方便用户实现精准主题内容的定制,提升资讯服务智能化水平的主题内容智能聚合方案。
发明内容
有鉴于此,本公开实施例提供了一种主题内容智能聚合方法、装置、电子设备及存储介质,以解决现有技术存在的无法对主题内容进行有效地挖掘,无法实现精准主题内容的筛选,无法实现定制主题内容的推送,导致主题内容比较缺乏,资讯服务智能化比较低的问题。
本公开实施例的第一方面,提供了一种主题内容智能聚合方法,包括:对源数据平台中的原创
稿件数据的使用频次进行监控并对原创
稿件数据进行采集,获得待处理的原创
稿件数据;对原创
稿件数据执行预处理操作,得到预处理后的原创
稿件数据对应的文本内容数据,并利用预设的知识加工方式对文本内容数据进行加工,得到加工后的稿件数据;基于预定的主题定制页面,获取用户输入的与主题相关的定制条件,利用定制条件对稿件数据进行筛选,得到筛选后的待推送稿件;基于预定的稿件推送页面,获取用户针对主题配置的推送条件,按照推送条件将待推送稿件推送至系统平台,以使系统平台基于推送的稿件进行主题内容的聚合。
本公开实施例的第二方面,提供了一种主题内容智能聚合装置,包括:采集模块,被配置为对源数据平台中的原创
稿件数据的使用频次进行监控并对原创
稿件数据进行采集,获得待处理的原创
稿件数据;加工模块,被配置为对原创
稿件数据执行预处理操作,得到预处理后的原创
稿件数据对应的文本内容数据,并利用预设的知识加工方式对文本内容数据进行加工,得到加工后的稿件数据;筛选模块,被配置为基于预定的主题定制页面,获取用户输入的与主题相关的定制条件,利用定制条件对稿件数据进行筛选,得到筛选后的待推送稿件;推送模块,被配置为基于预定的稿件推送页面,获取用户针对主题配置的推送条件,按照推送条件将待推送稿件推送至系统平台,以使系统平台基于推送的稿件进行主题内容的聚合。
本公开实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过对源数据平台中的原创
稿件数据的使用频次进行监控并对原创
稿件数据进行采集,获得待处理的原创
稿件数据;对原创
稿件数据执行预处理操作,得到预处理后的原创
稿件数据对应的文本内容数据,并利用预设的知识加工方式对文本内容数据进行加工,得到加工后的稿件数据;基于预定的主题定制页面,获取用户输入的与主题相关的定制条件,利用定制条件对稿件数据进行筛选,得到筛选后的待推送稿件;基于预定的稿件推送页面,获取用户针对主题配置的推送条件,按照推送条件将待推送稿件推送至系统平台,以使系统平台基于推送的稿件进行主题内容的聚合。本公开能够对源数据平台中的数据进行有效挖掘,实现定制主题内容的快速推送和聚合,使用户能够实现精准主题内容的定制化操作,提升资讯服务智能化水平。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例在实际场景下涉及系统整体架构的结构*敏*感*词*;
图2是本公开实施例提供的主题内容智能聚合方法的流程*敏*感*词*;
图3是本公开实施例提供的主题内容智能聚合装置的结构*敏*感*词*;
图4是本公开实施例提供的电子设备的结构*敏*感*词*。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
随着互联网的快速发展,特别是新媒体的发展,对传统媒体带来了巨大的挑战。一是公众的需求发生了变化。面对互联网繁杂的海量信息,需要快速获取主题信息,同时需要全面了解与主题内容相关的信息,深度理解主题内容的内涵。二是媒体发展的需求发生了变化。近年来新媒体发展迅速,如移动端、微信微博、百家号等新媒体对内容呈现差异化的需求,新闻的传播方式也不再是刻板、固定、一成不变的,而是将越来越向连续、不间断、实时更新的新型模式方向发展,媒体需求的这个变化对主题内容的快速反应要求更高。三是主题内容建设的需求发生了变化。现在对于突发的重大事件,需要快速形成主题专栏内容且需要对专栏内容进行全方位、实时、高效的维护更新,及时为受众提供真实可靠资讯,避免错误信息传播引发不必要的恐慌。
本公开实施例通过大数据、AI等技术实现资讯内容的智能聚合、精准分类和特征提取,使资讯内容智能化,实现主题内容快速聚合,解决主题内容的缺乏、主题专栏的快建和维护、聚合内容的版权等媒体发展的痛点,通过智能算法实现精准主题内容制作与定制主题内容的推送,从而实现内容主题智能化聚合的目标。本公开通过建设主题内容聚合平台,利用大数据、AI等技术实现资讯的“智能化”加工,利用知识图谱、NLP等技术实现资讯的“智慧化”服务。利用主题内容聚合技术实现了主题的聚合应用。
下面结合附图对本公开实施例所涉及系统的整体架构进行说明。图1是本公开实施例在实际场景下涉及系统整体架构的结构*敏*感*词*,如图1所示,主题内容智能聚合系统具体可以包括以下内容:
为了实现主题内容的智能聚合,首先要建立相关领域的智能化资讯数据库,通过分类、标注、自动聚类、深度学习等信息化技术,将资讯内容智能化,形成智能化资讯数据库。在智能化资讯数据库的基础上,通过主题内容定制与内容加工,实现主题内容聚合服务。主题内容聚合平台由基础设施层、系统层、数据中心层和应用层组成。其中,基础设施层由服务器、存储、网络、安全设备组成;系统层由操作系统、中间件、数据库和虚拟化服务器组成;数据中心层由主题内容采集接入系统、主题内容智能处理系统、主题内容知识加工系统、主题内容数据管理系统4个系统组成;应用层由智能主题内容服务、主题内容加工、主题内容定制服务、主题内容推送组成。
下面结合具体实施例对主题内容智能聚合系统中的数据中心层和应用层进行详细介绍,具体可以包括以下内容:
一、数据中心层在主题内容聚合平台的构建中起着至关重要的作用。数据中心层的任务为完成数据的聚合、语义分析、知识加工、大数据管理等功能,为上层应用提供数据支持与算法能力。
其中,主题内容采集接入系统重点解决数据源的接入问题,针对多源异构数据的接入,将推送数据进行多源、多时态、多尺度的整合。主题内容采集接入系统包括但不限于以下功能模块:
1)数据接入和采集功能模块。数据接入是指将已构建的资讯数据接入进来。数据接入服务功能可提供数据传输服务,在统一数据标准及存储逻辑的基础上,通过多种数据接入渠道,支持数据文件、数据库、表、字段及数据内容片段的接入。实现对新闻、报刊、社交媒体、移动客户端、网站、公众号等平台的实时监控和自动采集,满足对海量互联网信息资源的快速获取需求。
2)数据清洗和校验排重功能模块。实现数据清洗功能,处理字段的残缺、错误和重复等数据问题。实现在接入数据时对数据进行有效性检验、数据质量校验和过滤排重标记等数据预处理工作,确保数据质量。
3)标准化数据转换和校验功能模块。对清洗之后的数据进行标准化处理,实现将不同格式的数据按照统一数据格式规范转换后接入系统,包括实时数据和离线数据的标准化定义。
主题内容智能处理系统通过大数据智能处理技术手段进行自动分词、关键词提取、信息分类、聚类等。重点解决数据的智能化问题,主题内容智能处理系统包括但不限于以下功能模块:
1)自动分词功能模块。提供基于融合了词典和CRF、HMM分词模型的文本自动分词功能,实现对文本的分词操作,返回正确的处理结果。
2)关键词提取功能模块。提供文本的关键词提取功能,利用文档中词语的统计信息、词性和位置信息进行权重的综合计算,将文本中语义最相关的若干核心词语抽取出来。
3)知识图谱功能模块。提供实体识别、事件抽取等功能,可以从半结构化、结构化的文本中识别出与目标相关的实体与事件元素。
4)文本分类模块。提供基于Word2vec,BERT算法的文本分类能力,可实现基于文本内容语义的自动抽取与分类功能。文本分类模块协助构建了基于相关领域的内容分类体系,对于文本内容打标、主题内容的快速形成、用户画像与用户个性化推荐提供了关键支撑。
" />
5)稿件聚类模块。提供基于新闻热点、语义、新闻事件的文本聚类能力。通过热点追踪、事件识别、语义聚类等算法,自动挖掘热点新闻、系列事件新闻等,可快速的实现对突发大事件的新闻主题生成与追踪报道。
6)热词分析功能模块。在文本预处理的基础上,提供候选热词评估、面向热点表征的热词甄选等算法,利用多机数据交互技术智能分析出可以表征文本内容的短语或短句。
大数据管理子系统主要是解决数据的存储管理、检索服务与数据管理,大数据管理子系统包括但不限于以下功能模块:
1)数据存储功能模块。数据存储要求采用分布式存储框架及分布式数据库,提供*敏*感*词*稀疏数据的存储方案和技术方法,并实现*敏*感*词*稀疏数据的有效存储。
2)数据管理功能模块。一是数据质量管理。系统应能够对整个数据链路的数据质量进行管理,从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警,提高数据使用质量,指导决策者的决定。二是元数据管理。实现数据服务平台全局的数据预览,血缘分析和影响性分析,不同组织的数据共享以及系统数据的健康监控。用户可通过元数据分析直观了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观的把握数据资产状况。三是统一数据生命周期管理。系统应提供数据的采集处理应用和分析服务的各个阶段提供统一处理流程和中间状态的调度、管理和监控,主要是对数据质量进行检查和分析,定期形成报告,并管理质量规则,使数据创建、获取、加工、使用、维护的全流程质量可控。四是资源调度与任务管理。数据服务平台通过统一资源调度和任务管理,实现对所有计算和查询等操作任务管理,实现对任务所需CPU、内存和网络等资源调度,保障所有任务平稳、快速地运行,状态可监控可管理。五是要求实现数据检索功能。能够对文本进行快速切词,并采用多种索引技术和索引管理、校验技术,完成对数据文本信息检索。
3)上传下载功能模块。用户可单个或批量上传和下载稿件、图片、视频、主题内容、音频、pdf、word、PPT等资讯。一方面满足各种数据接入管理、主题定制、资源上传、数据统计等功能的交互要求,另一方面对数据接入管理的内容、主题内容定制的结果、资源上传的结果进行良好的展示。
知识加工子系统主要是进行知识的信息采集
及关键数据抽取,构建主题内容所需的基础信息知识库,并提供数据查询展示,为主题内容提供数据和业务支撑。知识加工子系统包括但不限于以下功能模块:
1)知识标注和任务管理功能模块。通过知识图谱技术实现知识的自动抽取扩充,支持机器自动抽取与人机结合方式形成准确的知识库构建;支持多人协同标注;支持对主题内容的属性进行标注,例如资讯分类、关键词、摘要等。提供知识条目级和属性级的知识加工功能,实现标注的具体要求与标注内容,支持协同标注的任务分发,对标注任务实现全流程监控与管理。在知识标注的过程中,实现具备知识新鲜度的知识更新功能。
2)粗知识管理功能模块。提供粗知识管理功能,系统支持已有粗知识的导入,以及导入粗知识的有效管理和协同标注任务发布;支持已有结构化知识的导入,对于用户已有的结构化知识需要导入到知识库,与现有知识库进行融合。
3)知识库管理功能模块。对知识加工平台实现系统的配置管理,包括知识库标注字段配置、用户管理、关系管理、分类管理、关键词管理。对知识标注任务的结果实现导出,支持批量导出功能。
二、应用层是主题内容聚合平台的应用,包括智能主题内容服务、主题内容定制服务、主题内容加工与主题内容推送。平台通过聚合、众筹、创作、融合等智能化内容生产方式,汇聚*敏*感*词*相关主题资讯,利用大数据、AI等技术实现资讯的“智能化”加工,利用知识图谱、NLP等技术实现资讯的“智慧化”服务。
其中,智能主题内容服务使用事件识别、热点识别等算法实现热门事件内容的自动发现与捕捉功能。通过自动聚类算法,汇聚主题内容,自动聚合、生产相近内容主题。通过深度学习分类模型,构建基于行业垂类的分类体系,智能计算稿件所属类别,快速形成各领域专栏与相关主题。
智能内容定制服务支持用户录入相关条件(关键词、来源、媒体类型、分类标签、属性、发稿时间等),系统自动启动数据汇聚工作,支持实时数据与历史数据的汇聚,支持人工设定汇聚条件,包括是否去重、是否是可信源、汇聚条数、汇聚频次等,提供主题内容定制服务。
主题内容加工提供主题内容创建、修改、删除、检索等操作。可以录入主题内容标签、关键词、起止时间、主题内容文字描述等主题属性数据。可维护主题中的稿件,按日期、分类进行内容加工。支持主题页面生成模板,主题制作成功后平台可实时显示主题内容列表与详情。
主题内容生产完后可推送至全媒体采编系统、网站发布系统、APP管理系统等其他平台与系统,可实现基于规定时间段的推送频次。支持数据查询接口与推送接口,协助媒体各环节展开主题内容定制工作。
图2是本公开实施例提供的主题内容智能聚合方法的流程*敏*感*词*。图2的主题内容智能聚合方法可以由服务器执行。如图2所示,该主题内容智能聚合方法具体可以包括:
S201,对源数据平台中的原创
稿件数据的使用频次进行监控并对原创
稿件数据进行采集,获得待处理的原创
稿件数据;
S202,对原创
稿件数据执行预处理操作,得到预处理后的原创
稿件数据对应的文本内容数据,并利用预设的知识加工方式对文本内容数据进行加工,得到加工后的稿件数据;
S203,基于预定的主题定制页面,获取用户输入的与主题相关的定制条件,利用定制条件对稿件数据进行筛选,得到筛选后的待推送稿件;
S204,基于预定的稿件推送页面,获取用户针对主题配置的推送条件,按照推送条件将待推送稿件推送至系统平台,以使系统平台基于推送的稿件进行主题内容的聚合。
具体地,源数据平台可以认为是原创
稿件数据的来源,源数据平台可以包括制定站点、频道、栏目等对应的平台,比如新闻网站平台、公众号平台、移动客户端平台等。不同源数据平台中原创
稿件数据的格式可能存在区别,因此在进行数据接入时,需要对原创
稿件数据进行统一标准化处理,即将原创
稿件数据存储为具有相同数据标准和存储逻辑的数据结构。
进一步地,本公开实施例涉及的主题内容智能聚合系统,可以理解为集数据采集、数据预处理、数据加工、数据管理、数据推送为一体的主题聚合平台。基于该主题聚合平台,用户可以定制化主题内容,基于用户设置的定制条件对主题内容数据库中的稿件数据进行筛选,并进一步基于用户配置的推送条件,实现稿件数据的定时、定量推送,从而实现自动化主题内容定制服务。
根据本公开实施例提供的技术方案,本公开通过大数据、AI等技术实现资讯内容的智能聚合、精准分类和特征提取,使资讯内容智能化,实现主题内容快速聚合,解决主题内容的缺乏、主题专栏的快建和维护、聚合内容的版权等媒体发展的痛点,通过智能算法实现精准主题内容制作与定制主题内容推送,从而实现内容主题智能化聚合的目标。本公开通过建设主题内容聚合平台,利用大数据、AI等技术实现资讯的“智能化”加工,利用知识图谱、NLP等技术实现资讯的“智慧化”服务。利用主题内容聚合技术实现了主题内容的聚合应用。
在一些实施例中,对源数据平台中的原创
稿件数据的使用频次进行监控并对原创
稿件数据进行采集,包括:构建与源数据平台中的原创
稿件数据之间的数据传输通道,基于数据传输通道,对源数据平台中的原创
稿件数据的使用频次进行统计,对统计结果中使用频次大于阈值的原创
稿件数据及其对应的互动数据的采集频率进行增加,以获得使用频次更高的源数据平台中的原创
稿件数据;其中,原创
稿件数据为多源异构数据,在采集原创
稿件数据之后,将原创
稿件数据按照统一数据存储模型存储到主题内容数据库中。
具体地,在对源数据平台中的原创
稿件数据进行采集之前,需要建立主题内容智能聚合平台与源数据平台之间的数据传输通道,通过该数据传输通道接入源数据平台中的原创
稿件数据,并且在接入原创
稿件数据时,需要将多源异构的原创
稿件数据转化为统一数据标准和存储逻辑的数据模型或数据结构,并将统一格式后的原创
稿件数据存储到主题内容数据库中。
进一步地,在利用数据传输通道接入原创
稿件数据时,还可以对各个源数据平台中的原创
稿件数据的使用情况进行统计和监控,即统计并监控各个站点、频道、栏目等来源内容的使用情况,对于使用频次比较高的来源内容,增大对这部分内容的采集频率,采集的数据包括原创
稿件数据和互动数据,互动数据为稿件对应的点赞、评论、采集
、转发等。本公开实施例通过对源数据平台中的原创
稿件数据进行监控,根据对原创
稿件数据使用情况的统计结果,来改变原创
稿件数据的采集频次,从而提高内容的实时性和准确性。
在一些实施例中,对原创
稿件数据执行预处理操作,得到预处理后的原创
稿件数据对应的文本内容数据,包括:对原创
稿件数据进行数据清洗,并去除原创
稿件数据的标签和页面干扰信息,在利用数据传输通道接入原创
稿件数据时,对原创
稿件数据进行有效性检验、数据质量校验和过滤排重标记,以得到预处理后的文本内容数据。
具体地,对于采集到的原创
稿件数据,首先需要对其进行内容处理,在实际应用中,原创
稿件数据的内容预处理过程包括但不限于以下内容:首先对原创
稿件数据进行数据清洗,处理原创
稿件数据中的字段残缺、错误和重复等问题,其次,对清洗后的原创
稿件数据进行去标签、去除页面干扰信息(如广告等)获取稿件的内容数据,最后,还可以对数据进行有效性检验、数据质量校验和过滤排重标记等预处理操作,从而确保数据质量。需要说明的是,上述预处理过程可以依次全部执行,也可以按照需求选择执行。
进一步地,对于预处理后的文本内容数据,可以进行标准化处理,将不同格式的数据按照统一数据格式规范转换后接入到主题内容智能聚合系统中,其中,统一数据格式包括实时数据和离线数据的标准化定义。
在一些实施例中,利用预设的知识加工方式对文本内容数据进行加工,得到加工后的稿件数据,包括:利用预设的知识加工方式中的一种或多种方式对文本内容数据进行加工,得到加工后的稿件数据,其中,预设的文本知识加工方式包括以下知识加工方式中的一种或多种的组合:自动分词、关键词提取、摘要提取、实体识别、事件抽取、关系提取、文本分类、词性标注、以及地域识别。
具体地,在对原创
稿件数据进行预处理之后,利用预先配置好的知识加工方式对文本内容数据做进一步的分析,在实际应用中,本公开实施例预先配置好的知识加工方式包括上述方式中的一种或几种的组合,应当理解的是,上述知识加工方式不必全部执行,可以根据需求选择其中的一种或多种方式来执行。下面结合具体实施例,对上述知识加工方式的具体内容进行详细说明,具体可以包括以下内容:
自动分词是指利用预设的自然语言处理模型对文本内容数据进行处理,得到分词结构,比如基于融合了词典、CRF和HMM分词模型的文本自动分词算法,实现对文本内容数据的自动分词操作。CRF(Conditional Random Fields,条件随机场模型)以及HMM(HiddenMarkov Model,隐含马尔科夫模型)是自然语言处理中的常规模型,可用于解决文本序列标注问题,如分词、实体识别、词性标注等。
关键词提取是指对文本内容数据中的关键词进行提取,比如利用文档中词语的统计信息、词性和位置信息进行权重的综合计算,将文本中语义最相关的若干核心词语抽取出来。在实际应用中,通过对目标文本进行分词处理,得到词语集合,通过生成词语的词向量来生成文本向量,根据词向量、文本向量,从词语集合中确定出关键词,从而达到有效提取文本中的关键词的目的。
实体识别及事件抽取是指从半结构化、结构化的文本中识别出与目标相关的实体元素与事件元素,利用识别出的实体元素与事件元素,构建实体元素与事件元素之间的知识图谱。
文本分类是指基于词向量计算工具Word2vec或者预训练的语言表征模型BERT,实现基于文本内容语义的自动抽取与分类功能,以BERT算法为例,将文本先采用N-Gram切词算法进行处理得到新词组合,再基于BERT浅层网络提取新词组句法与词法信息,并计算新词组合的左右信息熵、互信息、tf-idf等离散特征,最后利用DNN二分类模型,使用上述特征对新词进行识别,从而实现准确识别词语的目的,可以对文本内容进行准确的语义识别。基于BERT算法的识别结果,可以实现对文本的主题内容进行打标,实现主题内容的划分。
地域识别是指根据文本中与地域相关的词语确定文本的内容地域,以及根据文本的来源确定媒体来源地域,即本公开实施例的地域识别收录
两个不同维度的内容,即文本的内容地域和媒体来源地域。基于地域识别结果可以对文本内容数据做进一步的区分和聚类。
进一步地,在对文本的内容地域进行识别时,首先利用文本识别算法提取地域名称,根据地域名称在文本中的所属位置(比如标题、摘要、正文等)以及地域名称与文章内容的语义关系特征,利用预置的分类模型,比如GBDT或者支持向量机模型SVM等,计算出文章所属的内容地域。
" />
在一些实施例中,该方法还包括:关键词提取包括基于对文本内容数据中词语的统计信息、词性和位置信息进行权重计算,根据权重计算结果,从文本内容数据中提取出若干个核心词语;实体识别及事件抽取包括从半结构化或结构化的文本内容数据中识别出与目标相关的实体元素和事件元素,并利用实体元素和事件元素生成知识图谱;文本分类包括利用预训练的语言表征模型对文本内容数据进行主题分类,并根据分类结果对文本内容数据按照主题进行打标,并生成文本内容数据对应的主题内容;地域识别包括对文本内容数据对应的地域进行识别,以便根据识别结果为文本内容数据设置相应的地域标签,其中地域识别包括内容地域识别和媒体来源地域识别。
具体地,除上述知识加工方式以外,本公开实施例还可以对文本内容数据执行以下智能化处理,例如进行稿件聚类,提供基于新闻热点、语义、新闻事件的文本聚类能力,通过热点追踪、事件识别、语义聚类等算法,自动挖掘热点新闻、系列事件新闻等,可快速的实现对突发大事件的新闻主题生成与追踪报道。另外,还可以提供热词分析功能,在文本预处理的基础上,提供候选热词评估、面向热点表征的热词甄选等算法,利用多机数据交互技术智能分析出可以表征文本内容的短语或短句。
在一些实施例中,基于预定的主题定制页面,获取用户输入