文章实时采集(文章实时采集到的数据特征提取、相似度计算、缩放调整)
优采云 发布时间: 2022-02-18 15:04文章实时采集(文章实时采集到的数据特征提取、相似度计算、缩放调整)
文章实时采集到的数据,通过bloomfilter做特征提取、相似度计算、缩放调整,可以做为待办事项的一部分,对task的执行产生影响,
最近学习im2col,我来说说我的理解。数据特征化:首先要明确确定数据的目的,想用来做什么?分析?聚类?...定义好方向。样本特征:数据特征还可以分为文本特征、图片特征、动物特征、景点特征等等。可以依据数据特征提取或转换获得更有用的特征。数据标注:现在的人工智能领域很大一部分需要依靠的还是对数据标注。
利用计算机来对未标注的文本数据、图片数据等等(数据没有标注就需要extraction,对数据进行extraction然后baseline进行学习训练)进行标注,然后针对标注结果做模型训练和测试。模型效果好了,又可以用训练好的模型来训练新的数据。
常见的大概两类:数据特征化和数据标注。标注就是原始数据有问题,需要人工标注。也有一些基于人工标注而整出的数据模型。其实就是标记输入文字;数据特征化是通过数据描述框架,将标注语言转换成数据描述语言。主要就是某个领域内的固定术语。能标注的就标注一下吧,至少本行能标注出来还是有用的。
最近很火的im2col技术,不仅能将用户数据特征化,还能设计标注好的特征,