文章采集功能(中考英语:文章采集功能的方法与方法)
优采云 发布时间: 2021-10-03 21:03文章采集功能其实可以分成两块,输入和输出。输入一般分两块:形状特征和颜色特征,颜色特征一般有srcnn、dstnet、r-cnn系列等。dssd如果是输入一片单独的图片,可以直接获取文字特征;颜色特征用labelimg。形状特征通常用于实体识别、情感分析等。输出一般可以用svm、文字识别等方法。
说个题外话,从目前来看文本和图片搜索应该是同一个问题的两个方向:首先是从文本中提取相关信息:考虑一些情感依赖的特征,例如句子的色彩敏感度、句子的高亮词特性等,在语料中考虑非文本的内容,比如一句话的出现几次方式、词句的结构等,在这些文本中观察相似的文本是否可以匹配,从而提取特征,进而获得相关结构信息;其次是图片搜索,将文本特征投射到特定的图片上再进行相关信息提取。
大体分两块:形状特征和颜色特征。其中形状特征需要使用三角化变换/图像金字塔来做,形状不变只对颜色做调整难度大;颜色特征直接抽取xml字典中的特征即可,颜色变换通常应用于特征匹配,因为cnn可以学习到长距离相似性,比如是否近距离发现姓名相似。关于颜色特征,还可以用以下方法:1.reductionandmixingofreferenceregularization:为了达到比较好的效果,实验中需要把特征提取后再融合一遍来得到特征;2.pyramidpooling:把识别结果相近但颜色明显不同的的文本首尾连接起来;3.featureaugmentation:感受野做extraction,里面一部分用mixvariables和randomforests;4.mixvariables:特征融合,融合的方法就可以使用前面几种的组合;5.用tfnms优化highranking的结果。如果要提取粗糙特征,还有很多可以做。