免规则采集器列表算法(深度学习遵从大数定律，数据越多，规律性越能掌控。)

　　深度学习遵循大数定律。数据越多，规律越可控。

　　1、细粒度分类

　　比如我去车架、车头灯、车前脸、车轮毂等等，然后用cnn或者deep cnn之类的分类器来做这些分类，为分类器，输入的是车头灯+车前脸+车轮，不是全图。然后分类器从前照灯前脸等中提取高级特征，得到分类模型。

　　在fine-tuning的过程中会有一个问题，就是用来区分未知信息图片的，最好加框。

　　对于本地图像，我们像这样提取它们：

　　2、级联方法

　　1、粗粒度 - 图像清理。整体识别0/1，无论是汽车、数据筛选、清理垃圾层，力求准确率达到98%以上，甚至更高，每个分类取2w张左右；

　　2、中等粒度 - 品牌分类器。不细分品牌下的子品牌，比如康师傅牛肉面，也不细分很多口味比如康师傅辣、咸等，太细了，你的数据量不够。即使你花很长时间仔细标记，也得不偿失。

　　3、细粒度 - 车辆类型分类器。区分每个品牌的不同模型分类器，更简单，更准确。还可以训练更多细节，内饰、做工、配色等。

　　这样，你会得到0.98*0.96*0.94~0.88的识别率，但是准确率会变得可调，当粗略-粒度识别哪些要被拒绝，提高概率标准，可以提高整体识别率。

　　3、数据增强

　　Opencv首先做一些图像变换，比如光处理、去噪等，会提高复杂环境下图像的识别准确率。

　　此外，可以改变光照强度以进行训练

　　二、深度学习在美团点评中的应用1、图像质量评估

　　在美团点评中，商家的第一张图片由商家或运营商手动指定。如何选择第一张图片才能更好地吸引用户？图像质量排名算法的目标是自动选择更好的第一张图像来吸引用户点击。

　　传统的画质排名方式主要是从审美的角度来评价画质，通过色彩统计、主题分布、构图等分析画面的美感。但在实际业务场景中，用户对画面质量的判断主观性很强，很难形成统一的评价标准。例如：

　　因此，我们使用深度学习的方法来探索图像的哪些属性会影响用户的判断，以及如何有效地整合这些属性来评估图像。

　　我们使用 AlexNet 提取图像的高级语义描述，学习美学、可记忆性、吸引力和类别等高级特征，并补充人工设计的低级特征（如颜色、锐度、对比度和角点）。获得这些特征后，训练一个浅层神经网络对整个图像进行评分。该框架的一个特点（如图 2 所示）是深度学习特征和传统特征的结合，既引入了高级语义，又保留了低级一般描述，包括全局和局部特征。

　　对于图像各维度属性的学习，需要大量的标签数据来支持，但是完全人工标注成本非常高，所以我们借鉴了美团点评的图像源和POI标签系统。关于吸引力属性的研究，我们选取美团Deal相册中点击率高的图片（多为单反相机拍摄）作为正例，选择UGC相册中点击率低的图片（主要是低端手机）。射击）作为一个反面例子。关于类别属性的学习，我们使用美团的一级类别和常见的二级类别作为图像标签。基于以上质量排名模型，我们选择最适合广告POI的高质量首图展示，可以吸引用户点击，提高业务指标。图 3 显示了基于质量排名的第一个图像偏好的结果。

　　2、OCR 技术

　　OCR在美团点评业务中主要扮演两个角色。一方面是辅助输入。例如，在移动支付过程中，对银行卡号进行拍照识别，实现自动绑定卡。另一个例子是辅助BD输入菜单信息。另一方面是审查和验证。例如，在商户资质审核过程中，从商户上传的*敏*感*词*、营业执照、餐饮许可证等文件中提取信息并进行验证，确保商户的合法性。例如，机器过滤商家的订单和用户评价过程中产生的含有违禁词的图片。与传统 OCR 场景（打印、扫描文档）相比，美团’ s OCR场景主要针对手机拍摄的照片的文字信息提取和识别。考虑到线下用户的多样性，主要面临以下挑战：

　　针对上述挑战，传统的OCR解决方案存在以下不足：

　　针对传统OCR方案的不足，我们尝试了基于深度学习的OCR。

　　首先，我们根据是否有先验信息，将布局分为可控场景（如*敏*感*词*、营业执照、银行卡）和非可控场景（如菜单、门图片）。

　　对于受控场景，我们将文本本地化转换为特定关键字目标的检测问题。主要使用Faster R-CNN进行检测，如下图所示。为了保证回归框的定位精度，提高运算速度，我们对原有的框架和训练方法进行了微调：

　　 考虑到关键字目标的类内变化有限，我们对 ZF 模型的网络结构进行了裁剪，将 5 层卷积减少到 3 层。

　　在训练过程中，提高正样本重叠率的阈值，根据业务需求适配RPN层Anchor的纵横比。

　　对于不受控制的场景，由于文本方向和笔画宽度的任意变化，导致回归框在目标检测中的定位粒度不够。我们使用语义分割中常用的全卷积网络（FCN）来进行像素级的文本/背景标注，如下图所示。为了同时保证定位的准确性和语义的清晰，我们不仅在最后一层进行反卷积，还融合了深浅层的反卷积结果。

　　为了有效控制字符分割和识别后处理的错误传播效果，实现端到端文本识别的可训练性，我们采用下图所示的序列学习框架。整体框架分为三层：卷积层、循环层和翻译层。其中，卷积层提取特征，递归层不仅学习特征序列中字符特征的序列关系，还学习字符的序列关系，翻译层实现时间序列分类结果的解码。

　　由于序列学习框架对训练样本的数量和分布有很高的要求，我们采用真实样本+合成样本的方法。真实样本主要基于美团点评的业务来源（如菜单、*敏*感*词*、营业执照），合成样本考虑了字体、变形、模糊、噪点、背景等因素。基于上述序列学习框架和训练数据，文本识别在各种场景下的性能都有了很大的提升，如下图所示。

　　三、 1、快速去重图片

　　携程酒店图片数据来源较多，同一酒店出现相同/相似图片的概率较高。图片的重复展示会影响用户的体验，不利于用户获取酒店的完整信息。酒店图像之间的相同/相似主要表现在1）维度变形；2）裁剪不完整；3）颜色变化；4）旋转变化；5）拍摄角度移动等情况，如下图。

　　为了解决酒店图像之间的相同/相似问题，需要对酒店的图像数据进行去重。然而，由于镜像数量巨大，手动去重既费时又费力。因此，通过图像去重技术自动确定并去除相同/相似图像势在必行。

　　图像去重一般分为

　　1）图像特征表达的提取和2）图像之间的相似度计算是两个主要步骤。

　　对于图像特征表示的提取，常用的手工设计特征有颜色、纹理、HOG、SIFT、SURF等。此外，基于深度学习的深度特征表示也经常使用。对于图像间的相似度计算，常用的无监督距离测量方法有欧几里得距离、曼哈顿距离、余弦距离；常见的有监督距离测量方法包括 LMNN、KISSME、LFDA 和 MFA。但是，这些方法都是基于浮点特征计算相似度，计算速度普遍较慢。因此，采用哈希学习的方法将图像特征转化为二进制码，然后通过汉明距离快速计算相似度，更符合图像数据行业。处理速度要求。

　　对于酒店中相同/相似的图像，大部分全局特征（如颜色、纹理、HOG）不能很好地解决图像裁剪和旋转变化的问题；一些局部特征（如SIFT和SURF）和基于深度学习的特征虽然表达效果不错，但由于特征提取复杂，计算速度太慢。

　　针对上述特征提取方法的不足，我们最终使用ORB特征作为图像的特征表达，使用汉明距离计算相似度。

　　ORB 特性具有以下优点：

　　1）快速特征提取；

　　2）大部分情况下，去重效果可以等同于SIFT/SURF；

　　3）提取的特征直接采用二进制编码的形式，可以不用哈希学习的方法，用汉明距离快速计算相似度。

　　ORB特性在实际的图像去重过程中还是有一些不足的地方。比如在处理图像尺寸差异过大、变形、模糊等问题时，去重效果一般。

　　为此，在提取ORB特征之前，我们首先将图像按照初始纵横比统一缩放到一个固定的标准尺寸，这样就避免了图像之间的尺寸差异，更好地弥补了ORB特征在尺度不变性上的不足。缺陷。

　　同时，在面对图像变形和模糊问题时，我们在ORB特征的基础上，进一步融合颜色直方图、LBP特征等全局特征确定重复图像，使图像局部和全局信息的优势得到体现。补充。减少了变形、模糊等因素对ORB特征的影响，保证了图像去重的准确性。

　　2、水印图像检测

　　携程的酒店图片数据来源多样，这也导致了另一个严重的问题：带有其他公司水印信息的图片数量增加。人工检测水印图片会耗费大量人力，因此我们希望利用计算机自动检测图片中是否收录水印信息，避免误用和侵权。

　　图像中水印信息的视觉意义很低，具有面积小、颜色浅、透明度高的特点。下面显示了带有水印的酒店图像的一些示例。

　　一般的目标检测问题可以看成是图像的一部分的分类问题。在深度学习兴起之前，可变形零件模型（DPM）一直是一种流行的目标检测方法。随着深度学习技术的发展，以R-CNN、Fast R-CNN、Faster R-CNN和YOLO为代表的一系列基于卷积神经网络的目标检测方法已成为主流。但水印检测与一般目标检测的区别在于水印在图像中的位置基本固定，所以水印检测可以看作是一个简化的目标检测问题，关键是训练一个水印分类器。

　　在训练一个水印分类器的过程中，我们遇到的最大问题是没有足够的带水印类别的图像数据进行训练。为了解决这个问题，我们选择自主生成训练数据。具体来说，我们从大量无水印图像中随机截取几张矩形区域图像，并将这些矩形区域图像作为无水印的训练图像数据；同时，我们随机缩放要检测的水印信息图形，并嵌入这些不收录水印信息的图像。在矩形图像内部，从而形成带水印的训练图像数据。通过这种方式，我们可以方便快捷地获得大量的图像训练数据。

　　在自主生成大量训练数据后，我们专门针对水印分类任务训练了一个 AlexNet。对于待检测的图像，我们使用可变帧在水印的常见位置（图像的左右下角和中间位置）处随机截取一系列矩形区域图像，然后将它们输入到分类中网络依次进行分类，最后融合所有矩形区域图像。可以得到水印图像的分类结果。完整的水印图像检测过程如上图所示。

　　我们使用计算机自动进行快速去重和水印图像检测，两者都达到了99%+的准确率，在实际图像处理中有效减少了大量的人工成本。

　　3、房间类型图片分类

　　酒店图像可以根据内容分为许多类别，例如外部、内部和房间类型。其中，房型图片可以直观的展示房型信息，对于用户选择入住的房型尤为关键。我们要优先展示吸引用户的房型内容，提升用户体验和订单率。但在实际应用中，房型图片往往收录大量内容，并没有逐一进行人工筛选，所以经常出现房型第一张图片不合适的情况。解决房型首图不合适问题的关键在于对房型图片进行分类，以便优先展示吸引用户的内容。具体来说，

　　随着深度学习技术的出现，尤其是卷积神经网络的兴起，一个理想的房间类型图像分类方法一般分为两个步骤：1）使用大量带标签的房间类型图像数据，直接训练一个深度卷积神经网络，如AlexNet、VGGNet、ResNet或基于Inception的一系列网络等；2）对于未知类别的房间类型图像，将其输入到深度卷积神经网络中，网络的最后一层直接输出它属于每个类别的概率。

　　与水印图像检测一样，在实际实践过程中，我们遇到的最大问题仍然是缺乏用于训练的类别标记的房间图像数据。人工标注大量训练图像显然是不现实的。不训练图像就得到分类模型更不现实。所以我们还是花了一些时间对少数房间类型图像的类别进行标注。在这个小尺度房间图像数据集的基础上，一般有两种分类思路：1）由于房间图像属于场景图像，可以提取房间图像的HOG、SIFT和GIST特征。这些手工设计的Feature已经被证明在场景分类中更有效，然后训练传统的分类器实现分类；2）利用深度卷积神经网络强大的特征迁移学习能力，首先利用海量图像数据训练一个深度卷积神经网络，然后将该网络作为特征提取模型，与传统分类器相结合，实现分类。当然，如果有更多的人力和时间，当有很多标记的房间类型图像数据时，直接微调网络是更好的选择。

　　在实际应用中，我们选择第二种思路。我们没有使用使用最广泛的 ImageNet 数据集，因为该数据集中的图像内容与房间类型图像差异太大，特征转移无法达到最佳效果。为了尽可能提高网络的特征转移能力，我们使用最接近房间图像的场景图像数据集来训练VGGNet作为房间图像特征提取器。最后，我们使用我们自己的带注释的小规模房屋类型图像数据集来训练支持向量机模型来实现分类。具体分类流程如下图所示。

　　在我们的房间类型图像分类上线后，它达到了 98% 的准确率。下图为某酒店多房型图片分类上线前后第一张图片的变化示例（红框为上线前，绿框为上线后）。

　　4、图像质量评估

　　在上一节中，我们通过房间类型图像分类介绍了带有床的房间类型图像的优先级。但是，如果一个房型有多个带床的图像，我应该选择哪个图像作为该房型的第一个图像？因此，我们希望能够对房型图像的质量进行评估，这样当图像的类别相同时，可以按照质量进行排序。更广泛地说，我们也希望对所有的酒店图片进行质量评估，这样就可以根据图片的质量得分来选择酒店的第一张图片、酒店图片的首选展示等。

　　首先，我们选择了客观的清晰度指标作为图像质量评价的标准。我们认为，清晰图像变得模糊时丢失的信息比模糊图像变得模糊时丢失的信息要多。按照这个思路，对于一张图像，我们先对它进行灰度化，然后得到对应的模糊图像。接下来，我们分别从原创图像和对应的模糊图像中提取图像边缘信息，并使用拉普拉斯卷积模板进行滤波。最后，我们可以通过比较两个滤波图像的方差变化率来量化图像的清晰度。

　　完整的计算过程如下图所示。图像的清晰度分数范围在[0, 1]之间，分数越大，图像越清晰。我们对图像的清晰度分数进行分割验证，图像清晰度的评估准确率达到91%。

　　但在实际应用中，我们发现仅以锐度作为图像质量评价的标准还存在一些不足，因为锐度高但内容难看的图像也不少。这些图像首先显示是因为它们的清晰度很高，但其难看的内容影响了用户的体验，因此我们希望从审美的角度进一步评估图像质量。

　　图像的美是一个非常主观的概念，很难有一个统一的标准来量化它。为了尽可能准确地计算图像的美感，我们选择了深度卷积神经网络模型来实现美感评估。在实践中，我们再次遇到同样的问题：缺乏大量带有好/坏标签的训练图像。由于利用卷积神经网络强大的迁移学习能力在房间类型图像分类中特征迁移的成功，我们决定继续使用这种方法。

　　由于酒店图像的美感受内容、颜色和构图的影响，我们不再像房间类型图像分类那样使用单一内容的场景图像数据集，而是使用包罗万象的 ImageNet 数据集和场景图像。将数据集混合进行训练，我们力求让尽可能多的图像参与到深度卷积神经网络的学习中，使网络能够记住更多图像的内容，从而进一步提高图像的特征迁移能力。网络。同时，为了保证深度卷积神经网络的特征表达能力，我们采用比 AlexNet 和 VGGNet 层数更深的 ResNet 作为特征提取器。最后，我们用好看/不好看的标签标记少量图像，

　　我们将图像被模型判断为好看的概率作为图像的美感分数。美女评分的范围在 [0, 1] 之间。如果分数越大，则表示图像越漂亮。由于审美评价模型没有考虑锐度因素，我们最终将图像的锐度和美感融合起来计算图像质量得分。完整的图像质量评估流程如下图所示。通过图像质量评估，使清晰、美观的图像优先显示，对酒店/房型第一图像的选择和酒店图像的排序具有很好的指导意义。

　　写在最后

　　上面我们介绍了携程的四个真实图像数据处理需求，但机器学习对于携程酒店图像数据处理的价值远不止于此。接下来，我们将继续深入挖掘多个图像应用场景，例如图像的个性化展示、利用超分辨率和去模糊技术提升图像质量等，努力为携程酒店图像的智能化贡献力量。数据。

　　四、

　　陈瑞军告诉雷锋网：

　　第一个考虑是做人脸识别，但是发现动态人脸识别的准确率不够，直到现在一直是一个需要解决的问题。对于神清来说，作为一家初创的新公司，这个方向可能暂时还不能落地，所以想做别人没做过的事情，结合用户的需求，所以“车脸”的方向识别”设置。

　　此后，从最基本的图片识别开始，到视频识别，再到视频中的车辆分析，直至今天，已经形成了以“车辆识别”为核心的软硬件产品布局。总的来说，神清科技的产品体系主要包括以下几个方面：

　　视频基因分析引擎

　　视频基因谱引擎是神清的核心产品，俗称“视频结构”。在沈清看来，“视频结构化”的概念应该是*敏*感*词*部第三研究所胡所长提出的，指的是把视频数据中的非结构化信息转化为结构化信息。神清的视频结构化产品可以高精度地自动识别不同视角、不同光照条件、不同监控场景、不同天气条件下的人车特征，方便*敏*感*词*达到快速检索和查询的目的。后期控制。

　　图像处理引擎

　　神茂科技的图像处理引擎主要用于在复杂情况下清除模糊的车辆和车牌图片。等待。

　　人脸识别引擎

　　基于深度学习和模式识别的研究和应用成果，采用人脸检测、跟踪和结构化比较算法模型，应用于*敏*感*词*业务人员流动的人脸比对、检索、识别、大数据等。.

　　五、图普科技从“江黄”到视频直播个性化推荐

　　来自

　　1、为企业省更多钱：从“审查*敏*感*词*”到内容审核

　　企业对图普科技的认知更多的是“剑黄”。映客、美拍、小米直播、迅雷、酷狗、星霸等视频直播头部平台是图普的“剑皇”。服务”的客户。

　　图谱科技CEO李明强告诉雷锋网，其实图谱从一开始就提供的不仅仅是*敏*感*词*内容。对政治敏感信息、暴恐信息和广告的审查，都是图普的业务，统称为内容审查。

　　从去年开始，可以访问*敏*感*词*服务的客户开始接受图普的其他内容审查服务。比如著名的原创尴尬笑话UGC内容社区尴尬百科，就面临着巨大的流量和人工审核非法广告的高昂成本。

　　与识别黄某的过程类似，清除非法小广告也是基于大量图片进行学习训练。非法图片主要集中在带有非法文字的图片和收录促销二维码的小广告图片上。图扑基于图像识别技术和尴尬广告图像的特点，批量生成针对性的广告图像进行优化。训练大大提高了广告图像识别的准确率和准确率，减少了模型迭代的周期。

　　糸粑连接图扑定制的广告识别模型后，机器自动识别出糸社区的图片，并判断图像识别为正常，二维码或带文字的图片，然后使用OCR技术检测带文字的图片。文本定位和识别，自动过滤识别出的收录敏感和非法文本的图像。显着降低内容审核成本。

　　现在，越来越多的企业全面接入了图谱的内容点评平台。近期，图普还与阿里云达成合作，在阿里云上发布*敏*感*词*图片和暴力恐怖图片识别服务，阿里云客户可直接调用。

　　此前，图普透露，日处理图片数量已升至约9亿张，其中每万张图片处理费为25元。李明强告诉雷锋网，图普去年的收入增长了十倍。

　　2、帮人赚钱：视频大数据标签和个性化推荐

　　从一开始，图普就没有把自己局限在“*敏*感*词*之旅”或内容审查上。在去年接受雷锋网采访时，李明强将图谱定位为与视频时代建立联系。在文本时代，随着计算机对文本的理解，内容之间是有联系的。同样，图像和视频被计算机理解后，内容之间的联系也可以形成。

　　Tup 已经开始着手这方面的工作。除了内容审计，图谱开始开发视频和直播的大数据标注和个性化推荐服务。

　　大数据标签主要用于短视频和直播平台。系统会通过学习海量标签数据，根据主播的行为、场景、人物风格、年龄、性别等，自动为当前直播创建标签。例如，一个喜欢做出撅嘴表情的年轻女孩很可能会被贴上“可爱女孩”的标签。通过对人工标注系统的研究，图普甚至可以判断主播的长相。当然，李明强也解释说，与黄健有严格的指标不同，“萌妹子”、“美女”等标签往往带有很多主观因素。

　　但是对于视频推荐来说，这些基本符合主流审美标准的标签就足够了：新用户注册后，直播平台可以根据用户选择的标签在其首页展示相应的直播；直播平台还可以根据颜值、人气等综合因素，在首页推荐直播内容；另外，当用户关注的主播不在线时，系统还可以推荐一些直播类型相近的主播。

　　李明强还告诉雷锋网，还有一个产品正在开发中，就是在搜索标签栏，用户可以直接根据标签进行搜索。比如喜欢跳舞、喜欢直播KTV场景的用户，可以根据对应的标签进行搜索。

　　图普表示，只有这个推荐功能，一个拥有更好应用表的平台，才能让新用户的留存率提高一倍以上；对于老用户来说，还可以增加至少30%-40%的停留时间。对于短视频和直播平台来说，留存率的提高意味着用户体验的提升，更重要的是广告和打赏收入将得到显着提升。

　　如果说之前的内容审核是为了节省人力成本，为公司省钱，那么视频推荐实际上是为了帮助公司赚钱。

　　六、利用物体检测制作电子相册——打印快照行业的变革

　　来源文章：

　　在印刷行业或快照行业，会陆续推出一款产品——电子相册。

　　从技术层面来说，电子相册主要需要解决两个问题，1.照片裁剪和2.相框匹配。

　　目前，这些任务都是手动完成的。随着电子图片需求的增加，制作电子相册的人工成本也越来越高。这时候，利用上面介绍的内容识别算法，我们就可以帮助计算机自动裁剪图片，因为自动裁剪最大的顾虑可能就是害怕裁剪掉照片中的人。

　　另一方面，我们可以进一步结合图像场景分类、人脸识别等算法技术，利用标签匹配的方式，自动匹配与照片本身匹配的相框。

　　算法本身可以做出很多技术，比如利用物体检测，我们可以实现内容识别，此外，我们还可以实现场景分类、人脸识别、颜色分类、人物表达等等。

　　技术项目的结合可以帮助我们实现目前业界更多的人工任务，比如自动裁剪、根据图片内容匹配合适的相框作为推荐、场景分类、人脸信息等，根据对不同颜色的印刷材料做不同的印刷批次分拣等。

　　因此，打印快照行业的一个简单升级可以概括为如图所示：

　　从图中我们可以看出，技术和应用本质上可以完全分离进行横向扩展，因此我们可以看到，同一种技术可以应用于不同的行业，也可以有很多不同的行业专用算法技术。如图所示：

　　七、

　　1、理解用户搜索意图及其难点分析

　　分析理解用户搜索词背后真正意图的难点：

　　2、如何识别用户搜索意图

　　一般来说，搜索意图分为导航、信息和交易三种类型。雅虎的研究人员在此基础上进行了细化，将用户搜索意图分为以下几类：

　　3、乐观的搜索意图识别引擎

　　大观通过RESTAPI接口为客户提供基于公有云和私有云的搜索服务。语义分析模块包括用户查询意图的离线挖掘和在线预测。

　　大观文本语义挖掘算法平台是一个集成了多种算法的集成学习平台，包括经典的SVM、LR、RF、LDA等算法，以及CNN、RNN、LSTM、BILSTM等深度学习算法。例如，在实践中，我们尝试将线性统计模型 CRF 和神经网络结构 LSTM 结合起来，在 LSTM 的输出端结合 softmax 和 CRF，使用 LSTM 解决提取序列特征的问题，并使用 CRF 有效地利用句子level 的标记信息取得了很好的效果。

　　八、

AI时代内容工厂

免规则采集器列表算法(深度学习遵从大数定律，数据越多，规律性越能掌控。)

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(深度学习遵从大数定律，数据越多，规律性越能掌控。)

0 个评论

发起人

相关问题