*敏*感*词*识别的几种特征库,你了解吗?

优采云 发布时间: 2021-06-23 04:00

  *敏*感*词*识别的几种特征库,你了解吗?

  采集器采集源数据,如手机用户的行为等。由于采集器采集的数据类型有限,所以推荐开启别人的*敏*感*词*照片可能不是安全或高质量。这时候就需要模拟人脸抓取数据了。

  目前市面上的采集产品都是通过手机照片进行搜集,像推荐使用腾讯地图或高德地图的rds等数据库,虽然说可以rd身份,一键匹配,但是每天的作业量还是很大的,目前未能有效的针对*敏*感*词*进行联网验证,而采集人脸数据库就可以达到1秒以内,有效防止了作弊或伪装,目前都还处于发展阶段,但是*敏*感*词*中的采集需求还是很强烈,加上浙江省地铁apec消息、优采云的实名制、网约车试点等一系列政策,都还是比较有前景的,

  接下来我会把我知道的和自己了解的知识与大家分享。*敏*感*词*识别这块儿是日益紧俏,因为安全性,距离世界领先还有距离。目前流行的有三种机器学习算法:nn模型,cnn模型,mlp模型。首先nn算法就是神经网络。它能够提取图像关键信息如长宽比、边缘、颜色、噪声、姿态以及位置等特征。这些特征不仅可以用来判断分类,还可以用来判断目标是否是你提取的特征。

  所以有好多人要求做个*敏*感*词*数据库。简单给大家看下这几种特征库,图上也标注了特征类型,大家可以自己看下:cnn模型:它包含三维卷积和convnet,这种算法能够提取更加多样的特征以及具备更高的鲁棒性。nn模型是深度学习兴起前出现的模型,在图像领域已经有很长的时间。mlp模型:广泛应用于自然语言处理、多媒体等领域。

  发明的人叫facenet,embedding是模型的传递,各种lm,各种nn,一大堆都是这种。我们到目前为止只能去搞清楚这三种算法的优缺点,但是据说百度地图是神马个思路:使用人脸抓取和随机通过位置去匹配特征,这样可以减少计算量,且每次用户的行为数据进入,就可以推送位置数据到各个平台(对于目前不能全平台覆盖的bat三大巨头来说,这个算法真的还是有点坑爹,并且这里采集的数据格式肯定不是百度所想的apec实名制坐标)。

  但是即使采集人脸数据,采集是直接使用的百度的场景数据,那么它的精准度又如何呢?这个模型将手机的各个*敏*感*词*,一直设置在那台手机,这样抓取的iv值就不会超过1,这种算法是存在质量上的问题,那么大家在进行*敏*感*词*的抓取时候也会遇到问题,通过我们对安卓系统的抓取进行对比分析:安卓抓取图片放大如果出现变形等情况时,百度就无法正确抓取。

  至于它能够识别*敏*感*词*里面的什么信息,这个方面主要需要百度深度学习芯片来解决。百度这个采集公司非常的庞大,从其中进行总结能够发现规律,发现了问题,再进行对数。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线