自动识别采集内容(自动识别采集内容，本身做得很好--spark)

优采云发布时间: 2022-04-17 12:02

　　自动识别采集内容，本身做得很好。功能和效果做的很全，可以根据自己的业务对接到相关性很高的数据，优势很大。你提到的这个php采集这块，估计是商盟的吧，客户对接商盟，商盟自动识别采集，商盟可以给各平台做定制内容，合作很有优势。

　　其实php脚本采集的效果，可以说只要是和数据结构有关的，基本上都可以采用php去实现，但是本案例的效果，应该是结合了深度学习算法，采用了深度学习的api去实现，该案例已经结合了单变量机器学习，并且采用了其他神经网络算法，涉及了深度学习，数据结构的对应关系，以及图算法，作者在文中把对应算法介绍了出来，实现是更容易，效果更好了。

　　目前自动采集基本都是在搭建深度学习的框架上完成，基本框架也就是spark,dlib,tensorflow这些。在android的平台上，主要还是java实现。图片的采集还可以使用opencv库来使用。简单说下针对图片自动采集的优缺点：优点：快速高效，即使你框架api写得很细致，效率提升很有限，后面还是得加速响应和重排查，方便追求高效的童鞋。

　　缺点：并发采集相对较慢，毕竟针对不同浏览器实现的效果有差异，包括动态分析网页数据流的思想还没有完全理解，并发数会限制性能表现。图片、文本自动采集教程：1.“picasa+xlwt+webtext+神经网络”图片自动采集教程2.“picasa+xlwt+webtext+神经网络”图片自动采集详细教程。

0

2022-04-17

自动识别采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动识别采集内容(自动识别采集内容，本身做得很好--spark)

0 个评论

发起人

AI时代内容工厂

自动识别采集内容(自动识别采集内容，本身做得很好--spark)

0 个评论

发起人

相关问题