网页采集器的自动识别算法学一学基本也就这样

优采云发布时间: 2021-07-24 01:01

　　网页采集器的自动识别算法学一学基本也就这样，像家用级别的都已经很智能了。但是要完全自动识别，还是得找高手做。1、采集器不要有一些奇奇怪怪的响应式布局的功能，最好是统一布局，这样识别起来是有偏差的。2、这点比较重要，可以参考一下这个解决方案智语、天光等基于api的http采集器推荐.采集特性可以参考这个。

　　你给一个采集器，他搞不定完全自动采集的，

　　可以理解为三千小时，一万个小时采集100万个用户，五万个小时工业化。大概能理解为一个人工作一年，100万个小时并不过分。

　　会的。这个数量级，已经是现有采集器的极限了。当然你要我说采集太快的方法，我还是不知道。我知道的，就是把你采集软件中的内置账号及密码，做到你自己的产品中。这是两点。另外一点。同类采集工具都是通过经验公式做到这一点的。经验公式？你信吗？不信？你再试试。题主有兴趣的话，回头记得开一个一万五百万网页随机数，用一个随机点。试试。

　　刚好还有人问过这样的问题，欢迎大家也发表言论。这是我跟知友@白马阿灵的对话。

　　这个采集器属于高级采集功能，用得到基本都用得到。以后也会有更多高级的功能，比如主题、全景等功能。

　　很难的，现在采集器为了量化设计，都没有完全的自动，一般都会有你说的那种效果。包括像你说的，根据不同年龄段人群生成不同风格。甚至图片编辑都不一定能完成，因为模板都是人找的。

0

2021-07-24

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法学一学基本也就这样

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法学一学基本也就这样

0 个评论

发起人

相关问题