网页采集器的自动识别算法，主要看那些了，常用的包括以下几个

优采云发布时间: 2021-08-14 04:00

　　网页采集器的自动识别算法，主要看那些了，常用的包括以下几个：1，是单独识别有效网页来扫描的，对于有200以上点击数量的网页，单独拿来识别是没用的，2，需要在ua里做个判断，这个国内的网页采集器就不好做，技术上很难实现，一般是有人提供第三方技术服务3，需要识别网页里面的图片，logo、二维码等，对于点击量很高的网页，需要收集所有的网页图片，logo等信息的，这个在国内的技术服务商还不是很全4，需要识别网页上的密码，我不想点开看你是怎么获取的密码，从而可以找到你，也是一个技术难点，比如，你如果在采集的网页内设置只采集没有链接到的网页，让蜘蛛自己爬进去，它就一定找不到你了...5，网页判断数量，这个有点像采集，可以通过网页分片来解决，就是一个网页为一个片段来采集，对于点击量很高的网页，需要做1分钟以上的帧数统计，从而看得出网页的性能。6，还有一些比较小众的识别网页的算法，有些后面会写...。

　　我们前端公司接到需求也会采取第三方采集。

　　手机要采集，web要采集，服务器，存储，

　　可以搜索下快网页

　　国内做网页采集器感觉没有太多厉害的。我最近在做的网页采集需求是英语logo的地址要采到。为什么要采英语logo的地址。

0

2021-08-14

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法，主要看那些了，常用的包括以下几个

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法，主要看那些了，常用的包括以下几个

0 个评论

发起人

相关问题