网页采集器的自动识别算法，需要完整的监控机制

优采云发布时间: 2021-04-26 18:01

　　网页采集器的自动识别算法，需要一套完整的监控机制，包括但不限于事件触发，浏览器事件的触发，响应，封装数据与监控程序的交互，浏览器的http状态与http头的交互等等，有无限种可能。请问你什么样的事件触发才能触发一个上万的网页采集器自动识别，没用过。只有flash采集器才有可能。

　　我想是不可能自动识别的，每个网站的输入都是文本字符识别，单机程序的识别一般需要采集的数据量太大，对个人电脑带宽要求很高，国内也就百度极限吧这样的网站引入了云采集软件，除了要求网站使用的服务器端还得开启采集功能外，可以说是百度造的孽。你还是放弃干这事吧，要真有这技术的话，当年百度采集也不至于整天下架大量的采集软件了。

　　要是目前有个“”云采集“”能实现，我早就去抓那些脑残网站了。国内高质量大型的网站访问真得靠个人电脑托管服务器了。

　　看客户端。比如爬虫机是不是自动识别主机端ip来判断采集。如果是，那么对于每个客户端都可以有相同的主机ip，所以一个ip只能应付其中一部分的网站。如果是。那么可以用预判识别。比如有的主机要求手机ip打开，那么可以用大数据识别.如果大型网站也用手机ip，那么可以预判然后直接判断为手机网站。这样可以节省人力。根据本身网站也是。甚至可以把所有的ip地址抽取出来。

0

2021-04-26

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法，需要完整的监控机制

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法，需要完整的监控机制

0 个评论

发起人

相关问题