网页采集器的自动识别算法,需要完整的监控机制

优采云 发布时间: 2021-04-26 18:01

  网页采集器的自动识别算法,需要完整的监控机制

  网页采集器的自动识别算法,需要一套完整的监控机制,包括但不限于事件触发,浏览器事件的触发,响应,封装数据与监控程序的交互,浏览器的http状态与http头的交互等等,有无限种可能。请问你什么样的事件触发才能触发一个上万的网页采集器自动识别,没用过。只有flash采集器才有可能。

  我想是不可能自动识别的,每个网站的输入都是文本字符识别,单机程序的识别一般需要采集的数据量太大,对个人电脑带宽要求很高,国内也就百度极限吧这样的网站引入了云采集软件,除了要求网站使用的服务器端还得开启采集功能外,可以说是百度造的孽。你还是放弃干这事吧,要真有这技术的话,当年百度采集也不至于整天下架大量的采集软件了。

  要是目前有个“”云采集“”能实现,我早就去抓那些脑残网站了。国内高质量大型的网站访问真得靠个人电脑托管服务器了。

  看客户端。比如爬虫机是不是自动识别主机端ip来判断采集。如果是,那么对于每个客户端都可以有相同的主机ip,所以一个ip只能应付其中一部分的网站。如果是。那么可以用预判识别。比如有的主机要求手机ip打开,那么可以用大数据识别.如果大型网站也用手机ip,那么可以预判然后直接判断为手机网站。这样可以节省人力。根据本身网站也是。甚至可以把所有的ip地址抽取出来。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线