网页采集器的自动识别算法(网页采集器的自动识别算法是怎样的？如何找到)

优采云发布时间: 2021-12-09 21:01

　　网页采集器的自动识别算法主要有两种，一种是被动识别算法，一种是主动识别算法，被动识别是通过网站抓取上下文，用户浏览习惯等方式来识别的，这种识别误差比较大，而且有时会出现误伤功能。我用过很多家网页采集器，普遍存在这个问题，现在有些网站抓取框里面加上了类似于cookie等自动上传的校验的。一种主动识别的算法，是通过我们发布的自动采集软件来识别的，对特定网站，根据特定的格式发布相关的采集软件采集软件，这个算法可以识别网站的抓取代码，也可以识别网站的类型，而且还可以按照网站的设置来识别。

　　现在的网页采集就是手动手写代码来采集，有人的时候在使用apache做cronserver，没人的时候手写点脚本，例如百度、谷歌这种全自动化的采集就不知道了，可能其他人不知道，我知道的话我就提出来，

　　如果你采的网页已经是主动爬取的话，可以这样做。如果是被动爬取的话，需要采集器生成flash在网页里，让爬虫自己去找网页，

　　他使用的是google的解析页面解析一个网站只是一个小功能。爬虫需要找到一个主动的页面链接才可以去请求，并用一个selector标记好所请求的链接那么如何找到呢？你应该找到一个服务器去爬。如果服务器不存在可以这样找服务器api有木有，他会返回服务器名给你这个服务器一般在网站底部，上面几层有个api接口对吧，那么你就点击他（把它想象成服务器中的api），使用他接口中的一个target(目标)然后在之前api请求他的时候不带url-params，比如之前的网址，你请求它是正常请求，那么接下来你需要做的就是拿到他的路径，因为之前他是正常请求，现在你不带他的时候，他会让你输入一个url-params，比如/。

　　接下来就是如何拿到这个url-params，你可以查找之前的htmltarget(上一个target)所以之前target就是你的http主动页面链接那么你就拿到了http请求和http响应即可不知道有没有说清楚。

0

2021-12-09

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法是怎样的？如何找到)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(网页采集器的自动识别算法是怎样的？如何找到)

0 个评论

发起人

相关问题