网页采集器的自动识别算法一般是通过html元素识别的

优采云发布时间: 2021-08-17 02:03

　　网页采集器的自动识别算法一般是通过html结构切分、ie浏览器兼容性检测，识别出相应的目标网站的html结构；再通过服务器端程序方法识别出结构规律。这些识别结果通过html元素识别器来实现。确定自动识别的关键字，即可进行自动识别；采集器对识别结果也可以进行逐步判断。识别结果中还可以输入自定义信息进行相关人工判断。

　　你在浏览器上放个目标网站的伪静态页面。（有的网站伪静态页面不会加载）只要你是ie6.7.x的用户，浏览器就会把伪静态页面当成真实html文件来识别。

　　不用采集，

　　老夫是阿里云的打工仔不是搜狗员工，

　　@大凡哥所述基本上是对的，也是打网页采集的老手了。

　　算识别规律的。类似htmlhead、csshead、jshead可以直接识别css之类的先分好伪静态的域名然后在变换规律。至于你说的用速度识别，那不是采集网页的技术。而是通过程序识别的，如下图。

　　据我所知的有个基于程序识别的网页采集器。silverplanetpc是一个只要你运行过sliverlight访问过uwp的网站，就能识别出这个网站的html格式。uwp格式有html标签，我就这样识别出我运行过sliverlight在访问过uwp的webapp。甚至你不需要访问windows,linux这样的程序，也能识别出来访问过uwp程序的html标签。对于windows8来说这套技术可以叫做meta标签加载技术。

0

2021-08-17

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法一般是通过html元素识别的

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法一般是通过html元素识别的

0 个评论

发起人

相关问题