网页采集器的自动识别算法是网页本身的技术指标
优采云 发布时间: 2022-05-30 23:03网页采集器的自动识别算法是网页本身的技术指标
网页采集器的自动识别算法是服务器的技术指标,不是网页本身的自动识别。识别率=识别时间/网页总时间=ftp传输时间,
多年从事手机网页抓取,有一点个人看法:理论上是不需要人工识别的,但是当你有大量需要抓取的网页时,就需要自动识别器提供报告和自动判断,以提高抓取效率,而识别速度一般关乎到网页的速度和质量,所以一般我会抓取比较多的网页,留取精品,不抓取上不了线的网页,防止你的访问服务器和本地缓存生成海量的垃圾页面,以及一些重要的信息被误抓取这个问题。
楼上说到web浏览器的自动识别,我认为是不需要的,自动识别是一个服务器端的技术要求,涉及到接口采集优化和服务器端的程序设计,可操作性较强,如果某个业务涉及到xss,flash漏洞等,这个自动识别器绝对不会适用,特别在网站访问量特别大,用户行为,电商类复杂多变,获取数据(如用户信息和评论)频繁的情况下。
此外,要想可靠的识别某个页面,必须要有一个强的服务器端鉴权系统和第三方服务器端鉴权保护系统,一般个人网站的客户端都是第三方自行搭建的服务器端鉴权系统(比如阿里的app),这样第三方鉴权都是根据站长的浏览记录来鉴权的,鉴权比较困难,安全性也比较差。