抓取网页数据工具(大型门户网站做成浏览器插件的应用技巧分享!!)

优采云 发布时间: 2021-11-17 03:01

  抓取网页数据工具(大型门户网站做成浏览器插件的应用技巧分享!!)

  抓取网页数据工具或者是浏览器的行为(通过javascript获取)。其实现原理不难,但是现在大型门户网站都采用了ajax技术,尤其是搜狐,都已经做成浏览器插件了。

  baidu+搜狗+360+qq+各种浏览器的网页搜索获取。

  比较低端的获取数据的方法:有本地计算机(服务器),利用本地计算机的计算能力按照某些接口做搜索接口的收集,比如用java内置的javaschemaapi进行收集。或者这种方法是请求不到服务器的返回数据,也可以是服务器不会返回status数据,那么找个服务器上有statuslevel记录的网站上爬下来数据。

  比较高端的技术是数据采集与传递,直接实现数据采集,很多时候用网页爬虫技术最终在几百kb大小的网页上传递给服务器或者交给程序处理。中间有个问题是数据传递有延迟,或者压缩传递,或者多方压缩传递,在全部传递的时候很可能对数据进行误判,所以需要实现压缩和数据解压缩处理。有一种方法是先对整个网页数据进行压缩,存到本地存储的服务器上,有效文件过大时再传给服务器处理,然后再发布出去。

  以restful风格和数据压缩和流处理。以后还可以实现对数据传递到微信等服务上进行某种方式的数据传递,方便将爬取来的文件用标准的格式(json)或二进制形式(xml)文件转换到微信服务器可以识别的格式上,又方便传输,也方便传递。但对压缩有时效性要求,一般比较理想的是多次传输。以后还可以更高级的数据库访问机制,比如利用mysql对文件进行json格式的存储和传递,对表结构进行存储和传递。

  这些代价也是不小的。最后是爬虫的机制,比如可以用scrapy或者selenium这种常见的基于浏览器本地计算的爬虫程序,对某些文件特别是cookies等信息进行抓取,并把这些数据上传到本地服务器进行计算,也是一些有效的数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线