网页数据抓取?开发和测试需要知道,不然本来很简单
优采云 发布时间: 2022-05-28 13:02网页数据抓取?开发和测试需要知道,不然本来很简单
网页数据抓取?开发和测试需要知道,不然本来很简单的东西,人家都知道怎么做了,你就发现抓的数据错误百出。
fiddler。小功能,小case就用它。fiddler这种加密狗类似于webserver中的ipsec,互相可以依赖。各种源码的server不是好选择,安全性都不敢恭维。
我很久没有发到知乎了。我相信应该有很多牛人在做科研做研究。大致说几点,1,使用wireshark做服务端抓包抓取各种coursera,edx,udacity的课程是一种可行的方法,不过很多课程是非常专业化的。不是很适合本科的课程以及部分硕士博士。2,百度不能使用下载后的页面的资源,而只能使用自己开发的(也就是那一坨)提供服务端下载用户端的资源。
所以关键不是使用哪个抓包工具,重要的是使用哪个服务。这是学习任何新技术的第一步。3,无论哪个抓包工具,如果各种代码都仔细研究它们提供的底层数据结构。那么学习起来会非常简单。即使是很久没接触过这个也会不成问题的。4,这些抓包工具提供了从服务端(包括浏览器、服务器端、客户端、数据库等)到目标网页的解析过程,抓取返回数据当然一目了然。
但是用户程序(包括上传数据库)逻辑还是要自己来写的。这也是学习的第二步。5,搞懂这些抓包工具做的事情,当然对业务提升帮助巨大。基于很多年没写ruby或者python现在有大量的ml库,最基本的pandas做好导出数据,处理数据库,存储操作。常用的web功能(上传下载、关联查询等)有各种各样的基础包,还有各种操作系统编程语言编程库的大量模块可以使用。