网页数据抓取？开发和测试需要知道，不然本来很简单

优采云发布时间: 2022-05-28 13:02

　　网页数据抓取？开发和测试需要知道，不然本来很简单的东西，人家都知道怎么做了，你就发现抓的数据错误百出。

　　fiddler。小功能，小case就用它。fiddler这种加密狗类似于webserver中的ipsec，互相可以依赖。各种源码的server不是好选择，安全性都不敢恭维。

　　我很久没有发到知乎了。我相信应该有很多牛人在做科研做研究。大致说几点，1，使用wireshark做服务端抓包抓取各种coursera,edx,udacity的课程是一种可行的方法，不过很多课程是非常专业化的。不是很适合本科的课程以及部分硕士博士。2，百度不能使用下载后的页面的资源，而只能使用自己开发的（也就是那一坨）提供服务端下载用户端的资源。

　　所以关键不是使用哪个抓包工具，重要的是使用哪个服务。这是学习任何新技术的第一步。3，无论哪个抓包工具，如果各种代码都仔细研究它们提供的底层数据结构。那么学习起来会非常简单。即使是很久没接触过这个也会不成问题的。4，这些抓包工具提供了从服务端（包括浏览器、服务器端、客户端、数据库等）到目标网页的解析过程，抓取返回数据当然一目了然。

　　但是用户程序（包括上传数据库）逻辑还是要自己来写的。这也是学习的第二步。5，搞懂这些抓包工具做的事情，当然对业务提升帮助巨大。基于很多年没写ruby或者python现在有大量的ml库，最基本的pandas做好导出数据，处理数据库，存储操作。常用的web功能（上传下载、关联查询等）有各种各样的基础包，还有各种操作系统编程语言编程库的大量模块可以使用。

0

2022-05-28

网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取？开发和测试需要知道，不然本来很简单

0 个评论

发起人

AI时代内容工厂

网页数据抓取？开发和测试需要知道，不然本来很简单

0 个评论

发起人

相关问题