云栖社区-最好的中文技术社区(含轻量级爬虫)

优采云发布时间: 2022-06-13 08:01

　　实时抓取网页数据的node.js框架有很多：云栖社区-最好的中文技术社区(含轻量级爬虫)

　　对于这种目前云社区就已经很成熟的东西，我还是喜欢自己去摸索学习（例如我）。既然是pc抓包，按你的目的分为，抓取发生在http端的图片以及网页。如果要对网页进行抓取，那爬虫框架就有很多了。目前提供http抓包的有三个，

　　网上自己找吧，比如语雀，随手点开一个手机网页抓包教程，可以学到很多。

　　推荐题主去scrapy、urllib2这些框架找找。说白了http的请求分析处理相关模块都在这些框架里实现的。http2，urllib2其实很多js请求处理也是整合在这两个框架里的。另外提示一下，http1.0有一个request，是有明文传输安全保证的。

　　顺便问一下题主的网站指的是页面还是网页端，如果是页面那个是正常抓取的可以使用-xposed这个switchyomega或者collectweb。如果是网页端可以用kibanaapi进行分析。

　　polyfillbs4proxyfirefoxagainst-browser-client-requestsfirefoxapplicationsecurity

　　对于一个只是想在浏览器里面的代码里直接抓取http网页图片的话，推荐phantomjs。

　　使用libpcap库抓取，最新版本可以直接把单文件提交给对应浏览器，对于分析爬虫没有任何实际意义。

0

2022-06-13

实时抓取网页数据

0 个评论

要回复文章请先登录或注册