抓取动态网页(抓取动态网页有两种思路:如何用api来加载?)
优采云 发布时间: 2022-03-04 17:03抓取动态网页(抓取动态网页有两种思路:如何用api来加载?)
抓取动态网页有两种思路:1.formdata,这种代码量少,读取时间比较短;2.api,可以直接调用api,生成一个proto时序图,可以理解其网页生成的过程。具体来说,可以发出url,再发给formdata请求api,如果能生成数据就可以返回。另外,可以通过txt拼接url和分页代码来得到更细的信息。
手机码字,尽量写详细点。
1)高并发同时请求多个url;
2)使用集群高可用;
3)让浏览器实时缓存,
4)请求url的分页。
通过order来看,你可以试试看。
一些定好目的地址吧。也可以用一些爬虫工具(httpwatch)來爬。
分页请求呀。分页抓包改后缀不就行了。
我想应该考虑一下你要爬取的数据是不是有很特殊的行为,如果要抓取但是发现只能抓取某几页的话,那我觉得你还是要考虑一下到底需不需要分页数据。
你可以用urllib2或者phantomjs都可以通过requests进行请求
一般是建议用phantomjs,因为phantomjs加载多页的时候速度有保证。
我看了一下提问人说的页一般是不会下载的,那么我可以猜测他是用这种思路但其实只要能抽象出一个url,而且把下载的链接给了提问人,
利用ie自带的imagejs或者是别的啥flash就可以抓到的一般都是中文的,