抓取动态网页(抓取动态网页有两种思路:如何用api来加载?)

优采云 发布时间: 2022-03-04 17:03

  抓取动态网页(抓取动态网页有两种思路:如何用api来加载?)

  抓取动态网页有两种思路:1.formdata,这种代码量少,读取时间比较短;2.api,可以直接调用api,生成一个proto时序图,可以理解其网页生成的过程。具体来说,可以发出url,再发给formdata请求api,如果能生成数据就可以返回。另外,可以通过txt拼接url和分页代码来得到更细的信息。

  手机码字,尽量写详细点。

  1)高并发同时请求多个url;

  2)使用集群高可用;

  3)让浏览器实时缓存,

  4)请求url的分页。

  通过order来看,你可以试试看。

  一些定好目的地址吧。也可以用一些爬虫工具(httpwatch)來爬。

  分页请求呀。分页抓包改后缀不就行了。

  我想应该考虑一下你要爬取的数据是不是有很特殊的行为,如果要抓取但是发现只能抓取某几页的话,那我觉得你还是要考虑一下到底需不需要分页数据。

  你可以用urllib2或者phantomjs都可以通过requests进行请求

  一般是建议用phantomjs,因为phantomjs加载多页的时候速度有保证。

  我看了一下提问人说的页一般是不会下载的,那么我可以猜测他是用这种思路但其实只要能抽象出一个url,而且把下载的链接给了提问人,

  利用ie自带的imagejs或者是别的啥flash就可以抓到的一般都是中文的,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线