java爬虫抓取动态网页(读取不同地址的数据defget_sc_car_info(图记)(组图))

优采云 发布时间: 2022-04-18 00:02

  java爬虫抓取动态网页(读取不同地址的数据defget_sc_car_info(图记)(组图))

  java爬虫抓取动态网页里面的每一个二维码,真的像吃了炫迈一样停不下来首先我们把动态网页翻转,可以观察到,网页的二维码全是采用ajax技术自动抓取到的,其实这个ajax抓取方法很简单,我们给定一个url,就可以在指定url请求scrapy-selenium,就可以得到全部的二维码。还要注意的是每次请求其实都是重新请求一次二维码。

  所以每次只有动态的内容我们才可以获取到,之前列表中的所有内容都是静态的。抓取规律:我们抓取headers是zxingjaw.js;图上标记的是不抓取哪些数据的;获取原始内容参数是:不可读不可读。然后我们就可以写python的get请求这个请求不包含地址,只爬取动态的内容;主要就是demo链接及获取二维码名称的参数,抓取完成之后,我们就可以正常连接浏览器等待浏览器解析识别链接;二维码解析可以用ipython的python.interpreter插件实现;代码中获取每一个二维码有一个id可以直接使用python.interpreter插件来获取动态网页每一个二维码对应的id;#!/usr/bin/envpython3#-*-coding:utf-8-*-#-*-coding:utf-8-*-importrequestsimporttimefromurllib.requestimporturlretrieve#读取不同地址抓取的数据defget_sc_car_info(src,url):#获取每一个二维码,每个都是由';mt=30036&pn=2501&ng=1&t=172054303&cg=1&ic=1'id构成的a=requests.get(src,url).textb=requests.get(src,url).text#解析出来url和idid_d=requests.get(src,url).text#解析出的动态链接对应的idurl_d=requests.get(src,url).text#读取指定的参数data={"id":id_d,"result":none,"cat":none,"segment":none,"min":none,"charset":"utf-8","max":id_d,"eyebrow":none,"href":":5111000","size":none,"ease":none,"page":none,"pos":none,"body":none,"title":none,"align":"_left","too":none,"px":id_d}print(id_d)returnurl_d#获取指定的参数start_addr=":50300000"success_addr=":50300000"url1=get_sc_car_info(src,"sheet1")success_addr=success_addr+"me"success_addr=success_addr+"world"result=。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线