java爬虫抓取动态网页(读取不同地址的数据defget_sc_car_info(图记)(组图))

优采云发布时间: 2022-04-18 00:02

　　java爬虫抓取动态网页里面的每一个二维码，真的像吃了炫迈一样停不下来首先我们把动态网页翻转，可以观察到，网页的二维码全是采用ajax技术自动抓取到的，其实这个ajax抓取方法很简单，我们给定一个url，就可以在指定url请求scrapy-selenium，就可以得到全部的二维码。还要注意的是每次请求其实都是重新请求一次二维码。

　　所以每次只有动态的内容我们才可以获取到，之前列表中的所有内容都是静态的。抓取规律：我们抓取headers是zxingjaw.js；图上标记的是不抓取哪些数据的；获取原始内容参数是：不可读不可读。然后我们就可以写python的get请求这个请求不包含地址，只爬取动态的内容；主要就是demo链接及获取二维码名称的参数，抓取完成之后，我们就可以正常连接浏览器等待浏览器解析识别链接；二维码解析可以用ipython的python.interpreter插件实现；代码中获取每一个二维码有一个id可以直接使用python.interpreter插件来获取动态网页每一个二维码对应的id；#!/usr/bin/envpython3#-*-coding:utf-8-*-#-*-coding:utf-8-*-importrequestsimporttimefromurllib.requestimporturlretrieve#读取不同地址抓取的数据defget_sc_car_info(src,url):#获取每一个二维码，每个都是由';mt=30036&pn=2501&ng=1&t=172054303&cg=1&ic=1'id构成的a=requests.get(src,url).textb=requests.get(src,url).text#解析出来url和idid_d=requests.get(src,url).text#解析出的动态链接对应的idurl_d=requests.get(src,url).text#读取指定的参数data={"id":id_d,"result":none,"cat":none,"segment":none,"min":none,"charset":"utf-8","max":id_d,"eyebrow":none,"href":":5111000","size":none,"ease":none,"page":none,"pos":none,"body":none,"title":none,"align":"_left","too":none,"px":id_d}print(id_d)returnurl_d#获取指定的参数start_addr=":50300000"success_addr=":50300000"url1=get_sc_car_info(src,"sheet1")success_addr=success_addr+"me"success_addr=success_addr+"world"result=。

0

2022-04-18

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页(读取不同地址的数据defget_sc_car_info(图记)(组图))

0 个评论

发起人