qq空间文章采集软件(环境:python3python3.6.5模块(requests)())
优采云 发布时间: 2022-04-14 12:36qq空间文章采集软件(环境:python3python3.6.5模块(requests)())
环境:
窗口
蟒蛇3.6.5
模块:
请求
硒
json
重新
urllib
环境和模块引入后,我们就可以实现我们的操作了。
第 1 步:
通过分析网站:QQ音乐网站
我们可以发现,这里只需要填写QQ音乐的地址,就可以得到我们想要的音乐源文件了。
第 2 步:
获取QQ音乐地址,打开我们的QQ音乐主页
通过源文件,我们可以发现没有我们想要的数据:
那么,我们来抓包分析:
发现确实有我们要的数据,但是看到headers消息中的url,发现都是加密数据!
所以涉及到js加密,所以很多人会觉得很难,所以我们可以选择另外一个python模块selenium直接获取我们的element元素:
源码为:
url=f';searchid=1&remoteplace=&t=song&w={name}'driver.get(url)
driver.implicitly_wait(10)
data=driver.find_element_by_xpath('//div[@class="songlist__item"]//span[@class="songlist__songname_txt"]/a').get_attribute('href')
这里的url是经过简单分析得出的结论。只需要修改w参数就可以得到不同的音乐。
第 3 步
使用我们频道的数据链接进行我们的分析网站:QQ音乐网站
抓包分析:
可以发现这是一个post请求,然后我们表单提交的数据就是我们的QQ音乐地址!
第 4 步:
模拟访问这个post请求并获取我们的返回数据:
标题 = {
'接受':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'连接':'保持活动',
'内容长度':'65',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'主机':'',