python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)
优采云 发布时间: 2022-01-18 16:16python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)
开发环境
操作系统:Windows 10
Python 版本:3.6
抓取网页模块:请求
分析网页模块:json
模块安装
pip3 install requests
网页分析
我们使用豆瓣电影页面开始分析
https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0
因为是动态加载的,所以我们无法通过get方法直接获取网页的内容
当我们点击加载更多时,可以通过开发者工具的Network选项中的XHR获取动态加载的js
打开获取的连接
https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20
我们可以找到连接规律,即page_limit和page_start
可以看到打开的内容是json格式的
这里我们构造一个链接,从第一部电影开始,显示 100
https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=100&page_start=0
对于JSON的解析,我们可以先用一个在线的网站查看
https://jsonformatter.curiousconcept.com/
这里可以看到收录以下信息
代码介绍
这里逐行介绍代码
1.导入相关模块
import requests
import json
2. 使用请求模块打开并获取网页内容
r = requests.get(url,verify=False)
content=r.content
3.使用json.load将json格式转成python字典格式
这时候就可以使用字典的相关方法来处理网页了
result=json.loads(content)
tvs=result['subjects']
4. 获取相关信息并存入字典
执行结果
我们可以选择将获取的数据放入数据库中
来源地点