python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)

优采云发布时间: 2022-01-18 16:16

　　开发环境

　　操作系统：Windows 10

　　Python 版本：3.6

　　抓取网页模块：请求

　　分析网页模块：json

　　模块安装

　　pip3 install requests

　　网页分析

　　我们使用豆瓣电影页面开始分析

　　https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

　　因为是动态加载的，所以我们无法通过get方法直接获取网页的内容

　　当我们点击加载更多时，可以通过开发者工具的Network选项中的XHR获取动态加载的js

　　打开获取的连接

　　https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20

　　我们可以找到连接规律，即page_limit和page_start

　　可以看到打开的内容是json格式的

　　这里我们构造一个链接，从第一部电影开始，显示 100

　　https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=100&page_start=0

　　对于JSON的解析，我们可以先用一个在线的网站查看

　　https://jsonformatter.curiousconcept.com/

　　这里可以看到收录以下信息

　　代码介绍

　　这里逐行介绍代码

　　1.导入相关模块

　　import requests

import json

　　2. 使用请求模块打开并获取网页内容

　　r = requests.get(url,verify=False)

content=r.content

　　3.使用json.load将json格式转成python字典格式

　　这时候就可以使用字典的相关方法来处理网页了

　　result=json.loads(content)

tvs=result['subjects']

　　4. 获取相关信息并存入字典

　　执行结果

　　我们可以选择将获取的数据放入数据库中

　　来源地点

0

2022-01-18

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)

0 个评论

发起人

AI时代内容工厂

python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)

0 个评论

发起人

相关问题