python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)

优采云 发布时间: 2022-01-18 16:16

  python抓取动态网页(开发环境操作系统:windows10Python版本:3.6爬取网页模块:requests分析)

  开发环境

  操作系统:Windows 10

  Python 版本:3.6

  抓取网页模块:请求

  分析网页模块:json

  模块安装

  pip3 install requests

  网页分析

  我们使用豆瓣电影页面开始分析

  https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

  因为是动态加载的,所以我们无法通过get方法直接获取网页的内容

  当我们点击加载更多时,可以通过开发者工具的Network选项中的XHR获取动态加载的js

  打开获取的连接

  https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20

  我们可以找到连接规律,即page_limit和page_start

  可以看到打开的内容是json格式的

  这里我们构造一个链接,从第一部电影开始,显示 100

  https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=100&page_start=0

  对于JSON的解析,我们可以先用一个在线的网站查看

  https://jsonformatter.curiousconcept.com/

  这里可以看到收录以下信息

  代码介绍

  这里逐行介绍代码

  1.导入相关模块

  import requests

import json

  2. 使用请求模块打开并获取网页内容

  r = requests.get(url,verify=False)

content=r.content

  3.使用json.load将json格式转成python字典格式

  这时候就可以使用字典的相关方法来处理网页了

  result=json.loads(content)

tvs=result['subjects']

  4. 获取相关信息并存入字典

  执行结果

  我们可以选择将获取的数据放入数据库中

  来源地点

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线