php抓取网页数据实例(安装requests模块)

优采云发布时间: 2021-11-29 09:01

　　本文文章主要介绍python3使用requests模块抓取页面内容的实战练习，有一定的参考价值，有兴趣的可以学习一下

　　1.安装pip

　　我的个人桌面系统使用 linuxmint。系统默认不安装pip。考虑到后面会用到pip来安装requests模块，这里我先安装pip。

　　$ sudo apt install python-pip

　　安装成功，查看PIP版本：

　　$ pip -V

　　2.安装请求模块

　　这里我是通过 pip 安装的：

　　$ pip install requests

　　运行导入请求，如果没有错误，则安装成功！

　　检查是否安装成功

　　3.安装beautifulsoup4

　　Beautiful Soup 是一个 Python 库，可以从 HTML 或 XML 文件中提取数据。它可以通过您喜欢的转换器实现惯用的文档导航，查找和修改文档的方式。 Beautiful Soup 可为您节省数小时甚至数天的工作时间。

　　$ sudo apt-get install python3-bs4

　　注意：我这里使用的是python3的安装方式，如果你使用的是python2，可以使用下面的命令进行安装。

　　$ sudo pip install beautifulsoup4

　　4.请求模块分析

　　1）发送请求

　　当然首先要导入Requests模块：

　　>>> import requests

　　然后，获取目标抓取的网页。这里我以以下为例：

　　>>> r = requests.get('http://www.jb51.net/article/124421.htm')

　　这里返回一个名为 r 的响应对象。我们可以从这个对象中获取我们想要的所有信息。这里的get是http的响应方式，所以也可以用put、delete、post、head类推。

　　2）传递网址参数

　　有时我们希望为 URL 的查询字符串传递某种数据。如果手动构造 URL，数据将以键/值对的形式放置在 URL 中，后跟一个问号。例如，/get?key=val。 Requests 允许您使用 params 关键字参数并在字符串字典中提供这些参数。

　　比如我们在Google上搜索“python爬虫”关键词时，newwindow（新窗口打开）、q和oq（搜索关键词）等参数可以手动组成URL ，那么就可以使用如下代码：

　　>>> payload = {'newwindow': '1', 'q': 'python爬虫', 'oq': 'python爬虫'}

>>> r = requests.get("https://www.google.com/search", params=payload)

　　3）回复内容

　　通过 r.text 或 r.content 获取页面响应内容。

　　>>> import requests

>>> r = requests.get('https://github.com/timeline.json')

>>> r.text

　　请求将自动解码来自服务器的内容。大多数 unicode 字符集都可以无缝解码。这是 r.text 和 r.content 之间的区别。简单地说：

　　resp.text 返回 Unicode 数据；

　　resp.content 返回 bytes 类型，为二进制数据；

　　所以如果要获取文本，可以通过 r.text，如果要获取图片、文件，可以通过 r.content。

　　4）获取网页编码

　　>>> r = requests.get('http://www.cnblogs.com/')

>>> r.encoding

'utf-8'

　　5）获取响应状态码

　　我们可以检测到响应状态码：

　　>>> r = requests.get('http://www.cnblogs.com/')

>>> r.status_code

200

　　5.案例展示

　　最近，该公司刚刚推出了 OA 系统。这里我以它的官方文档页面为例，只抓取页面上的文章标题和内容等有用信息。

　　演示环境

　　操作系统：linuxmint

　　Python 版本：python 3.5.2

　　使用模块：requests、beautifulsoup4

　　代码如下：

　　#!/usr/bin/env python

# -*- coding: utf-8 -*-

_author_ = 'GavinHsueh'

import requests

import bs4

#要抓取的目标页码地址

url = 'http://www.ranzhi.org/book/ranzhi/about-ranzhi-4.html'

#抓取页码内容，返回响应对象

response = requests.get(url)

#查看响应状态码

status_code = response.status_code

#使用BeautifulSoup解析代码,并锁定页码指定标签内容

content = bs4.BeautifulSoup(response.content.decode("utf-8"), "lxml")

element = content.find_all(id='book')

print(status_code)

print(element)

　　程序运行并返回爬取结果：

　　获取成功

　　关于爬取结果乱码

　　其实一开始我直接用的是系统默认自带的python2，但是我折腾了很久，返回内容的编码乱码。谷歌尝试了很多解决方案都无济于事。在被python2“疯狂”之后，我不得不老老实实的使用python3。关于python2抓取页面乱码的问题，欢迎各位前辈分享经验，帮助我以后少走弯路。

　　以上是python3如何使用requests模块抓取页面内容的示例的详细内容。更多详情请关注其他相关php中文网文章！

　　免责声明：本文由原创发表于php中文网。转载请注明出处。感谢您的尊重！如果您有任何问题，请联系我们

0

2021-11-29

php抓取网页数据实例

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页数据实例(安装requests模块)

0 个评论

发起人