php 抓取网页内容(Python一个.5中使用Request组件来抓取网页获取)
优采云 发布时间: 2022-04-18 14:29php 抓取网页内容(Python一个.5中使用Request组件来抓取网页获取)
所谓网页抓取,就是从网络流中读取URL地址中指定的网络资源,并保存在本地。
类似于用程序模拟IE浏览器的功能,将URL作为HTTP请求的内容发送给服务器,然后读取服务器的响应资源。
在 Python3.5 中,我们使用 Request 组件来抓取网页。
Request 是一个获取 URL(统一资源定位器)的 Python 组件。
它以 get 函数的形式提供了一个非常简单的接口。
最简单的 Request 应用程序代码只需要四行。
我们新建一个文件test.py来感受一下Request的作用:
1import requests
2from bs4 import BeautifulSoup
3
4#coding:utf-8
5
6url = 'http://www.baidu.com'
7try:
8 response = requests.get(url)
9#URLError
10#通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
11except:
12 data = {
13 'url':url,
14 'error_type':'requests.get.error'
15 }
16 print(data)
17#HTTPError
18#服务器上每一个HTTP 应答对象response包含一个数字"状态码"。
19#有时状态码指出服务器无法完成请求。默认的处理器会为你处理一部分这种应答。
20#HTTP状态码通常分为5种类型,分别以1~5五个数字开头,由3位整数组成.
21#比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。
22else:
23 response.encoding = 'utf8'
24 print(response.text)
25
我们可以打开百度首页,右键,选择查看源代码(火狐或者谷歌浏览器),我们会发现一模一样的内容。
也就是说上面四行代码打印出我们访问百度时浏览器接收到的所有代码。
这是最简单的请求示例。