python抓取动态网页(Python一个抓取网页内容的一个库-0x00库)
优采云 发布时间: 2021-09-28 19:21python抓取动态网页(Python一个抓取网页内容的一个库-0x00库)
Requests是Python用来获取web内容的库
下面是对它的详细描述
0x00、请求
以下是捕获web内容的示例:
import requests #引入requests库
a = requests.get("https://www.mmuaa.com/link") #使用get方法抓取url
这样,就成功捕获了“”
我们可以使用以下代码查看抓取结果
a.status_code #抓取的HTTP状态码
a.text #抓取到的内容
上面是使用get方法来请求数据。同样,我们可以使用post、head、options和put
比如说
a = requests.put("http://httpbin.org/put")
a = requests.delete("http://httpbin.org/delete")
a = requests.head("http://httpbin.org/get")
a = requests.options("http://httpbin.org/get")
等等
0x01、参数
例如:
import requests
g = {"type" : "1"} #用字典的方式存储我们要请求的数据
a = requests.get("http://api.mmuaa.com/link", g) #发送带参数的get请求
a.url #查看发送的url
如您所见,请求库自动为我们处理URL参数并将其发送出去
同样,我们也可以使用post
得到了正确的结果
0x02、响应头
使用headers函数查看响应头,返回类型为dictionary
0x03、Cookies
将Cookie发送到服务器:
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
r.text
这将发送cookie\将具有工作值的cookie发送到服务器
接收服务器返回的cookie:
url = 'http://example.com/some/cookie/setting/url'
r = requests.get(url)
r.cookies['example_cookie_name']
这将返回服务器返回的名为“exa,ple_cookie_name”的cookie的值