自动抓取网页数据( Python编程技术使用迭代器自动链式处理数据的实例(组图))
优采云 发布时间: 2022-01-10 01:18自动抓取网页数据(
Python编程技术使用迭代器自动链式处理数据的实例(组图))
requests.gPython 使用 requests.get 获取网页内容为空
我们先来看一个例子:
import requests
result=requests.get("http://data.10jqka.com.cn/financial/yjyg/")
result
输出结果:
表示请求处理成功,一般返回此状态码;200表示没问题
继续运行,发现返回了一个空值。请求网页爬取时,输出文本信息中会出现sorry、inaccessible等字样。这就是禁止爬取,需要借助反爬取机制来解决这个问题。headers是解决请求反爬的方法之一,相当于我们进入这个网页,假装自己在爬数据的时候服务器本身。对于反爬虫网页,可以设置一些headers信息来模拟浏览器访问网站。
一、如何设置标题
以两种常见的浏览器为例:
1、QQ浏览器
接口 F12
单击网络并键入 CTRL+R
单击第一个底部是我需要将他设置为标题以解决问题
2、微软边缘
二、微软自己的浏览器
F12也可以打开开发者工具
单击网络,CTRL+R
修改之前的代码:
import requests
ur="http://data.10jqka.com.cn/financial/yjyg/"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3880.400 QQBrowser/10.8.4554.400 '}
result = requests.get(ur, headers=headers)
result.text
成功解决无法爬取的问题
关于requests.gPython使用requests.get获取网页内容为空''文章到此介绍,更多相关requests.gPython使用requests.get获取网页内容为空' '请搜索以前的文章,希望以后支持编程宝库!
下一节:Python遍历迭代器自动链式处理数据实例Python编程技术
使用迭代器链式处理数据,在Process类的__iter__方法中执行挂载的预处理方法。可以嵌套和包裹多层处理方法,类似于 KoaJs 的洋葱模型。在for循环期间,自动执行预处理方法,并返回处理完数据分析...