自动抓取网页数据( Python编程技术使用迭代器自动链式处理数据的实例(组图))

优采云发布时间: 2022-01-10 01:18

　　自动抓取网页数据(

Python编程技术使用迭代器自动链式处理数据的实例(组图))

　　requests.gPython 使用 requests.get 获取网页内容为空

　　我们先来看一个例子：

　　import requests

result=requests.get("http://data.10jqka.com.cn/financial/yjyg/")

result

　　输出结果：

　　表示请求处理成功，一般返回此状态码；200表示没问题

　　继续运行，发现返回了一个空值。请求网页爬取时，输出文本信息中会出现sorry、inaccessible等字样。这就是禁止爬取，需要借助反爬取机制来解决这个问题。headers是解决请求反爬的方法之一，相当于我们进入这个网页，假装自己在爬数据的时候服务器本身。对于反爬虫网页，可以设置一些headers信息来模拟浏览器访问网站。

　　一、如何设置标题

　　以两种常见的浏览器为例：

　　1、QQ浏览器

　　接口 F12

　　单击网络并键入 CTRL+R

　　单击第一个底部是我需要将他设置为标题以解决问题

　　2、微软边缘

　　二、微软自己的浏览器

　　F12也可以打开开发者工具

　　单击网络，CTRL+R

　　修改之前的代码：

　　import requests

ur="http://data.10jqka.com.cn/financial/yjyg/"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3880.400 QQBrowser/10.8.4554.400 '}

result = requests.get(ur, headers=headers)

result.text

　　成功解决无法爬取的问题

　　关于requests.gPython使用requests.get获取网页内容为空''文章到此介绍，更多相关requests.gPython使用requests.get获取网页内容为空' '请搜索以前的文章，希望以后支持编程宝库！

　　下一节：Python遍历迭代器自动链式处理数据实例Python编程技术

　　使用迭代器链式处理数据，在Process类的__iter__方法中执行挂载的预处理方法。可以嵌套和包裹多层处理方法，类似于 KoaJs 的洋葱模型。在for循环期间，自动执行预处理方法，并返回处理完数据分析...

0

2022-01-10

自动抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动抓取网页数据( Python编程技术使用迭代器自动链式处理数据的实例(组图))

0 个评论

发起人

AI时代内容工厂

自动抓取网页数据( Python编程技术使用迭代器自动链式处理数据的实例(组图))

0 个评论

发起人

相关问题