自动抓取网页数据( Python编程技术使用迭代器自动链式处理数据的实例(组图))

优采云 发布时间: 2022-01-10 01:18

  自动抓取网页数据(

Python编程技术使用迭代器自动链式处理数据的实例(组图))

  requests.gPython 使用 requests.get 获取网页内容为空

  我们先来看一个例子:

  import  requests

result=requests.get("http://data.10jqka.com.cn/financial/yjyg/")

result

  输出结果:

  

  表示请求处理成功,一般返回此状态码;200表示没问题

  

  继续运行,发现返回了一个空值。请求网页爬取时,输出文本信息中会出现sorry、inaccessible等字样。这就是禁止爬取,需要借助反爬取机制来解决这个问题。headers是解决请求反爬的方法之一,相当于我们进入这个网页,假装自己在爬数据的时候服务器本身。对于反爬虫网页,可以设置一些headers信息来模拟浏览器访问网站。

  一、如何设置标题

  以两种常见的浏览器为例:

  1、QQ浏览器

  接口 F12

  

  单击网络并键入 CTRL+R

  

  单击第一个底部是我需要将他设置为标题以解决问题

  2、微软边缘

  二、微软自己的浏览器

  F12也可以打开开发者工具

  

  单击网络,CTRL+R

  

  修改之前的代码:

  import requests

ur="http://data.10jqka.com.cn/financial/yjyg/"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3880.400 QQBrowser/10.8.4554.400 '}

result = requests.get(ur, headers=headers)

result.text

  成功解决无法爬取的问题

  关于requests.gPython使用requests.get获取网页内容为空''文章到此介绍,更多相关requests.gPython使用requests.get获取网页内容为空' '请搜索以前的文章,希望以后支持编程宝库!

  下一节:Python遍历迭代器自动链式处理数据实例Python编程技术

  使用迭代器链式处理数据,在Process类的__iter__方法中执行挂载的预处理方法。可以嵌套和包裹多层处理方法,类似于 KoaJs 的洋葱模型。在for循环期间,自动执行预处理方法,并返回处理完数据分析...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线