抓取阿里巴巴天池数据集网页url：使用正则表达式获取数据方法

优采云发布时间: 2022-05-26 16:00

　　php抓取网页表格信息，主要分为三个步骤：1.获取网页url；2.解析url并获取正则表达式分析网页结构3.获取表格列表。

　　一、网页urlphp抓取网页url是程序抓取网页最基本的方法，本文介绍的是抓取阿里巴巴天池数据集网页url：/black/charts/?/tag/black_i/我们要抓取的网页url主要包括三点：文件名、指定域名和ip地址。抓取完整网页url:file="php_spider.php"/black/charts/&/tag/black_i.html对应url格式为：/black/charts/&/tag/black_i.html。

　　二、分析url并获取正则表达式解析网页结构接下来分析下链接：index.php在页面打开之后我们首先需要到图3中的name->"url"处获取天池本次天池数据集中各个指定页码上的文本数据，本文以charts页为例：获取网页charts页的全部文本数据可以用正则表达式或者re模拟输入（用户自定义的情况）获取charts页全部的文本内容，我用正则模拟的方式。

　　使用正则表达式获取数据方法如下：url='/charts/{name}'req=requests.get(url)time.sleep(。

<p>3)charts.json=req.json()data=charts.json['data']其中data数据为关键字data，可以加上自定义的关键字，如tags:{"title":"天池数据集charts","name":"数据挖掘","segment":{"area":['xxx','yyy']}}req=requests.get(req).text'charts.json=req.json()'下面是对req.json()输出的内容：第3行的{"text":"数据挖掘专业"}为我们自定义的{"text":"数据挖掘专业"}，在这种情况下，数据来源的本质是：数据挖掘专业

0

2022-05-26

php抓取网页表格信息

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取阿里巴巴天池数据集网页url：使用正则表达式获取数据方法

0 个评论

发起人

AI时代内容工厂

抓取阿里巴巴天池数据集网页url：使用正则表达式获取数据方法

0 个评论

发起人

相关问题