抓取阿里巴巴天池数据集网页url:使用正则表达式获取数据方法
优采云 发布时间: 2022-05-26 16:00抓取阿里巴巴天池数据集网页url:使用正则表达式获取数据方法
php抓取网页表格信息,主要分为三个步骤:1.获取网页url;2.解析url并获取正则表达式分析网页结构3.获取表格列表。
一、网页urlphp抓取网页url是程序抓取网页最基本的方法,本文介绍的是抓取阿里巴巴天池数据集网页url:/black/charts/?/tag/black_i/我们要抓取的网页url主要包括三点:文件名、指定域名和ip地址。抓取完整网页url:file="php_spider.php"/black/charts/&/tag/black_i.html对应url格式为:/black/charts/&/tag/black_i.html。
二、分析url并获取正则表达式解析网页结构接下来分析下链接:index.php在页面打开之后我们首先需要到图3中的name->"url"处获取天池本次天池数据集中各个指定页码上的文本数据,本文以charts页为例:获取网页charts页的全部文本数据可以用正则表达式或者re模拟输入(用户自定义的情况)获取charts页全部的文本内容,我用正则模拟的方式。
使用正则表达式获取数据方法如下:url='/charts/{name}'req=requests.get(url)time.sleep(。
<p>3)charts.json=req.json()data=charts.json['data']其中data数据为关键字data,可以加上自定义的关键字,如tags:{"title":"天池数据集charts","name":"数据挖掘","segment":{"area":['xxx','yyy']}}req=requests.get(req).text'charts.json=req.json()'下面是对req.json()输出的内容:第3行的{"text":"数据挖掘专业"}为我们自定义的{"text":"数据挖掘专业"},在这种情况下,数据来源的本质是:数据挖掘专业