网页表格抓取(Python表格型数据获取的准确性是需要考虑的因素? )
优采云 发布时间: 2022-03-03 15:27网页表格抓取(Python表格型数据获取的准确性是需要考虑的因素?
)
Python 有许多可以捕获数据的包,例如 selenium、requests、scrapy 和 pandas。每个包都有其适用性。我个人认为在抓数据的时候,代码的简洁性和数据获取的准确性是需要考虑的因素。不要太担心时间的速度。毕竟用python抓数据已经大大节省了时间。使用不同的方法可能是 1 秒和 1 分钟之间的差异。我们在日常生活中总是有抓取表格数据的需求。本文尝试用pandas最简洁的代码来抓取表数据。该代码非常简单且易于使用。
只需选择一个页面:
比如爬取下图中定向工具的注册审批文件(当然wind里面有数据,本文只是为了展示如何爬取表格数据)
一、爬取当前页面
只需要两个密钥代码即可获取它。前两句是导入相关模块,第三句是输入网址,第四句是用pandas读取。由于网页有很多表格,所以会以列表的形式存储在变量ppn中。,点击查看第十四张表格正是我们所需要的。
二、 抓取所有
但是第一部分只抓取第一页,如果要抓取所有页面,也很简单,写个循环就行了。点击下一页可以看到它的 URL 相应地发生了变化:
页码会体现在索引后面的数字中,所以可以把url改成变量组合,详见第五句。第一二句还在导入相关模块,第三句是生成一个空矩阵来存储爬取的结果,第四到第八句是一个简单的循环,每页爬取结果变量。然后将结果连续添加到输出中。最终的输出就是我们想要的结果。