网页表格抓取(Python编程语言Excel爬虫函数学起来容易些什么?(图))

优采云 发布时间: 2021-12-08 23:00

  网页表格抓取(Python编程语言Excel爬虫函数学起来容易些什么?(图))

  近年来,Python编程语言非常流行,很多人使用Python来开发网络爬虫工具。Python虽然简单,但学起来并不容易,需要一定的基础。今天小编就给大家介绍一个Excel爬虫功能,比较简单易学,可以满足特定场景下数据采集的需求。

  

  有一个基金网页#qdiie,网页上有一个数据表,如下图所示,需要将红框中标注的数据抓取到Excel表格中,并定期更新表格数据。

  

  爬取过程有六个步骤

  第一步,使用Firefox或Chrome打开目标网页,右键查看代码,找到表的id。如果 table 没有 id,则可以使用 table 类样式代替。

  

  第二步编写公式=GetTableByIdW(B1,"flex_qdiie"),其中B1指的是要抓取的URL,"flex_qdiie"指的是网页中table元素的id号。函数名中的 W 表示当前函数需要 Excel 浏览器的帮助。细心的朋友可能会有疑问,为什么要用Excel浏览器呢?原因是现在的网页越来越复杂,通过传统的HttpGet()或HttpPost()方法无法读取完整的网页,需要使用浏览器读取所有的网页数据。

  

  第三步,打开Excel浏览器,设置网页循环爬取任务。由于网页数据需要定期更新,需要Excel浏览器循环抓取网页。

  

  第四步是刷新Excel中的公式。这时候抓取函数会返回“flex_qdiie”表中的所有数据。这是一长串文本。可以发现每一列之间用分号隔开,每一行之间用两个分号隔开。. 找到规则后,我们可以使用 Split2Array() 函数对数据进行拆分和提取。

  513100;纳指etf;4.284;-0.93%;4228.65;29762;100;4.0850;20-11-16;4.0552;20-11-17;5.64%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;国泰基金;;164906;中国互联;1.994;-0.85%;556.36;8077;94;1.9950;20-11-16;1.9332;20-11-17;3.15%;-;-;-;中证海外中国互联网指数;-3.26%;1.20%;1.50%;交银施罗德;;513050;中概互联;2.080;-0.43%;13851.75;244643;-1300;2.1344;20-11-16;2.0605;20-11-17;0.95%;-;-;-;中国互联网50;-3.03%;0.50%;0.50%;易方达;;159822;新经济;1.024;-0.19%;1186.78;74473;-1500;1.0415;20-11-16;1.0269;20-11-17;-0.28%;-;-;-;标普中国新经济行业指数;-1.05%;;1.50%;银华基金;;159941;纳指etf;2.439;-1.01%;6268.25;39605;400;2.4695;20-11-16;2.4515;20-11-17;-0.51%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;广发基金;;513300;纳斯达克;0.991;-1.10%;2062.63;85267;-150;1.0042;20-11-16;0.9969;20-11-17;-0.59%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;华夏基金;;164824;印度基金;0.953;-0.52%;77.46;3293;-12;0.9669;20-11-16;0.9620;20-11-17;-0.94%;会员;会员;会员;印度etp指数;-;1.20%;1.50%;工银瑞信;;...

  第五步是对数据进行拆分和提取。先拆分每一行的数据,然后拆分每列的数据。

  

  第六步,使用公式=AutoRefresh(120)设置定时刷新任务,每120秒自动刷新一次表数据。

  一共六步,完美抓取一张表的数据,实现自动定时刷新。有了实时数据,就可以对数据进行处理和计算,达到监测预警的目的。怎么样,还算简单,写个公式就可以做网页数据采集。

  如果你觉得这个技巧很实用,请帮忙转发给你的朋友

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线