如何抓取网页视频软件(如何用Python快速的抓取一个网页中所有表格的爬虫3.)
优采云 发布时间: 2021-09-12 11:01如何抓取网页视频软件(如何用Python快速的抓取一个网页中所有表格的爬虫3.)
之前在搜索vscode的快捷键时,发现一个页面以表格的形式展示了vscode的各种快捷键操作(如下图)。自从学了Python爬虫,就形成了惯性思维。当我在网页中看到什么更好,但复制起来不是很方便时,我会考虑如何用Python快速抓取它。下面简单介绍一下我的一些抢表思路和方法。
1.IE浏览器直接导出EXCLE
微软的设计还是很人性化的。以这种方式访问网页上表格中呈现的内容特别方便。我们只需要在页面上右击选择Export to EXCEL,就可以将页面上的内容导出到单元格中了。
这种方法的缺点是:
2.使用Python从网页中抓取表格
接下来就是本文的重点了,我们先直接上代码。
from bs4 import BeautifulSoup
import requests
import pandas as pd
url = 'https://segmentfault.com/a/1190000007688656'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')
tables = soup.select('table')
df_list = []
for table in tables:
df_list.append(pd.concat(pd.read_html(table.prettify())))
df = pd.concat(df_list)
df.to_excel('vscode快捷键大全.xlsx')
我知道对于很多没有学过编程知识的人来说,看到代码可能会气馁。我以前这样做过,因为对于从未接触过的人来说,这是一个非常不舒服的地方。不过,这是10行代码,可以完成一个简单的爬虫。重要的是这些代码可以复用,只需要修改传入的连接地址即可。
下面简单介绍一下代码的含义:
这样就完成了一个简单的爬虫,爬取一个网页中的所有表格
3.关于选择方法的建议
最后,我想强调的是,方法不是我们的最终目标。我们只是想以更方便的方式达到学习内容的目的,所以不要迷失在追求更高的方法中。
以本文为专栏,其实获得vscode快捷键操作表格最好的方法就是在浏览器中直接导出EXCEL,甚至直接复制粘贴。这样我们就可以把精力集中在学习vscode快捷键上,而不是获取这种形式。
如果,在另一种场景中,假设这张表的内容分散在很多很多网页中,那么我们仍然需要编译一个爬虫,这样会更快。而且,如果是基于学习python的目的,培养这种挖掘数据的思维也很重要。
所以,关键是我们要明确自己的目标,根据相应的目标选择最合适的方法。
下一期:下一篇文章我将介绍使用正则表达式从本地统计公报中抓取结构化数据