如何用一些有用的数据抓取一个网页数据(图)
优采云 发布时间: 2021-08-18 02:07如何用一些有用的数据抓取一个网页数据(图)
不久前,我在LearnML分论坛上看到了一个帖子。主机在这篇文章中提到他需要为他的机器学习项目抓取网络数据。很多人在回复中给出了自己的方法,主要是学习如何使用BeautifulSoup和Selenium。
我在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中,我将告诉您如何抓取收录一些有用数据的网页并将其转换为 Pandas 数据结构(DataFrame)。
为什么要转换成数据结构?这是因为大多数机器学习库都可以处理 Pandas 数据结构,并且您只需稍作修改即可编辑您的模型。
首先,我们需要在维基百科上找到一张表格,转换成数据结构。我抓到的表格显示了维基百科上观看次数最多的运动员数据。
许多任务之一是浏览 HTML 树以获取我们需要的表格。
通过请求和正则表达式库,我们开始使用 BeautifulSoup。
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
复制代码
接下来,我们将从网页中提取 HTML 代码:
<p>website_url = requests.get('https://en.wikipedia.org/wiki/Wikipedia:Multiyear_ranking_of_most_viewed_pages').text
soup = BeautifulSoup(website_url, 'lxml')
print(soup.prettify())
</a>
Disclaimers
Contact Wikipedia