如何为你的机器学习项目抓取网页数据?

优采云 发布时间: 2022-05-04 06:23

  如何为你的机器学习项目抓取网页数据?

  

  作者 | Tobi Olabode译者 | Sambodhi策划 | 凌敏

  前不久,我在 LearnML 子论坛上看到一篇帖子。楼主在这篇帖子中提到,他需要为自己的机器学习项目抓取网页数据。很多人在回帖中给出了自己的方法,主要是学习如何使用 BeautifulSoup 和 Selenium。

  我曾在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中,我将告诉你如何用一些有用的数据抓取一个网页,并将其转换成 pandas 数据结构(DataFrame)。

  为什么要将其转换成数据结构呢?这是因为大部分机器学习库都能处理 pandas 数据结构,并且只需少量修改就可对你的模型进行编辑。

  首先,我们要在维基百科上找到一个表来转换成数据结构。我抓取的这张表,展示的是维基百科上浏览量最大的运动员数据。

  

  其中一项大量的工作就是,通过浏览 HTML 树来得到我们需要的表。

  

  通过 request 和 regex 库,我们开始使用 BeautifulSoup。

  from bs4 import BeautifulSoup<br />import requests<br />import re<br />import pandas as pd<br />

  下面,我们将从网页中提取 HTML 代码:

<p>website_url = requests.get('https://en.wikipedia.org/wiki/Wikipedia:Multiyear_ranking_of_most_viewed_pages').text<br />soup = BeautifulSoup(website_url, 'lxml')<br />print(soup.prettify())<br /></a><br /><br /><br /><br />Disclaimers<br /><br /><br /><br /><br />Contact Wikipedia<br /><br /><br /><br />

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线