如何为你的机器学习项目抓取网页数据？

优采云发布时间: 2022-05-04 06:23

　　如何为你的机器学习项目抓取网页数据？

　　作者 | Tobi Olabode译者 | Sambodhi策划 | 凌敏

　　前不久，我在 LearnML 子论坛上看到一篇帖子。楼主在这篇帖子中提到，他需要为自己的机器学习项目抓取网页数据。很多人在回帖中给出了自己的方法，主要是学习如何使用 BeautifulSoup 和 Selenium。

　　我曾在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中，我将告诉你如何用一些有用的数据抓取一个网页，并将其转换成 pandas 数据结构（DataFrame）。

　　为什么要将其转换成数据结构呢？这是因为大部分机器学习库都能处理 pandas 数据结构，并且只需少量修改就可对你的模型进行编辑。

　　首先，我们要在维基百科上找到一个表来转换成数据结构。我抓取的这张表，展示的是维基百科上浏览量最大的运动员数据。

　　其中一项大量的工作就是，通过浏览 HTML 树来得到我们需要的表。

　　通过 request 和 regex 库，我们开始使用 BeautifulSoup。

from bs4 import BeautifulSoup import requests import re import pandas as pd

　　下面，我们将从网页中提取 HTML 代码：

website_url = requests.get('https://en.wikipedia.org/wiki/Wikipedia:Multiyear_ranking_of_most_viewed_pages').text soup = BeautifulSoup(website_url, 'lxml') print(soup.prettify()) </a> Disclaimers Contact Wikipedia

0

2022-05-04

自动抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何为你的机器学习项目抓取网页数据？

0 个评论

发起人