网页数据抓取怎么写(广告网站数据采集工具用哪个好?300万+用户选择八抓鱼^)
优采云 发布时间: 2022-01-22 07:11网页数据抓取怎么写(广告网站数据采集工具用哪个好?300万+用户选择八抓鱼^)
不久前,我在LearnML 子论坛上看到了一个帖子。楼主在这篇文章中提到,他的机器学习项目需要抓取网络数据。很多人在回复中给出了自己的方法,主要是学习BeautifulSoup和Selenium的使用方法。
我在一些数据科学项目中使用了 BeautifulSoup 和 Selenium。在本文中,我将向您展示如何使用一些有用的数据抓取网页并将其转换为 pandas 数据结构(DataFrame)。
为什么要将其转换为数据结构?这是因为大多数机器学习库都可以处理 pandas 数据结构并以最少的修改来编辑您的模型。
首先,我们将在 Wikipedia 上找到一个表以转换为数据结构。我抓取的这张表显示了维基百科上浏览次数最多的运动员数据。
广告网站数据采集哪个是最好用的工具?300+用户选择霸主鱼^^优采云,全可视化图形操作,无需专业IT人员操作,支持云采集,数据...
很多工作都是通过 HTML 树来获取我们需要的表格。
广告python的网站,python基础+爬虫+数据分析+人工智能,全套视频教程免费在线学习!^^ 科大讯飞高级技术讲师指导...
通过 request 和 regex 库,我们开始使用 BeautifulSoup。
复制代码
接下来,我们将从网页中提取 HTML 代码:
复制代码
从语料库中采集所有表格,我们有一个小的表面积要搜索。
复制代码
因为有很多表,所以需要一种过滤它们的方法。
据我们所知,克里斯蒂亚诺·罗纳尔多(又名葡萄牙足球运动员克里斯蒂亚诺·罗纳尔多)有一个锚标签,这在几张桌子中可能是独一无二的。
广告大佬整理的进阶python路径,完整的python学习路径供你学习。^^ 加群免费领取,还可以参与每日python直播...
使用 Cristiano Ronaldo 文本,我们可以过滤那些由锚点标记的表格。此外,我们还发现了一些收录此锚标记的父元素。
复制代码
父元素仅显示单元格。
这是一个带有浏览器 Web 开发工具的单元。
广告免费在线学习python网络编程基础,国内品牌机构专业教学,O基础快速学习,1小时快速入门^^,7天python网络编程...
复制代码
使用 tbody,我们可以返回收录先前锚标记的其他表。
为了进一步过滤,我们可以在下表中的不同标题下进行搜索:
复制代码
第三个看起来很像我们需要的表格。
接下来,我们开始创建必要的逻辑来提取和清理我们需要的细节。
复制代码
分解它:
复制代码
接下来,我们从上面的列表中选择第三个元素。这是我们需要的表。
接下来创建一个空列表来存储每一行的详细信息。遍历表时,设置一个循环来遍历表中的每一行并将其保存到 rows 变量。
复制代码
广告新手如何学习网页设计?
复制代码
创建嵌套循环。遍历前一个循环中保存的每一行。在遍历这些单元格时,我们将每个单元格保存在一个新变量中。
宣传我采集的 30 本词典网站
复制代码
这段简短的代码让我们在从单元格中提取文本时避免出现空单元格并防止错误。
复制代码
在这里,我们将各种单元格清理为纯文本。清除的值保存在其列名下的变量中。
复制代码
在这里,我们将这些值添加到行列表中。然后输出清理后的值。
复制代码
以下将其转换为数据结构:
复制代码
广告网络大数据(上市机构),名企董事讲座,限时预约。网络大数据,点击查看公开课的具体详情!
现在,您拥有可以在机器学习项目中使用的 pandas 数据结构。您可以使用自己喜欢的库来拟合模型数据。
关于作者:
Tobi Olabode 对技术感兴趣,目前专注于机器学习。
原文链接: