网页css js 抓取助手( 基于Selenium的库——Helium库简介—库)
优采云 发布时间: 2022-01-19 12:11网页css js 抓取助手(
基于Selenium的库——Helium库简介—库)
对于 Python 自动化测试或爬虫开发者来说,你一定听说过 selenium 库。Selenium 本身用作 Web 应用程序测试工具,但它作为爬虫工具也有广泛的用途。
尽管 Selenium 易于使用,但它大部分时间都在处理网页元素,并且需要了解 HTML 页面标签、CSS 选择器和其他知识。
虽然自动化程度很高,但使用起来还是不是很方便,上手也不是很容易。今天小编带大家认识一个基于Selenium的库——Helium。
Helium 库简介
Helium 库是基于 Selenium 的更高级的 Web 自动化工具,它可以通过网页上可以看到的标签和名称等信息实现用户交互。我们可以使用它来执行一系列的鼠标和键盘操作,比如在键盘上点击按键、点击标签、滚动鼠标。
Helium的安装也很简单,如下图所示:
只需要pip install Helium 即可安装,但需要注意的是普通的安装方式会很慢,所以小编使用清华镜像帮助下载,提高下载速度。
安装后,我们可以使用 Helium。首先,我们使用 Helium 登录 GitHub 账号。效果如下图所示:
上图中的程序跳转到GitHub登录界面,然后输入用户名和用户密码,最后点击Login登录GitHub账号。过程非常简单。我们来看看程序是怎么写的。
上面的程序只有短短的五行,每一行的意思都非常清楚,不含糊。
然后程序可以直接登录。下图是对应的selenium登录GitHub程序。
相比之下,可以看出 Helium 程序非常简洁易用。让大家对每一步操作都很清楚。
爬行的女孩图片
接下来,为了更好的展示Helium的强大,小编使用Helium自动抓取百度图片中的女生图片,看看我们是如何实现的,我们先介绍一下程序,按照自己想要的方式下载百度图片对程序的思考。
在上面的程序中,左边是我们的程序索引,右边是我们的程序。我们可以按照提取百度图片的思路看一下程序。小编一步步解释每一行代码:
上面的每一行都对应了程序中每条语句的含义,所以理解起来非常方便。
说实话,之前用过Selenium,但总觉得用起来太重,太贵。现在我有了这个神器,做了一些封装,为我们节省了很多东西。Python 这么有趣,你还在等什么?, 如果你有兴趣,请尝试一下。顺便转发+评论,小编会持续分享Python干货知识!