动态网页抓取(Selenium网页元素2.安装环境安装依赖安装教程 )

优采云 发布时间: 2022-01-04 08:09

  动态网页抓取(Selenium网页元素2.安装环境安装依赖安装教程

)

  一、硒

  (一)Selenium 介绍

  Selenium 是一个网络自动化测试工具。它最初是为 网站 自动化测试而开发的。类型就像我们用来玩游戏的按钮向导。可根据指定指令自动运行。不同的是Selenium可以直接运行。在浏览器上,它支持所有主流浏览器(包括 PhantomJS 这些无界面浏览器)。

  Selenium 可以根据我们的指令让浏览器自动加载页面,获取需要的数据,甚至可以对页面进行截图,或者判断是否对网站进行了某些操作。

  Selenium 没有浏览器,不支持浏览器的功能。需要配合第三方浏览器使用。但是我们有时需要让它嵌入到代码中运行,所以我们可以使用一个叫做 PhantomJS 的工具来代替真正的浏览器。

  (二)安装环境

  1.安装依赖·

  要开始使用selenium,需要安装一些依赖

  conda install selenium

  1.安装驱动

  使用selenium调用浏览器,还需要一个驱动,不同浏览器的webdriver需要单独安装

  二、自动填写百度网页查询关键词,完成自动搜索

  1.查看百度源码中搜索框的id和搜索按钮的id

  2.获取百度网页

  从 selenium 导入 webdriver

  driver = webdriver.Firefox(executable_path=r'F:\browserdriver\geckodriver-v0.30.0-win64\geckodriver.exe')

  driver.get("")

  3.填写搜索框

  p_input = driver.find_element_by_id('kw')

  打印(p_input)

  打印(p_input.location)

  打印(p_input.size)

  打印(p_input.send_keys('123'))

  打印(p_input.text)

  4.模拟点击

  使用另一个输入,即按钮的点击事件,或者表单的提交事件

  三、抓取动态网页的数据

  1.抓取网页元素

  

  2.按钮属性

  抓取一个页面后,需要翻页,即点击翻页按钮。

  可以发现Next按钮只有href属性,无法定位。并且第一页只有下一页按钮,后面的页面有上一页和下一页按钮,xpath无法定位,其子元素span(即箭头)在属性aria-hidden中第一页它是独一无二的。 aria-hidden 属性存在于后续页面中,但 Next 的箭头始终是最后一个。

  所以你可以找到最后一个带有 aria-hidden 属性的 span 标签,然后点击跳转到下一页:

  

  (3)网站页面

  点击Nest,可以找到网站10页

  (三)代码实现

  1.代码

  2.保存的抓取结果

  

  四、在京东上爬取感兴趣的书籍信息网站

  2.爬取结果

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线