python抓取动态网页(Python爬虫使用Selenium+PhantomJSAjax和动态HTML内容》)

优采云 发布时间: 2022-01-04 19:07

  python抓取动态网页(Python爬虫使用Selenium+PhantomJSAjax和动态HTML内容》)

  1 简介

  在上一篇《Python爬虫:爬取Drupal论坛帖子列表》中,爬取了一个用Drupal制作的论坛。它是一个静态页面。爬行更容易。即使直接解析html源文件,也能抓取到自己需要的内容。. 相反,JavaScript 实现的动态网页内容无法从 html 源代码中抓取所需的内容,必须先执行 JavaScript。

  我们在《Python爬虫使用Selenium+PhantomJS捕获Ajax和动态HTML内容》一文中测试了动态网页内容的爬取方法。代码变得非常简洁。

  二、技术要点

  我们在很多文章中都说过这个开源爬虫的目的:节省程序员的时间。关键是要节省编写提取规则的时间,尤其是调试规则。需要时间来节省时间。节省时间的问题在《1分钟快速生成网页内容提取的xslt》一文中已经解决。在本文中,我们使用京东网站作为测试对象,电子商务网站有很多动态内容,比如商品价格、评论数等,经常使用post-加载方法。html源文件加载完成后,执行javascript代码填充动态内容。因此,本案例主要验证动态内容的爬取。

  另外,本文案例没有使用GooSeeker爬虫API,而是将MS Strategy生成的xslt脚本程序保存在本地文件中。当程序运行时,文件被读出并注入到 gsExtractor 提取器中。后续会有特例来演示如何使用API

  综上所述,本例的两个技术点总结如下:

  3.Python源代码

  

  源码下载位置请见文章末尾的GitHub源码。

  4. 获取结果

  运行上面的代码,会抓取京东手机分类页面上的所有手机型号、价格等信息,并保存到本地文件“京东手机list_1.xml”中。当我们用浏览器打开这个结果文件时,我们会看到如下内容。

  

  五、相关文件

  1. Python Instant Web Crawler 项目:内容提取器的定义

  6、采集GooSeeker开源代码下载

  1. GooSeeker开源Python网络爬虫GitHub源码

  7. 文档修订历史

  1, 2016-06-11: V1.0

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线