python抓取动态网页(Python爬虫使用Selenium+PhantomJSAjax和动态HTML内容》)

优采云发布时间: 2022-01-04 19:07

　　1 简介

　　在上一篇《Python爬虫：爬取Drupal论坛帖子列表》中，爬取了一个用Drupal制作的论坛。它是一个静态页面。爬行更容易。即使直接解析html源文件，也能抓取到自己需要的内容。. 相反，JavaScript 实现的动态网页内容无法从 html 源代码中抓取所需的内容，必须先执行 JavaScript。

　　我们在《Python爬虫使用Selenium+PhantomJS捕获Ajax和动态HTML内容》一文中测试了动态网页内容的爬取方法。代码变得非常简洁。

　　二、技术要点

　　我们在很多文章中都说过这个开源爬虫的目的：节省程序员的时间。关键是要节省编写提取规则的时间，尤其是调试规则。需要时间来节省时间。节省时间的问题在《1分钟快速生成网页内容提取的xslt》一文中已经解决。在本文中，我们使用京东网站作为测试对象，电子商务网站有很多动态内容，比如商品价格、评论数等，经常使用post-加载方法。html源文件加载完成后，执行javascript代码填充动态内容。因此，本案例主要验证动态内容的爬取。

　　另外，本文案例没有使用GooSeeker爬虫API，而是将MS Strategy生成的xslt脚本程序保存在本地文件中。当程序运行时，文件被读出并注入到 gsExtractor 提取器中。后续会有特例来演示如何使用API

　　综上所述，本例的两个技术点总结如下：

　　3.Python源代码

　　源码下载位置请见文章末尾的GitHub源码。

　　4. 获取结果

　　运行上面的代码，会抓取京东手机分类页面上的所有手机型号、价格等信息，并保存到本地文件“京东手机list_1.xml”中。当我们用浏览器打开这个结果文件时，我们会看到如下内容。

　　五、相关文件

　　1. Python Instant Web Crawler 项目：内容提取器的定义

　　6、采集GooSeeker开源代码下载

　　1. GooSeeker开源Python网络爬虫GitHub源码

　　7. 文档修订历史

　　1, 2016-06-11: V1.0

0

2022-01-04

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(Python爬虫使用Selenium+PhantomJSAjax和动态HTML内容》)

0 个评论

发起人

AI时代内容工厂

python抓取动态网页(Python爬虫使用Selenium+PhantomJSAjax和动态HTML内容》)

0 个评论

发起人

相关问题