python抓取动态网页(一个基于webkit内核的无头浏览器浏览器)

优采云发布时间: 2022-03-21 05:15

　　查看元素后发现百度图片中，显示图片的div是：pullimages

　　这个 div 里面的内容是动态加载的。但是使用urllib&urllib2就爬不上了。

　　要抓取动态加载的元素，首先考虑使用 selenium 调用浏览器进行抓取。

　　而我们的运行环境是linux，最理想的方式是无界面抓取，所以使用selenium+phantomjs无界面抓取。

　　什么是phantomjs？它是一个基于webkit核心的无头浏览器，也就是没有UI界面，就是一个浏览器。

　　selenium和phantomjs的安装配置可以google，这里就不多说了。

　　代码如下：

　　from selenium import webdriver

driver = webdriver.PhantomJS(executable_path='/bin/phantomjs/bin/phantomjs')

#如果不方便配置环境变量。就使用phantomjs的绝对路径也可以

driver.get('http://image.baidu.com/i?ie=utf-8&word=%E5%91%A8%E6%9D%B0%E4%BC%A6')

#抓取了百度图片，query：周杰伦

driver.page_source

#这就是返回的页面内容了，与urllib2.urlopen().read()的效果是类似的，但比urllib2强在能抓取到动态渲染后的内容。

driver.quit()

　　去这里。成功抓取动态页面。

0

2022-03-21

python抓取动态网页

0 个评论

要回复文章请先登录或注册