python抓取动态网页(爬虫抓取数据时有些数据是动态数据，js动态加载的 )

优采云发布时间: 2021-09-14 11:19

　　python抓取动态网页(爬虫抓取数据时有些数据是动态数据，js动态加载的

)

　　有些数据是爬虫爬取数据时的动态数据。比如动态加载js。使用普通的urllib2爬取数据是找不到相关数据的。这是爬虫初学者最容易使用的方法。出现的情况是浏览器中有相应的信息，但是python爬取的网页中却没有相应的信息。这通常是因为网页使用js异步加载数据并动态显示。一种处理方式是找到对应的js接口，但是有时候这种情况是非常少见的，因为js的调用参数也被分析了，有的参数是加密的，还进行了解密；另一种方式是调用python Browser，控制浏览器返回相应的信息，这也是本文要介绍的selenium。

　　安装硒

　　python下安装selenium，命令：

　　pip install -U selenium

　　测试是否成功：

　　#!/usr/bin/python

#coding=utf-8

"""

start python 项目

"""

from selenium import webdriver

browser = webdriver.Firefox() # Get local session of firefox

browser.get("http://www.baidu.com") # Load page

print browser.page_source

　　虽然selenium安装成功，但还是报错：

　　selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

　　这是因为：

　　使用pip安装selenium，默认安装最新版本的selenium。用pip list查看我的selenium版本是3.4.2，firefox版本是43.0.1 是的，从selenium 3.x开始，在webdriver/firefox/的__init__ webdriver.py, executable_path="geckodriver";而2.x 是 executable_path="wires"

　　将 Firefox 升级到最新版本

　　下载地址：根据自己的电脑，下载win64位；

　　在firefox安装目录下，解压geckodriver，然后将path添加到path环境变量中。

　　可以相应地研究 selenium 文档。

　　使用 BeautifulSoup 进行 html 解析

　　如果你还不了解 BeautifulSoup，可以参考这个文章

　　找到html后，可以使用BeautifulSoup进行解析。

　　from bs4 import BeautifulSoup

bs = BeautifulSoup(browser.page_source, "lxml")

0

2021-09-14

python抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取动态网页(爬虫抓取数据时有些数据是动态数据，js动态加载的 )

0 个评论

发起人