js抓取网页内容(自由爸爸，iceblueiceblue，王阳阳详细内容请参考 )

优采云发布时间: 2022-01-10 00:01

　　js抓取网页内容(自由爸爸，iceblueiceblue，王阳阳详细内容请参考

)

　　转载自：自由爸爸、冰蓝iceblue、王洋洋

　　详细请参考：Selenium-Python中文文档

　　Python 有很多库可以让我们轻松编写网络爬虫，爬取特定页面，获取有价值的信息！但很多情况下，爬虫获取到的页面只是静态页面，也就是网页的源代码，就像在浏览器上“查看网页源代码”一样。一些动态的东西，比如执行javascript脚本产生的信息，是无法捕获的。这里有一些解决方案可以用于python爬取js执行后输出的信息。

　　1. 两个基本解决方案1.1 用dryscrape库动态抓取页面

　　js脚本由浏览器执行并返回信息。因此，在js执行后捕获页面最直接的方法之一就是使用python来模拟浏览器的行为。WebKit是一个开源的浏览器引擎，python提供了很多库来调用这个引擎，dryscrape就是其中之一，它调用webkit引擎来处理收录js的网页等等！

　　1 import dryscrape

2 # 使用dryscrape库动态抓取页面

3 def get_url_dynamic(url):

4 session_req=dryscrape.Session()

5 session_req.visit(url) #请求页面

6 response=session_req.body() #网页的文本

7 #print(response)

8 return response

9 get_text_line(get_url_dynamic(url)) #将输出一条文本

　　这也适用于其他收录js的网页！虽然可以满足爬取动态页面的要求，但是缺点还是很明显：慢！它太慢了。其实想想也是有道理的。Python调用webkit请求页面，页面加载完毕后，加载js文件，让js执行，返回执行的页面。应该慢一点！另外，可以调用webkit的库还有很多：PythonWebkit、PyWebKitGit、Pygt（可以用它写浏览器）、pyjamas等，听说也可以实现同样的功能！

　　1.2 selenium web 测试框架

　　Selenium是一个web测试框架，允许调用本地浏览器引擎发送网页请求，因此也可以实现爬取页面的需求。

　　# 使用 selenium webdriver 有效，但会实时打开浏览器窗口

　　1 def get_url_dynamic2(url):

2 driver=webdriver.Firefox() #调用本地的火狐浏览器，Chrom 甚至 Ie 也可以的

3 driver.get(url) #请求页面，会打开一个浏览器窗口

4 html_text=driver.page_source

5 driver.quit()

6 #print html_text

7 return html_text

8 get_text_line(get_url_dynamic2(url)) #将输出一条文本

　　这也是一个临时解决方案！类似selenium的框架也有风车，感觉稍微复杂一点，就不细说了！

　　2. selenium 安装及使用2.1 selenium 安装

　　要在 Ubuntu 上安装，您可以直接使用 pip install selenium。出于以下原因：

　　1. selenium 3.x 启动，在 webdriver/firefox/webdriver.py 的 __init__ 中，executable_path="geckodriver"; 并且 2.x 是 executable_path="wires"

　　2.firefox 47及以上版本需要下载第三方驱动，即geckodriver

　　还需要一些特殊操作：

　　1. 下载geckodriverckod地址：mozilla/geckodriver

　　2. 解压后geckodriverckod存放在/usr/local/bin/: sudo mv ~/Downloads/geckodriver /usr/local/bin/

　　2.2 硒的使用

　　1. 运行错误：

　　驱动程序= webdriver.chrome()

　　TypeError：“模块”对象不可调用

　　解决方法：浏览器名称需要大写Chrome和Firefox，即

　　2. 由

　　1 content = driver.find_element_by_class_name('content')

　　定位元素时，此方法返回 FirefoxWebElement。当你想获取收录的值时，你可以通过

　　1 value = content.text

0

2022-01-10

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(自由爸爸，iceblueiceblue，王阳阳详细内容请参考 )

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(自由爸爸，iceblueiceblue，王阳阳详细内容请参考 )

0 个评论

发起人

相关问题