js提取指定网站内容(PhantomJs局域网设置 )

优采云 发布时间: 2022-03-25 06:11

  js提取指定网站内容(PhantomJs局域网设置

)

  PhantomJs 是一个“无头”=浏览器,

  下载地址:

  下载后最好将bin目录设置为环境变量

  他会将 网站 加载到内存中并在页面上执行 JavaScript,但他不会向用户显示网页的 GUI(在后台运行浏览器),可以处理 cookie、JavaScript、标头以及您需要做的任何其他事情

  注意:

  公司部分内网将被阉割并被举报

  urllib2.URL错误:

  因为IE LAN有代理

  from selenium importwebdriver

import time

driver =webdriver.PhantomJS(executable_path="C:/phantomjs/bin/phantomjs")

driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html')

time.sleep(3)

print(driver.find_element_by_id("content").text)

  如果设置环境变量后无法正常调用环境变量,定义webdriver时指定phantomJs的目录

  你可以使用webdriver的一些功能。

  如果还想用bs4解析网页,可以使用pagesource函数返回页面的源代码字符串

  pageSource =driver.page_source

bsObj =BeautifulSoup(pageSource)

print(bsObj.find(id="content").get_text())

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线