js提取指定网站内容(PhantomJs局域网设置 )
优采云 发布时间: 2022-03-25 06:11js提取指定网站内容(PhantomJs局域网设置
)
PhantomJs 是一个“无头”=浏览器,
下载地址:
下载后最好将bin目录设置为环境变量
他会将 网站 加载到内存中并在页面上执行 JavaScript,但他不会向用户显示网页的 GUI(在后台运行浏览器),可以处理 cookie、JavaScript、标头以及您需要做的任何其他事情
注意:
公司部分内网将被阉割并被举报
urllib2.URL错误:
因为IE LAN有代理
from selenium importwebdriver
import time
driver =webdriver.PhantomJS(executable_path="C:/phantomjs/bin/phantomjs")
driver.get('http://pythonscraping.com/pages/javascript/ajaxDemo.html')
time.sleep(3)
print(driver.find_element_by_id("content").text)
如果设置环境变量后无法正常调用环境变量,定义webdriver时指定phantomJs的目录
你可以使用webdriver的一些功能。
如果还想用bs4解析网页,可以使用pagesource函数返回页面的源代码字符串
pageSource =driver.page_source
bsObj =BeautifulSoup(pageSource)
print(bsObj.find(id="content").get_text())