php抓取网页表格信息(爬取空气质量检测网之部分城市的历年每天质量数据思路)
优采云 发布时间: 2021-11-15 00:07php抓取网页表格信息(爬取空气质量检测网之部分城市的历年每天质量数据思路)
爬取空气质检网多年来部分城市的日常质量数据思路-------------------------------- --- ------从某城市空气质量网页获取某城市的月度链接,然后抓取月表数据。连云港市:php?city=连云港2014年5月连云港空气质量:php?city=连云港&month=2014-05遇到的问题-------------------- --- -------------------获取的网页中的表格数据是隐藏的,尝试请求是无法获取的。判断可能是动态加载网页尝试----------------------------------------- 1. 通过XHR、js找到隐藏数据的加载网页,但是没有找到。2. 使用phantomjs.get() result=pd.read_html 获取隐藏的表数据,但是不稳定,
仍然遇到的问题:-----------------------------------------Crawl one Data is available在网页上,但是如果连续检索网页会出现两个错误。1.Message: ReferenceError: items is not defined2.connection denied 解决方法:1.connection denied 问题,可能是打开的网页太多,使用 driver.quit()< @2. 如果execute_script 仍然失败,请尝试pd.read_html 获取信息。之前使用phantomjs获取空表的时候,可能是因为加载不足,使用Waite直到表出现才获取网页Element=wait.until(EC.element_to_be_clickable((By.XPATH,"/html/body) /div[3] /div[1]/div[1]/table/tbody")))3. 偶尔会出现输出为空的情况。使用循环。如果输出表为空,请再次获取。if len(result)>1:filename = str(month) +'.xls'result.to_excel('E:\python\case program\data\\' + filename)print('successfully saved'+filename)driver .退出()else:driver.quit()return getdata(monthhref,month)