java爬虫抓取动态网页(爬虫小白给了个任务要抓一些数据,觉着没什么问题)
优采云 发布时间: 2022-02-05 14:02java爬虫抓取动态网页(爬虫小白给了个任务要抓一些数据,觉着没什么问题)
爬虫小白,昨天领导给了一个任务,抓一些数据。看完下一页,我以为是简单的页面分析。我觉得没有问题。
页:
要求:高校、专业查询的数据按原样采集
1、问题
最初采用requests+BeautifulSoup分析的方式,抓取高校查询的数据没有问题(代码在最后),但是抓取专业查询的数据时,出现了不一致抓到的页面和浏览器看到的,每次爬取的都是高校查询的数据,修改参数也没用。应该是js的问题(懂的可以告诉我)。
查了半天,问题还是没有解决。我只能叫大佬(大佬厉害)。大佬推荐使用pyppeteer。
2、pyppeteer 安装
在 Anaconda Prompt 中执行
pip install pyppeteer -i https://pypi.tuna.tsinghua.edu.cn/simple
安装时出错:
Cannot uninstall ‘certifi‘. It is a distutils installed project and thus we cannot accurately determ
解决方案:
Chromium 会在第一次执行 pyppeteer 程序时自动下载。如果网络不允许,可以离线下载安装
2、解决问题
所有设备都安装好了,你可以在这里阅读并开始解决问题。仿真过程如下:
① 进入页面;
② 点击专业查询;
③ 点击查询;
④ 分析数据;