java爬虫抓取动态网页(爬虫小白给了个任务要抓一些数据，觉着没什么问题)

优采云发布时间: 2022-02-05 14:02

　　爬虫小白，昨天领导给了一个任务，抓一些数据。看完下一页，我以为是简单的页面分析。我觉得没有问题。

　　页：

　　要求：高校、专业查询的数据按原样采集

　　1、问题

　　最初采用requests+BeautifulSoup分析的方式，抓取高校查询的数据没有问题（代码在最后），但是抓取专业查询的数据时，出现了不一致抓到的页面和浏览器看到的，每次爬取的都是高校查询的数据，修改参数也没用。应该是js的问题（懂的可以告诉我）。

　　查了半天，问题还是没有解决。我只能叫大佬（大佬厉害）。大佬推荐使用pyppeteer。

　　2、pyppeteer 安装

　　在 Anaconda Prompt 中执行

　　pip install pyppeteer -i https://pypi.tuna.tsinghua.edu.cn/simple

　　安装时出错：

　　Cannot uninstall ‘certifi‘. It is a distutils installed project and thus we cannot accurately determ

　　解决方案：

　　Chromium 会在第一次执行 pyppeteer 程序时自动下载。如果网络不允许，可以离线下载安装

　　2、解决问题

　　所有设备都安装好了，你可以在这里阅读并开始解决问题。仿真过程如下：

　　① 进入页面；

　　② 点击专业查询；

　　③ 点击查询；

　　④ 分析数据；

0

2022-02-05

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册