java爬虫抓取动态网页(爬虫小白给了个任务要抓一些数据,觉着没什么问题)

优采云 发布时间: 2022-02-05 14:02

  java爬虫抓取动态网页(爬虫小白给了个任务要抓一些数据,觉着没什么问题)

  爬虫小白,昨天领导给了一个任务,抓一些数据。看完下一页,我以为是简单的页面分析。我觉得没有问题。

  页:

  要求:高校、专业查询的数据按原样采集

  1、问题

  最初采用requests+BeautifulSoup分析的方式,抓取高校查询的数据没有问题(代码在最后),但是抓取专业查询的数据时,出现了不一致抓到的页面和浏览器看到的,每次爬取的都是高校查询的数据,修改参数也没用。应该是js的问题(懂的可以告诉我)。

  查了半天,问题还是没有解决。我只能叫大佬(大佬厉害)。大佬推荐使用pyppeteer。

  2、pyppeteer 安装

  在 Anaconda Prompt 中执行

  pip install pyppeteer -i https://pypi.tuna.tsinghua.edu.cn/simple

  安装时出错:

  Cannot uninstall ‘certifi‘. It is a distutils installed project and thus we cannot accurately determ

  解决方案:

  Chromium 会在第一次执行 pyppeteer 程序时自动下载。如果网络不允许,可以离线下载安装

  2、解决问题

  所有设备都安装好了,你可以在这里阅读并开始解决问题。仿真过程如下:

  ① 进入页面;

  ② 点击专业查询;

  ③ 点击查询;

  ④ 分析数据;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线