httpunit 抓取网页(如何简便快捷使用python抓爬网页动态加载的数据(图))

优采云 发布时间: 2021-12-18 09:06

  httpunit 抓取网页(如何简便快捷使用python抓爬网页动态加载的数据(图))

  如何轻松快速地使用python抓取网页动态加载的数据

  但在实践中,我发现我原本以为的太简单了。页面上有很多数据不能简单地从html源代码中抓取,因为页面上显示的很多数据实际上是在js代码运行时通过ajax从远程服务器获取后动态的。页面加载时,不可能简单的读取html代码获取这些数据,然后通过逆向工程的方式研究它是如何构造http请求的,然后自己模拟发送这些请求来获取数据。:) 运行完上面的代码,就可以启动浏览器了,看到他打开京东主页了。这时候想在搜索框中自动输入关键词。我该怎么办?我通过html源代码找到了搜索框的id。键”因此,我们可以输入< @关键词通过如下代码模拟手动输入搜索框,然后模拟点击回车键实现搜索请求: search_box = driver.find_element_by_id(key) search_box.send_keys(word) search_box .send_keys 自浏览器和我们的代码不再运行在同一个进程中,我们需要调用 WebDriverWait 等待一段时间让浏览器完全加载页面。接下来,为了触发特定的Js代码获取动态加载的数据,我们要模拟一个人把页面拉下来的动作:SCROLL_PAUSE_TIME send_keys 由于浏览器和我们的代码不再运行在同一个进程中,所以我们需要调用WebDriverWait等待一段时间让浏览器完全加载页面。接下来,为了触发特定的Js代码获取动态加载的数据,我们要模拟一个人把页面拉下来的动作:SCROLL_PAUSE_TIME send_keys 由于浏览器和我们的代码不再运行在同一个进程中,所以我们需要调用WebDriverWait等待一段时间让浏览器完全加载页面。接下来,为了触发特定的Js代码获取动态加载的数据,我们要模拟一个人把页面拉下来的动作:SCROLL_PAUSE_TIME

  511

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线