python抓取网页数据(炉石传说爬虫前不要的暂停时间是怎么样的?)

优采云 发布时间: 2022-04-17 18:15

  python抓取网页数据(炉石传说爬虫前不要的暂停时间是怎么样的?)

  然后就用requests来获取网页的源代码

  使用BeautifulSoup/正则表达式/pyQuery解析元素并遍历对应img的url进行下载

  教训:不要在爬虫之前根据网页的操作来实现相应的代码爬取。不要有这样的心态。首先要做的是浏览和分析整个网页的源代码。再加工

  炉石卡链接:

  

  网站 通过下拉右侧的滚动条不断加载新卡片

  与上一个网站不同的是,最后一个网站一次写了所有卡片,但它被隐藏了

  网站是js动态加载渲染的卡片,无法直接从源码中获取所有卡片信息。

  然后用selenium来模拟下拉滚动条(selenium是家里必备神器)

  

  使用selenium执行js脚本每次下拉1000个单位的滚动条90次

  为什么在 90 次测试中大约有 90 次被拉到最后?

  注意:此处为网页渲染添加 1~3 秒的暂停时间

  第一次没设置停留时间,拿不到新数据,怀疑自己,怀疑人生

  根据前端/后端朋友L的提示,需要增加暂停时间,这样才能获取到加载渲染后的数据。

  browser.page_source 获取动态加载的所有数据

  有了数据之后,通过正则匹配得到对应的url下载就很简单了。

  

  终于拿到了800幅原画和1324张卡片

  

  

  既然获得了这么多卡牌和原画,那就不能浪费了,拿来拼图吧!

  向玩了几年的炉石致敬

  

  

  只拼女神

  

  

  完全的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线