python抓取网页数据(炉石传说爬虫前不要的暂停时间是怎么样的?)
优采云 发布时间: 2022-04-17 18:15python抓取网页数据(炉石传说爬虫前不要的暂停时间是怎么样的?)
然后就用requests来获取网页的源代码
使用BeautifulSoup/正则表达式/pyQuery解析元素并遍历对应img的url进行下载
教训:不要在爬虫之前根据网页的操作来实现相应的代码爬取。不要有这样的心态。首先要做的是浏览和分析整个网页的源代码。再加工
炉石卡链接:
网站 通过下拉右侧的滚动条不断加载新卡片
与上一个网站不同的是,最后一个网站一次写了所有卡片,但它被隐藏了
网站是js动态加载渲染的卡片,无法直接从源码中获取所有卡片信息。
然后用selenium来模拟下拉滚动条(selenium是家里必备神器)
使用selenium执行js脚本每次下拉1000个单位的滚动条90次
为什么在 90 次测试中大约有 90 次被拉到最后?
注意:此处为网页渲染添加 1~3 秒的暂停时间
第一次没设置停留时间,拿不到新数据,怀疑自己,怀疑人生
根据前端/后端朋友L的提示,需要增加暂停时间,这样才能获取到加载渲染后的数据。
browser.page_source 获取动态加载的所有数据
有了数据之后,通过正则匹配得到对应的url下载就很简单了。
终于拿到了800幅原画和1324张卡片
既然获得了这么多卡牌和原画,那就不能浪费了,拿来拼图吧!
向玩了几年的炉石致敬
只拼女神
完全的