python抓取网页数据(炉石传说爬虫前不要的暂停时间是怎么样的？)

优采云发布时间: 2022-04-17 18:15

　　然后就用requests来获取网页的源代码

　　使用BeautifulSoup/正则表达式/pyQuery解析元素并遍历对应img的url进行下载

　　教训：不要在爬虫之前根据网页的操作来实现相应的代码爬取。不要有这样的心态。首先要做的是浏览和分析整个网页的源代码。再加工

　　炉石卡链接：

　　网站通过下拉右侧的滚动条不断加载新卡片

　　与上一个网站不同的是，最后一个网站一次写了所有卡片，但它被隐藏了

　　网站是js动态加载渲染的卡片，无法直接从源码中获取所有卡片信息。

　　然后用selenium来模拟下拉滚动条（selenium是家里必备神器）

　　使用selenium执行js脚本每次下拉1000个单位的滚动条90次

　　为什么在 90 次测试中大约有 90 次被拉到最后？

　　注意：此处为网页渲染添加 1~3 秒的暂停时间

　　第一次没设置停留时间，拿不到新数据，怀疑自己，怀疑人生

　　根据前端/后端朋友L的提示，需要增加暂停时间，这样才能获取到加载渲染后的数据。

　　browser.page_source 获取动态加载的所有数据

　　有了数据之后，通过正则匹配得到对应的url下载就很简单了。

　　终于拿到了800幅原画和1324张卡片

　　既然获得了这么多卡牌和原画，那就不能浪费了，拿来拼图吧！

　　向玩了几年的炉石致敬

　　只拼女神

　　完全的

0

2022-04-17

python抓取网页数据

0 个评论

要回复文章请先登录或注册