网页源代码抓取工具( 目标网页用关键字在源代码中查找最终代码验证结果)
优采云 发布时间: 2021-12-29 13:06网页源代码抓取工具(
目标网页用关键字在源代码中查找最终代码验证结果)
概括
根据网站结构和数据类型制作头条视频爬虫,重点关注数据在网站上的位置和爬取方式
并介绍一个类似的网站,简单讲解一下数据抓取的方法
使用工具:python3.6 + pycharm + requests 库 + re 库
目标情况
这次我们的目标网站是Ajax加载的数据。首先打开网页后,直接使用浏览器自带的开发者工具(火狐),点击网页,然后将网页向下滑动,点击xhr,找到json数据,可以看到大约有100条内容
每个视频都有相关信息,我们只需要取出每个视频的url即可!然后去查看详情页
很容易就能找到视频的真实地址!复制地址,重新打开网页验证,确认地址正确,然后去源码查看地址是否存在
很明显,这个网站不是静态网站,数据应该是存放在一个js文件中的,那我们怎么获取呢~?我需要分析js文件还是使用selenium?别担心,我偶然发现了这个
有没有发现网页源代码中存在url中的关键字,虽然不完全一样,但是我们可以和上一个标签中的内容进行比较
可以确定,这里的值是网页渲染后出现在html标签中的值,在源码中有两个不同格式的视频地址!,很简单,我们来写代码吧!
代码
简单写,直接用requests请求内容,然后用re匹配,取出目标url
类似网站
其实还有一个网站和这种情况很相似,就是第二个视频,但是如果你想看更多的视频,还是需要打开客户端,所以我们就简单的以一个视频为例,抓取它。真实地址!具体过程就不一一讲解了,直接看结果,先看登陆页面
使用关键字在源代码中搜索
最终代码
验证结果
以上文章如有错误,请在留言区指出。如果这篇文章对你有用,请点赞转发。