网页源代码抓取工具( 目标网页用关键字在源代码中查找最终代码验证结果)

优采云 发布时间: 2021-12-29 13:06

  网页源代码抓取工具(

目标网页用关键字在源代码中查找最终代码验证结果)

  

  概括

  根据网站结构和数据类型制作头条视频爬虫,重点关注数据在网站上的位置和爬取方式

  并介绍一个类似的网站,简单讲解一下数据抓取的方法

  使用工具:python3.6 + pycharm + requests 库 + re 库

  

  目标情况

  这次我们的目标网站是Ajax加载的数据。首先打开网页后,直接使用浏览器自带的开发者工具(火狐),点击网页,然后将网页向下滑动,点击xhr,找到json数据,可以看到大约有100条内容

  

  每个视频都有相关信息,我们只需要取出每个视频的url即可!然后去查看详情页

  

  很容易就能找到视频的真实地址!复制地址,重新打开网页验证,确认地址正确,然后去源码查看地址是否存在

  

  很明显,这个网站不是静态网站,数据应该是存放在一个js文件中的,那我们怎么获取呢~?我需要分析js文件还是使用selenium?别担心,我偶然发现了这个

  

  有没有发现网页源代码中存在url中的关键字,虽然不完全一样,但是我们可以和上一个标签中的内容进行比较

  

  

  可以确定,这里的值是网页渲染后出现在html标签中的值,在源码中有两个不同格式的视频地址!,很简单,我们来写代码吧!

  代码

  简单写,直接用requests请求内容,然后用re匹配,取出目标url

  类似网站

  

  其实还有一个网站和这种情况很相似,就是第二个视频,但是如果你想看更多的视频,还是需要打开客户端,所以我们就简单的以一个视频为例,抓取它。真实地址!具体过程就不一一讲解了,直接看结果,先看登陆页面

  

  使用关键字在源代码中搜索

  

  最终代码

  

  验证结果

  

  以上文章如有错误,请在留言区指出。如果这篇文章对你有用,请点赞转发。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线