c爬虫抓取网页数据(.4win7框架:如何获取网页上动态加载的数据)
优采云 发布时间: 2021-11-13 04:21c爬虫抓取网页数据(.4win7框架:如何获取网页上动态加载的数据)
环境:python3.4
赢7
框架:scrapy
继上一篇之后,这次我将讲如何获取网页上动态加载的数据:
作为初学者,刚开始接触爬虫的时候,我们一般只会爬取一些静态内容(如何区分静态内容和动态内容,这里不讲理论,只教一些小方法):
首先打开谷歌浏览器,然后按F12,就会弹出谷歌自带的开发者工具,首先在“元素”下找到你需要抓取的内容;
然后,在网页可视化界面上右键,选择查看网页源代码。网页源码就是我们按照抓取静态网页的方法在网页中可以看到的所有东西,开发者工具可以查看。有些东西我们在网页的源代码中是看不到的;
最后,通过将我们在F12中查看的内容与网页源代码中的内容进行对比,我们可以初步判断哪些数据是静态加载的,哪些数据是动态加载的。
--------- ---分割线-----------
一般的请求方法有两种,post请求方法和get请求方法。在这篇文章中,我们先说一下get请求方法。
说到get请求,这应该是最常用的请求之一。表达 get 请求的最直观方式是什么?其实我们把网址放在地址栏中打开网页,这是一个get请求。
--------- ---分割线-----------
好的,现在让我们进入主题:让我们先用一个例子来描述它。抓取大型购物的商品评论时网站:
当我们点击 1 或 2 3 4 时,我们会发现 URL 根本没有变化,这意味着这些评论是动态加载的。然后我们使用F12下的抓包工具尝试抓包:(F12,然后选择“网络”),出现下图:
接下来是最重要的:在可视化界面中,我们点击“2”按钮,让评论页面跳转到第二页,看看能否顺利抓包:
OK,可以看到有2个gif文件,2个png文件,还有一个脚本文件。一开始,我们不知道应该检查哪个文件。好吧,最笨的办法,一个一个点进去:所以你管我把它们都订了,除了脚本文件,其他的都是这样的:
哈哈,如果没有next,那我们只能检查脚本文件了。看Response,发现只是一堆代码,查起来好像不方便?好的,没问题,我们试试预览,效果会很好。. . . 很高兴找到结果:
你看到吗!评论评论,大家应该相信网站大写手的英文是绝对没问题的,不会像我一样给评论起个“pinglun”的吧!
然后点击这条评论看看里面有什么:
好了,就是我们要的注释了,所以这个文件所在的URL就是我们需要的,接下来我们通过看Headers来获取URL!
URL就是我们需要的URL(URL被马赛克抹掉了,不好意思各位,因为我哥也怕被水表查),状态值为200表示访问成功,访问方法: GET,回显话题,使用get请求获取网页的动态加载数据。好了,今天的教程到此结束。什么?不构造一个获取请求?那请到我的第一篇博文找大神的爬虫教程链接~~~~
好了,这篇文章到此结束。我从头到尾都没有看到任何代码。哈哈,有时候教他们钓鱼不如教他们钓鱼。代码很重要,方法也很重要。有了这些分析方法,相信大家都能快速掌握获取动态网页内容的技巧。下一篇我们会讲如何使用post请求来获取网页的动态加载数据~我们下期再见