python抓取动态网页(.4win7框架:如何获取网页上动态加载的数据)

优采云 发布时间: 2021-09-12 05:11

  python抓取动态网页(.4win7框架:如何获取网页上动态加载的数据)

  环境:python3.4

  win7

  框架:scrapy

  接上一篇,这次讲一下如何获取网页上动态加载的数据:

  作为初学者,我们在第一次接触爬虫的时候,一般只会抓取一些静态内容(如何区分静态内容和动态内容,这里不讲理论,教的是一些小方法):

  首先打开谷歌浏览器,然后按F12,就会弹出谷歌内置的开发者工具,先在“元素”下找到你需要抓取的内容;

  然后,在网页可视化界面右击,选择查看网页源代码。这个网页源码就是我们按照抓取静态网页的方法在这个网页上能看到的所有东西,而开发者工具可以看到一些我们在网页源码中看不到的东西;

  最后,通过对比我们在F12中查看的内容和网页源代码中的内容,我们可以初步判断哪些数据是静态加载的,哪些数据是动态加载的。

  ———————————————分割线————————————

  一般的请求方法有两种,post请求方法和get请求方法。这篇文章,我们先说说get请求方法。

  说到get请求,这应该是最常用的请求之一。表达 get 请求的最直观方式是什么?其实我们把网址放在地址栏中打开网页,这是一个get请求。

  ———————————————分割线————————————

  好的,现在我们进入正题:我们先通过一个例子来谈谈。当我们抓取一个大型购物网站的产品评论时:

  

  当我们点击1或2 3 4时,我们会发现网址根本没有变化。这意味着这些注释是动态加载的。然后我们将使用F12下的抓包工具来尝试捕获它们。 :(F12,然后选择“网络”),出现下图:

  

  接下来是最重要的:在可视化界面中,我们点击“2”按钮,让评论页面跳转到第二页,看能否顺利抓包:

  

  好的,可以看到有2个gif文件,2个png文件,还有一个脚本文件。一开始,我们不知道要检查哪个文件。好吧,最笨的办法,一一点击。 : 所以我都下单了,除了脚本文件,其他都是这样的:

  

  哈哈,就算没有,那我们也只能检查这个脚本文件了。看Response,发现只是一堆代码,查起来好像不方便?好的,没问题,我们试试预览,效果会很好。 . . 我发现结果很高兴听到:

  

  你看到了吗!评论评论,大家应该相信网站大佬的英文是绝对没问题的,不会像我一样给评论起个“pinglun”的!

  然后点击这条评论看看里面有什么:

  

  好的,就是我们想要的评论,所以这个文件所在的URL就是我们需要的,然后我们通过查看Headers来获取URL!

  

  URL是我们需要的网址(网址被马赛克抹掉了,对不起大家,因为我哥也怕被查水表),状态值为200表示访问成功,访问方法:GET,回显话题,使用get请求获取网页的动态加载数据。好了,今天的教程到此结束。什么?不构造一个获取请求?那请到我的第一篇博文找大神的爬虫教程链接~~~~

  好了,本文到此结束。我从头到尾都没有看到任何代码。哈哈,有时候教他们钓鱼不如教他们钓鱼。代码很重要,方法也很重要。有了这些分析方法,相信大家都能快速掌握获取动态网页内容的技巧。下一篇我们会讲如何使用post请求来获取网页的动态加载数据~我们下期再见

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线