c爬虫抓取网页数据(c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2值)

优采云 发布时间: 2022-02-19 06:01

  c爬虫抓取网页数据(c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2值)

  c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2框架来抓取网页上的数据。urllib2用来接收网页上的请求数据,用于将urllib2接受到的数据返回给我们所用的http服务器。这里要注意,urllib2的返回数据如何存储呢?一般存储在cookie里面。而我们并不需要关心cookie是否真的存储到了cookie里面。

  我们只需要用requests库从网页上请求一些数据即可。我们用chrome浏览器(如chrome)来尝试一下。我们点击页面上的导航条。我们再点击抓取网页上的链接,此时我们看到如下页面。右键单击这一页,在弹出的快捷菜单中,选择浏览器自带的cookie选项。我们输入我们想抓取的链接,点击获取urllib2发送给我们的cookie数据。

  我们输入需要输入的ip,结果如下。我们来到这个页面,可以看到有多个网页,我们可以选择我们要获取数据的那个网页。然后我们输入cookie的值进行获取。输入用户名和密码,将会得到一个cookie值,那么我们如何获取该cookie值呢?用下面的代码获取cookie值一共遇到了两个问题:1.如何获取所有的cookie值2.如何获取相同cookie值cookie只能存储在cookie-list中首先是第一个问题,怎么获取所有的cookie值。

  直接上代码,这里我用的是python.web.cookieizelimit来获取一个cookie值。然后得到的结果就是我们想要的cookie值。下面说说第二个问题。我们想获取相同的cookie值。那么你可以用爬虫爬取所有的网页。但是每次得到的cookie值是不一样的。问题出在了cookie列表上。cookie最多5个。

  而我们的请求,爬取的都是网页中的cookie列表,这样就造成了这个cookie值是所有列表中所有cookie值所有的cookie值。cookie列表实际上是一个个数组。这个数组如何得到呢?我们可以用dict类型的对象来存储这个cookie值。每一个cookie值存储一个object对象。在python中,可以通过keys将object对象存储到列表中,然后遍历这个对象得到整个列表的cookie列表。

  如下图,然后我们遍历这个object列表中所有的cookie值,遍历遍历keys这个对象。遍历所有的cookie对象,遍历遍历cookie列表我们就得到了所有的cookie值。不过这样得到的cookie值,并不完整。如果我们想获取所有的cookie值,用列表来存储应该是最好的了。cookie列表实际上是一个列表,可以有n个元素,那么就是n-1个列表。

  我们总结一下,通过dict类型来存储每个cookie值。然后遍历所有的cookie值,遍历遍历keys这个对象。cookie列表就可以得到所有的cookie值了。至于如何遍历所有的cookie值?这个用requests模块来实。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线