c爬虫抓取网页数据(c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2值)

优采云发布时间: 2022-02-19 06:01

　　c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2框架来抓取网页上的数据。urllib2用来接收网页上的请求数据，用于将urllib2接受到的数据返回给我们所用的http服务器。这里要注意，urllib2的返回数据如何存储呢？一般存储在cookie里面。而我们并不需要关心cookie是否真的存储到了cookie里面。

　　我们只需要用requests库从网页上请求一些数据即可。我们用chrome浏览器(如chrome)来尝试一下。我们点击页面上的导航条。我们再点击抓取网页上的链接，此时我们看到如下页面。右键单击这一页，在弹出的快捷菜单中，选择浏览器自带的cookie选项。我们输入我们想抓取的链接，点击获取urllib2发送给我们的cookie数据。

　　我们输入需要输入的ip，结果如下。我们来到这个页面，可以看到有多个网页，我们可以选择我们要获取数据的那个网页。然后我们输入cookie的值进行获取。输入用户名和密码，将会得到一个cookie值，那么我们如何获取该cookie值呢？用下面的代码获取cookie值一共遇到了两个问题：1.如何获取所有的cookie值2.如何获取相同cookie值cookie只能存储在cookie-list中首先是第一个问题，怎么获取所有的cookie值。

　　直接上代码，这里我用的是python.web.cookieizelimit来获取一个cookie值。然后得到的结果就是我们想要的cookie值。下面说说第二个问题。我们想获取相同的cookie值。那么你可以用爬虫爬取所有的网页。但是每次得到的cookie值是不一样的。问题出在了cookie列表上。cookie最多5个。

　　而我们的请求，爬取的都是网页中的cookie列表，这样就造成了这个cookie值是所有列表中所有cookie值所有的cookie值。cookie列表实际上是一个个数组。这个数组如何得到呢？我们可以用dict类型的对象来存储这个cookie值。每一个cookie值存储一个object对象。在python中，可以通过keys将object对象存储到列表中，然后遍历这个对象得到整个列表的cookie列表。

　　如下图，然后我们遍历这个object列表中所有的cookie值，遍历遍历keys这个对象。遍历所有的cookie对象，遍历遍历cookie列表我们就得到了所有的cookie值。不过这样得到的cookie值，并不完整。如果我们想获取所有的cookie值，用列表来存储应该是最好的了。cookie列表实际上是一个列表，可以有n个元素，那么就是n-1个列表。

　　我们总结一下，通过dict类型来存储每个cookie值。然后遍历所有的cookie值，遍历遍历keys这个对象。cookie列表就可以得到所有的cookie值了。至于如何遍历所有的cookie值？这个用requests模块来实。

0

2022-02-19

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(c爬虫抓取网页数据的三种常见方法我们通常会用到urllib2值)

0 个评论

发起人