抓取网页数据违法吗(Python一款IDE--网页请求监控工具发生的详细步骤 )
优采云 发布时间: 2021-09-15 05:09抓取网页数据违法吗(Python一款IDE--网页请求监控工具发生的详细步骤
)
1)首先,客户端需要与服务器建立连接。只需单击一个超链接,HTTP就会开始工作
2)连接建立后,客户端以统一资源标识符(URL)和协议版本号的格式向服务器发送请求,然后发送mime信息,包括请求修改器、客户端信息和可能的内容
@接收到请求后,3)server将以状态行的形式给出相应的响应信息,包括信息的协议版本号、成功或错误代码,然后是mime信息,包括服务器信息、实体信息和可能的内容
4)客户端接收服务器返回的信息,并通过浏览器显示在用户显示屏上,然后客户端断开与服务器的连接
如果在上述过程的任何步骤中发生错误,错误消息将返回到具有显示输出的客户端。对于用户来说,这些过程是由HTTP本身完成的。用户只需单击鼠标,等待信息显示
第二:了解Python中的urllib库
在Python2系列中使用了urlib 2,它在Python3之后完全集成到urlib中;我们需要学习的是几个常见的函数。详情可在官方网站上查看
第三:开发工具
Python有自己的编译器——idle,非常简洁;Pycharm——一个具有良好交互的python ide;Fiddler——网页请求监视工具。我们可以使用它来了解用户触发网页请求后的详细步骤
简单网络爬虫
代码
'''
第一个示例:简单的网页爬虫
爬取豆瓣首页
'''
import urllib.request
#网址
url = "https://www.douban.com/"
#请求
request = urllib.request.Request(url)
#爬取结果
response = urllib.request.urlopen(request)
data = response.read()
#设置解码方式
data = data.decode('utf-8')
#打印结果
print(data)
#打印爬取网页的各类信息
print(type(response))
print(response.geturl())
print(response.info())
print(response.getcode())
结果
截获结果如下图所示: