python网页数据抓取(一下如何判断网页的编码:网上很多网页编码格式都不一样)
优采云 发布时间: 2021-12-09 16:11python网页数据抓取(一下如何判断网页的编码:网上很多网页编码格式都不一样)
在Web开发过程中,我们经常会遇到网页爬取和分析,可以用各种语言来完成。喜欢用python来实现,因为python提供了很多成熟的模块,可以轻松实现网页爬取。
但是在爬取的过程中会遇到编码问题,所以今天我们来看看如何判断一个网页的编码:
互联网上很多网页都有不同的编码格式,一般是GBK、GB2312、UTF-8等。
我们在获取到网页的数据后,首先要判断网页的编码,然后才能将抓取到的内容的编码统一转换为我们可以处理的编码,避免出现乱码问题。
使用 chardet 模块
1 #如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦
2 #author:pythontab.com
3 import chardet
4 import urllib
5 #先获取网页内容
6 data1 = urllib.urlopen(‘http://www.baidu.com‘).read()
7 #用chardet进行内容分析
8 chardit1 = chardet.detect(data1)
9
10 print chardit1[‘encoding‘] # baidu
实施结果如下:
gb2312
这个结果是正确的。可以自己验证~~