python网页数据抓取(一下如何判断网页的编码:网上很多网页编码格式都不一样)

优采云 发布时间: 2021-12-09 16:11

  python网页数据抓取(一下如何判断网页的编码:网上很多网页编码格式都不一样)

  在Web开发过程中,我们经常会遇到网页爬取和分析,可以用各种语言来完成。喜欢用python来实现,因为python提供了很多成熟的模块,可以轻松实现网页爬取。

  但是在爬取的过程中会遇到编码问题,所以今天我们来看看如何判断一个网页的编码:

  互联网上很多网页都有不同的编码格式,一般是GBK、GB2312、UTF-8等。

  我们在获取到网页的数据后,首先要判断网页的编码,然后才能将抓取到的内容的编码统一转换为我们可以处理的编码,避免出现乱码问题。

  使用 chardet 模块

   1 #如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦

2 #author:pythontab.com

3 import chardet

4 import urllib

5 #先获取网页内容

6 data1 = urllib.urlopen(‘http://www.baidu.com‘).read()

7 #用chardet进行内容分析

8 chardit1 = chardet.detect(data1)

9

10 print chardit1[‘encoding‘] # baidu

  实施结果如下:

  gb2312

  这个结果是正确的。可以自己验证~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线