前言:中文編碼問題一直是程序員頭疼的問題,而Python2中的字符編碼足矣令新手抓狂。本文將盡量用通俗的語言帶大家徹底的了解字符編碼以及Python2和3中的各種編碼問題。
一、什么是字符編碼。
要徹底解決字符編碼的問題就不能不去了解到底什么是字符編碼。計算機從本質(zhì)上來說只認識二進制中的0和1,可以說任何數(shù)據(jù)在計算機中實際的物理表現(xiàn)形式也就是0和1,如果你將硬盤拆開,你是看不到所謂的數(shù)字0和1的,你能看到的只是一塊光滑閃亮的磁盤,如果你用足夠大的放大鏡你就能看到磁盤的表面有著無數(shù)的凹凸不平的元件,凹下去的代表0,突出的代表1,這就是計算機用來表現(xiàn)二進制的方式。
1.ASCII
現(xiàn)在我們面臨了第一個問題:如何讓人類語言,比如英文被計算機理解?我們以英文為例,英文中有英文字母(大小寫)、標點符號、特殊符號。如果我們將這些字母與符號給予固定的編號,然后將這些編號轉(zhuǎn)變?yōu)槎M制,那么計算機明顯就能夠正確讀取這些符號,同時通過這些編號,計算機也能夠?qū)⒍M制轉(zhuǎn)化為編號對應(yīng)的字符再顯示給人類去閱讀。由此產(chǎn)生了我們最熟知的ASCII碼。ASCII 碼使用指定的7 位或8 位二進制數(shù)組合來表示128 或256 種可能的字符。這樣在大部分情況下,英文與二進制的轉(zhuǎn)換就變得容易多了。
2.GB2312
然而,雖然計算機是美國人發(fā)明的,但是全世界的人都在使用計算機。現(xiàn)在出現(xiàn)了另一個問題:如何讓中文被計算機理解?這下麻煩了,中文不像拉丁語系是由固定的字母排列組成的。ASCII 碼顯然沒辦法解決這個問題,為了解決這個問題中國國家標準總局1980年發(fā)布《信息交換用漢字編碼字符集》提出了GB2312編碼,用于解決漢字處理的問題。1995年又頒布了《漢字編碼擴展規(guī)范》(GBK)。GBK與GB 2312—1980國家標準所對應(yīng)的內(nèi)碼標準兼容,同時在字匯一級支持ISO/IEC10646—1和GB 13000—1的全部中、日、韓(CJK)漢字,共計20902字。這樣我們就解決了計算機處理漢字的問題了。
3.Unicode
現(xiàn)在英文和中文問題被解決了,但新的問題又出現(xiàn)了。全球有那么多的國家不僅有英文、中文還有阿拉伯語、西班牙語、日語、韓語等等。難不成每種語言都做一種編碼?基于這種情況一種新的編碼誕生了:Unicode。Unicode又被稱為統(tǒng)一碼、萬國碼;它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。Unicode支持歐洲、非洲、中東、亞洲(包括統(tǒng)一標準的東亞象形漢字和韓國表音文字)。這樣不管你使用的是英文或者中文,日語或者韓語,在Unicode編碼中都有收錄,且對應(yīng)唯一的二進制編碼。這樣大家都開心了,只要大家都用Unicode編碼,那就不存在這些轉(zhuǎn)碼的問題了,什么樣的字符都能夠解析了。
4.UTF-8
但是,由于Unicode收錄了更多的字符,可想而知它的解析效率相比ASCII碼和GB2312的速度要大大降低,而且由于Unicode通過增加一個高字節(jié)對ISO Latin-1字符集進行擴展,當這些高字節(jié)位為0時,低字節(jié)就是ISO Latin-1字符。對可以用ASCII表示的字符使用Unicode并不高效,因為Unicode比ASCII占用大一倍的空間,而對ASCII來說高字節(jié)的0對他毫無用處。為了解決這個問題,就出現(xiàn)了一些中間格式的字符集,他們被稱為通用轉(zhuǎn)換格式,即UTF(Unicode Transformation Format)。而我們最常用的UTF-8就是這些轉(zhuǎn)換格式中的一種。在這里我們不去研究UTF-8到底是如何提高效率的,你只需要知道他們之間的關(guān)系即可。
總結(jié):
**1.為了處理英文字符,產(chǎn)生了ASCII碼。
2.為了處理中文字符,產(chǎn)生了GB2312。
3.為了處理各國字符,產(chǎn)生了Unicode。
4.為了提高Unicode存儲和傳輸性能,產(chǎn)生了UTF-8,它是Unicode的一種實現(xiàn)形式。**
二、Python2中的字符編碼
1.Python2中默認的字符編碼是ASCII碼,也就是說Python在處理數(shù)據(jù)時,只要數(shù)據(jù)沒有指定它的編碼類型,Python默認將其當做ASCII碼來進行處理。這個問題最直接的表現(xiàn)在當我們編寫的python文件中包含有中文字符時,在運行時會提示出錯。如圖:
這個問題出現(xiàn)的原因是:Python2會將整個python腳本中的內(nèi)容當做ASCII碼去處理,當腳本中出現(xiàn)了中文字符,比如這里的“小明”,我們知道ASCII碼是不能夠處理中文字符的,所以出現(xiàn)了這個錯誤。解決的辦法是:在文件頭部加入一行編碼聲明,如圖:
這樣,Python在處理這個腳本時,會用UTF-8的編碼去處理整個腳本,就能夠正確的解析中文字符了。
2.Python2中字符串有str和unicode兩種類型。
上圖中展現(xiàn)出了Python2中字符串的兩種類型:
name變量被賦予了一個字符串“小明”;
unicode_name是name變量的unicode格式,這里我們使用了decode()方法,我們會在后面的內(nèi)容中詳細講解;
兩者在終端中返回了不同的字節(jié)串,type返回了不同的數(shù)據(jù)類型,但print打印出了相同的輸出。
這里我們注意到一個“字節(jié)串”的名稱,字節(jié)串是指該字符串在python中的標準形式,也就是說無論一個字符串是什么樣的編碼,在python中都會有一串字節(jié)串來進行表示。字節(jié)串是沒有編碼的,對應(yīng)的最終交給計算機處理的數(shù)據(jù)形式。
3.Python2中可以直接查看到unicode的字節(jié)串。
在上圖中,輸入unicode_name的返回值,是一個unicode字節(jié)串,我們能夠直接看到這個字節(jié)串。而在python3中,我們將不能直接看到unicode字節(jié)串,它會被顯示為中文的“小明”;因為python3默認使用unicode編碼,unicode字節(jié)串將被直接處理為中文顯示出來。
總結(jié):
**1.Python2中默認的字符編碼是ASCII碼。
2.Python2中字符串有str和unicode兩種類型。str有各種編碼的區(qū)別,unicode是沒有編碼的標準形式。
3.Python2中可以直接查看到unicode的字節(jié)串。**
三、decode()與encode()方法
前面我們說了這么多都是為了這一節(jié)做鋪墊,現(xiàn)在我們開始來處理Python2中的字符編碼問題。我們首先要學(xué)習(xí)Python為我們提供的兩個轉(zhuǎn)換編碼的方法decode()與encode()。
***decode()方法將其他編碼字符轉(zhuǎn)化為Unicode編碼字符。
encode()方法將Unicode編碼字符轉(zhuǎn)化為其他編碼字符。*
話不多說,直接上圖:
chardet模塊可以檢測字符串編碼,沒有該模塊的可以用pip install chardet安裝。
首先解釋一下為什么name=”小明” 這里的小明是一個utf-8編碼的字符。因為我使用的是Ubuntu14.04操作系統(tǒng),系統(tǒng)默認的字符編碼就是UTF-8,所以當我在終端將一個中文輸入時,系統(tǒng)就會自動將這個中文字符以UTF-8的編碼傳遞給Python。所以如果你的系統(tǒng)是windows操作系統(tǒng),而大多數(shù)情況下windows的系統(tǒng)編碼默認是gb2312,那么在windows下做上圖的測試“小明”這個字符就是gb2312編碼。
上圖中我們將utf-8編碼的name通過decode()方法轉(zhuǎn)換為unicode_name,然后通過encode()方法將unicode_name轉(zhuǎn)換為gb2312_name。這時我們再用print去輸出gb2312編碼的字符時缺產(chǎn)生了一個奇怪的輸出。這是因為我的操作系統(tǒng)使用的是UTF-8編碼,對于gb2312編碼的字符自然不能夠正確解析,如果我們將該gb2312的字節(jié)串放在windows下輸出就能夠得到我們想要的中文,如圖:
所謂亂碼本質(zhì)上是系統(tǒng)編碼與所提供字符的編碼不一致導(dǎo)致的,我們舉一個例子:
小明的電腦中存了一個utf-8的字母A,存儲在計算機中是1100001;
小紅的電腦中也存了一個gb2312的字母A,存儲在計算機中是11000010;
當小明與小紅交換信息時,各自的計算機就不會把對方傳遞過來的A識別為字母A,可能認為這是字母B。
所以當我們需要操作系統(tǒng)正確的輸出一個字符時,除了要知道該字符的字符編碼,也要知道自己系統(tǒng)所使用的字符編碼。如果系統(tǒng)使用的是UTF-8編碼,處理的卻是gb2312的字符就會出現(xiàn)所謂“亂碼”。
一個Tips:
decode()方法與在字符串前加u的方法實現(xiàn)的效果相同比如u’小明’
總結(jié):
1.Python2的對于字符編碼的轉(zhuǎn)換要以unicode作為“中間人”進行轉(zhuǎn)化。
2.知道自己系統(tǒng)的字符編碼(Linux默認utf-8,Windows默認GB2312),對癥下藥。
四、一個字符編碼的例子
在Linux操作系統(tǒng)下使用python2下獲取網(wǎng)易首頁的title,并以正確的中文顯示出來。
163的首頁使用的字符編碼是gb2312,而我們前面提到過Linux下的默認字符編碼為UTF-8,我們測試一下直接提取會不會出現(xiàn)亂碼問題。
我們發(fā)現(xiàn)確實提取到的title并不能正確顯示,因為網(wǎng)頁中已經(jīng)聲明了它是一個gb2312的字符編碼,而我的系統(tǒng)中默認的字符編碼為UTF-8顯然,我必須要將title轉(zhuǎn)換為UTF-8的字符。
其實由于utf-8屬于unicode字符編碼,在Linux中我們可以直接打印出unicode編碼的字符。如:
現(xiàn)在我們在Windows用Python2來做另一個實驗,這次我們換成百度首頁的title:
這次我們發(fā)現(xiàn)網(wǎng)頁上的字符編碼為utf-8,那么我在Windows下會不會出現(xiàn)亂碼:
所以我們再次強調(diào):亂碼本質(zhì)上是系統(tǒng)編碼與所提供字符的編碼不一致導(dǎo)致的
在Pyhon3中字符編碼有了很大改善最主要的有以下幾點:
1.Python 3的源碼.py文件 的默認編碼方式為UTF-8,所以在Python3中你可以不用在py腳本中寫coding聲明,并且系統(tǒng)傳遞給python的字符不再受系統(tǒng)默認編碼的影響,統(tǒng)一為unicode編碼。
2.將字符串和字節(jié)序列做了區(qū)別,字符串str是字符串標準形式與2.x中unicode類似,bytes類似2.x中的str有各種編碼區(qū)別。bytes通過解碼轉(zhuǎn)化成str,str通過編碼轉(zhuǎn)化成bytes。
PS:有一個小問題被許多新手所困擾,我們來看一下圖片:
我們看到當一個中文字符出現(xiàn)在一個list(或tuple、dict)中時,它并不會被顯示為一個中文而是字節(jié)串。但當該字符串從list中提取出來再print時就能夠正常顯示為中文。字節(jié)串是所有字符在python中的“本質(zhì)”形態(tài),所以你可以簡單的理解為list中呈現(xiàn)出的字節(jié)串是給計算機看的。前言:中文編碼問題一直是程序員頭疼的問題,而Python2中的字符編碼足矣令新手抓狂。本文將盡量用通俗的語言帶大家徹底的了解字符編碼以及Python2和3中的各種編碼問題。
一、什么是字符編碼。
要徹底解決字符編碼的問題就不能不去了解到底什么是字符編碼。計算機從本質(zhì)上來說只認識二進制中的0和1,可以說任何數(shù)據(jù)在計算機中實際的物理表現(xiàn)形式也就是0和1,如果你將硬盤拆開,你是看不到所謂的數(shù)字0和1的,你能看到的只是一塊光滑閃亮的磁盤,如果你用足夠大的放大鏡你就能看到磁盤的表面有著無數(shù)的凹凸不平的元件,凹下去的代表0,突出的代表1,這就是計算機用來表現(xiàn)二進制的方式。
1.ASCII
現(xiàn)在我們面臨了第一個問題:如何讓人類語言,比如英文被計算機理解?我們以英文為例,英文中有英文字母(大小寫)、標點符號、特殊符號。如果我們將這些字母與符號給予固定的編號,然后將這些編號轉(zhuǎn)變?yōu)槎M制,那么計算機明顯就能夠正確讀取這些符號,同時通過這些編號,計算機也能夠?qū)⒍M制轉(zhuǎn)化為編號對應(yīng)的字符再顯示給人類去閱讀。由此產(chǎn)生了我們最熟知的ASCII碼。ASCII 碼使用指定的7 位或8 位二進制數(shù)組合來表示128 或256 種可能的字符。這樣在大部分情況下,英文與二進制的轉(zhuǎn)換就變得容易多了。
2.GB2312
然而,雖然計算機是美國人發(fā)明的,但是全世界的人都在使用計算機?,F(xiàn)在出現(xiàn)了另一個問題:如何讓中文被計算機理解?這下麻煩了,中文不像拉丁語系是由固定的字母排列組成的。ASCII 碼顯然沒辦法解決這個問題,為了解決這個問題中國國家標準總局1980年發(fā)布《信息交換用漢字編碼字符集》提出了GB2312編碼,用于解決漢字處理的問題。1995年又頒布了《漢字編碼擴展規(guī)范》(GBK)。GBK與GB 2312—1980國家標準所對應(yīng)的內(nèi)碼標準兼容,同時在字匯一級支持ISO/IEC10646—1和GB 13000—1的全部中、日、韓(CJK)漢字,共計20902字。這樣我們就解決了計算機處理漢字的問題了。
3.Unicode
現(xiàn)在英文和中文問題被解決了,但新的問題又出現(xiàn)了。全球有那么多的國家不僅有英文、中文還有阿拉伯語、西班牙語、日語、韓語等等。難不成每種語言都做一種編碼?基于這種情況一種新的編碼誕生了:Unicode。Unicode又被稱為統(tǒng)一碼、萬國碼;它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。Unicode支持歐洲、非洲、中東、亞洲(包括統(tǒng)一標準的東亞象形漢字和韓國表音文字)。這樣不管你使用的是英文或者中文,日語或者韓語,在Unicode編碼中都有收錄,且對應(yīng)唯一的二進制編碼。這樣大家都開心了,只要大家都用Unicode編碼,那就不存在這些轉(zhuǎn)碼的問題了,什么樣的字符都能夠解析了。
4.UTF-8
但是,由于Unicode收錄了更多的字符,可想而知它的解析效率相比ASCII碼和GB2312的速度要大大降低,而且由于Unicode通過增加一個高字節(jié)對ISO Latin-1字符集進行擴展,當這些高字節(jié)位為0時,低字節(jié)就是ISO Latin-1字符。對可以用ASCII表示的字符使用Unicode并不高效,因為Unicode比ASCII占用大一倍的空間,而對ASCII來說高字節(jié)的0對他毫無用處。為了解決這個問題,就出現(xiàn)了一些中間格式的字符集,他們被稱為通用轉(zhuǎn)換格式,即UTF(Unicode Transformation Format)。而我們最常用的UTF-8就是這些轉(zhuǎn)換格式中的一種。在這里我們不去研究UTF-8到底是如何提高效率的,你只需要知道他們之間的關(guān)系即可。
總結(jié):
**1.為了處理英文字符,產(chǎn)生了ASCII碼。
2.為了處理中文字符,產(chǎn)生了GB2312。
3.為了處理各國字符,產(chǎn)生了Unicode。
4.為了提高Unicode存儲和傳輸性能,產(chǎn)生了UTF-8,它是Unicode的一種實現(xiàn)形式。**
二、Python2中的字符編碼
1.Python2中默認的字符編碼是ASCII碼,也就是說Python在處理數(shù)據(jù)時,只要數(shù)據(jù)沒有指定它的編碼類型,Python默認將其當做ASCII碼來進行處理。這個問題最直接的表現(xiàn)在當我們編寫的python文件中包含有中文字符時,在運行時會提示出錯。如圖:
這個問題出現(xiàn)的原因是:Python2會將整個python腳本中的內(nèi)容當做ASCII碼去處理,當腳本中出現(xiàn)了中文字符,比如這里的“小明”,我們知道ASCII碼是不能夠處理中文字符的,所以出現(xiàn)了這個錯誤。解決的辦法是:在文件頭部加入一行編碼聲明,如圖:
這樣,Python在處理這個腳本時,會用UTF-8的編碼去處理整個腳本,就能夠正確的解析中文字符了。
2.Python2中字符串有str和unicode兩種類型。
上圖中展現(xiàn)出了Python2中字符串的兩種類型:
name變量被賦予了一個字符串“小明”;
unicode_name是name變量的unicode格式,這里我們使用了decode()方法,我們會在后面的內(nèi)容中詳細講解;
兩者在終端中返回了不同的字節(jié)串,type返回了不同的數(shù)據(jù)類型,但print打印出了相同的輸出。
這里我們注意到一個“字節(jié)串”的名稱,字節(jié)串是指該字符串在python中的標準形式,也就是說無論一個字符串是什么樣的編碼,在python中都會有一串字節(jié)串來進行表示。字節(jié)串是沒有編碼的,對應(yīng)的最終交給計算機處理的數(shù)據(jù)形式。
3.Python2中可以直接查看到unicode的字節(jié)串。
在上圖中,輸入unicode_name的返回值,是一個unicode字節(jié)串,我們能夠直接看到這個字節(jié)串。而在python3中,我們將不能直接看到unicode字節(jié)串,它會被顯示為中文的“小明”;因為python3默認使用unicode編碼,unicode字節(jié)串將被直接處理為中文顯示出來。
總結(jié):
**1.Python2中默認的字符編碼是ASCII碼。
2.Python2中字符串有str和unicode兩種類型。str有各種編碼的區(qū)別,unicode是沒有編碼的標準形式。
3.Python2中可以直接查看到unicode的字節(jié)串。**
三、decode()與encode()方法
前面我們說了這么多都是為了這一節(jié)做鋪墊,現(xiàn)在我們開始來處理Python2中的字符編碼問題。我們首先要學(xué)習(xí)Python為我們提供的兩個轉(zhuǎn)換編碼的方法decode()與encode()。
***decode()方法將其他編碼字符轉(zhuǎn)化為Unicode編碼字符。
encode()方法將Unicode編碼字符轉(zhuǎn)化為其他編碼字符。*
話不多說,直接上圖:
chardet模塊可以檢測字符串編碼,沒有該模塊的可以用pip install chardet安裝。
首先解釋一下為什么name=”小明” 這里的小明是一個utf-8編碼的字符。因為我使用的是Ubuntu14.04操作系統(tǒng),系統(tǒng)默認的字符編碼就是UTF-8,所以當我在終端將一個中文輸入時,系統(tǒng)就會自動將這個中文字符以UTF-8的編碼傳遞給Python。所以如果你的系統(tǒng)是windows操作系統(tǒng),而大多數(shù)情況下windows的系統(tǒng)編碼默認是gb2312,那么在windows下做上圖的測試“小明”這個字符就是gb2312編碼。
上圖中我們將utf-8編碼的name通過decode()方法轉(zhuǎn)換為unicode_name,然后通過encode()方法將unicode_name轉(zhuǎn)換為gb2312_name。這時我們再用print去輸出gb2312編碼的字符時缺產(chǎn)生了一個奇怪的輸出。這是因為我的操作系統(tǒng)使用的是UTF-8編碼,對于gb2312編碼的字符自然不能夠正確解析,如果我們將該gb2312的字節(jié)串放在windows下輸出就能夠得到我們想要的中文,如圖:
所謂亂碼本質(zhì)上是系統(tǒng)編碼與所提供字符的編碼不一致導(dǎo)致的,我們舉一個例子:
小明的電腦中存了一個utf-8的字母A,存儲在計算機中是1100001;
小紅的電腦中也存了一個gb2312的字母A,存儲在計算機中是11000010;
當小明與小紅交換信息時,各自的計算機就不會把對方傳遞過來的A識別為字母A,可能認為這是字母B。
所以當我們需要操作系統(tǒng)正確的輸出一個字符時,除了要知道該字符的字符編碼,也要知道自己系統(tǒng)所使用的字符編碼。如果系統(tǒng)使用的是UTF-8編碼,處理的卻是gb2312的字符就會出現(xiàn)所謂“亂碼”。
一個Tips:
decode()方法與在字符串前加u的方法實現(xiàn)的效果相同比如u’小明’
總結(jié):
1.Python2的對于字符編碼的轉(zhuǎn)換要以unicode作為“中間人”進行轉(zhuǎn)化。
2.知道自己系統(tǒng)的字符編碼(Linux默認utf-8,Windows默認GB2312),對癥下藥。
四、一個字符編碼的例子
在Linux操作系統(tǒng)下使用python2下獲取網(wǎng)易首頁的title,并以正確的中文顯示出來。
163的首頁使用的字符編碼是gb2312,而我們前面提到過Linux下的默認字符編碼為UTF-8,我們測試一下直接提取會不會出現(xiàn)亂碼問題。
我們發(fā)現(xiàn)確實提取到的title并不能正確顯示,因為網(wǎng)頁中已經(jīng)聲明了它是一個gb2312的字符編碼,而我的系統(tǒng)中默認的字符編碼為UTF-8顯然,我必須要將title轉(zhuǎn)換為UTF-8的字符。
其實由于utf-8屬于unicode字符編碼,在Linux中我們可以直接打印出unicode編碼的字符。如:
現(xiàn)在我們在Windows用Python2來做另一個實驗,這次我們換成百度首頁的title:
這次我們發(fā)現(xiàn)網(wǎng)頁上的字符編碼為utf-8,那么我在Windows下會不會出現(xiàn)亂碼:
所以我們再次強調(diào):亂碼本質(zhì)上是系統(tǒng)編碼與所提供字符的編碼不一致導(dǎo)致的
在Pyhon3中字符編碼有了很大改善最主要的有以下幾點:
1.Python 3的源碼.py文件 的默認編碼方式為UTF-8,所以在Python3中你可以不用在py腳本中寫coding聲明,并且系統(tǒng)傳遞給python的字符不再受系統(tǒng)默認編碼的影響,統(tǒng)一為unicode編碼。
2.將字符串和字節(jié)序列做了區(qū)別,字符串str是字符串標準形式與2.x中unicode類似,bytes類似2.x中的str有各種編碼區(qū)別。bytes通過解碼轉(zhuǎn)化成str,str通過編碼轉(zhuǎn)化成bytes。
PS:有一個小問題被許多新手所困擾,我們來看一下圖片:
我們看到當一個中文字符出現(xiàn)在一個list(或tuple、dict)中時,它并不會被顯示為一個中文而是字節(jié)串。但當該字符串從list中提取出來再print時就能夠正常顯示為中文。字節(jié)串是所有字符在python中的“本質(zhì)”形態(tài),所以你可以簡單的理解為list中呈現(xiàn)出的字節(jié)串是給計算機看的。
聯(lián)系客服