久久不卡一区二区三区,国产精品久久二区三区色裕

一、了解字符編碼的知識(shí)儲(chǔ)備

　　1. 文本編輯器存取文件的原理（nodepad++，pycharm，word）

　　　　打開編輯器就打開了啟動(dòng)了一個(gè)進(jìn)程，是在內(nèi)存中的，所以在編輯器編寫的內(nèi)容也都是存放與內(nèi)存中的，斷電后數(shù)據(jù)丟失，因而需要保存到硬盤上，點(diǎn)擊保存按鈕，就從內(nèi)存中把數(shù)據(jù)刷到了硬盤上。在這一點(diǎn)上，我們編寫一個(gè)py文件（沒有執(zhí)行），跟編寫其他文件沒有任何區(qū)別，都只是在編寫一堆字符而已。

　　　　即:在沒有點(diǎn)擊保存時(shí),我們所寫的內(nèi)容都是寫入內(nèi)存。注意這一點(diǎn)，很重要！！當(dāng)我們點(diǎn)擊保存，內(nèi)容才被刷到硬盤。

　　　　上面做了兩件事：寫內(nèi)容到內(nèi)存,從內(nèi)存將內(nèi)存刷到硬盤。這是兩個(gè)過程。

2. python解釋器執(zhí)行py文件的原理，例如python test.py

　　　　第一階段：python解釋器啟動(dòng)，此時(shí)就相當(dāng)于啟動(dòng)了一個(gè)文本編輯器

　　　　第二階段：python解釋器相當(dāng)于文本編輯器，去打開test.py文件，從硬盤上將test.py的文件內(nèi)容讀入到內(nèi)存中

　　　　第三階段：python解釋器解釋執(zhí)行剛剛加載到內(nèi)存中test.py的代碼

　　　　python解釋器執(zhí)行py文件分為兩個(gè)步驟:1.將文件讀到內(nèi)存,2.解釋執(zhí)行內(nèi)容。

二、字符編碼簡(jiǎn)介

　　要搞清楚字符編碼，首先要解決的問題是：什么是字符編碼？

　　我們都知道，計(jì)算機(jī)要想工作必須通電,也就是說‘電’驅(qū)使計(jì)算機(jī)干活,而‘電’的特性，就是高低電平(高低平即二進(jìn)制數(shù)1,低電平即二進(jìn)制數(shù)0),也就是說計(jì)算機(jī)只認(rèn)識(shí)數(shù)字(010101).如果我們想保存數(shù)據(jù),首先得將我們的數(shù)據(jù)進(jìn)行一些處理，最終得轉(zhuǎn)換成010101才能讓計(jì)算機(jī)識(shí)別。

　　所以必須經(jīng)過一個(gè)過程：

　　字符--------（翻譯過程）------->數(shù)字

　　這個(gè)過程實(shí)際就是一個(gè)字符如何對(duì)應(yīng)一個(gè)特定數(shù)字的標(biāo)準(zhǔn)，這個(gè)標(biāo)準(zhǔn)稱之為字符編碼。

　　那么問題就來了？作為一種編碼方案，還得解決兩個(gè)問題:

　　　　a.字節(jié)是怎么分組的，如8 bits或16 bits一組，這也被稱作編碼單元。

　　　　b.編碼單元和字符之間的映射關(guān)系。例如，在ASCII碼中，十進(jìn)制65映射到字母A上。

　　ASCII碼是上個(gè)世紀(jì)最流行的編碼體系之一，至少在西方是這樣。下圖顯示了ASCII碼中編碼單元是怎么映射到字符上的。

三、字符編碼的發(fā)展史

階段一：現(xiàn)代計(jì)算機(jī)起源于美國(guó)，最早誕生也是基于英文考慮的ASCII

　　隨著計(jì)算機(jī)越來越流行，廠商之間的競(jìng)爭(zhēng)更加激烈，在不同的計(jì)算機(jī)體系間轉(zhuǎn)換數(shù)據(jù)變得十分蛋疼，人們厭煩了這種自定義造成的混亂。最終，計(jì)算機(jī)制造商一起制定了一個(gè)標(biāo)準(zhǔn)的方法來描述字符。他們定義使用一個(gè)字節(jié)的低7位來表示字符，并且制作了如上圖所示的對(duì)照表來映射七個(gè)比特的值到一個(gè)字符上。例如，字母A是65，c是99，~是126等等， ASCII碼就這樣誕生了。原始的ASCII標(biāo)準(zhǔn)定義了從0到127 的字符，這樣正好能用七個(gè)比特表示。

　　為什么選擇了7個(gè)比特而不是8個(gè)來表示一個(gè)字符呢？我并不關(guān)心。但是一個(gè)字節(jié)是8個(gè)比特，這意味著1個(gè)比特并沒有被使用，也就是從128到255的編碼并沒有被制定ASCII標(biāo)準(zhǔn)的人所規(guī)定，這些美國(guó)人對(duì)世界的其它地方一無所知甚至完全不關(guān)心。其它國(guó)家的人趁這個(gè)機(jī)會(huì)開始使用128到255范圍內(nèi)的編碼來表達(dá)自己語言中的字符。例如，144在阿拉伯人的ASCII碼中是?，而在俄羅斯的ASCII碼中是?。ASCII碼的問題在于盡管所有人都在0-127號(hào)字符的使用上達(dá)成了一致，但對(duì)于128-255號(hào)字符卻有很多很多不同的解釋。你必須告訴計(jì)算機(jī)使用哪種風(fēng)格的ASCII碼才能正確顯示128-255號(hào)的字符。

　　總結(jié)：ASCII，一個(gè)Bytes代表一個(gè)字符（英文字符/鍵盤上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1種變化，即可以表示256個(gè)字符，ASCII最初只用了后七位，127個(gè)數(shù)字，已經(jīng)完全能夠代表鍵盤上所有的字符了（英文字符/鍵盤的所有其他字符），后來為了將拉丁文也編碼進(jìn)了ASCII表，將最高位也占用了。

階段二:為了滿足中文，中國(guó)人定制了GBK

　　GBK:2Bytes代表一個(gè)字符；為了滿足其他國(guó)家，各個(gè)國(guó)家紛紛定制了自己的編碼。日本把日文編到Shift_JIS里，韓國(guó)把韓文編到Euc-kr里

階段三：萬國(guó)碼Unicode編碼

　　后來，有人開始覺得太多編碼導(dǎo)致世界變得過于復(fù)雜了，讓人腦袋疼，于是大家坐在一起拍腦袋想出來一個(gè)方法：所有語言的字符都用同一種字符集來表示，這就是Unicode。

Unicode統(tǒng)一用2Bytes代表一個(gè)字符，2**16-1=65535，可代表6萬多個(gè)字符，因而兼容萬國(guó)語言.但對(duì)于通篇都是英文的文本來說，這種編碼方式無疑是多了一倍的存儲(chǔ)空間（英文字母只需要一個(gè)字節(jié)就足夠,用兩個(gè)字節(jié)來表示,無疑是浪費(fèi)空間）.于是產(chǎn)生了UTF-8，對(duì)英文字符只用1Bytes表示，對(duì)中文字符用3Bytes.UTF-8是一個(gè)非常驚艷的概念，它漂亮的實(shí)現(xiàn)了對(duì)ASCII碼的向后兼容，以保證Unicode可以被大眾接受。

在UTF-8中，0-127號(hào)的字符用1個(gè)字節(jié)來表示，使用和US-ASCII相同的編碼。這意味著1980年代寫的文檔用UTF-8打開一點(diǎn)問題都沒有。只有128號(hào)及以上的字符才用2個(gè)，3個(gè)或者4個(gè)字節(jié)來表示。因此，UTF-8被稱作可變長(zhǎng)度編碼。于是下面字節(jié)流如下：

　　　　0100100001000101010011000100110001001111

　　這個(gè)字節(jié)流在ASCII和UTF-8中表示相同的字符：HELLO

　　至于其他的UTF-16，這里就不再敘述了。

　　總結(jié)一點(diǎn)：unicode：簡(jiǎn)單粗暴，所有字符都是2Bytes，優(yōu)點(diǎn)是字符----->數(shù)字的轉(zhuǎn)換速度快，缺點(diǎn)是占用空間大。

　　　　　　　utf-8：精準(zhǔn)，對(duì)不同的字符用不同的長(zhǎng)度表示，優(yōu)點(diǎn)是節(jié)省空間，缺點(diǎn)是：字符->數(shù)字的轉(zhuǎn)換速度慢，因?yàn)槊看味夹枰?jì)算出字符需要多長(zhǎng)的Bytes才能夠準(zhǔn)確表示。

　　因此，內(nèi)存中使用的編碼是unicode，用空間換時(shí)間（程序都需要加載到內(nèi)存才能運(yùn)行，因而內(nèi)存應(yīng)該是盡可能的保證快）；硬盤中或者網(wǎng)絡(luò)傳輸用utf-8，網(wǎng)絡(luò)I/O延遲或磁盤I/O延遲要遠(yuǎn)大與utf-8的轉(zhuǎn)換延遲，而且I/O應(yīng)該是盡可能地節(jié)省帶寬，保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性。

　　所有程序，最終都要加載到內(nèi)存，程序保存到硬盤不同的國(guó)家用不同的編碼格式，但是到內(nèi)存中我們?yōu)榱思嫒萑f國(guó)（計(jì)算機(jī)可以運(yùn)行任何國(guó)家的程序原因在于此），統(tǒng)一且固定使用unicode，這就是為何內(nèi)存固定用unicode的原因，你可能會(huì)說兼容萬國(guó)我可以用utf－8啊，可以，完全可以正常工作，之所以不用肯定是unicode比utf－8更高效?。╱icode固定用2個(gè)字節(jié)編碼，utf－8則需要計(jì)算），但是unicode更浪費(fèi)空間，沒錯(cuò)，這就是用空間換時(shí)間的一種做法，而存放到硬盤，或者網(wǎng)絡(luò)傳輸，都需要把unicode轉(zhuǎn)成utf－8，因?yàn)閿?shù)據(jù)的傳輸，追求的是穩(wěn)定，高效，數(shù)據(jù)量越小數(shù)據(jù)傳輸就越靠譜，于是都轉(zhuǎn)成utf－8格式的，而不是unicode。

四、字符編碼的使用

　　不管是哪種類型的文件，只要記住一點(diǎn)：文件以什么編碼保存的，就以什么編碼方式打開.

　　下面我們來看看python中關(guān)于編碼出現(xiàn)的問題:

　　如果不在python文件指定頭信息＃-*-coding:utf-8-*-,那就使用默認(rèn)的python2中默認(rèn)使用ascii，python3中默認(rèn)使用utf-8

　　讀取已經(jīng)加載到內(nèi)存的代碼（unicode編碼的二進(jìn)制），然后執(zhí)行，執(zhí)行過程中可能會(huì)開辟新的內(nèi)存空間，比如x="hello"

　　內(nèi)存的編碼使用unicode，不代表內(nèi)存中全都是unicode編碼的二進(jìn)制，在程序執(zhí)行之前，內(nèi)存中確實(shí)都是unicode編碼的二進(jìn)制,比如從文件中讀取了一行x="hello",其中的x，等號(hào)，引號(hào)，地位都一樣，都是普通字符而已，都是以u(píng)nicode編碼的二進(jìn)制形式存放與內(nèi)存中的.但是程序在執(zhí)行過程中，會(huì)申請(qǐng)內(nèi)存（與程序代碼所存在的內(nèi)存是倆個(gè)空間），可以存放任意編碼格式的數(shù)據(jù)，比如x="hello",會(huì)被python解釋器識(shí)別為字符串，會(huì)申請(qǐng)內(nèi)存空間來存放"hello"，然后讓x指向該內(nèi)存地址，此時(shí)新申請(qǐng)的該內(nèi)存地址保存也是unicode編碼的hello,如果代碼換成x="hello".encode('utf-8'),那么新申請(qǐng)的內(nèi)存空間里存放的就是utf-8編碼的字符串hello了.

　　瀏覽網(wǎng)頁的時(shí)候，服務(wù)器會(huì)把動(dòng)態(tài)生成的Unicode內(nèi)容轉(zhuǎn)換為UTF-8再傳輸?shù)綖g覽器

　　如果服務(wù)端encode的編碼格式是utf-8，客戶端內(nèi)存中收到的也是utf-8編碼的二進(jìn)制

五、Python2與python3編碼區(qū)別

　　1.在python2中有兩種字符串類型str和unicode

　　　str類型

　　　當(dāng)python解釋器執(zhí)行到產(chǎn)生字符串的代碼時(shí)（例如s='林'），會(huì)申請(qǐng)新的內(nèi)存地址，然后將'林'編碼成文件開頭指定的編碼格式，這已經(jīng)是encode之后的結(jié)果了，所以s只能decode。再次encode就會(huì)報(bào)錯(cuò)。

#_*_coding:gbk_*_2 #!/usr/bin/env python3 4 x='林'5 # print x.encode('gbk') #報(bào)錯(cuò)6 print x.decode('gbk') #結(jié)果：林

　　在python2中，str就是編碼后的結(jié)果bytes，str=bytes,所以在python2中，unicode字符編碼的結(jié)果是str/bytes。

#coding:utf-8s='林' #在執(zhí)行時(shí),'林'會(huì)被以conding:utf-8的形式保存到新的內(nèi)存空間中print repr(s) #'\xe6\x9e\x97' 三個(gè)Bytes,證明確實(shí)是utf-8print type(s) #<type 'str'>s.decode('utf-8')# s.encode('utf-8') #報(bào)錯(cuò)，s為編碼后的結(jié)果bytes，所以只能decode

　　Unicode類型

　　當(dāng)python解釋器執(zhí)行到產(chǎn)生字符串的代碼時(shí)（例如s=u'林'），會(huì)申請(qǐng)新的內(nèi)存地址，然后將'林'以u(píng)nicode的格式存放到新的內(nèi)存空間中，所以s只能encode，不能decode.

s=u'林'print repr(s) #u'\u6797'print type(s) #<type 'unicode'># s.decode('utf-8') #報(bào)錯(cuò)，s為unicode，所以只能encodes.encode('utf-8')

　　特別說明:

　　當(dāng)數(shù)據(jù)要打印到終端時(shí)，要注意一些問題.

　　當(dāng)程序執(zhí)行時(shí)，比如:x='林';print(x) #這一步是將x指向的那塊新的內(nèi)存空間（非代碼所在的內(nèi)存空間）中的內(nèi)存，打印到終端，而終端仍然是運(yùn)行于內(nèi)存中的，所以這打印可以理解為從內(nèi)存打印到內(nèi)存，即內(nèi)存->內(nèi)存，unicode->unicode.對(duì)于unicode格式的數(shù)據(jù)來說，無論怎么打印，都不會(huì)亂碼.python3中的字符串與python2中的u'字符串'，都是unicode，所以無論如何打印都不會(huì)亂碼.在windows終端（終端編碼為gbk，文件編碼為utf-8，亂碼產(chǎn)生）

#分別驗(yàn)證在pycharm中和cmd中下述的打印結(jié)果s=u'林' #當(dāng)程序執(zhí)行時(shí)，'林'會(huì)被以u(píng)nicode形式保存新的內(nèi)存空間中#s指向的是unicode，因而可以編碼成任意格式，都不會(huì)報(bào)encode錯(cuò)誤s1=s.encode('utf-8')s2=s.encode('gbk')print s1 #打印正常否？print s2 #打印正常否print repr(s) #u'\u6797'print repr(s1) #'\xe6\x9e\x97' 編碼一個(gè)漢字utf-8用3Bytesprint repr(s2) #'\xc1\xd6' 編碼一個(gè)漢字gbk用2Bytesprint type(s) #<type 'unicode'>print type(s1) #<type 'str'>print type(s2) #<type 'str'>

　　2. 在python3中也有兩種字符串類型str和bytes

　　str類型變?yōu)閡nicode類型

#coding:utf-8s='林' #當(dāng)程序執(zhí)行時(shí)，無需加u，'林'也會(huì)被以u(píng)nicode形式保存新的內(nèi)存空間中,#s可以直接encode成任意編碼格式s.encode('utf-8')s.encode('gbk')print(type(s)) #<class 'str'>

　　bytes類型

#coding:utf-8s='林' #當(dāng)程序執(zhí)行時(shí)，無需加u，'林'也會(huì)被以u(píng)nicode形式保存新的內(nèi)存空間中,#s可以直接encode成任意編碼格式s1=s.encode('utf-8')s2=s.encode('gbk')print(s) #林print(s1) #b'\xe6\x9e\x97' 在python3中，是什么就打印什么print(s2) #b'\xc1\xd6' 同上print(type(s)) #<class 'str'>print(type(s1)) #<class 'bytes'>print(type(s2)) #<class 'bytes'>

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

一、了解字符編碼的知識(shí)儲(chǔ)備

二、字符編碼簡(jiǎn)介

三、字符編碼的發(fā)展史

四、字符編碼的使用

二、字符編碼簡(jiǎn)介

三、字符編碼的發(fā)展史

四、字符編碼的使用