Struts原理與實踐(4)- -
本篇我們來討論一下struts的國際化編程問題,即所謂的i18n編程問題,這一篇我們討論其基礎部分。與這個問題緊密相關的是在各java論壇中被頻繁提及的中文亂碼問題,因為,英、美編程人員較少涉及到中文亂碼問題,因此,這方面的英文資料也是非常奇缺的,同時也很少找到這方面比較完整的中文資料,本文也嘗試對中文亂碼問題做一些探討。要解決上述問題,需要有一定的字符集方面的知識,下面,我們就先介紹字符集的有關情況:
一、從ASCII到Unicode(UTF-8)
電子計算機技術是從美國開始發(fā)展起來的,因為美國使用的文字為英文,美國規(guī)定的計算機信息交換用的字符編碼集是人們熟知的擴展ASCII碼,它以8bit字節(jié)為單位存儲,ASCII的0-31及127為控制符,32-126為可見字符,包括所有的英文字母,阿拉伯數(shù)字和其他一些常見符號,128-255的ASCII碼則沒有定義。
ASCII對英語國家是夠用了,但對其他西歐國家卻不夠用,因此,人們將ASCII擴展到0-255的范圍,形成了ISO-8859-1字符集。值得一提的是,因為考慮到程序中處理的信息大多是西文信息,因此有些WEB容器(如:Tomcat4.x)在處理所接收到的request字符串時,如果您沒指定request的編碼方式則系統(tǒng)就缺省地采用ISO-8859-1,明白這一點對理解后面的問題會有幫助。
相比西方的拼音文字,東方的文字(如中文)的字符數(shù)要大得多,根本不可能在一個字節(jié)內將它們表示出來,因此,它們以兩個字節(jié)為單位存儲,以中文國標字符集GB2312為例,它的第一個字節(jié)為128-255。系統(tǒng)可以據(jù)此判斷,若第一個字節(jié)大于127,則把與該字節(jié)后緊接著的一個字節(jié)結合起來共兩個字節(jié)組成一個中文字符。這種由多個字節(jié)存儲一個字符的字符集叫多字節(jié)字符集(MultiByte Charsets),對應的象ASCII這種用一個字節(jié)存儲一個字符的字符集叫單字節(jié)字符集(SingleByte Charsets)。在GB2312字符集中,ASCII字符仍然用一個字節(jié)存儲,換句話說該ASCII是該字符集的子集。
GB2312只包含數(shù)千個常用漢字,往往不能滿足實際需要,因此,人們對它進行擴展,這就有了我們現(xiàn)在廣泛使用的GBK字符集,GBK是現(xiàn)階段Windows及其他一些中文操作系統(tǒng)的缺省字符集。它包含2萬多個字符,除了保持和GB2312兼容外,還包含繁體中文字,日文字符和朝鮮字符。值得注意的是GBK只是一個規(guī)范而不是國家標準,新的國家標準是GB18030-2000,它是比GBK包含字符更多的字符集。
我國的臺灣地區(qū)使用的文字是繁體字,其字符集是BIG5,而日本采用的字符集則是SJIS。它們的編碼方法與GB2312類似,它們的ASCII字符部分是兼容的,但擴展部分的編碼則是不兼容的,比如這幾種字符集中都有"中文"這兩個字符,但他們在各自的字符集中的編碼并不相同,這就是用GB2312寫成的網頁用BIG5瀏覽時,看到的是亂糟糟的信息的原因。
可見,在字符集的世界里,呈現(xiàn)給我們的是一個群雄割據(jù)的局面,各字符集擁有一塊自己的地盤。這給各國和各地區(qū)交換信息帶來了很大的困難,同時,也給國際化(本地化)編程造成了很大的麻煩。
常言道:"分久必合",隨著國際標準ISO10646定義的通用字符集(Universal Character Set即UCS)的出現(xiàn),使這種局面發(fā)生了徹底的改觀。UCS 是所有其他字符集標準的一個超集. 它保證與其他字符集是雙向兼容的. 就是說, 如果你將任何文本字符串翻譯到 UCS格式, 然后再翻譯回原編碼, 你不會丟失任何信息。UCS 包含了用于表達所有已知語言的字符。不僅包括拉丁語、希臘語、 斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語和喬治亞語的描述、還包括中文、 日文和韓文這樣的象形文字、 以及平假名、片假名、 孟加拉語、 旁遮普語果魯穆奇字符(Gurmukhi)、 泰米爾語、印.埃納德語(Kannada)、Malayalam、泰國語、 老撾語、 漢語拼音(Bopomofo)、Hangul、 Devangari、Gujarati、Oriya、Telugu 以及其他數(shù)也數(shù)不清的語。對于還沒有加入的語言, 由于正在研究怎樣在計算機中最好地編碼它們, 因而最終它們都將被加入。
ISO 10646 定義了一個 31 位的字符集。 然而, 在這巨大的編碼空間中, 迄今為止只分配了前 65534 個碼位 (0x0000 到 0xFFFD)。 這個 UCS 的 16位子集稱為 基本多語言面 (Basic Multilingual Plane, BMP)。 將被編碼在 16 位 BMP 以外的字符都屬于非常特殊的字符(比如象形文字), 且只有專家在歷史和科學領域里才會用到它們。
UCS 不僅給每個字符分配一個代碼, 而且賦予了一個正式的名字。 表示一個 UCS 值的十六進制數(shù), 通常在前面加上 "U+", 就象 U+0041 代表字符"拉丁大寫字母A"。 UCS 字符 U+0000 到 U+007F 與 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 與 ISO 8859-1(Latin-1) 也是一致的。這里要注意的是它是以16bit為單位存儲,即便對字母"A"也是用16bit,這是與前面介紹的所有字符集不同的地方。
歷史上,在國際標準化組織研究ISO10646標準的同時,另一個由多語言軟件制造商組成的協(xié)會也在從事創(chuàng)立單一字符集的工作,這就是現(xiàn)在人們熟知的Unicode。幸運的是,1991年前后ISO10646和Unicode的參與者都認識到,世界上不需要兩個不同的單一字符集。他們合并雙方的工作成果,并為創(chuàng)立單一編碼表而協(xié)同工作。兩個項目仍都存在并獨立地公布各自的標準,都同意保持ISO10646和Unicode的碼表兼容,并緊密地共同調整任何未來的擴展。這與當年在PC機上的操作系統(tǒng)MS-dos與PC-dos的情形有些相象。后面,我們將視ISO10646和Unicode為同一個東西。
有了Unicode,字符集問題接近了完美的解決,但不要高興得過早。由于歷史的原因:一些操作系統(tǒng)如:Unix、Linux等都是基于ASCII設計的。此外,還有一些數(shù)據(jù)庫管理系統(tǒng)軟件如:Oracle等也是圍繞ASCII來設計的(從其8i的白皮書上介紹的設置系統(tǒng)字符集和字段的字符集中可以間接地看到這一點)。在這些系統(tǒng)中直接用Unicode會導致嚴重的問題。用這些編碼的字符串會包含一些特殊的字符, 比如 ‘\0‘ 或 ‘/‘, 它們在 文件名和其他 C 庫函數(shù)參數(shù)里都有特別的含義。 另外, 大多數(shù)使用 ASCII 文件的 UNIX 下的工具, 如果不進行重大修改是無法讀取 16 位的字符的。 基于這些原因, 在文件名, 文本文件, 環(huán)境變量等地方,直接使用Unicode是不合適的。
在 ISO 10646-1 Annex R 和 RFC 2279 里定義的 UTF-8 (Unicode Transformation Form 8-bit form)編碼沒有這些問題。
UTF-8 有以下一些特性:
UCS 字符 U+0000 到 U+007F (ASCII) 被編碼為字節(jié) 0x00 到 0x7F (ASCII 兼容)。 這意味著只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 兩種編碼方式下是一樣的。
所有 >U+007F 的 UCS 字符被編碼為一個多個字節(jié)的串, 每個字節(jié)都有標記位集。 因此,ASCII 字節(jié) (0x00-0x7F) 不可能作為任何其他字符的一部分。
表示非 ASCII 字符的多字節(jié)串的第一個字節(jié)總是在 0xC0 到 0xFD 的范圍里, 并指出這個字符包含多少個字節(jié)。 多字節(jié)串的其余字節(jié)都在 0x80 到 0xBF 范圍里。 這使得重新同步非常容易, 并使編碼無國界,且很少受丟失字節(jié)的影響。
UTF-8 編碼字符理論上可以最多到 6 個字節(jié)長, 然而 16 位 BMP 字符最多只用到 3 字節(jié)長。
字節(jié) 0xFE 和 0xFF 在 UTF-8 編碼中從未用到。
通過,UTF-8這種形式,Unicode終于可以廣泛的在各種情況下使用了。在討論struts的國際化編程之前,我們先來看看我們以前在jsp編程中是怎樣處理中文問題以及我們經常遇到的。
二、中文字符亂碼的原因及解決辦法
java的內核是Unicode的,也就是說,在程序處理字符時是用Unicode來表示字符的,但是文件和流的保存方式是使用字節(jié)流的。在java的基本數(shù)據(jù)類型中,char是Unicode的,而byte是字節(jié),因此,在不同的環(huán)節(jié)java要對字節(jié)流和char進行轉換。這種轉換發(fā)生時如果字符集的編碼選擇不當,就會出現(xiàn)亂碼問題。
我們常見的亂碼大致有如下幾種情形:
1、漢字變成了問號"?"
2、有的漢字顯示正確,有的則顯示錯誤
3、顯示亂碼(有些是漢字但并不是你預期的)
4、讀寫數(shù)據(jù)庫出現(xiàn)亂碼
下面我們逐一對它們出現(xiàn)的原因做一些解釋:
首先,我們討論漢字變成問號的問題。
Java中byte與char相互轉換的方法在sun.io包中。其中,byte到char的常用轉換方法是:
public static ByteToCharConverter getConverter(String encoding);
為了便于大家理解,我們先來做一個小實驗:比如,漢字"你"的GBK編碼為0xc4e3,其Unicode編碼是\u4f60。我們的實驗是這樣的,先有一個頁面比如名為a_gbk.jsp輸入漢字"你",提交給頁面b_gbk.jsp。在b_gbk.jsp文件中以某種編碼方式得到"你"的字節(jié)數(shù)組,再將該數(shù)組以某種編碼方式轉換成char,如果得到的char值是0x4f60則轉換是正確的。
a_gbk.jsp的代碼如下:
Input
*
b_gbk.jsp的代碼如下:
在瀏覽器中打開a_gbk.jsp并輸入一個"你"字,點擊OK按鈕提交表單,則會出現(xiàn)如圖1所示的結果:
圖1
從圖1可以看出,在b_gbk.jsp中這樣將byte轉換為char是正確的,即得到的char是\u4f60。這里要注意的是:byte b[]=a.getBytes("ISO8859-1");中的編碼是ISO8859-1,這就是我們前面提到的有些web容器在您沒有指定request的字符集時它就采用缺省的ISO8859-1。
從圖1中我們還看到表達式 中的a并沒有正確地顯示"你"而是變成"??"這是什么原因呢?這里的a是作為一個String被顯示的,我們來看看我們常用的String構造函數(shù):
String(byte[] bytes,String encoding);
在國標平臺上,該函數(shù)會認為bytes是按GBK編碼的,如果后一個參數(shù)省略,它也會認為是encoding是GBK。
對前一個參數(shù)就相當于將b_gbk.jsp文件的這句byte b[]=a.getBytes("ISO8859-1");中的ISO8859-1改為GBK,這樣顯然在GBK字符集中找不到相應的目的編碼,它給出的結果是0x3f、0x3f。因此,就會顯示為"??",這也就是造成亂碼的第一種現(xiàn)象的原因。我們的例子是演示的從byte到char的轉換過程,相反的過程也會造成同樣的問題,限于篇幅,就不在此討論了,大家自己可以做類似的實驗來驗證。
解決該問題的方法就是象例子中a1那樣,在獲取byte數(shù)組時,指定編碼為ISO8859-1。
接下來,我們討論有些漢字能正常顯示,有些不能正常顯示的問題。
如果我們將String a1=new String(a.getBytes("ISO8859-1"),"GBK");中的GBK改為GB2312則象朱镕基的"镕"字就不能正常顯示,這是因為該字是GBK中的字符而在GB2312中不存在。
解決上述兩種問題的方法就是象a1那樣構造String,也就是人們常說的同時也是常用的轉碼的方法。采用這種方法會在程序中到處出現(xiàn)這種語句,特別是在Struts中,Struts有一個回寫表單的功能,在回寫時也要做這種轉換,這樣的語句差不多要多一倍。因此,這是個比較笨拙的方法,有沒有簡捷一些的方法呢?其實是有的,只要在取得request的字符串前加上request.setCharacterEncoding("GBK");這句,指定request的字符集。則 中的a就能正常顯示,a1反而不能正常顯示。此時要將byte b[]=a.getBytes("ISO8859-1");中的ISO8859-1變成GBK,從byte到char的轉換才是正確的,這就是此時a能正常顯示而a1反而不能正常顯示的原因。如果此時要a1正常顯示則必須將String a1=new String(a.getBytes("ISO8859-1"),"GBK");中的ISO8859-1改為GBK。
很顯然,使用request.setCharacterEncoding("GBK");只能解決GBK字符問題,要解決i18n問題則要使用UTF-8來取代GBK。我們接著做上述實驗,將a_gbk.jsp和b_gbk.jsp分別另存為a.jsp和b.jsp將文件中的GBK改為UTF-8,更改后的代碼分別如下:
a.jsp代碼:
Input
*
b.jsp代碼:
再在a.jsp中輸入"你"字,你會發(fā)現(xiàn)顯示結果中,一個漢字是用三個byte表示的,它們的值分別是0xe4、0xbd、0xa0,也就是說用UTF-8來表示漢字,每個漢字要比GBK多占用一個byte,這也是使用UTF-8要多付出的一點代價吧。
現(xiàn)在,我們討論一下第三個問題,即顯示亂碼,有些莫名其妙的漢字并不是你預期的結果。
在上例中將String a1=new String(a.getBytes("UTF-8"),"UTF-8");改為String a1=new String(a.getBytes("UTF-8"),"GBK");再輸入"你"字,則a1會顯示成"浣?",您只要看一看"浣"的UTF-8碼和GBK碼就會知道其中的奧秘了。
下面,我們討論一下最后一個問題,就是讀寫數(shù)據(jù)庫時出現(xiàn)亂碼。
現(xiàn)在一些常用的數(shù)據(jù)庫都支持數(shù)據(jù)庫encoding,也就是說在創(chuàng)建數(shù)據(jù)庫時可以指定它自己的字符集設置,數(shù)據(jù)庫數(shù)據(jù)以指定的編碼形式存儲。當應用程序訪問數(shù)據(jù)庫時,在入口和出口處都會有encoding轉換。如果,在應用程序中字符本來已變成了亂碼,當然也就無法正確地轉換為數(shù)據(jù)庫的字符集了。數(shù)據(jù)庫的encoding可根據(jù)需要來設置,比如要支持簡、繁體中文、日、韓、英語選GBK,如果還要支持其他語言最好選UTF-8。
本篇文章對字符集及中文亂碼問題做了一下探討,為實現(xiàn)國際化編程的實踐打下一個基礎。下一篇文章,我們將介紹struts中實現(xiàn)國際化編程的具體步驟,并將我們前面介紹的登錄例子進行國際化。
參考文獻:
UTF-8 and Unicode FAQ
《JSP動態(tài)網站技術入門與提高》太陽工作室 孫曉龍 趙莉編著