轉(zhuǎn)貼自五筆愛好者論壇
原作者:wb_lover
說到動態(tài)碼長,其實和拼音整句輸入有一定聯(lián)系。 動態(tài)碼長,將輸入法從固定碼長和碼表這個原先受限于系統(tǒng)平臺和開發(fā)程序的框框中解放出來,它的實質(zhì),就是讓輸入變得自由、省心。 ①五筆使用者或字詞方式者,可認為動態(tài)碼長是對固定編碼長度這一規(guī)則的突破和拓展,大大擴展了編碼空間和減少了重碼率; ②整句愛好者或短句輸入習慣者,則可認為這是對整句輸入中的細部分析研究,可更好的促進整句輸入的正確率,培養(yǎng)好的識字、斷句方式,使得輸入更自然流暢。
總體看來,讓輸入越來越省心,讓使用的人從不必要的記憶中解放出來,是輸入法不可逆轉(zhuǎn)的趨勢。長期看來,輸入法可以不同,輸入方式卻越來越會趨于一同。大概動態(tài)碼長會是其中熔合的重要過渡吧?!峨p拼研究》目錄
一、綜合研究
十二種雙拼編碼圖解
走馬觀花雙拼編碼
簡拼與雙拼的兼容
零聲母設(shè)置小技巧
雙拼及拼音漫談
戲說雙韻組合
使用雙拼時簡拼與混拼的奧秘
簡析新華拼音
對文字碼的一點小建議
二、徐氏雙拼
最順手的雙拼方案
雙拼編碼問題研究(簡版)
徐氏雙拼新版改進說明
《徐氏雙拼》新版改進內(nèi)容說明
《徐氏雙拼》新版鍵位設(shè)置說明
呼喚全國統(tǒng)一的雙拼編碼方案
這里想利用以下資料對AhMan先生所提出的雙拼編碼問題展開來討論,以拋磚引玉。
Flzt根據(jù)北京語言大學字詞頻資料進行匯總,以下是統(tǒng)計數(shù)據(jù):
單字 9821 單字 16.1 8.9
雙字 32053 雙字 52.5
三字 7257 三字 11.9
四字 11500 四字 18.8
五字 232 五字 0.4
六字 110 六字 0.2
七字 107 七字 0.2
八字 10 八字 0
九字 2 九字 0
純詞條 51271 去生字詞條 56271 (單字以5000計)
詞條 61092 詞條 61092雙拼編碼的效率問題
一、雙拼單字編碼
普通雙拼方案,單字編碼空間為26×26=676,拼音的音節(jié)數(shù)為424(為實際可用的空間)。
①有676-424=252個編碼空間未利用,故單字重碼率遠高于五筆等形碼(假設(shè)五筆也用兩碼為單字編碼)。
②各音節(jié)所對應(yīng)漢字數(shù)相差懸殊,極不均衡,部分音節(jié)漢字生僻,故每一空間首位的常用單字不足400個。
結(jié)論:盡管雙拼相對于全拼是高效的。正如阿門大師所說,單字仍是拼音的軟肋。
二、雙拼詞編碼
①詞(含單字詞)分布結(jié)構(gòu):三字及以上詞的比例約占1/3,按紫光的編碼方式(每字兩碼,一聲一韻),重碼率很低,基本可以盲打。單字占16%,參與統(tǒng)計的單字數(shù)近萬;實際上常用者約5千左右,按此統(tǒng)計的比例為8.9%。雙字詞約占52%,碼長為4;數(shù)量多,碼長短,重碼率很高(與三字以上詞相比),是編碼的難點,也是我們討論的重點。
②雙字詞的正常編碼空間利用率:按拼音加加和自然碼的編碼規(guī)則(主要是零聲母處理),雙拼編碼空間為26的平方,比五筆大(25的平方),且五筆單字編碼占據(jù)了部分空間;但拼音的不均衡造成編碼利用率偏低;兩相抵消,估計總體利用率差別不大。
③雙字詞的附加編碼空間(本帖主要內(nèi)容):混拼,碼長為3,編碼空間為26的3次方(17576),這一部分空間在形碼方案中有相當大的部分被單字所占據(jù),在雙拼中全部被混拼所用;混拼很有規(guī)律,無需死記混拼簡碼(相當于詞的二級簡碼),在使用中就能熟練掌握。單字編碼所空余的252個空間,通常用作詞的一級簡碼(即簡拼),可安排200余個最常用的雙字詞(按紫光的編碼規(guī)則,這部分內(nèi)容不易掌握)。
綜合上述內(nèi)容,在雙字詞的編碼空間方面,拼音比五筆等形碼要寬余;平均碼長(介于3-4之間)及重碼率指標均優(yōu)于五筆。
三、單字詞輸入分析
按詞輸入的方式使很多高頻的單字也融入詞中,只有那些組詞困難的單字需用單字方式輸入。如紫光的一級簡碼y就對應(yīng)“以”而不是“一”。這使單字輸入的幾率大大減少。
故,按詞輸入是拼音輸入法的優(yōu)勢和特色。
四、其它
①單字加形:自然碼、拼音加加、譚碼、夢碼、自然二筆(學尚易)、我的雙雙碼等。譚碼是聲稱可以盲打的。單字輸入幾率降低,但對輸入效率仍有很大影響,單字加形不失為一種解決辦法。為避免與簡拼混拼沖突,拼音加加采用Tab鍵對單字形碼分流,效率仍不及五筆等。至于加什么“形”更合適,仍值得進一步探索。
②生字查詢:單字加形的另一好處是能輸入生僻字,還可以“以形查音”。這種情況很少遇到,我是在使用拼音輸入法一年后才遇到了一個不認識的生字詞:柘城,這是河南的一個縣名。但在特殊場合,如錄入古文,拼音輸入法是無法勝任的。
最后結(jié)論:一個精心設(shè)計的以雙拼為主的輸入法,在效率方面和五筆等形碼不會有太大的差距。
無論是傳統(tǒng)的雙拼,還是單字加形分流的雙拼,其雙字詞的編碼指標都高于五筆等形碼,完全避免了和單字編碼的沖突。換言之,雙字詞的高效是以單字詞的低效為代價的,雙字詞在一定程度上彌補了單字的不足。只站在詞或字的立場上看問題,是有失偏頗的。
拼音和形碼是相通的
徐孟羅
一、紫光的編碼規(guī)則
從使用紫光的第一天起,我就用雙拼。
無論詞或單字,其雙拼編碼規(guī)則都是統(tǒng)一的:
單字:2碼
雙字:4碼
三字:6碼
四字:8碼
就像正常寫字那樣,每字兩筆,按順序?qū)懢褪橇?。沒什么特別的,實際上無規(guī)則。
后來看到輸入法生成器的介紹文章,才知道有些輸入法中字詞都是等長的4碼;即根據(jù)不同詞長制訂不同的構(gòu)詞規(guī)則,即ce2、ce3、ca4等內(nèi)容。
二、拼音特色的“形碼”
拼音重碼多,主要是單字,因為碼長為2。自然碼、拼音加加采用后續(xù)輔助編碼方法,在一定程度上緩解了這一問題,此時單字全碼碼長為4。從形式上看,音碼與形碼已經(jīng)沒有什么不同了。其重碼率指標仍不能令人滿意,因為受語言自然屬性的制約;同時仍保持了語言自然屬性的特點,很容易上手。所謂成也蕭何,敗也蕭何!
輸詞時仍然是純粹的拼音;輸單字時多數(shù)情況下只需輸入一位輔助碼,有時只輸入拼音碼即可。其主體特色仍然是拼音。類似于帶拼音特色的“形碼”。
三、動態(tài)碼長的新發(fā)現(xiàn)
雙雙碼是受前人啟發(fā)做出的實驗品,基本沿用了上述的編碼習慣。掛接在極點平臺上,卻出現(xiàn)了新的效果。四字詞碼長為8,但只需鍵入4-6個代碼即可無重碼上屏,總體平均碼長為5。
表面上看,等長四碼的方案(如傳統(tǒng)五筆)更高效,實際并非如此。知道這一點經(jīng)歷了一個艱難的過程。
上個月整理成語詞庫,我用上海古籍出版社的成語辭典逐條輸入,歷時十余天。雙雙碼用的是拼音佳佳的22萬海量詞庫,但仍有很多詞條沒有,只好用單字方式輸入。此時四字的總體碼長為10左右,若考慮多按的空格鍵數(shù)、打空時鍵入的4-6位無效代碼,其總體效率指標將更糟糕??梢韵胍?,等長四碼的方案無法容納更多的四字成語,打空的幾率更高,重新返工輸入單字的效率更低。動態(tài)碼長大大拓寬了三字以上詞條的編碼空間,弱化了經(jīng)常打空所造成的負面效率影響。
使用五筆的wbahzhy等網(wǎng)友目前正在探索動態(tài)碼長問題,不知是否受拼音所啟發(fā),但可肯定兩者在原理上是相通的??尚Φ氖?,不少拼音用戶(包括我在內(nèi))一直都在使用動態(tài)碼長功能,卻長期處于下意識和不自覺的矇眬狀態(tài);從未使用過這一功能的五筆用戶卻在有意識地、主動地探索這一問題,并獲得了一些積極的理性認識。真誠地期待他們的成功!
仔細想想,wozy的三重碼詞庫和雙拼也有很多相似的地方。
單字加輔助碼,再除去三字以上的詞,雙拼和等長四碼的純形碼方案也很相似,在編碼原理上也有很多可以相互借鑒的地方。
注:發(fā)此帖的原因,一是因為使用形碼的慧通先生認為,用動態(tài)碼長規(guī)則對形碼編碼,其技術(shù)指標會超越拼音方式,我基本贊同這一論斷;二是五筆論壇wbahzhy、杜志民、LoveEB、玉樹臨風、拼音佳佳等正在倡導進行這方面的嘗試,我期望能盡早做出一個方案。
這樣做的好處是顯而易見的,既簡化了編碼規(guī)則,又提高了技術(shù)指標。
補充一點,動態(tài)碼長實質(zhì)上是將三字以上的詞從等長四碼的空間中剝離出來了,這同時也擴充了雙字詞的編碼空間。動態(tài)碼長確實有利于簡化編碼規(guī)則,任何詞都是每字兩碼,只不過無需輸全而已。