汉字编码与输入法

三表为汉字输入法发了几句牢骚,勾的我忍不住说几句。

电脑的中文编码问题应该说是输入汉字、处理汉字困难的根本。我们都知道没有联系的象形汉字只是少数,而大部分的汉字都是组合字,包括指事、會意、形聲、轉注、假借,其中孤立无联系的象形字只占4%,而形声占到了82%。取个会意字的例子,“明”字由日月构成,有日有月即为明,可是在电脑里,日月明三字的背后只是三个完全不相干的拉丁字母和数字的组合。无论以前的GB2312、BIG5,还是现在的18030和Unicode,都将成千上万的中文字进行了孤立的编码,也就是说,每一个汉字在电脑里都是一个个孤立的字符,内在没有任何联系。

目前,大陆和台湾都有人研究过动态组字技术,其基本原理是利用为数不多的汉子字根,通过动态的二维组字(英文为一维字)法来对成千上万的汉子进行编码。这样,英文只需26个字母,中文也只需要为数不多的字根即可。其中,以发明仓颉输入法的朱邦復发明的汉字基因最为成功,且已经产品化。可惜没有获得任何操作系统层面的支持。

再回到输入法。汉字是表意字,且各地人的发音都不一样,利用发音输入的拼音输入法本就不适合中文,要么效率低,要么生僻字找补到。但是随着拼音输入法的发展,且对于常用3000字来说,确实足够使用且对普通话发音标准的人来说方便易学。

我觉得一方面,应该提高拼音输入法以便在输入常用字的同时,能够顺利找到生僻字。另一方面,我们都知道中文字的传统检索方法为部首偏旁检索法,为什么电脑里就没有一个部首检索法或类似的东西让大家方便的找到生僻字呢?

发表评论

电子邮件地址不会被公开。 必填项已用*标注