二十一世纪的汉字改革与发展构想
发布时间:2012-08-29 23:20:04 编辑:gfhz 浏览次数:
1
前言
汉字是我们中国人所创造和一直使用着的文字。从甲骨文到金文,从大篆到小篆,从隶书到楷书,从繁体到简体,汉字伴随中国人走过了三千多年的岁月。我们的历史,用汉字记载,我们的文化,与汉字密不可分。当一百年前,当先哲们发现我们的国家已经远远落后于西方新兴强国的时候,认为汉字的繁难,是导致国民文化水平低的一个重要原因。于是,他们发起了新文化运动,即汉字汉语改革运动。这个运动改变了中国的语言和文字生活状况,也可以说它间接地改变了当时的中国以及现代的中国。今天的白话文,双字词,标点符号,还有后来的简体字,无一不是这场新文化运动的成果。
文字首先是工具,但是它又和文化、历史等息息相关。因此,文字的问题,绝不仅仅是文字本身的问题,它同时还是文化、民族、政治,甚至经济问题。因此对于汉字改革问题,必须要慎重对待。
2
对几种汉字改革方式的看法
2.1
汉字字母表音化及其存在的问题
五十年前,曾经有过一种比较激进的思想,即将汉字在数年内以字母表音文字代替。抛开汉字与字母表音文字的优劣不谈,汉字有其特殊性,汉语也有其特殊性,短时间内以字母表音文字代替汉字,是存在诸多问题的。这些问题是:
2.1.1
字(词)型冗长,字母应用效率低。
西方语言是以音素为最小语言单位的,一个音素一般就用一个字母表示(也有少量采用多字母),所以它的词可以很短,例如英文的基本词汇就是比较短的。汉语的最小语言单位是音节,对音节进行简单分解,可知一个音节由一个声和一个韵构成;对音节进行深入分解解可知,声由1个音素组成,而韵则由1~3个音素构成。如果象日文那样采用音节文字书写汉语,则由于汉语音节种类太多不带调的音节400多个,考虑带调则有1300多个,远多于日本语,会导致符号种类太多,不易掌握;如果根据简单分解而采用双拼的方式,即把音节分成声和韵,各用一个符号代表,这样符号种类可以减少到58个(23个声加35个韵),符号量不多,但是1个音节要2个字母表示,还是比西文字母的应用效率低了一半,这还是没有考虑声调的情况,如果考虑声调,效率就更低了;如果根据深入分解而采用音素化的方式,把音分解成音互,每个音素各用一个符号表示,就会使得音素化的汉语字(即单字词)要由1~4个符号表示,符号必须以1~4个为单位使用,导致字比较长,字母的应用效率太低,如“shuang”。汉语拼音采用了音素化的方式,在这个方案中,由于拉丁字母只有26个,不敷使用,导致声母最多由2个字母组成,韵母最多由4个字母组成,这样最长的一个音节要由6个字母表示,这样冗长形式是非常不方便和不经济的。
2.1.2
标调问题不好解决。
汉语是有声调的语言,汉语音节的声和韵(或者进一步解析出来的音素)是时域序列,而汉语的声调贯穿整个时域,把声调符号与声韵符号(或音素符号)并列地使用,放在任一位置都是不合理的,只能标上上边或下边,这使得二维排列的文字结构在计算机应用上不方便。就算能够通过软件技术解决排列问题,那么由于调号比较小,也不易辨识。
2.1.3
词形相似不便使用。
汉语的同音和近音的字(词)太多。几千年来汉语由于汉字的关系,能够容忍大量同音字词和音相近的词存在,写成字母表音形式就是同形词或形近词。对于文字来说,意义不同的词是不能同形的,过于相似的词也不易区分和快速阅读。
总之,汉字是由象形文字演化而来的意素文字,与本来就采用字母表音文字的国家更换一套字母方案是不一样的(如土耳其和前苏联部分加盟共和国)。因此,汉字难以在短时期内演变为字母表音文字。现阶段汉字的改革,只能在方块文字的框架内进行。
2.2
汉字意音化及其存在的问题
近些年,也有一些人,利用形声字的结构原理,想在不改变方块意素文字形式的前提下,对汉字进行形声化改造,主要是优化声符,以便于学习和掌握。这种想法理论上比较好,但实际操作起来困难不少。汉字原来的形声字中,真正精确表音的所占比例并不多,而且还有近三分之一的常用汉字根本就没有声符。在这样的情况下优化声符,会产生以下结果:
2.2.1
声符本身的量就很大,掌握过程长,致使利用声符学习汉字的优势无法发挥,而且很多声符本身不是常用字。
2.2.2
声符是生硬制造的,没有基础,人们不愿接受。
2.2.3
新优化的声符与原来不同音的字冲突,导致混乱。
2.2.4
对汉字的改动量太大,不易推行。
意音化这条路,看偈,实际则难以行得通,而且效果不好。
3
对汉字优越论的看法
与“拼音化”激进思想相反,另一种声音是说汉字很好,汉字不难,汉字是最科学的文字,根本没有改革的必要。汉字的繁难是事实,我们不能否认,汉字存在的无理性、不表音、不便使用等问题,们不能否认,我们不能因为民族感情或者出于其它目的而抬高汉字。汉字在信息化方面存在着不少问题也是现实。片面地说汉字优越,是一种盲目的自大心理,视野狭窄,无视别国文字的优点,因此笔者也不赞同这个观点。
当然,我也不否认汉字具有一些表音字母文字所不具有的优点,如易辨识、行文短、采用汉字作为依托的汉语也比较简短等,但这并不等于汉字不存在问题。
4
汉字存在的问题
首先把目前汉字存在的问题简单地总结列表如下:
4.1
表音性差问题。很多汉字没有提示读音的成分,儿童不能利用已经掌握的语言能力学习文字。
4.2
同音字问题。同音字多,容易混淆。
4.3
多音字问题。一个字有多种读音,不好掌握,让人无所适从。
4.4
基本元件过多问题。汉字的基本元件,按国家的标准,有560个,而其它字母表音文字一般为20~50个。基本元件过多,学习难度大。
4.5
结构复杂问题。基本元件之间的组合关系形式各异,花样繁多,难以掌握。
4.6
无序问题。汉字没有天然的顺序,无论是按音还是按形,都不能按照简单、唯一的规则给汉字排序。情报信息的检索是现代社会的一个重要内容,汉字无序,不便于资料的分类与查找。
4.7
输入问题。采用音码输入汉字,由于同音字、同音词的关系,必须经常地选字,影响速度,损伤视力。采用形码输入汉字,一方面由于汉字的基本元件多,安排在小键盘上就需要大量记忆,另一方面汉字的基本元件之间的组合关系复杂,不容易拆分;第三方面,与书写的问题一样,汉字的表音性差,输入时与大脑的思维不一致,大脑必须同步地做字形拆分,正常的思维和拆字思维互相干扰。
4.8
大字库问题。汉字字量巨大,占用大量空间,应用成本增加。
4.9
繁简汉字问题。汉字目前存在简繁两种字形,造成交流不便、应用成本增加和使用的混乱,不利于汉字走出国界。
4.10
内码不同问题。汉字有两套内码,造成汉字的存储、显示、传输存在问题。
4.11
字量问题。汉字无定数,汉字的字形库工作永远也无法收尾。
以上问题,并不是互相独立的,而是相互关联的。
5
二十一世纪汉字改革构想
今天,时间已经进入了二十一世纪。就汉字问题来说,我们拥有在百年汉字汉语改革运动中获得的经验和教训,拥有现代数学、信息科学等学科的发展和技术进步所提供的计算机等高效工具,我们还拥有更加理性的思维和多方位的视角。因此,我们理应能够以更高更深的智慧来回顾和反思百年来的汉字改革运动的得失,从而为今后的汉字的发展提供思路,更好地解决目前所存在的问题。具体来说,下一步的汉字改革,必须全盘考虑,尽可能地同时兼顾解决上述所有问题,而不能只考虑一个或部分几个方面。
下面针对每一个问题,谈谈笔者对于汉字改革的具体思路。
5.1
表音性差问题。
西方字母表音文字,无论发音多么不规则,总不致于相差太远,因此声音与字形之间的关联度还是很强的,一个可以启示甚至确定另一个,儿童可以利用幼时的语言能力帮助学习文字,许多字不需要特别地记忆,使用时与脑内的声音思维一致。汉字没有这个便利,因此汉字的掌握困难,使用不便。
一些人想通过整理或创制音符的方式使汉字能够表音性强一些,如上文所说的方块形式的汉字改革,笔者对此并不看好。这种做法对汉字改动太多,等于新创造了一种汉字差不多,难以被人们所接受。笔者认为,对于汉字的表音性差问题,只能在汉字改革时对个别有便利条件的进行个别优化改进。比如,把“疑”改成“忄义”等,把“忾”的读音改成“qì”,把“栉”的读音改成“jié”,但这种改动,只能是个别地,不宜太多。换句话说,汉字的表音性差问题,是无法一下子解决的,我们只能接受这个现实。这种改法,表音增强了,但可能使一些读音相同的汉字更多。
5.2
同音字问题。
同音字问题,与表音性差问题类似,我们不能一个早上把很多汉字的音改掉,只能对个别容易导致混淆的、确有必要做一下变动的进行改动。如“癌”原音为“yán”,“癌症”与“炎症”难以区别,甚至靠语境也不能区分,因此将前者按吴音改为“án”。其余绝大多数汉字,只能保持现状。
5.3
多音字问题。
笔者认为这个问题的解决要好于前两个问题,施展面也可以宽一些,原因是多音字往往是一个音常用,而另一个音并不常用,我们把不太常用的那个音取消就可以了,影响比较小。比如,原来的“呆板”的要读作“áibǎn”,现在规定读作“dāibǎn”了,同样地,“一骑红尘妃子笑”中的“骑”,“说服”中的“说”,“角色”中的“角”,可以考虑读常用的那个音,即“qí”、“shuō”和“jiǎo”。
5.4
基本元件过多问题。
这个问题是一个比较难的问题,也是一个比较主要和重要的问题,同时还牵连着输入、排序问题。解决得好,能给所有问题的解决带来便利,如不解决,会导致相关的其它问题也难以解决。
汉字的基本元件,有数百个。按国家标准,有560个,按李牧先生的分析,有313个,按饶福明先生的分析,有199个,按王永民先生的五笔字形方案,86版有216个,98版有247个,无论按哪一个,数量都显然太多。基本元件数量过多,掌握起来就比较困难,而且有些基本元件之间相互区别并不大,容易混淆,尤其是在儿童学习汉字的时候。
笔者经过分析认为,完全可以将一些形近的基本元件进行合并,使基本元件的总数在100个左右,其中成字基本元件占大多数。将这些基元,按形排成一个固定的顺序。比如,“学”“兴”的上边,与“党”“光”的上边不同,但是差别又非常小,小学生学习时常易混淆。从现实的角度来看,区分它们并没有什么意义,把这两个统一为“小”,与“尖”头相同,不会产生任何问题,这样对于识字写字以及计算字型规范都有好处。再比如,“然”“登”字的左上角与“夕”,差别也非常小,合并成有音的“夕”,也不会有什么不妥。
有人说这样做,没有考虑字理,是不合适的。但是,汉字从产生到今天,就是一个图形性不断消失、符号性逐渐增强的过程,也是一个字理逐渐消失的过程,汉字由最初的简笔画,演变成今天的线条符号,没有人能从“车”字上边看到与车的结构有联系的东西,没有人能够从“天”字上边看到天空的样子,没有人能够从“鱼”字上边看出是它是会在水里游的动物。因此,现在谈汉字的字理,是没有意义的。我们必须抛弃任何保守思想,必须面对汉字日益符号化的现实,来进行汉字的改革。至于字理,只能是在方便的时候照顾一下。现在的工业产品的发展,标准化、模块化是一个方向,机械设备,电脑,汽车,都讲究零基本元件的标准化、模块化,减少零件的品种,总的目的是成本最低,使用方便。把汉字的零件进行标准化、模块化设计,也会降低汉字的使用成本。
5.5
结构复杂问题。
汉字的结构复杂,简单的有独体字、左右结构、上下结构,复杂的有各种包围结构,还有的互相穿插、互相粘连,而不象西方字母表音那样,以字母进行一维排列即可,这就带来对汉字的间架结构掌握上的困难,以及利用结构做其它工作时的困难。
笔者认为,一些结构过于复杂的汉字宜进行简单化,以便于掌握和书写,同时还给利用结构做其它工作时带来方便。既然汉字已经符号化了,那么只要在字形上能够容易地相互区分即可,其它任何多余的复杂结构,都不是必要的了。比如 “存”字,是一个穿插结构字,我们从这个字上丝毫看不出这个字必须写成这个样子而不能写成别的样子的必要性,所以,把它写成上“一”下“仔”,由“一亻子 “三个基本元件来构成这个字,也没什么不可以的,而字的结构简化了,带来了方便。再比如“里”,不好拆分,改为上“田”下“土”,拆分就很容易了。最结构化的最终结果,就是任何一个非独体汉字方块,都由基本元件组成。
很多人对汉字有特殊的感情,不喜欢这样改变汉字,尤其是搞中文的人,这是可以理解的。这就象是我们对自己家里的一个旧式电子管收音机,一辆老爷车有感情一样。可是,收音机已经发展到集成电路时代,汽车已经发展到模块化标准化时代,如果汽车的螺栓螺母、车轮车轴不能互换,那么无疑会在制造、使用、管理方面增加许多开支。汉字的道理也是一样的,对其按工业方式进行模块化设计,是非常有利于它的应用的。关于采用基本元件组字,笔者的设想是“元件”+“组装规则”,下面举例说明。
比如“浏”字,由3个元件构成,分别是“氵”、“文”、“刂”,假设元件的键位已经确定,为“swd”,那么这个字的代码就是“swd”。计算机知道了代码,知道是“浏”字,但是,由于采用小字库,而字又不是象西文那样每个都是简单一维排列,规则是一样的,因此仅仅知道了是“浏”字还不够,还必须知道如果将这三个基本元件组装成字,这就必须有组字规则,该规则可以放在一个文件中,计算机利用已知的“swd”代码,到这个文件中去查取组装规则,每一个基元的规则,应该是类似式1的函数:
(1)
其中P(c)为组字结果,c为待组字,F为组字函数,e为基元,x为基元位置横坐标,y为基元位置纵坐标,rx为基元横向缩小比例,ry为基元纵向缩小比例。对于“浏”字,该组字结果为
P(swd)=F(氵,0,0,1/3,1)+F(文,1/3,0,1/3,1)+F(刂,2/3,0,1/3,1)
(2)
这个算法中,每一个小块都是有顺序的,因此只要知道了汉字的元件代码,就可以根据代码取元件,然后按顺序进行运算,绝不会出二义性。实际操作时,计算机利用图形算法,将“氵”向左压缩至三分之一宽,将“文”向中间压缩至三分之一宽,将“刂”向右压缩至三分之一宽,而高度均不变,然后采用“异或”的方式组成字形点阵,并向显示器输出不同的字,因结构不同,元件及元件的组字算法也不同。但是,只要基本元件确定,结构形式确定,无论汉字笔画多么多,结构多么复杂,都能够正确地生成。这种算法是很容易实现的。
5.6
无序问题。
西方的字母有一个人为规定的固定的顺序,查找字母文字的名字时是十分容易的,只需按位顺序查找即可,如果有则一定能查到,如果查不到则一定没有。汉字无序,给排列和检索带来困难。到图书管找一本书、到派出所查一个人名,都十分令人头痛和浪费时间。
计算机技术的应用使汉字的无序问题得以暂时缓解,原因是计算机给汉字分配了无理的内码,等于是给汉字规定了顺序,从而机器本身可以快速定位。但是,这并不能代替人本身,毕竟我们还要接触许多没有存储在计算机中的信息,靠大脑来处理很多信息。
目前,汉字的排序有两种方式,音序和形序,两种排序方式都不能做到有理和唯一,都需要另一方作为辅助,不是精确排序,只是大致排个前后,还不能够完全解决问题,因此只能称作是“准排序”。笔者认为,文字是平面视觉内容,因此 “形”是文字的灵魂,不同的文字可以有相同的“音”,但绝不会有相同的“形”,不管是汉字还是西方文字都是如此。西方字母表音文字也是以“形”而不是以 “音”来排序的。汉字的“形”也是汉字仅有的唯一性标志,因此也必须以形来排序。此外,由于汉字的同音问题远较西方字母表音文字严重,因此,按音排序是不可能,按形排序是解决汉字排序问题的唯一可行的方法。汉字是“基本元件”+“组装规则”组成的有机体,解决汉字的排序问题,首先要解决好汉字的基本元件和组装规则问题。如果能按前文所说,按某种规则解决了基本元件的顺序问题,那么根据组装规则和书写顺序,由这些个基本元件所组成的汉字的顺序问题就与西方字母文字的顺序问题是一样,自然能够迎刃而解。
5.7
输入问题。
输入问题和排序问题有一定的相似性,两者宜合并兼顾解决。
目前,汉字的编码输入有两种方式,音码和形码,还有第三条道路音形码或形音码。音形码仍属于音码的大范围内,形音码属于形码的大范围内。与前一个问题相似,音码的同音字过多问题,和形码的记忆和拆分困难问题,使得两种方式都不是十分理想。近年来,音码由于上手容易(其实是借着小学学时学了汉语拼音的便利),靠着词输入、完善词库、智能组句等技术手段,得到了广泛的应用,算是暂时度过了汉字输入的难关。但是,音码对于单字输入效率低的问题,却始终没有好的解决方案,即使是词输入,随着词库的增大,重码问题也比较严重,智能组句则仍是差强人意。音码由于要经常选择,对于视力还有较大损害。形码输入高效,但是记忆困难,拆分困难,学习成本高,无理成分太多,令多数人望而却步,因此形码日渐萎缩。前边说过,汉字的形是汉字的灵魂,要想实现高速盲打,还得立足于形。西方字母表音文字,都是用形码而非音码输入,这可能是大家不太注意的。
要想有好的形码,就必须解决汉字形码记忆成分太多的问题,具体说就是解决汉字的基本元件过、无理分配问题和汉字拆分难的问题,实际上就是前边所提到的基本元件数量过多和结构复杂的问题。只有减少基本元件的数量,比如减少到前边所说100个左右,平均每个字母键上4个左右,而且是将基本元件有理地分配在键盘上,并解决汉字结构复杂的问题,才能解决汉字形码难以掌握的问题,从而真正实现汉字输入问题的解决。输入法要立足于全民,不追求码长最短,主要是要易学易用,记忆量小,这样才能得到推广。在这方面,陈明然先生的思路,即采用基本元件的声母分配键位,不用记忆,类似于认知码的方法,但是不用数字键。他的方法若结合前边所说的基本元件数量减少以及字型的改进,理论上是极具可行性的,但也存在基本元件无音、键位分配不均和重码问题,需根据实际情况研究解决。
虽然笔者认为形码如果设计得好的话,会是一种比较好的输入法,但从现实来看,笔者对形码的推广并不乐观。现在的双拼比全拼效率高出不少,但是使用的人仍然很少,可见人们是不愿意在输入法上再投入记忆成本的。因此,在智能全拼输入法日渐完善的情况下,形码要想在输入法市场上占据一定的地位,是比较难的。
5.8
大字库问题。
由于汉字不能象西方字母表音文字那样用字母简单一维排列,因此汉字必须有一个大字库,即每一个字都要做一个单独的字型。西方字母表音文字的数量可以有数十万甚至百万之巨,但是它们的字母却只有那么几十个,因此它的字库都是小字库,里边几十种字母形就够了,以有限的字母组无限词。
汉字的数量与西方字母表音文字的字母数量差别很大,常用汉字约7000个,全部汉字70000个以上,由于汉字基元的不确实、结构的复杂性,以及软件的原因,还不能象西方字母表音文字那样用基本元件装配组字。现在汉字采用的是大字库,每一个汉字都要一个代码,根据代码到字库里按图形的方式取字形数据,结果英文用7位ASCII 码即128个代码就足够了,而汉字用16位还不够,现在Unicode已经用到了32位。汉字的代码数量,比全世界其它所有主要文字的和还要多,这种世界第一是中国人的尴尬。
如果汉字有定数,即使大,我们仍然可以花些时间做好它,一劳永逸。可是,汉字并没有确定的数量,谁也难保哪天突然冒出来一个新的汉字,导致汉字的字库工程永远是个半拉子工程,总是收不了尾。就算按GBK的21000个汉字的大字库,如果做成10种字体,就是21万之巨,试想21万个汉字,每一个矢量字形都要精心设计,总成本就是天文数字。拉丁字母52个,做成10种字体,仅520个字形库就可以了。520个和21万,约1:400,多么巨大的差距,而且我们的每一个汉字,字形复杂程度是都是字母的多少倍,字母多的也就3个笔划,平均在2个笔划,汉字平均在11划,两者又是5.5倍的差距,按加权计算,两者的差距更达到了惊人的1:2200!难怪西文的字体,都是免费奉上,而我们的中文字体,却要花费巨额资金购买,原来这背后有巨大的人力财力消耗。这还是电脑时代,有了矢量字库、可以无级缩放输出字形的时代。想象一下铅字时代,宋楷黑仿四种字体,10种大小,我们需要多少字模?我们在宋代就发明了活字印刷,但直到清代,多数书籍还是采用雕版印刷,就是因为字数的关系,使我们的活字印刷术体现不出优势来。解决大字库的问题,就得减少汉字基本元件数量,简化汉字结构,这样只需一个基本元件库,比如前边所说的100个左右的基本元件,那么与拉丁字母相比,只是2倍,再加上一个组字算法,就可以实现汉字的显示和装配,十分经济。大字库问题的解决,与前边所提到的基本元件和结构问题是相关的。
5.9
繁简汉字问题。
50年前大陆推行简体字,而大陆以外的地区仍使用繁体字,造成今天的隔阂。这个问题的解决思路一是全部采用简体,二是全部采用繁体,三是走中间道路。
应该说,繁简各有其优点,也各有其缺点,总体上差不多少,而简体字原本虽然是一个半拉子工程,是用来作为一种向拼音文字过渡的临时用字方案,但它有一个笔划少,易学易写的优点,因此总体上看,简体字还是优于繁体字。使用繁体字的人经常说简体字的不合理之处,可是,大陆自小就学习简体字的人,从来没有感觉到简体字的不合理。这其实是一个先入为主的问题而已,简体字不合理的理由,繁体字中一样存在。目前的现实是大陆13亿人用简体字,而大陆地区以外所有使用汉字的人口总数也不到0.8亿,所以采用简体字相对来说比较只有少数人口需要适应一下。汉字还有一个繁简一对多的问题,使得简体字向繁体字转化难以保证质量,但繁体字向简体字转化却毫无问题。因此,全面采用简体字,是现实主义的最佳方案。非大陆地区的人会暂时感到不便,但是这是唯一的最佳解决方法。
如果反过来,大家全部使用繁体,那么一是重新适应的人要13亿,二是繁体字不便于掌握和书写,第三,由于汉字繁简一对多的问题,计算机不能将已存的简体文稿正确地转为繁体文稿,反而增加不少错误。
如果走中间道路,问题一样没少,而且双方均要做大量改动和适应,成本更高。虽然笔者认为全面采用简体字是最佳解决方案,但是估计大陆以外地区的人不会愿意接受,所以,现实一点儿的话,只能是走中间道路,即繁简由之,个人使用哪种都可以,都不算错,让社会自然选择。比如大陆人看到“老闆”要明白意思,而大陆以外地区的人看到“老板”也不要认为是错的而感觉不舒服。这样做是要付出代价的,就是双方都要熟悉对方的用字,至少要做到会认,从而使成本增加。
5.10
内码问题。
大陆与非大陆地区采用了不同的内码,而且都是各有不止一套编码集,这样导致同一个汉字在计算机内被当成了不同的汉字,而不同的汉字又有可能被当作是同一个汉字,进而出现乱码等现象。这个问题以前不好解决,好在现在有了Unicode。我们知道,Unicode的目标是收录所有文字,当然包括所有不同代码的简繁汉字,所以,这个问题可以说暂时算解决了。当然,这种解决方式的结果是同一个汉字在Unicode中占有两个甚至三个码位,而且分次加入,不在一起,让人觉得非常不严肃。比较理想的方式,是大陆和大陆以外的地区在解决繁简问题之后统一内码,重新申请并安排代码页。但是,新的东西总是要不得不兼顾以前的,导致代码空间的再一次浪费。如果采用笔者前边所说的小字库技术,那么内码问题就不存在了,就象全球使用拉丁字母的国家不存在内码问题一样。
5.11
字量问题。
对于汉字的字量问题,笔者的意见是“常用要少,通用适量,总量要多,可以新造”。常用字少,可以使在掌握数量不多的汉字的情况下就能够学习、读报等,照顾到了文化水平相对较低的人,而且对外汉语教学也减小了难度。根据统计,汉语常用的2500字的覆盖率为99.12%,常用字3000字的覆盖率为99.63%,常用字3500字的覆盖率为99.86%。可见,掌握了2500字的小学毕业生就能够读书读报,遇到生字的概率不到1%,掌握了3500字的初中生日常的文字应用可以说基本不存在问题了。因此,常用字可定在3500字。通用适量,是指现代书籍报刊等用字量要适度,太少了不便于表达复杂概念,太多了掌握不易,据分析,通用字宜在7000左右为佳,这个数量基本可覆盖现代所有用字,报纸、书籍(历史、考古、中文、中医等除外)等一般不应使用通用字以外的汉字,不得不使用通用字以外的汉字时,应该加注汉语拼音,以及必要的解释。总量要多,是指为了古籍信息化、历史研究、中外交流的需要,尽可能地将古今中外所有出现过的汉字收集整理,编中字库。因为这些字属于研究用字,并不需要过多地考虑许多因美化而制作各种字型,所以成本并不会太高。可以新造,是指允许造新字。任何一个民族,其语言都是在变化中发展的,文字也不能如一潭死水一样丧失了更新能力,一些新生概念如果采用现有汉字不便表示,就可以考虑造新字。历史上,汉字的数量一直是在增加的,直至现代,比如化学元素名称的用字。新造字当然要利用前边所说的基本元件,而且要充分考虑识读和使用,因为新造字的数量很少,这个是很容易做到的。西方文字新造词是非常容易的,他们的语言是活的语言,文字也是活的文字,有自身的新陈代谢。新造字因为采用了基本元件,其排序情况与西方字母文字类似,字形确定的,字的顺序问题根据它所用的元件也自然就确定了。
6
结论
汉字的图形性、基本元件的不确定性、结构的复杂性,以及输入、内码、繁简、字量等问题,导致汉字已不能适应时代的发展,必须尽快解决。其中基本元件问题,小字库问题,是汉字问题的核心。目前全球化的竞争已经越来越激烈,改进汉字,让它适应时代的发展,发挥它的优势,为中国的现代化事业服务,为中国民族的子孙后代带来便利,是当代中国文人的责任。
A.1
附记
虽然笔者做了以上分析,对按上文所说的方式对汉字进行改革极具可行性,而且按上述方式改革,能给中国带来巨大的效益,降低汉字掌握的难度和信息时代的应用难度,恰恰相反的是,笔者对包括我的设想在内的任何涉及汉字字形的改革设想均不抱乐观态度。原因是中国一向是个保守的社会,占有文化和学术制高点的既得利益者尤其如此,除非维持不下去了,否则中国是不会改革的。保守派可以随时祭起民族文化的大旗向改革派宣战,而改革派往往不能象发明莱特兄弟试飞那样方便地用事实让保守派闭嘴,因此改革派总是落下风。
A.2
关于汉语的改革
文字和语言是密不可分的,对使用汉字来说的汉语尤其如此。为了改革汉字,我们可以采用改动少量汉字结构、基本字元组字、采用小字库、制定汉字排序规则等。同样地,如果汉语也进行一些改革,那么对于提高语言文字的综合应用效率,无疑一样具有价值。