首页 >>
国学纵览 >>
关于汉语的字和词的数量的宏观估计
关于汉语的字和词的数量的宏观估计
发布时间:2012-08-29 23:13:35 编辑:gfhz 浏览次数:
《现代汉语拉丁化拼音文字》词表
《现代汉语拉丁化拼音文字》=《汉语拼音方案》(稍许修订)+增补标调法+《汉语拼音正词法基本规则》+《现代汉语词典》(和其它规范词典)的词汇、词语一一定型+其他相关法律法规的基本原则。
《现代汉语拉丁化拼音文字》词表目前收集到的词汇约有十二万个。
《现代汉语拼音文字》的词汇达 126 657条
按汉字计,单字词约八千条,实际上多数单字本身并不是词。
另有注音单字约四百五十个,多音单字约六百五十个。
双字词约八万条。
三字词约两万条。
四字词约两万条。
五字及五字以上词语(短语、歇后语、谚语、惯用语)约两千五百条。
名词有待于扩充。包括:
古今中外人名姓氏
世界各地地名(国名、企事业单位名等)
山脉,河流,湖泊等地理名词
天文名词
医药、疾病名词(新名词)
科学技术名词
文学艺术名词
体育名词
电子通讯名词
动物名词
植物名词
物件名称名词
缩略语
等等,总集应该达到40万以上。
词表词语分组及数量:
分部 字数 累 计 比例(%)
A 1117 1117 0.882
B 7014 8131 5.538
C 2446 10577 1.931
CH 5455 16032 4.307
D 7861 23893 6.207
E 673 24566 0.531
F 4371 28937 3.451
G 6378 35315 5.036
H 6500 41815 5.132
I
J 8239 50054 6.505
JU 1271 51325 1.003
K 3129 54454 2.470
L 6378 60832 5.036
LY 366 61198 0.289
M 4757 65955 3.756
N 2599 68554 2.052
NY 116 68670 0.092
O 97 68767 0.077
P 2920 71687 2.305
Q 3773 75460 2.979
QU 1124 76584 0.887
R 2103 78687 1.660
S 2615 81302 2.065
SH 7723 89025 6.098
T 5223 94248 4.124
U
V
W 4189 98440 3.308
X 6159 104599 4.863
XU 1387 105986 1.095
Y 7648 113634 6.038
YU 2465 116099 1.946
Z 3404 118503 2.688
ZH 7154 126657 5.648
合计 126657 100.000
其中“ I、 U、 V”组用于特殊用途,不计数。“ I”组存放部分单音注音汉字;“ U”组存放部分多音注音汉字;“ V”组存放部分双字和三字注音汉字。“JU、QU、XU”组包括“炯、穷、兄”等声音开头的词语。“LY、NY”组包括“吕、女”等声音开头的词语。
按词长(每个词语汉字字数即音节)分
词 长 数 量 比 例(%)
01字词 7874 6.217
02字词 77935 61.532
03字词 18782 14.829
04字词 19655 15.518
05字词 1279
06字词 568
07字词 263
08字词 80
09字词 162
10字词 17
11字词 28
12字词 3
13字词 3
14字词 1
15字词 7 1.904
合计 126657 100.000
多字词语是由基本词汇组成的。有的是文言文成分(成语)占主要地位,形成了固定搭配。
例如:
三K党
世界e家
59岁现象(五十九岁现象)
山穷水尽疑无路,柳暗花明又一村
踏破铁鞋无觅处,得来全不费功夫
先天下之忧而忧,后天下之乐而乐
有心栽花花不开,无心插柳柳成荫
怎么写,让实践来完成。
现代汉语拉丁化拼音文字 Wangk Liangchenkb = Wang2 Liangchen27 = Wáng Liángchén
多元字母标调法: 1声-v,w; 2声-k,b; 3声-f,t; 4声-p,y; 5声-x。
字的方面,我们已根据统计资料作出过结论,现代汉语一般用字量的上限是5000个。这个结论有来自多方面的统计支持,其中王小波《黄金时代》、王小波《白银时代》、王朔《动物凶猛》、王朔《过把瘾就死》、《檀香刑》、《中华人民共和国刑法》、《基督教圣经Bible》、姚国华《全球人文审思》共六个不同来源(不同作者)八部书累计字数 160万,用字 4935个(何况已包括一两百生僻字在内)。另有,金庸《笑傲江湖》(上)(下)、老舍《四世同堂》三本书累计字数148万,用字4224个。未能合并统计,但可以肯定地说,任何一个普通人,甚至任何一个文化人(文字专家除外),能把上面两组中的任一组基本读下来,识字量就足够了。
词的方面,我们也应该有一个粗略的估计,如果总以为前面有一座无限的、不可认知的大山,那样不利于对汉语的正确认识,不利于开展汉语教育工作。
这次王良辰先生公布了其在整理现代汉语拉丁化拼音文字词表中已收集到的词汇达 126 657条。
按词长(每个词语汉字字数即音节)分布:
词 长 数 量 比 例(%)
01字词 7874 6.217
02字词 77935 61.532
03字词 18782 14.829
04字词 19655 15.518
05字词 1279
06字词 568
07字词 263
08字词 80
09字词 162
10字词 17
11字词 28
12字词 3
13字词 3
14字词 1
15字词 7 1.904
合计 126657 100.000
从上表可见,词汇的数量主要集中在双字词上面,这是汉语的一个非常重要的特性,是汉语表意的最主要方式。
为了对汉语词汇作机器化的处理,我提出过一个班氏“词结”的新概念(见《班氏“词结”论》),“词结”是一种三字以上的、比词的结构松散、比词组的结构紧密的一个组合体,它是介于词和词组之间的一个层次。“运动场、跑马场、涮羊肉、留级生、中医院”等这些东西,以前一般认为它们是“词”,但对语言文字的信息处理发展到现代,对语料的处理手段发展到机器处理的时候,再把这些看作是“词”,就会引来不少的麻烦和困惑。班氏提出,在汉语中,两字的定义为词(有数量不多的一字词和极少量不可切分的三字四字词,可作为特例看待),三字四字的定义为词结,把它们看成是2+1、1+2、2+2、2+1+1等表现形式的词结。这样,人工或机器判断词与非词就容易得多了,进行切分、汇集、统计、组合等操作处理也就简单快捷得多了。
1982年修订版的、32开本1243页的大部头《新华词典》“收单字一万二千个,收词约两万六千条,其中一般语词约占60%,社会科学和自然科学词语约占40%。”
1983年第二版1994年修订的、32开本1722页的大部头《现代汉语词典》在前版“所收条目,包括字、词、词组、熟语、成语等,共计五万六千余条”的基础上,扩展到“六万余条”。
据以上种种,汉语的基本词汇大约就在五六万范围。这个基本词汇包括语词和社会常见词汇(高频的、通用的),但不包括非常见的人名、地名、事件名、公司名、医药名、罕见动植物名、科技名词等专业术语,这些专业词汇应该算在社会知识、百科知识的范畴的。如果进一步用班氏词结的标准来切分、处理,则汉语的基本词汇量大约在三万左右(参考上述两种词典可知)。
所以,摆在汉语教育者、修习者面前的基本字词量,大概就是4800个字、3万条词,这是有一系列统计资料支持的比较客观的估算。
对汉语的基本字词量作出正确的估算有什么意义呢?长期以来,不管是外国人或华人中国人,都人云亦云地过分夸大了汉语学习的难度,甚至怀疑汉语的科学性。统计资料客观地显示了,汉语使用的字、词量只需要远远低于英语的单词量就足够了。我查了一下上述提到的两种词典,“猪肉、牛肉、羊肉”这类词条根本没有收入词典。由于汉语有“字”(语素、词素)这个层次,汉语的大部分词汇都是语素组合词,词义是可以自释的,星期一至星期日、一月至十二月,这些也不需要作为“词”来特别记忆处理,甚至外科、内科、儿科、妇科等等都是“可有可无”的词,这是汉语的一个独特的性质,是英语等不可比拟的。