设为首页 | 收藏本站
首页主办机构书写教育示范学校优秀教师书写大赛书艺展厅最新动态联系我们
到期的《会员证》进行重新注册[2012-04-23]    到期会员请续交会费并注册[2014-01-08]    公开征集规范汉字书写专业委员会[2020-12-14]    专委会理事换届通知[2020-12-21]    2021年度汉字征选活动通知[2021-11-27]    
书写教育ZHUBANJIGOU
首页 >> 国学纵览 >> 关于汉语的字和词的数量的宏观估计

关于汉语的字和词的数量的宏观估计

发布时间:2012-08-29 23:13:35     编辑:gfhz    浏览次数:

《现代汉语拉丁化拼音文字》词表
《现代汉语拉丁化拼音文字》=《汉语拼音方案》(稍许修订)+增补标调法+《汉语拼音正词法基本规则》+《现代汉语词典》(和其它规范词典)的词汇、词语一一定型+其他相关法律法规的基本原则。

《现代汉语拉丁化拼音文字》词表目前收集到的词汇约有十二万个。
《现代汉语拼音文字》的词汇达 126 657条
按汉字计,单字词约八千条,实际上多数单字本身并不是词。
另有注音单字约四百五十个,多音单字约六百五十个。
双字词约八万条。
三字词约两万条。
四字词约两万条。
五字及五字以上词语(短语、歇后语、谚语、惯用语)约两千五百条。

名词有待于扩充。包括:
古今中外人名姓氏
世界各地地名(国名、企事业单位名等)
山脉,河流,湖泊等地理名词
天文名词
医药、疾病名词(新名词)
科学技术名词
文学艺术名词
体育名词
电子通讯名词
动物名词
植物名词
物件名称名词
缩略语
等等,总集应该达到40万以上。

词表词语分组及数量:
分部 字数 累 计  比例(%)
A   1117  1117  0.882
B   7014  8131  5.538
C   2446  10577  1.931
CH  5455  16032  4.307
D   7861  23893  6.207
E    673  24566  0.531
F   4371  28937  3.451
G   6378  35315  5.036
H   6500  41815  5.132
I
J   8239  50054  6.505
JU  1271  51325  1.003
K   3129  54454  2.470
L   6378  60832  5.036
LY   366  61198  0.289
M   4757  65955  3.756
N   2599  68554  2.052
NY   116  68670  0.092
O    97  68767  0.077
P   2920  71687  2.305
Q   3773  75460  2.979
QU  1124  76584  0.887
R   2103  78687  1.660
S   2615  81302  2.065
SH  7723  89025  6.098
T   5223  94248  4.124
U
V
W   4189  98440  3.308
X   6159 104599  4.863
XU  1387 105986  1.095
Y   7648 113634  6.038
YU  2465 116099  1.946
Z   3404 118503  2.688
ZH  7154 126657  5.648
合计    126657 100.000

其中“ I、 U、 V”组用于特殊用途,不计数。“ I”组存放部分单音注音汉字;“ U”组存放部分多音注音汉字;“ V”组存放部分双字和三字注音汉字。“JU、QU、XU”组包括“炯、穷、兄”等声音开头的词语。“LY、NY”组包括“吕、女”等声音开头的词语。

按词长(每个词语汉字字数即音节)分
词 长   数 量  比 例(%)
01字词    7874    6.217
02字词    77935   61.532
03字词    18782   14.829
04字词    19655   15.518
05字词    1279   
06字词     568   
07字词     263   
08字词     80   
09字词     162   
10字词     17   
11字词     28   
12字词      3   
13字词      3   
14字词      1   
15字词      7    1.904
合计    126657   100.000

多字词语是由基本词汇组成的。有的是文言文成分(成语)占主要地位,形成了固定搭配。
例如:
三K党
世界e家
59岁现象(五十九岁现象)
山穷水尽疑无路,柳暗花明又一村
踏破铁鞋无觅处,得来全不费功夫
先天下之忧而忧,后天下之乐而乐
有心栽花花不开,无心插柳柳成荫
怎么写,让实践来完成。   
 
现代汉语拉丁化拼音文字 Wangk Liangchenkb = Wang2 Liangchen27 = Wáng Liángchén
多元字母标调法: 1声-v,w; 2声-k,b; 3声-f,t; 4声-p,y; 5声-x。

   字的方面,我们已根据统计资料作出过结论,现代汉语一般用字量的上限是5000个。这个结论有来自多方面的统计支持,其中王小波《黄金时代》、王小波《白银时代》、王朔《动物凶猛》、王朔《过把瘾就死》、《檀香刑》、《中华人民共和国刑法》、《基督教圣经Bible》、姚国华《全球人文审思》共六个不同来源(不同作者)八部书累计字数 160万,用字 4935个(何况已包括一两百生僻字在内)。另有,金庸《笑傲江湖》(上)(下)、老舍《四世同堂》三本书累计字数148万,用字4224个。未能合并统计,但可以肯定地说,任何一个普通人,甚至任何一个文化人(文字专家除外),能把上面两组中的任一组基本读下来,识字量就足够了。

词的方面,我们也应该有一个粗略的估计,如果总以为前面有一座无限的、不可认知的大山,那样不利于对汉语的正确认识,不利于开展汉语教育工作。
这次王良辰先生公布了其在整理现代汉语拉丁化拼音文字词表中已收集到的词汇达 126 657条。
按词长(每个词语汉字字数即音节)分布:
词 长   数 量  比 例(%)
01字词    7874    6.217
02字词    77935   61.532
03字词    18782   14.829
04字词    19655   15.518
05字词    1279   
06字词     568   
07字词     263   
08字词     80   
09字词     162   
10字词     17   
11字词     28   
12字词      3   
13字词      3   
14字词      1   
15字词      7    1.904
合计    126657   100.000

从上表可见,词汇的数量主要集中在双字词上面,这是汉语的一个非常重要的特性,是汉语表意的最主要方式。

为了对汉语词汇作机器化的处理,我提出过一个班氏“词结”的新概念(见《班氏“词结”论》),“词结”是一种三字以上的、比词的结构松散、比词组的结构紧密的一个组合体,它是介于词和词组之间的一个层次。“运动场、跑马场、涮羊肉、留级生、中医院”等这些东西,以前一般认为它们是“词”,但对语言文字的信息处理发展到现代,对语料的处理手段发展到机器处理的时候,再把这些看作是“词”,就会引来不少的麻烦和困惑。班氏提出,在汉语中,两字的定义为词(有数量不多的一字词和极少量不可切分的三字四字词,可作为特例看待),三字四字的定义为词结,把它们看成是2+1、1+2、2+2、2+1+1等表现形式的词结。这样,人工或机器判断词与非词就容易得多了,进行切分、汇集、统计、组合等操作处理也就简单快捷得多了。

1982年修订版的、32开本1243页的大部头《新华词典》“收单字一万二千个,收词约两万六千条,其中一般语词约占60%,社会科学和自然科学词语约占40%。”

1983年第二版1994年修订的、32开本1722页的大部头《现代汉语词典》在前版“所收条目,包括字、词、词组、熟语、成语等,共计五万六千余条”的基础上,扩展到“六万余条”。

据以上种种,汉语的基本词汇大约就在五六万范围。这个基本词汇包括语词和社会常见词汇(高频的、通用的),但不包括非常见的人名、地名、事件名、公司名、医药名、罕见动植物名、科技名词等专业术语,这些专业词汇应该算在社会知识、百科知识的范畴的。如果进一步用班氏词结的标准来切分、处理,则汉语的基本词汇量大约在三万左右(参考上述两种词典可知)。

所以,摆在汉语教育者、修习者面前的基本字词量,大概就是4800个字、3万条词,这是有一系列统计资料支持的比较客观的估算。

对汉语的基本字词量作出正确的估算有什么意义呢?长期以来,不管是外国人或华人中国人,都人云亦云地过分夸大了汉语学习的难度,甚至怀疑汉语的科学性。统计资料客观地显示了,汉语使用的字、词量只需要远远低于英语的单词量就足够了。我查了一下上述提到的两种词典,“猪肉、牛肉、羊肉”这类词条根本没有收入词典。由于汉语有“字”(语素、词素)这个层次,汉语的大部分词汇都是语素组合词,词义是可以自释的,星期一至星期日、一月至十二月,这些也不需要作为“词”来特别记忆处理,甚至外科、内科、儿科、妇科等等都是“可有可无”的词,这是汉语的一个独特的性质,是英语等不可比拟的。
设为首页在线留言联系我们加入收藏友情链接
通信地址:北京市朝内南小街51号  邮编:100010 联系电话:010-65263496
版权所有:规范汉字书写专业委员会 技术支持:艺盟工作室 京ICP备11009441号
电子稿件来函请至:guifanhanzi@tom.com 汉字书写交流群:48205660 博客:blog.sina.com.cn/gfhzsx