设为首页收藏本站捐助我们

多多中文官方网站

 找回密码
 注册会员
搜索
热搜: 帮助 教程
查看: 7967|回复: 8

[讨论] 五笔发明人王永民教授随想——《词库发烧的病因及医治》

[复制链接]
发表于 2012-10-27 21:33:57 | 显示全部楼层 |阅读模式
本帖最后由 东方不败 于 2016-8-11 14:42 编辑

《“词库发烧”背离了汉字编码的科学原理》 30年来,对于字词的关系,作者一贯主张“字为本、词为次;字有限、词无边”。常用汉字3000个左右已足够用于各行各业的日常之需,可是10万条、100万条词,也不能满足三五个专业领域使用。中外的人名、地名有几百亿个,动物植物的物种有上千万种,细菌有百万种,疾病有几十万种,各类产品名目有千亿种,化合物有几亿种,哪个不是“词”?开了奥运会,新星新词有多少个?每天的新闻都会有上千条新词!所以,无论谁,想弄一个“万能适用”的“词库”或软件,那就像是要“数天上的星星”一样,不仅是不可能的,简直就是愚蠢的。 在汉字编码设计中,字也好,词也好,都是“编了码”才得以用字母键输入的。像客人住旅馆一样,每一个“码”都要在“编码空间”中占据一个“房间”。“房间”的总数是有限的,决不是一个可任意拉伸变大的橡皮囊。用25个字母键,打4下键的“编码空间”(总编码数)为:406900。 也就是说,不管多少字、多少词,全部只能有406900个“房间”。国标一、二级汉字占据了6763个,重码率仅仅为η=1.66%,可以保证编码的唯一性,这正是五笔字型重码少、打得准的原因所在。但是,由于字和词的“编码形式”完全相同,增加词,就等于增加字;当词汇多达10万条时,“重码率”便上升到η=26.23%。这是什么概念呢?这就是说,平均每打4个字(词),就会出现一次重码,常常需要“手选”,五笔字型“盲打”的优势没有了,还有什么“效率”可言呢? 设计汉字输入软件时,必须首先计算出“字集+词库”的“重码率”。因为“重码率”才是“输入效率”和“输入质量”的决定性因素。 不妨以S1代表“字码”总数,S2代表“词码”总数,我们很容易用η=,计算出各种情况下的“重码率”如下表所示: 字集汉字数单字 重码率(%)加入 1万条词 重码率(%)加入 2万条词 重码率(%)加入 5万条词 重码率(%)加入 10万条词重码率(%)加入 20万条词重码率(%) 国标一、二级字集6763字h=1.66h=4.12h=5.08h=13.95h=26.23h=50.81 国标1803 字集27533字h=6.76h=9.22h=11.68h=19.05h=31.34h=55.91 由上表可见,当“词库发烧”到10万条时,即使只有国标基本字集的6763个字,“重码率”也会陡升到26.23%,这个值是单字输入时的16倍、是1万条词汇时的4倍!这种情况下,任何人再想“盲打”提高效率,都是不可能的!可见“词库发烧”是“盲打”的“杀手”。 其实,只要你会打“喜、来、乐”三个字,什么组合都不用怕。犯不着你把“喜来乐、喜乐来、乐来喜、乐喜来、来喜乐、来乐喜”都造成“词”,几个月也用不到一次白占地方,这个道理不是很简单吗? 涉及科学的问题,决不能背离科学的基本原理,最好少一些个商业“炒作”。现在,到了防止污染、净化一下“空气”的时候了。 6、“词库发烧”和“语音输入”是同一种“病因” 当前社会上的肤浅、浮夸、浮燥之风,在学术界也是很有市场的。在“词库”的问题上之所以“高烧”不退,一概是不做学问、不求真、不务实的表现。归根到底,“词库发烧”不是学术问题,而是学风问题,甚至是一个社会问题。 “词库发烧”的“病因”主要有三个:其一,顾此失彼、非常容易被“忽悠”,是当代中国人常犯的错误,是“词库发烧”的首要原因。我们有成语说“过犹不及”,但常常会忘记万事过了头,就会变成坏事。 汉字输入“以字为本”这个简单的道理,我们的学术界、教育界、商业界、“××五笔”开发商、门户网站,常常弄不明白,任凭有人用“大词库”来唬外行、“忽悠”老百姓。 浮啊!用公式可算出结果的学术问题,也飘着!也浮着!总也落不到实处。不讲效率,不讲质量,宁肯少、慢、差、费,宁肯把五笔字型的“盲打”优势变成“翻屏选字”的劣势,也不愿下点功夫把单字打准、打好。 更可怕的是,一些人从来“不在乎”会错多少个字!“人非圣贤,岂能不错?”反正是闲着没事嘛,先打上去,回头慢慢校对,让别人修改就是了。“计划经济”嘛,时间不值钱,打快、打慢该怎么样?错多、错少有啥关系? 那么,就请你到一家报刊杂志社、编辑部体验一下。在那里,按字数发工资,错字罚钱,电视播出的字幕错一个字罚你800元,每月错够3个字就叫你下岗!如此一来,大概你就知道“单字打准”很值钱了。就能体会到“词库发烧”会让你挣钱少甚至要赔钱了!真是“钱能通神”啊,也许只有“钱”才能让你冷静、降温,最终让你明白一个道理:字有限、词无边。 五笔字型发明25年来,国内外的“打字高手”,无一例外,都是注重先把单字打好的。包括本人举办过的三届“全国汉字输入大赛”参赛的上千名选手,凡是得奖的人,凡是在解放军机关、报社、杂志社、机要局、海关工作的选手,没一个是靠“大词库”吃饭的。他们最清楚:靠“打单字”可以处理古今中外各行各业的一切文本,靠“词库发烧”只能会慢,挑得眼花,错得惊人。本人亲自办了20来年培训班,教过几万人打字,也调查过上百人,凡是“打字高手”,他们仅仅有一个1~2万条的常用词库,都深知“不怕慢,就怕站”,他们的“看家本事”是“打单字”。 其二,就输入而言,许多人对“字-词”关系的认识“本末倒置”,不知道“以字为本”。 第三个“病因”是有点懒。许多人只顾打词“痛快”,却不怕选词慢!始终不愿意下一点功夫熟练掌握3000来个常用汉字的基本编码输入(包括简码),“打4下”出来一条长长的词,甚至出来一句话,出来一首诗,很过瘾!误以为词库越大越好用! 看过“键盘过时随想录”就不难判断,“词库发烧”和“语音输入”,这二者有着相同的“文化基因”。 7、正本清源“字为本”,医治“词库发烧” 为了我国汉字信息处理技术在科学的轨道上健康有序地发展,为了弘扬祖国传统文化并使之融入现代科技,在国势增强、世界“汉语热”的大好形势下,汉字输入技术中的“字-词”关系,应该正本清源了,应当有一个科学的结论了--“汉字输入以字为本”(注:这一观点与“语言教学”无关!)。 那么,如何医治这种“词库发烧”呢?不要失望,方法还是有的。 首先,一定要摆正“字-词”在汉字输入过程中的关系:以字为本,能打字就不愁打词。当然,为了提高速度,也必得二者相辅相成、双轨并行。 其次,正如本人24年前在“字有限、词无边”中所写的:要按照词频,优选1~2万条通用词,如经济、文化、手机、汽车、电视机、黄河、天安门等,建一个各行各业都用得着的“通用库”,其中一级词1万条,二级词1万条;再根据不同专业(比如50个专业),为每个专业再建一个“专业库”(当然这可得下些功夫啊!),其中一级词1万条,二级词1万条(王码的软件已建了13个这样的专业库)。这样总共可以有4万条词搭配组合,便能满足“所有行业”的需求,在提示行按频度显示的情况下,重码率平均只不过是3~4%。这是对付“单字+词汇”最科学而实用的设计,词汇再多了副作用就会凸显出来。当然,输入软件一定还要像王码软件那样,交给用户一个“武器”:既可以自己增加,又可以自己删除,允许用户建立“个性化小词库”。这样,便可望根治久病难医的“词库发烧”。(初稿于2008年8月28日,定稿于9月6日)
发表于 2013-6-10 09:45:03 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:42 编辑

王老说得很中肯,本人也对超大词库持观望态度。但是,词库大→重码率高,这是个伪命题,四键上屏的前提是错的!凡是搞大词库的,应该都不是四键上屏。
回复 支持 1 反对 0

使用道具 举报

发表于 2013-1-20 00:44:40 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:42 编辑

看来,老王的思维定势超不出“四码”。
回复 支持 1 反对 0

使用道具 举报

发表于 2012-10-31 13:50:21 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:42 编辑

超过一屏看起来力啊
回复 支持 反对

使用道具 举报

发表于 2013-1-16 00:08:34 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:43 编辑

说得有道理。
回复 支持 反对

使用道具 举报

发表于 2013-6-8 10:50:56 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:43 编辑

说得很在理,但作为帖子来发,好像是太长了
回复 支持 反对

使用道具 举报

发表于 2013-7-20 12:01:50 | 显示全部楼层
本帖最后由 东方不败 于 2016-8-11 14:43 编辑

我是单字党!很少打词的!
回复 支持 反对

使用道具 举报

发表于 2017-2-14 18:14:01 | 显示全部楼层
这才是真言。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

QQ|小黑屋|手机版|Archiver|多多中文 ( 京ICP备15052903号-3  

GMT+8, 2021-9-18 09:17 , Processed in 0.110536 second(s), 17 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表