繁简字 字形转换模糊消解非统计方法

 

冯 霞*

 

 

    简体中文和繁体中文是现代汉语并存的两种书面形式。它们在语音、词汇、语法等方面都有明显差异,给大陆和港澳台地区的交流和沟通造成障碍。繁体中文和简体中文的最大区别在于字形,而繁简字字形转换的难点在于部分简化字与繁体字在字形的不对称对应。本文结合大规模真实语料,主要分析探讨了对繁简字字形转换过程中由于繁简字字形不一一对应造成的模糊现象进行消解的方法。

  关键词繁简转换;不对称繁简字;模糊消解

 

  现代汉语存在两种书面形式:简体中文和繁体中文。港台等地所使用的繁体中文与大陆使用的简体中文在文字、词汇以及语法等方面都呈现出比较明显的差异繁简并存的现状在定程度上成了大陆与港澳台地区在信息交流与沟通等方面的个重要障碍。

 

1. 中文繁簡转换 繁简字字形转换

中文繁简转换应解决的基本问题是由繁体中文与简体中文的区别决定的。繁简中文的区别主要体现在以下四个方面:

  (1) 字形:繁体中文使用繁体字形,简体中文使用简化字形。

  (2) 字符集:繁体中文通常使用 BIG5 编码以及台湾官方发布的 CNS14649;简体中文则通常使用国标码字符集或其扩充版本,国家标准扩展码 (GBK) 等由中国大陆政府正式颁发的字符集。

  (3) 词汇:繁体中文与简体中文在词汇方面的差异主要体现于两类词语,是繁体中文与简体中文彼此找不到合适对应关系的词语。如“縮班”“杀校”“老三届”。是非一一对应的词语,即个繁体中文中的词语可能对应简体中文的多个意义,或者反之。如,繁体中文里的“家庭計划”对应简体中文中的“家庭的计划”和“计划生育”两个意义;简体中文中的“检讨”对应繁体中文的“检查”和“讨论”两个意义。后个例子中的词语在理性意义和感情色彩都是不对应的。

  (4) 语法:语法方面的差异可以从词法和句法两方面来看。词法区别体现在繁体词类活用较多,否定词、连词和量词与简体中文也均有所区别。句法方面繁简中文的差异则主要体现在动词部分省略,动词搭配以及有字句、比较句等方面。

  中文繁简转换的基础在于繁简字字形转换[1]。这是因为字形差异是繁体中文和简体中文的最大区别‘简体中文的定义决定它不能用繁体的字形书写,除非一个繁体字形不存在对应的简体形式。同样‘繁体’中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写[2]”就字形差异而言,费锦昌先生在其《海峡两岸现行汉字字形的比较分析》文中对大陆的《现代汉语通用字表》内的7000个通用字和台湾地区的《常用国字标准字体表》内的4808个常用字进行了字形比较,比较的结果是,两表所收相同的字有4786个,其中字形不同的即大陆使用简化字,台湾使用繁体字的有1474个字,约占总表的31%。另外,据初步统计,在《简化字总表》第表,不作简化偏旁用的350个简化字中,字形相差甚远、看不出关联性的字,如“出[]”、“丛[]”等有90多个,约占此表的25.7%。可见,字形差异是繁体中文用户和简体中文用户在阅读没经过繁简转换的文字内容感觉困难的根本原因。

  而现有大多数繁简转换工具处理多是只做不同字符集之间的转换,也就是编码之间的互转,转换并不针对繁简中文的不同字形。若是基于收录了所有简繁体中文字符的字符集如 GBK 再利用这种方法做繁简转换是毫无意义的,遇到繁简字形对应关系存在歧义的繁简字般也很难转换正确,例如对“老板板着脸”这样的句子就束手无策。

  因此,我们认为,繁简字字形的正确转换是中文繁简转换的关键问题。

 

2. 繁简字字形转换的多选一模糊

2.1 繁简字字形对应和不对称繁简字

  繁体字与简化字在字形上的对应存在以下三种情况:

  1. 繁简同形。如“[]”、“丁[]”、“少[]”等。

  2. 繁简一一对应,即个简化字形与个繁体字形对应。如“帮[]“宝[]“报[]”等。

  3. 繁简不一一对应。繁体字与简化字的不对称对应,不仅体现在个简化字对应多个繁体字形,也体现在个繁体字对应多个简化字形。如表1、表2

 

       1.-繁的一对多                     2.-简的一对多

简化字

繁体字

 

繁体字

简化字

發(出發)

髮(頭髮)

 

着(沿着)

著(著作)

板(老闆)

板(木板)

 

干(干燥)

乾(乾坤)

別(告別)

別(彆扭)

 

征(长征)

徵(徵羽)

 

12 两种情况的繁简字字形互转问题依靠建立字形映射表就可以解决,而字形不对称对应的繁体字与简化字的互转问题则复杂得多,它们会因为对称关系的非唯一性而造成转换多选一的模糊,是繁简字字形转换的难点。例如,简体字“松”,在繁体中文中对应两个繁体字形:是“鬆”字,作“紧”的反义词;是“松”字,作义素包含在“松树”词中。对于这样句话“泥土松,松树动,松子轻松掉在泥土中”,单纯利用编码转换方式来进行转换的繁体结果通常就是“泥土松,松樹動,松子輕松掉在泥土中”。繁体中文用户般都会把转换后句子中的所有“松”字都理解为“松树”中“松”,从而给理解造成困难。本文主要针对这类不对称繁简字进行句法特点和语义特征的规则化处理,分析探讨了对此类繁简字字形转换的模糊消解方法。

  在《现代汉语通用字表》所收录的7000个通用字中,有121组繁简字是不一一对应的[3]。由于简化字是根据繁体字转换生成的,所以“繁对多简”的情况并不多,共有14组,分别是“讎(仇/、兒(儿/、乾(干/、閤(合/、夥(伙/、藉(借/、剋(克/、瞭(了/、麼(么/、蘋(苹/、餘(余/、摺(折/、徵(征/、著(/)”,另外还有107个简化字属于“简对多繁”的情况,它们分别是

板 淀 丰 脏 后 胡 回 漓 须 帘 千 秋 松 咸 苏 郁 御 愿

芸 沄 致 朱 团 辟 卜 沈 虫 担 党 谷 柜 坏 几 家 价 据

适 蜡 腊 万 宁 朴 仆 胜 术 体 叶 吁 与 摆 当 发 汇 获

尽 历 弥 纤 表 才 丑 范 姜 困 霉 面 蔑 云 制 准 厂 广

别 冲 种 斗 划 系 卷 累 蒙 曲 确 舍 台 涂 旋 佣 症 恶

复 饥 卤 签 坛 只 钟 药 出 刮 冬 里 向 筑 岳 借 伙 

值得注意的是,121组不对称繁简字中有两组繁简字(/借、夥/伙)存在着交叉对应的情况,即“繁对多简”的繁简字所对应的多个简化字中,有个简化字也对应多个繁体字。如“夥”字,它在表示“多”的义项对应的简化字形是“夥”,在其它义项则简化成“伙”字,属于“繁对多简”的繁简字;但是它所对应的个简化字的“伙”,在表示“伙计、同伴”之义时,对应繁体字形“夥”,在表示“伙食”之义时,对应的繁体字形则是“伙”,属于简对多繁”的繁简字。出于繁简转换多选准确性的考虑,我们仍将其分入两类。

 

2.2 存在字形转换模糊的不对称繁简字分类

  存在字形转换多选模糊的繁简字,即不对称繁简字般根据不同义项对应不同的繁体字形,例如“发”字,在表示动词义(如“发展”)及量词义(如“发子弹”)时对应繁体字形“發”;在表示“头发”之义时,对应繁体字形“髮”。此类繁简字字形转换的难易程度与这个字的语境复杂性也是紧密相关的,也就是与需转换的字在表示不同义项时的单用能力强弱有关。我们把这121组不对称繁简字按义项单用能力强弱分为如下两类:

  () 某个义项单用能力较弱的繁简字

  个字的单用能力较弱说明这个字般很少单用,要与别的词或词组组合起来出现在固定词汇中,但不对称繁简字归并在此类并不是说这个字本身的单用能力较弱,只是它在某义项很少单用。此类繁简字般对应两个繁体或简化字形,并存在当它们出现在特定词汇中时才对应其中个繁体或简化字形的情况。如:“卜”对应两个繁体字形“蔔”和“卜”,它只在出现于“萝卜”词时才对应繁体字形“蔔”,其它情况都对应繁体字形“卜”。

  这类繁简字又可分为两种,种是在对应其中个繁体或简化字形时,只出现在某词汇中的繁简字。如简化字“千”和“秋”都只在“秋千”词中分别对应繁体字形“鞦”和“韆”;在其它义项,则对应繁体字形“秋”和“千”。另外还存在一种不只出现在单个词语中,但它们在某一义项中对应的词汇却可以穷尽的繁简字。例如简化字“胡”,在“胡子”这义项中对应繁体字形“鬍”;在其它义项则对应繁体字形“胡”。

  此类某义项单用能力较弱的繁简字一共有52组,包括如“回、千、秋、苏”等的44个“简对多繁”的简化字 如“夥、雠、著、麽”等8个“繁对多简”的繁体字。

  () 单用能力较强的繁简字

  单用能力较强的繁简字是相对于第类在某义项单用能力较弱的繁简字而言的,这类繁简字在根据不同义项对应多个简化或繁体字形时,都不是只出现在可穷尽的固定词汇中,而是呈现出单用情况比较多,临时生词能力较强的特点。此类繁简字共有69组,根据其义项的不同特点又可以分为四小类:

  1. 某个义项作特殊义用的繁简字

  这类繁简字般对应两个简化或繁体字形,对应其中个字形时,所表示义项比较特殊,如“简对多繁”的简化字“云”,在表示“古汉语动词、助词(例‘人云亦云’‘岁云暮也)”时,才对应繁体字形“云”;其它义项中则对应繁体字形“雲”。再如“适”字,在作人名用字时,对应繁体字形“适”,在其它义项则对应繁体字形“適”。另外,还存在着作拟声词用时才对应它所对应的两个繁体字形的其中个的“简对多繁”的简化字“当、冬”等;在作量词用时才对应它所对应的两个繁体字形的其中个的“简对多繁”的简化字“出、里”等。此类繁简字包括23个“简对多繁”的简化字和9个“繁对多简”的繁体字。

  2. 动态组词能力强,临时生词多的繁简字

  动态组词能力强说明该繁简字组词具有能产性,临时生词多,所组成的词语不可穷举。如“面”字,在表示“食物、粉末”义时,对应的繁体字形是“麵”;在表示其它义项时,对应繁体字形“面”“面”对应繁体字形“麵”时出现在“牛肉面”“榨酱面”“凉面”等这些无法穷举又般不会收入词库的词语中。此类繁简字共有13个。包括如“御、团、担、谷”等11个“简对多繁”的简化字和2个“繁对多简”的繁体字“閤、藉”。

  3. 按不同词性对应不同字形的繁简字

  此类繁简字的特点在于在它们作不同词性用时,对应不同的简化字形或者繁体字形。包括8个“简对多繁”的简化字,分别是“脏、斗、累、舍、旋、佣、仆、准”。下表举例说明它们在不同词性对应不同繁体字形的情况:

 

简化字

不同的词性

对应的繁体字形

例词

形容词

肮脏

名词

内脏

动词

舍弃

名词

房舍

动词

仆倒

名词

仆人

动词

准许

 

名词、介词、形容词、副词

准确

 

  4. 无规律可循的繁简字

  这121组不对称繁简字中有16组繁简字在对应多个简化字形或繁体字形时,其义项基本没有规律可循,是不对称繁简字中字形转换多选模糊最难分析和消解的类。此类繁简字包括14个“简对多繁”的简化字如“辟、汇、制、划”等和2个“繁对多简”的繁体字“剋、摺”。

 

3. 繁简字 字形转换 多选一模糊的 消解方法

3.1 基于词语库的模糊消解方法

  对于第类在某义项单用能力较弱的繁简字字形转换多选模糊,我们可以采用基于词语库的方法进行消解。

  对于第种在对应其中个繁体或简化字形时,只出现在特定的词汇中的繁简字,仍以“秋”和“千”为例,我们只需把“秋千”词与“鞦韆”词的对照关系收录进繁简词语对照库,就可以解决这两字因简对多繁造成的字形转换的模糊问题。下表举例说明在某义项出现在特定词汇中的繁简字情况:

 

简化字

在某一义项对应的特定词汇

秋千

蘿蔔

朱砂

蘋果

  而对于第类不只出现在单个词语中,但所出现的词汇能穷尽的繁体字,以“胡”为例,我们仅靠收录“胡子”与“鬍子”的对应关系并不能解决多选模糊问题,但“胡”对应繁体字形“鬍”时,基本上不能单用,只是出现在固定词汇中,所以如果把“胡须”、“胡子”、“胡茬”、“刮胡刀”、“胡渣”、“络腮胡”等词完全收录在繁简词语对照库中,就可以解决“胡”字因简对多繁造成的字形转换的模糊问题。下表举例说明了这类字在某特定义项可穷尽收录词汇的情况:

 

简化字

可穷尽收录词汇的义项

例词

私营工商业的财产所有者。

老板、老板娘

美好的容貌和姿态。

丰采、丰韵、丰姿、千姿丰态

胡子。

胡须、胡子、胡茬、刮胡刀、胡渣络腮胡

白术等。

白术、苍术、莪术……

 

3.2 词语库与分词技术相结合的模糊消解方法

  在词语库的基础上,依靠分词技术来进行繁简字字形转换多选模糊消解的方法,主要针对单用能力强,但是在其中个义项又比较特殊,如作古用义和作人名用字的繁简字。以前面提到的“云”为例,它在表示“古汉语动词、助词(例‘人云亦云’、‘岁云暮也’)”时,才对应繁体字形“云”;其它义项中则对应繁体字形“雲”。我们只需在词表的基础上对所需转换的内容进行分词处理,当其前面出现名词,则判断其对应的繁体为“云”,其它情况律转成“雲”,就能解决这个字因一简对多繁造成的字形转换造成模糊问题。另外,对于某义项只作人名的不对称繁简字,如“姜”,在作姓氏时,对应繁体字形“姜”;在表“草本植物”这义项时,对应繁体字形“薑”。利用分词和中文姓名辨识技术就能很好解决其多选模糊问题。对于中文姓名辨识技术也已经有不少学者(如清华大学孙茂松教授等[4])作了比较深入的研究,提出些可行的办法。这里就不再赘述。

 

3.3 基于规则的模糊消解方法

  单用能力较强的部分繁简字通常受到它所出现的上下文环境的限制,我们可以根据以下三类情况来设定不同规则进行字形转换多选的模糊消解。

  (1) 根据搭配知识给出规则描述

  对于某义项作量词用的繁简字,我们利用其出现环境的知识描述来消除转换模糊。以“里”字为例,它在表示跟相对或处所意义时,对应的繁体字形是“堙芋F在表示“街坊、家乡”的意义和作量词用的时候,对应的繁体字形为“里”。当它表示“街坊、家乡”之义时,般不单用,所组成的“邻里”、“乡里”等词都可以穷尽收入词库。这里重点只需要描述其作量词用的知识描述就可以了。我们可以采用以下格式进行描述:

  {数词 +“里”+(描述对象)}―→{数词 +“里”+(描述对象)}

其中用“()”表示“描述对象”是可选的。也就是说,只要当“里”出现在数词后面,就可以判断其对应的繁体字形为“里”。

  另外对于在作不同词性用时,对应不同的简化字形或者繁体字形的繁简字,我们也可以根据它所对应的其中个易描述词性的搭配知识来给出它的字形转换多选模糊消解规则。如“斗”字,作“dou3”声,表名词、量词义时,对应的繁体字形是“斗”;作“dou4”声,表动词义时,对应的繁体字形是“鬥”。我们只需要描述出“斗”作名词和量词的组合知识就可以解决它因不对称对应造成的模糊问题。

  (2) 根据语法特征给出规则描述

  对于某义项作拟声词用的繁简字的解模糊策略主要是根据拟声词的语法特征而定的,以“当”字为例,它在充当拟声词时,对应繁体字形“噹”,在表示其它义项时,对应繁体字形“當”。我们给出如下三点它对应繁体字形“噹”的转换规则:当它重叠时,对应繁体字形“噹”。当它单独成句时,对应繁体字形“噹”。当它后加“地”或者“声”时,对应繁体字形“噹”。

  (3) 根据组合知识给出规则描述

  对于动态组词能力强,临时生词多的繁简字,我们的处理策略是给出其组合知识的描述。如前文提到的“面”字,在表示“食物、粉末”义时,对应的繁体字形是“麵”;在表示其它义项时,对应繁体字形“面”。除去已收词库的情况,“面”在对应繁体字形“麵”的组合知识就可以描述成:

“面{H Q (1;2)n|(n)牛肉;炸酱;肉丝;玉米;(v):刀削;捞;(adj)凉;方便;}”

这里的“H Q (1;2)”表示“面”处于后面的位置,向前联想1个或2个字。“n|”表示生成的词是名词,“(n)”表示修饰成分为名词。其中以汉字表示的字词是示例性的。除了对其组合知识进行描述外,对其搭配知识也要加以说明,如“面”般与动词“吃”、“买”、“和”、“擀”等字构成动宾关系。

 

3.4 基于小专家知识库的模糊消解方法

  在对应多个简化字形或繁体字形时,其义项基本没有规律可循的16组繁简字字形转换模糊单靠字知识库和词语知识库提供的知识是难以消解的,应该为它们建立小专家知识库[5] 来提供消解转换模糊所需要的特殊知识,不对称繁简字小专家知识库所包含的特殊知识应该着眼于描述它们对应不同字形的条件,专为消解转换模糊服务。

  我们以“尽”字为例来说明小专家知识库所需要收入的知识“尽”读“jin4”音,表示动词、介词、副词义时,对应繁体字形“盡”,在读“jin3”音,表示动词、副词义时,对应繁体字形“儘”。放入小专家知识库的“尽”字知识应包括对如下情况的分析和描述“尽”后面加“管”字、形容词、方位词、谓语动词,对应繁体字形“儘”。动词后面加“尽”和“尽”后面加谓语动词“是”,对应繁体字形“盡”。

 

4. 小结

  繁简字字形转换多选模糊的消解对繁简字字形转换具有很大应用价值。据《2005中国语言生活状况报告》对报纸、广播电视节目文本和网络媒体的新闻文本的调查结果,可以统计出这121组不对称繁简字的简化字形约占892034个文本文件中总汉字数732143010字次的7.04%

  现有的对不对称繁简字的研究虽然不少,但基本只停留在文字分类层面上,涉及到真正字形转换多选模糊消解的很少。在日中韩辞典研究所的《繁简转换的复杂性与陷阱》文中针对多选模糊消解也只提到包括两个内容:把文本流分词为词的单位并确认它们的语法功能的“复杂的中文分词程序”和在对应表里查找词的单位并产生标的编码输出“转换模块”的“转换引擎”。这个方法对于单用能力较强的不对称繁简字来说,效果也许并不尽如人意。

  本文讨论了繁简字字形转换多选模糊消解的基本思想方法,其处理是在对不对称繁简字的分类上进行的。把这些思想方法转化成实用的系统是我们今后的研究目标。

 

【致谢:本文的写作得到北京师范大学中文信息处理研究所苗传江老师的悉心指导,特此致谢!】

 

参考文献

1. 费锦昌.海峡两岸现行汉字字形的比较分析.语言文字应用.19931期。

2. Jack Halpern, Jouni Kerman.汉字繁简转换的复杂性与陷阱.见:

www.cjk.org/cjk/c2c/c2cbasis.htm

3. 冯寿忠.“非对称繁简字”对照表.语文建设通讯.1997-953期。

4. 冯寿忠.字形整理与转换对应.语文建设通讯.2000年第65期。

5. 国家语言文字工作委员会.现代汉语常用字表,语文出版社.19881月。第1版。

6. 国家语言资源监测与研究中心编.2005中国语言生活状况报告,商务印书馆.2006

7. 苏培成.现代汉子学纲要(增订本).北京大学出版社.2001

8. 张书岩、王铁昆等.简化字溯源 语文出版社.1997

9. 胡双宝.《简化字 繁体字 异体字辨析手册》.北京大学出1.1997

10. 中国社会科学院语言研究所.现代汉语词典(第5版).商务印书馆,2005

11. 黄曾阳.自然语言理解处理的20项难点.见:http://www.hncnlp.com                  



* 冯霞女士, 北京市 北京师范大学中文信息处理研究所。

+ “模糊消解”(disambiguation) 首先是信号学的术语, 用在自然语言处理中, 大致等同于消除岐义。在自然语言处理中,统计学习方法和人工规则方法是两种基本方法。本文提到的四种方法基本上都属于人工规则方法的范畴,本文题目即为突出此点而定。

[1]. 各个使用繁体字的地区都有相应的字体规范,本文所讨论的繁简字字形转换并不涉及到港台与大陆之间,港台之间在繁体字的写法上的差别。

[2]. Jack Halpern, Jouni Kerman.《汉字繁简转换的复杂性与陷阱.: http://www.cjk.org/cjk/c2c/c2cbasis.htm

 

[3]. 121组繁简字是在冯寿忠先生的《“非对称繁简字”对照表》总结出的117组不对称繁简字的基础上整理而成。

[4]. 孙茂松、黄昌宁、高海燕等《中文姓名的自动辨识》.《中文信息学报》1995年第2期。

[5].“小专家知识库”的概念由黄曾阳先生在《自然语言理解处理的20项难点》中提出。