香港中國語文學會 語文建設通訊第93期 2009 年 10 月

 

  Word“中文简繁转换”存在的问题与解决对

李树德*

由于目前两岸四地还没有实现“书同文”,在相互的文字交流中就要不断地进行汉字简化字和繁体字的转换。使用电脑书写的人群,普遍借助于微软公司 (Microsoft) 文字处理软件 Word 中的“中文简繁转换”这功能。因为不是所有的简体字繁体字都是一一对应的,汉字中还存在相当部分的“非对称简繁字”,加之软件设计本身的某些缺陷。在中文简繁字转换的过程中就出现了诸多的问题,给我们的文字交流带来不便。

一. 存在问题
1. 转换错位?? 当“简对多繁”的简化字不是出现在固定词语中,Word 有时就不能正确地把“简对多繁”的简化字,转换成我们所需要的它对应的那个繁体字,而转换成我们并不需要的,它所对应的另个繁体字。也就是说,出现了转换错位的现象。
(简) 刘唐左耳畔发际间有片红记,生出几绺红头发,故人送绰号“赤发鬼”。
(繁) 劉唐左耳畔發際間有片紅記,生出幾綹紅頭髮,故人送綽號“赤發鬼”。
这个短句中有3个简化的“发”字,它们对应的繁体字都是“髮”。通过 Word 转换后,只有第二个是我们需要的,是正确的。第个和第三个都转换成它对应的另个繁体字“發”。原因很明显,就是因为,“头发”是固定词语。而“发际”和“赤发”是临时搭配,没有语境的制约。Word 不能辨认,所以出现了转换错位的情况。
有时,某个独立的简化字碰巧与它前面或后面的某个字构成个固定词语,这时Word 就会错误地按照那个词语来转换这个简化字,其结果自然是转换错位。
(简) 孙维系外语系的教授,毕业于天津外国语学院;孙干系中文系教授,毕业于南开大学;孙伟系哲学系教授,毕业于……
(繁) 孫維繫外語系的教授,畢業于天津外國語學院;孫干係中文系教授,畢業于南開大學;孫偉系哲學系教授,畢業于……
三个“系”字(作为“是”义)对应的繁体字都应该是“係”,但由于第个受前面“维”字的干扰,Word 误以为是“维系”,所以,发生转换错位; 最後一“系 (是)”也是错位。
2. 不该转换而转换?? 汉字简化的方法之是同音代替。把读音相同的组字,取最简单的个,字意由简化字代替。如,后 (後、后)、干 (幹、乾、干)、云 (雲、云) 台 (颱、臺、台) 等。有时在没有个语境的情况下,Word 会把本来没有繁体形态的字,转换成它同音代替的那个繁体字。例如:
(简) 秦桧唆使万俟卨向宋高宗诬陷岳飞拥兵不救、放弃阵地。最后岳飞被处死。……今岳飞坟前有万俟卨的铁铸跪像。
(繁) 秦檜唆使萬俟卨向宋高宗誣陷嶽飛擁兵不救、放棄陣地。最後嶽飛被處死。……今嶽飛墳前有萬俟卨的鐵鑄跪像。
“万俟”是一复姓,其中的“万”字没有繁体字形;同样“岳”作为姓氏也没有繁体字形。而 Word 却把这两个本不应该转换的简化字转换成它们同音代替的另个繁体字,实属自作多情。
3. 词语变形?? 我们使用的 Word 文字处理器中的繁体字字形是 PMingLiu (明柳) 字体,它是台湾通行的字体。字体实际上代表了种符号系统,而这种符号系统又与语言文化相关。由于两岸的长期隔绝,汉语词汇的发展也出现了些细微的差异,特别是新兴的或外来的词汇,有些有所不同。在使用 Word 进行简繁转换中,有的词语被转换成完全不同的词语。例如:
(简) 前缀----(繁) 首碼 (简) 词组----(繁) 片語
(简) 激光----(繁) 鐳射 (简) 公元----(繁) 西元
(简) 质量----(繁) 品質 (简) 圣诞节----(繁) 耶誕節
尽管这种词语变形的情况不是太多,但也给 Word 的使用者造成许多麻烦。

二. 解决对策
1. 提高智能  从以上的例证可以看出,有些简繁字转换的准确程度与这个字的语境复杂性紧密相关。所以提高 Word 智能化程度是避免转换错误的基本对策。使其增强对语境的判断能力,从对个别字,固定词语的判断,提高到对语言片段,乃至整个语篇的判断。此外,还要提高对词性,词义的判断能力。“非对称简繁字”中,有类是按照不同词性相互对应的。此类简繁字的特点是在它们作不同词性用时,对应不同的简化字形或者繁体字形。最典型是简化字“斗”,作动词,对应的繁体字是“鬥”;作名词,对应的繁体字是“斗”。这类“简对多繁”的简化字有近10组。如果 Word 能对简繁字做出词性判断,仅此一项改进,就会大大减少差错率。
2. 扩大词库? 有些简繁字动态组词能力很强,能临时生成许多词语。如“面”字,在表示“食物、粉末”义项时,对应的繁体字形是“麵”;在表示其它义项时,对应的繁体字形是“面”。而含有“面”的词语非常之多,如“面粉”,“面积”,“佛面”,“后面”,“牛肉面”,“担担面”,“面谈”,“会面”等等,可以说是无法穷举。而其中很大部分,是不会收入词库的。这也是简繁转换出现错误的个重要原因,Word 可以通过扩大自己词库的方法,减少简繁转换中的错误。
3. 精心校对?? 基于目前的现状,Word 用户还得靠自己来纠正“非对称简繁字”在转换中造成的错误。首先是要熟悉这些“非对称简繁字”,把它们烂熟于心。如果是短小的文档,在 Word 自动转换后,进行认真校对,对其中的转换错误,再进行人工转换。如果是长的文档,而且某些“简对多繁”汉字反复出现,这时,可以用自己规定的符号或数码来代替这类汉字,Word 自动转换后,再使用菜单栏中“编辑”里面的“替换”功能,把所有的符号和数码次性转换为所需要的汉字,然后再精心校对。这样既可以避免转换错误,又可以节省时间。
Word 中文简繁转换中的问题由来已久,是长期困扰两岸四地交流的个瓶颈,这种汉字的简繁转换不知浪费了多少资源,精力和时间。许多专家学者为此提出了种种有益的建议和解决办法。但是,在两岸四地没有实现书同文之前,再好的策略也只能是临时的,局部的,是治标不治本的。而最彻底,最根本的解决策略是实现两岸四地的书同文。旦两岸四地实现书同文,这个问题就随之烟消云散,不复存在。

 

* 李树德先生,河北省 廊坊市 廊坊师範学院。
本篇为作者在第12次汉字书同文学术研讨会上宣读的论文的简要版, 原文将在《汉字书同文研究》?? 第9辑刊出。