职场文秘网

首页 > 心得体会 > 工作体会 / 正文

机器翻译 [机器翻译中汉语动结式生成的过程]

2019-12-01 07:38:54

1.引言

当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。

原因是什么呢?从语言研究的角度来说,机器翻译系统分析、理解和生成自然语言的能力都还不到位,处理不了的语言现象很多:有的是句子结构层次弄错了,有的是结构关系弄错了,有的是成分之间的语义关系弄错了,有的是词义辨识错了,还有的错误是源语和目标语之间的对比差异造成的。下面是机器翻译处理汉语动结式不成功的几个例子(来自三个机器翻译系统)。

先看生成的情况,机器翻译目前还很难生成汉语的动结式,所以我们很少在汉语译文里见到含有动结式的句子。对于下面这个英译汉的例子,三个系统都不能翻译成他把地扫干净了:

Hesweptthefloorclean.*他干净地扫地了。

*他清扫清洁的地板。

*他清扫地板干净。

再看汉语动结式翻译成英语的例子,它们可以说明目前机器翻译系统分析和理解汉语动结式的能力:

他踢坏了三双鞋。*Heplaysthreepairsofevilshoes.

*Hekickedthreepairsofshoesbad.

*Himkickspoil3pairsofshoes.

这段路把妈妈走累了。*Thewaymakemothertiredafterthewalk.

*Thissectionofwaywaswalkedmothertired(ly).

*Thisroadmotherwalktired.

大家吃腻了剩菜。*Everybodyhasfeddedupwiththeleftovers.

*Thateverybodyategreasy(ly)surplusvegetable.

*Alleat,isloathetoleavevegetable.

下面我们只讨论动结式的生成问题,其中不包括以下三种情况:1)补语用得字连接的;2)补语虚化的,如:抓住、买着、看完、办成等;3)补语和动结式的宾语有固定搭配关系的,如:说走了板、看愣了神、苦出了头等等。

2.机器翻译中的动结式问题

为了说明机器翻译如何处理动结式述语结构,我们需要先看看机器翻译的过程。

显然,这是一个理想化的机器翻译过程。从S到I再到T的过程是中介语言的翻译策略,中介语言通常是某种独立于源语和目标语的逻辑表达式。如果是英译汉,对英语的分析和理解要从表层深入到底层,得到描述句子意义的中介语言逻辑表达式。同样地,汉语也要从底层到表层一步一步生成。分析时从表层到底层走得越深,生成时从底层回到表层的过程也就越复杂。因此,需要分别对这两种语言的句法和语义系统作深入的研究。实际上目前大部分机器翻译系统都作不到这个程度,常见的翻译策略是直接法或转换法,或直接和转换相结合的混合方法。我们可以通过一个英译汉的例子对直接法、转换法和中介语言法这三种翻译策略作一个比较:

在机器翻译系统中,用直接法可以得到译句1;用基于句法的转换法,再加上一些语义关系的分析,能得到译句2;译句3是基于理解的,用中介语言法有可能作到。显然,前一节关于动结式英译汉和汉译英的例子,都不是基于理解的翻译。

动结式的结构形式简洁,语义关系复杂,在汉语里是很有特点的一种结构。吕叔湘先生(1986)曾用它说明汉语句法的灵活性。人们在从各种角度论述动结式述补结构的时候,常常会提到它在对外汉语教学当中是个难点。同样,在机器翻译中它也是个难题。在汉语翻译成外语的系统里,难的是如何分析和理解动结式述补结构。在外语翻译成汉语的系统里,难的是如何生成含有动结式的句子。

我们在这里只讨论生成的情况。在这种情况下,源语(例如英语)往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来。所以除非用个别处理的办法,采用直接法和转换法翻译策略的系统很难生成汉语的动结式译文。要让系统有生成动结式的能力,就要按中介语言法的思路,增加分析的深度,理解源语句子要表达的意思(各个成分的概念意义、成分之间的关系意义,句子的句式意义,等等),然后根据意义表达的需要,选择动结式的一种结构形式,再生成表层的句子。目前我们对汉语的研究还不足以支持这样的生成过程。所以在现有的机器翻译系统输出的汉语译文当中,很难找到地道的含有动结式述补结构的句子。于是就有了下面的译文:

3.动结式的生成过程

机器翻译译文生成的任务是从要表达的意义出发,经过选择词语、确定词语间的语义关系、确定目标语句子的句法结构等步骤,最终输出与源语言句子在意义上等价的表层字符串。对于动结式的生成,有以下几步:

(一)确定要表达的意思(四)整合语义结构

(二)选择词语、分派语义角色(五)选择句法表现形式

(三)判断合法性(六)处理表层词语

3.1制定要表达的意思

汉语动结式述语结构表达的是一种动作结果事件。比如要生成的意思是:小王读了这篇文章,结果小王懂了这篇文章。在汉语生成开始之前,机器翻译系统用中介语言逻辑表达式表示要生成的译文是什么意思。一般来说,如果这个表达式里面有两个谓词结构,并且二者之间有动作结果关系,就可以进入汉语动结式的生成过程。

中介语言逻辑表达式是从源语(譬如英语)分析得到的,源语中的述谓结构和动作结果关系会在表达式中有所体现。但这并不是判断能否生成汉语动结式的惟一依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。实际上,由于英、汉语之间在动作结果关系表达上的差异,(注:戴浩一(2002)指出:动作结果基模虽然在汉、英语中都存在,但是在汉语中占主导地位,而在英语中占次要甚至边缘地位。而且,这个基模在两个语言对客观情况的构建上也因经验的概念化不同而呈现不同的形式。)在从源语分析得来的语义表达式里,可以用汉语动结式生成的动作结果关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如:

还有,致使动作结果事件发生的某些因素在汉语里常常可以充当动结式的一个论元角色,(注:袁毓林(2001)称其为外来的致事。)而在英语里它们往往充当其他成分:

那场可怕的暴风雪冻死了不少人。Manypeoplefrozetodeathintheterriblesnowstorm.

沙发把你坐懒了。Youarebecominglazyonthesofa.

所以我们需要一组规则,在要生成的语义表达式里判断有没有应该用汉语动结式表达的述谓关系。在这组规则里,除了两个谓词结构及其显性的动作结果关系符合判断条件以外,还应该有能够识别和提取隐含的动作结果关系及其述谓结构的条件。这就需要研究英语和汉语在表达动作结果关系时的差异。这种差异有时在某种类别下表现出来,有时又很个性化,只跟具体词语有关。目前机器翻译系统还没有找到这样的规则。所以我们就暂时只能看到她嫁给了错误的人和他进了错误的门这样的译文。

3.2选择词语

选择词语需要有一部用于信息处理的汉语词典,告诉我们词语和它们的意义,以及它们的用法(比如,谓词的配价结构及其论元的限制条件)。对于前面的例子,需要先在词典里选出小王、读、懂、文章这些词,然后根据词语的意义和逻辑关系为它们分派语义角色。这些词在中介语言逻辑表达式里是实体和谓词。了、结果、这等是算子或关系,把它们转成词汇形式还需要另外的分析和处理。词语选择和语义角色分派的结果可以表示成树形图或特征集合等形式。

即使有一部详尽的词典,要让机器根据意义选择词语也不是一件容易的事情。我们经常需要在几个同义词或近义词当中进行取舍。比如,汉语的看有read的意思,用它来表达我们要生成的意思比读更地道。根据什么样的规则选择看,不选择读?目前汉语词汇和语义的研究还不能形式化地回答这个问题。机器翻译系统只好先根据词语搭配的优先关系来判断。一种作法是,借助描写词语概念的语义词典,用统计语言模型计算语义相似度,让计算机学会表示和比较词语搭配的优先关系。但是,用这种工程化的方法并不能绕过汉语研究的作用,因为一个统计语言模型能否达到比较好的处理效果,很大程度上取决于采用什么样的语言学知识作为参数。

3.3判断合法性

经过词语选择和角色分派,得到了图2表示的两个谓词结构。这一步的任务是,判断能不能用动结式述语结构表示这两个谓词结构及其关系。具体说就是,看和懂能不能合成看懂,并且表示中介语言逻辑表达式要求的动作结果关系。因此合法性的问题关系到哪些动词和哪些形容词(或动词)能够组合成符合汉语习惯的动结式。

如果给机器翻译系统提供一个词表,列出一批动结式的词语,而看懂又刚好在这个词表里,那么判断这件事情就比较容易。譬如,在动词学的两个义项(学习和模仿)下面,《汉语动词用法词典》(孟琮等,1999)列举了8个动结式实例,《中国语补语例解》(侯精一等,2001)列举了12个。这两部词典是面向人的,如果给机器翻译用就还需要收录更多的实例。比如学懂、学腻,等等(我们在本文的第四部分列举了学下面84个可能需要生成的动结式实例)。实际上,词表只适用于小范围的实验型翻译系统。动结式述语是一种自由结构,是根据说话的需要临时造出来的,因此应该是不胜枚举的。

我们可以这样想,学是一种认知行为,懂、明白等词语表示认知活动的效果,因此可以当学的结果补语。但人们也常说这孩子学歪了、把身体学垮了。歪和垮又根据什么是学的结果补语呢?这些补语该用什么条件来生成?我们将在第四部分进一步讨论这个问题。

如果这一步判断的结果是不能生成合法的动结式,那么就需要回到上一步,重新选择词语,直到找不到符合预定的语义要求的词语为止。

3.4整合语义结构

作为一个述谓性的结构整体,动结式有自己语义上的支配成分,包括论元成分和附加成分,我们把这些语义关系的和统称为语义结构。在这一步,我们需要根据动词和补语各自的语义结构,确定动结式整体的语义结构,主要是配价结构(价语的数量和性质)。

动结式的配价结构不等于其构件(动词或补语)的配价结构,也不简单地等于二者之和。动结式的配价与其构件的配价之间有没有对应关系?如何从动词和补语各自的配价结构得到动结式的配价结构?袁毓林(2001)、郭锐(1995)和王红旗(1995)都曾经作过研究,在解释成因的同时,寻找动结式对其构件原有的论元进行选择的控制规则。在一定范围内应用这些规则,我们可以从动词和补语的配价结构推算出动结式的配价结构。包括价语的数量:动结式是一价的、二价的,还是三价的;以及价语的性质:动结式述语结构中各个论元的语义角色是什么(主要分为主体格(主论元)、客体格(宾论元))。对于前面的例句,我们就可以得到,动结式看懂是二价的,它的两个论元是他(主体格)和文章(客体格)。价语的数量和性质是下一步选择句法结构的主要依据。

在动结式生成的整个过程中,汉语语法学者提出的论元整合规则是可以直接影响生成算法的规则,这样的结论在目前的汉语语法研究中还为数甚少。机器翻译十分重视这一组规则的作用,也期待着对它更加深入的研究和完善。(注:譬如,袁毓林(2001)提出的准入规则在论元整合结果为等价的情况下是有效的,也是可操作的,对增价的情况虽然有处理的规则,但是计算机不大容易操作,对减价的情况还没有提出有效的处理办法。)

3.5选择句法表现形式

这一步要做的是,选择什么样的句法手段去表现动结式的语义结构。动结式有很多表层结构类型,李临定(1986,181-204页)曾归纳了五类句型:

(1)N[,1]+V+C妈妈急哭了

(2)N[,1]+V+N[,2]+V+C他走路走累了

(3)N[,1]+V+C+N[,2]我点亮了油灯

(4)N[,1]+V+N[,2]+V+C+N[,3]他拍桌子拍疼了手

(5)N[,1]+把+N[,2]+V+C+N[,3]火把他的衣服烧穿了几个洞

前四类还各有四种可能的表层变换形式(把、被、得字句及其他)。到底应该选取哪一种生成我们的句子呢?这是如何在语义结构和句法结构之间寻找对应关系的问题,我们打算在第五部分就这个问题作进一步的讨论。

3.6处理表层词语

选定了句子的表层结构和语序以后,剩下的事是用词汇手段表达某些句法或语义范畴。比如:时、体、否定、指代、有定、数量,等等。然后输出最后生成的结果。对于我们的例子就是:他看懂了这篇文章。句子里的了、这和篇是在这一步生成的。

机器翻译生成汉语动结式时,在句子表层要处理的问题很多,每一个问题也都很复杂,比如时体成分、否定成分的语序等,需要作专门的研究。

3.7操作过程的控制

需要说明的是,上面各个步骤的操作并不是无条件依次进行的。当在某一步无法得到确定的结论时,应该中止动结式的生成过程。

4.动词和结果补语的组合关系

动词和结果补语的组合应该是基于语义的。要想离开词表的限制,判断哪些动词和哪些形容词(或动词)可以组合成符合汉语习惯的动结式,就需要从语义上研究动补之间的组合类型和规则。显然,这件事情不是机器翻译力所能及的。在这里我们只能先从个例入手,看看单音节动词和单音节形容词作动词学的结果补语的情况,或许能够从中看到这个问题的困难所在。

动词学的意思是学习或模仿。在《现代汉语语法信息词典》(注:由北京大学研制的用于信息处理的电子词典,其中有按义项收录的14479个动词,2856个形容词。通过检索每个词的属性,我们可以知道哪些动词可以带结果补语,哪些形容词、动词可以作结果补语。)(俞士汶,1998,以下称《语法信息词典》)中,列出了可以作结果补语的单音节形容词204个,(注:马真等(1997)列出了可以作结果补语的单音节形容词153个。)单音节动词112个。经过一一搭配测试,其中有54个形容词和30个动词能作学的结果补语。这样我们就从《语法信息词典》中一共得到了84个可能的动结式实例。然后按照《知网》(注:用于自然语言处理的知识系统,由董振东等研制。以从大量词语中提取出来的义原为基本描述单位,采用一种结构化的描述语言来描述概念与概念之间,以及概念的属性与属性之间的关系,包括上下位关系、同义关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿主关系,以及属性值和属性的指向关系、时间和角色关系。互联网网址:http://www.keenage.com)(董振东等,2001)的定义为每一个实例的补语作语义类别标注,再作聚类分析,整理出学的结果补语的六个语义类别。其中A、E、F三类作补语的是形容词,B、C、D三类作补语的是动词,

5.从语义结构到句法表现形式

在动结式的整个生成过程中,选择什么样的句法手段来表现其语义结构是比较复杂的一步。人们常说,汉语句法结构和语义结构之间的联系比较松散,或者说句法成分和语义成分的配位很灵活,一种结构形式经常表示多种意义,一种语义内容也可以用多种结构形式来表示。这就给机器翻译的汉语生成带来很大的困难。对于动结式表层句法结构的选择,我们目前能用到的条件非常有限,所以能生成的句型也很有限。

5.1使生成目标受限

通过整合语义结构我们得到了动结式的配价结构,价语的数量可以帮助我们选择句型。如果动结式是一价的,选择有一个体词性成分出现的句型;是二价的,选择包含两个体词性成分的句型。至于在同属一类句型的多个表层结构形式中间应该选择哪一个,还需要更细致的条件和规则。下面讨论如何把动结式组成成分之间的语义关系作为选择的条件。

为了简化讨论的过程,我们在这里只考虑二价动结式的情况(略去妈妈急哭了、他看书看花了眼、他扔进屋一块石头等)。这样,讨论的范围就限制在只含有两个体词性成分的表层结构形式里面。吕叔湘(1986)曾经按照补语跟主语或宾语的语义关系,把动结式述补结构分成15类(略去得字句等),其中有两个体词性论元成分出现的共9类(包括用把和被的句子),分属以下三种语义关系格式,其中S是V的主体格。(注:在本节讨论的范围内,主体格包括施事、当事;客体格包括受事、内容。)

我们注意到,同时与二价动结式的六种语义结构有对应关系的只有表层结构1(S+V+C+O),所以可以把它当作生成动结式表层的首选。可是进一步观察就会发现,在用表层结构1表达某些语义结构时会受到限制。譬如语义结构Ⅱ,我们可以说大家吃腻了剩菜,却不能说我丢怕了钱包,也不能说他看傻了那幅画。能说与不能说应该有条件来控制,O和C之间的语义关系可能是一个控制条件,但是目前还没有确切的规则可用。

在这种情况下,只好先避开表层结构1,选择2和3。经过初步实验我们看到,就表达命题意义来说,用表层结构3表达语义结构Ⅱ,用表层结构2表达语义结构Ⅰ、Ⅲ、Ⅳ、Ⅴ、Ⅵ,受到的限制最少。这样,讨论的范围又缩小到了两种表层结构形式。问题就变成了:如何找到用这两种句法形式表达六种语义关系格式的控制条件。我们把这种逐步缩小问题范围的做法叫作使生成目标受限,实际上这是对复杂问题的一种妥协。也就是对二价动结式,放弃生成所有的表层句式,寻找尽可能简单和有效的控制条件,先用部分表层结构形式表达其多种语义格式。

5.2生成表层结构的控制条件

从语义结构生成表层结构的主要控制条件是动结式组成成分之间的语义关系。

对于二价动结式的组成成分S、O、V、C,如果S是V的主体格,而且:

(一)如果S、O、V、C相互之间满足下列五个条件之一,则可以用表层结构2表达:

1.(O是V的客体格)且(O是C的主体格)且(C是一价的)

2.(S是C的主体格)且(O是V的客体格)且(O是C的客体格)

3.(O是C的主体格)且(V和C都是一价的)

4.(S是C的主体格)且(O是C的客体格)且(V是一价的)

5.(O是V的客体格)且(C是V的修饰成分)

(二)如果S、O、V、C相互之间满足条件6,则可以用表层结构3表达:

6.(O是V的客体格)且(S是C的主体格)且(C是一价的)

表层结构2和3都是把字句。关于把字句,很多学者从各种角度作过研究。张伯江(2000)曾根据句式语法的观点指出,除了组成成分的作用以外,把字句的整体意义当中还有句式意义的作用。因此,生成的时候还应当考虑上述控制条件能否符合把字句句式意义的要求。我们注意到,动结式与把字句似乎有一种自然的联系。把字句中V的处置意义、C是把后面宾语产生的变化等句式意义与动结式的句式意义基本相似。(注:在动结式的表层结构2中,宾语是O;在表层结构3中,宾语是S。)另外,为了体现把字句里动作过程的完整性,我们在生成过程的最后一步(处理表层词语)规定,把字后面排斥否定谓语形式。

根据我们的观察和实验,在二价动结式述语结构的五种表层形式中,把字句在语义表达的适应性上比较好,常常能够包容除语义关系之外的其他一些选择控制因素。譬如,补语是双音节的动结式一般不宜选择表层结构S+V+C+O,但把字句不受这个限制。再如,用把字句来表达你把坑挖浅了这一类含有动结式的句子,正好能够表示其偏离预期结果的意思,比用其他表层结构更合适一些。把字句在动结式生成中为什么会有这样的表现?这不是机器翻译能够解释的问题。

现在再来看我们要生成的例句:小王读了这篇文章,结果小王懂了这篇文章。经过动作结果述谓关系的判断、词语选择、合法性判定和语义结构整合,我们得知,它可以生成一个二价的动结式述补结构,其中各个组成成分之间的语义关系是:

S→V←OS→C←O

这种语义结构符合控制条件2(S是V和C的主体格,而且O是V和C的客体格)。因此为它选择的表层句法形式是:

S+把+O+V+C

再经过表层词语的处理,最后生成:小王把这篇文章看懂了。

Tags:

搜索
网站分类
标签列表