CN1971554A

CN1971554A - 使用样例来翻译语音输入的设备和方法

Info

Publication number: CN1971554A
Application number: CNA2006101486703A
Authority: CN
Inventors: 住田一男
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-11-22
Filing date: 2006-11-22
Publication date: 2007-05-30
Also published as: JP4058071B2; US20070118351A1; JP2007141133A; US8185372B2

Abstract

一种设备，包括：第一搜索单元，其基于第一语言的语句从存储单元搜索第一语言的第一样例；第二搜索单元，其搜索与第一样例相对应的第二语言的第二样例，该第二语言与第一样例具有相同的含义；确定单元，其确定是否存在多个第二样例；第一获取单元，其从存储单元获取与每个第二样例相对应的第一样例；第二获取单元，其获取与从存储单元获取的第一样例相对应的第二样例；以及选项生成单元，其生成与最少数目的所获取的第二样例相关联的所获取的第一样例，作为将被输出的第一样例的选项。

Description

使用样例来翻译语音输入的设备和方法

技术领域

本发明涉及一种使用样例来翻译语音输入并输出翻译结果的设备和方法。

背景技术

近几年，希望用于支持使用不同母语谈话的人们之间进行通信的语音翻译设备能够找到更实用的应用。一般来说，这种语音翻译设备需要依次进行语音识别处理、翻译处理和语音合成处理，其分别采用识别语音的手段、对语音识别后获得的字符串进行翻译的手段、以及把翻译后获得的字符串合成为语音的手段。

识别用户发出的语音并输出字符信息的语音识别系统已经以软件包或类似的形式应用到了实际应用中。同样，处理书面语言(文本)输入的机器翻译系统也找到了以软件包或类似形式的应用。语音合成系统也有实际的应用。通过适当地运用这些软件产品，就能够实现一个语音翻译设备。

然而，在这种情况下，语音识别很难达到100％的正确率。即使是书面语言的机器翻译也面临着这样的问题：由于源语言中可能包含翻译词的多义性或依赖性，所以翻译结果不能像希望的那样输出。此外，语音输入的语句经常不符合语法规则，使得语音被错误识别，这导致机器翻译在输入中就包含错误。由于这些原因，仍未实现具有实用价值的语音翻译设备。

尤其是，对于一个不懂目标语言的源语言的说话者，他无法确认该语音翻译设备是否输出了说话者想要的翻译结果，从而制定一些处理语音识别和机器翻译中的分析的错误或多义性的对策是非常重要的。

机器翻译是源语言(如：日语)语句到目标语言(如：英语)语句的转换，根据转换策略，可以粗略地分为基于规则的机器翻译、统计的机器翻译，和基于样例的机器翻译。

基于规则的翻译设备包括形态分析单元和结构分析单元，在结构分析单元中分析出源语言的语句结构，并基于该结构将其转换成目标语言的语句结构。这些结构分析和转换的处理知识都以规则的形式提前登记，翻译设备通过解释这些规则来执行翻译处理。大部分以软件包形式应用的机器翻译系统都是这种类型的。

基于规则的机器翻译需要准备大量的规则以实现可实用的、高准确率的机器翻译。人工准备这些规则需要很高的成本。为了解决这些问题，建议了统计的机器翻译，并已进行了有力的研究和开发努力。

在统计的机器翻译中，将源语言的语句和目标语言的对应语句以大尺度(称为平行语料库)进行准备，通过这个语料库，确定翻译的转换规则和它的概率值。这种方法选取概率最高的转换规则进行翻译。目前已经构建了使用统计的机器翻译的语音翻译原型系统。

另一方面，基于样例的机器翻译跟统计的机器翻译一样，也使用源语言和目标语言的平行语料库。从平行语料库中搜索与输入语句相似的源语言语句，将与这个检测到的源语言语句对应的目标语言语句确定为翻译结果。基于规则的机器翻译和统计的机器翻译在运用转换规则时容易造成多义性，从而不可避免的输出与使用源语言的说话者意愿相背离的翻译结果。

相反地，基于样例的机器翻译使用与从平行语料库中检测到的源语言语句所对应的翻译作为翻译结果，并且通过搜索检测到的源语言语句可以由源语言说话者进行确认。而且，由于目标语言语句是事先由人工准备的，所以在翻译处理中出现错误的比率相对比较小。然而，即使平行语料库以大尺度准备，也不可能覆盖所有可能输入的语句。在基于样例的机器翻译中，如果检索不到与输入语句相似的样例，则翻译将会失败。因此基于样例的机器翻译需要基于规则的机器翻译和统计的机器翻译进行补充，以适用于更广泛的应用。

在基于样例的机器翻译中，只要能够从平行语料库中检索到与输入语句相似的源语言语句，则实现正确翻译的可能性就会增加。然而，一个给定的源语言语句并不总是只对应着一种会话，而是根据会话的场景和上下文不同，需要进行不同的翻译。特别是，即使人工准备了样例，翻译也可能包含多义性。在这种情况下，就有这样一种方法，用户从建议的多个翻译中选取适当的一个。然而，不懂目标语言的源语言说话者也不能够选择一个合适的翻译。

基于这一点，提出了一种翻译设备，其具有这样的功能，它通过以源语言显示关于翻译的语言信息，来提供意见，使得不了解目标语言的说话者能选择一个源语言的正确的翻译(如：日本专利申请特开(JP-A)No.H05-128150)。

具体而言，例如，当把包括一个具有多种意义(用法)的词语的源语言的英语语句翻译成日语并且生成多个日语的候选翻译时，将每个候选翻译与一个对应的英语语句样例一起显示，该样例中包含与翻译中具有相同用法的那个词。然后，说话者选取与源语言语句具有相同用法的样例语句，以便将与这个被选中的样例语句对应的语句选择为正确的日语翻译。

但是，在JP-A No.H05-128150中描述的方法中，需要通过参照包括词的用法、时制或时态(时相)的语言信息来估计一个正确的翻译。这样，就出现了为选择翻译增加了决策负担的问题。

具体而言，读出多个与说话者想要表达的意思不同的样例语句，并在选出正确的样例语句之前确定任何部分是否包含多义性。这样，决策负担增加而同时在选择和向另一方建议正确的翻译之前又出现了处理时间更长的问题。

发明内容

根据本发明的一个方面，基于样例的翻译设备包括：存储单元，其存储第一语言的样例以及与第一语言的样例具有相同含义的第二语言的样例，所述样例相互关联；输入接收单元，其接收第一语言的语句的输入；第一样例搜索单元，其基于第一语言的语句从存储单元中搜索第一语言的第一样例；第二样例搜索单元，其搜索与第一样例相对应的第二语言的第二样例；确定单元，其确定是否存在多个第二样例；第一获取单元，当确定单元确定存在多个第二语言的第二样例时，第一获取单元从存储单元获取与多个第二样例的每一个相对应的第一语言的第三样例；第二获取单元，其从存储单元中获取与第三样例相对应的第二语言的第四样例；选项生成单元，其生成与最少数目的第四样例相关联的第三样例的选项；以及输出控制单元，其输出第三样例的选项。

根据本发明的另一方面，基于样例的翻译设备包括：通信单元，其将第一语言的语句、第一语言的样例或第二语言的样例通过网络传输给与通信单元相连的样例管理服务器，并接收样例管理服务器返回的第一语言的样例或第二语言的样例，样例管理服务器具有存储单元，其相互关联地存储第一语言的样例以及与第一语言的样例具有相同含义的第二语言的样例；输入接收单元，其接收第一语言的语句的输入；第一样例搜索单元，其基于第一语言的语句，通过通信单元从样例管理服务器的存储单元中搜索第一语言的第一样例；第二样例搜索单元，其通过通信单元从样例管理服务器的存储单元中搜索与第一样例相对应的第二语言的第二样例；确定单元，其确定是否存在多个第二样例；第一获取单元，当确定单元确定存在多个第二样例时，第一获取单元通过通信单元从存储单元获取与第二样例的每一个相对应的第一语言的第三样例；第二获取单元，其通过通信单元从存储单元中获取与第三样例相对应的第二语言的第四样例；选项生成单元，其生成与最少数目的第四样例相关联的第三样例的选项；以及输出控制单元，其输出第三样例的选项。

根据本发明的再一方面，基于样例的翻译方法包括：接收第一语言的输入语句；基于第一语言的语句，从存储单元搜索第一语言的第一样例，该存储单元相互关联地存储第一语言的样例，以及与第一语言的样例具有相同含义的第二语言的样例；搜索与第一样例相对应的第二语言的第二样例；确定是否存在多个第二样例；当确定存在多个第二样例时，从存储单元中获取与第二样例的每一个相对应的第一语言的第三样例；从存储单元中获取与第三样例相对应的第二语言的第四样例；生成与最少数目的第四样例相对应的第三样例的选项；以及输出第三样例的选项。

根据本发明的再一方面，基于样例的翻译方法包括：接收第一语言的输入语句；基于第一语言的语句，通过通信单元从样例管理服务器的存储单元中搜索第一语言的第一样例，该通信单元将第一语言的语句、第一语言的样例或与第一语言的样例具有相同含义的第二语言的样例传输给样例管理服务器，并接收由翻译样例管理服务器返回的第一语言的样例或第二语言的样例，该翻译样例管理服务器通过网络连接，并且具有存储单元用于相互对应地存储第一语言的样例和第二语言的样例；通过通信单元从样例管理服务器的存储单元中搜索与第一样例相对应的第二语言的第二样例；确定是否存在多个第二样例；当确定存在多个第二样例时，通过通信单元从存储单元中获取与第二样例的每一个相对应的第三样例；通过通信单元从存储单元中获取与第三样例相对应的第二语言的第四样例；生成与最少数目的第四样例相对应的第三样例的选项；并输出第三样例的选项。

附图说明

图1是示出了根据第一实施例的基于样例的翻译设备的配置的方框图；

图2是示出了存储在存储单元中的平行语料库的数据结构的实例的示意图；

图3是示出了根据第一实施例的基于样例的翻译处理的一般流程的流程图；

图4是示出了根据第一实施例的选项生成处理的一般流程的流程图；

图5A和5B是示出了在源语言语句中的用法样例和在对应的翻译中的用法样例之间的关系的实例的图；

图6A和6B是示出了显示屏的内容的实例的示意图；

图7是示出了显示屏的内容的另一个实例的示意图；

图8是示出了存储在存储单元中的平行语料库的数据结构的实例的示意图；

图9是示出了根据第三实施例的基于样例的翻译设备的配置的方框图；

图10是示出了根据第三实施例的基于样例的翻译处理的一般流程的流程图；以及

图11是示出了根据第三实施例的选项生成处理的一般流程的流程图。

具体实施方式

以下将参照附图，详细描述根据本发明的基于样例的翻译设备和基于样例的翻译方法的示例性实施例。

根据第一实施例的基于样例的翻译设备预先假设使用平行语料库，该语料库以多对多关系存储了源语言语句的样例和与之相对应的目标语言的翻译样例，并且当对于一个源语言语句输入存在多个翻译样例时，将与该目标语言的翻译样例相对应的源语言语句的样例中，具有较少多义性的一个作为选项提供给用户。

以下的描述假设翻译处理是以日语作为源语言，英语作为目标语言来执行的。但是，源语言和目标语言可以是其他语言的任意组合。

图1是示出了根据第一实施例的基于样例的翻译设备100的配置的方框图。如图1所示，基于样例的翻译设备100包括存储单元111、输入接收单元101、样例搜索单元102、多义性检测单元103、选项生成单元104，和输出控制单元105。

存储单元111用于存储源语言的语句和短语的样例，以及与源语言语句的样例相对应的翻译样例，并可以配置为任何通用的存储介质，包括HDD(硬盘驱动器)、光盘、存储卡，以及RAM(随机访问存储器)。

图2是示出了存储在存储单元111中的平行语料库的数据结构的实例的示意图。如图2所示，存储单元111在其中存储了日语样例，以及与之相对应的具有相同含义的英语样例。连接日语样例和英语样例的直线表示了对应关系。

当存在多个英语样例具有与某个日语样例相同的含义时，通过多条从该日语样例开始的直线将所述多个英语样例与该日语样例相连，以指示对应关系。同样地，当存在多个日语样例具有与某个英语样例相同的含义时，通过多条从所述多个日语样例开始的直线将该英语样例与所述多个日语样例建立对应关系。通过这种方式，日语样例与英语样例就建立起了多对多的对应关系。

当输入语句是日语时，源语言就是日语，与这个日语样例相对应的英语样例就构成了目标语言的翻译。另一方面，当输入语句是英语时，源语言就是英语，与这个英语样例相关联的日语样例就构成了目标语言的翻译。具体而言，源语言和目标语言是相对而言的，取决于翻译的方向。为了方便理解，附图和描述中都假设日语一英语翻译。然而，对于英语-日语翻译也执行类似的处理以实现根据本实施例的基于样例的翻译设备。

输入接收单元102用于接收用户用键盘、鼠标、按钮等输入装置输入的源语言语句。同时，当用户从后面将描述的输出控制单元105输出的样例的选项中选择时接收到样例的输入。

根据本发明的翻译设备还包括语音识别单元(未显示)，用于接收通过麦克风等输入的源语言的语音，听觉识别所接收的语音，并输出语音识别结果，其中输入接收单元101接收语音识别单元输出的语音识别结果作为源语言语句。

同样，该翻译设备还可以包括字符识别单元(未显示)，用于接收从笔输入装置等输入的源语言字符信息，识别所接收的字符信息的字符，并输出字符识别结果，其中输入接收单元101接收字符识别单元输出的字符识别结果作为源语言语句。

样例搜索单元102用于从存储单元111搜索与输入接收单元101接收到的源语言语句相一致或相类似的样例。之所以搜索相类似的样例是因为：只检索与输入语句完全一致的样例不能有效地利用语义相似的样例。然而，只有完全一致的样例可以被检索到。

样例搜索单元102计算下面的方程(1)定义的字串的编辑距离dist，并且搜索编辑距离dist不超过预定阈值的样例。

dist＝(I+D+2∑SEMDIST)/(Linput+Lexample) (1)

其中Linput是构成输入语句的词语个数，Lexample是构成源语言语句样例的词语个数，I是插入的词语个数，D是删除的词语个数，SEMDIST是替代词的语义距离。

搜索相似样例的方法并不仅仅局限于上面描述的方法，任何搜索与输入语句具有相似内容的样例的方法都可以使用。

多义性检测单元103参照存储在存储单元111中的翻译关系，检测源语言样例的翻译是否存在多义性。特别地，多义性检测单元103通过确定是否有多个翻译样例设置得与样例搜索单元102检索到的源语言样例相对应来检测翻译是否是多义的。

例如，当样例搜索单元102搜索到图2中所示的日语201时，存在三个相对应的英语样例，于是就确定这个源语言样例的翻译存在多义性。

当多义性检测单元103检测到源语言语句样例的翻译具有多义性时，选项生成单元104生成向用户建议的源语言语句样例的选项以输出最优翻译。

具体来说，首先，当多义性检测单元103检测到存在多个翻译样例时，选项生成单元104从存储单元111中获取与多个翻译样例的每一个相对应的源语言样例。然后，选项生成单元104从存储单元111中获取与所获取的源语言语句的样例相对应的翻译样例。最后，选项生成单元104生成与最少数目的所获取的翻译样例相关联的源语言语句样例作为选项。

输出控制单元105用于将选项生成单元104生成的样例选项输出给用户。输入接收单元101接收到用户选择的样例输入后，输出相应的翻译给用户(对话中的另一方)。

输出控制单元105中，把生成的源语言语句的样例选项或者目标语言的翻译输出到显示装置，以在屏幕上显示字符串。

根据本发明的翻译设备还可以包括语音合成单元(未显示)，用于将翻译合成为目标语言的语音，并且输出控制单元105输出由语音合成单元合成的目标语言的语音。

下面，将介绍根据具有上述配置的第一实施例的基于样例的翻译设备100所执行的基于样例的翻译处理。图3是示出了根据第一实施例的基于样例的翻译处理的一般流程的流程图。

首先，输入接收单元101接收来自用户的源语言的输入语句(步骤S301)。然后，样例搜索单元102从存储单元111中搜索与输入语句一致或者类似的源语言语句样例(步骤S302)。

通常，搜索到多个样例，这些样例中的每一个都要经过下面所描述的处理。另一方面，当在步骤S302中没有搜索到样例时，通过输出来通知翻译失败并重新接收一个输入。

首先，多义性检测单元103从搜索结果中选择一个样例(步骤S303)。然后，多义性检测单元103从存储单元111中获取与所选择的样例相对应的翻译样例(步骤S304)。

然后，多义性检测单元103确定是否获取了多个翻译样例(步骤S305)，当未获取多个翻译样例时(步骤S305：否)，生成由选项生成单元104所选择的源语言语句样例作为选项(步骤S306)。

另一方面，当获取了多个翻译样例时(步骤S305：是)，执行选项生成处理以生成源语言语句样例的选项，其中该选项允许选择多个翻译样例中的最优的一个(步骤S307)。选项生成处理将在后面详细描述。

接下来，多义性检测单元103确定是否所有搜索到的样例都已经被处理(步骤S308)，当不是所有搜索到的样例都被处理时(步骤S308：否)，选择下一个样例，并重复该处理(步骤S303)。

另一方面，当所有搜索到的样例都已被处理时(步骤S308：是)，输出控制单元105将选项生成单元104生成的样例选项输出到屏幕(步骤S309)。

接着，输入接收单元101从输出到屏幕上的样例选项中，接收用户选择的样例输入(步骤S310)。然后输出控制单元105获取与用户所选择的样例相对应的翻译，并将其输出到屏幕(步骤S311)。

下面将详细描述步骤S307的选项生成处理。图4是根据第一实施例的选项生成处理的一般流程的流程图。

首先，选项生成单元104从多个翻译样例中选择一个未处理的翻译样例(步骤S401)。接着，选项生成单元104访问存储单元111，从与所选择的翻译样例相对应的源语言语句样例中选择一个样例，该样例与最少数目的目标语言翻译相关联(步骤S402)。

当具有多个与最少数目的翻译样例相关联的源语言语句样例时，例如选择存储单元111中的预定优先级高的样例。

接下来，选项生成单元104产生所选择的源语言语句样例作为样例选项(步骤S403)。选项生成单元104确定是否所有翻译样例都已被处理(步骤S404)。当不是所有翻译样例都已被处理时(步骤S404：否)，选择下一个翻译样例，并重复该处理(步骤S401)。

另一方面，当所有的翻译样例都已被处理时(步骤S404：是)，选项生成处理完成。

接着，将说明由多义性检测单元103执行的多义性检测处理(步骤S305)和由选项生成单元104执行的选项生成处理(步骤S307)的一个具体实例。图5A和图5B是多义性检测处理和选项生成处理中参照的源语言语句样例和翻译样例之间关系的一个实例。

图5A示出了一个实例，其中源语言语句样例j0对应于目标语言语句的三个样例e1、e2、e3。当如这里所述，有多个目标语言样例对应于所检索到的源语言语句时，表示j0的翻译多义的。具体来说，多义性检测单元103可以通过确定是否有多个目标语言语句样例对应于源语言语句样例，来检测源语言语句的翻译的多义性(步骤S305)。

图5B示出了一个实例，其中源语言语句样例j0对应于目标语言的三个样例e1、e2、e3，而目标语言样例e1、e2、e3又从相反方向对应于源语言语句的四个样例j0、j1、j2、j3。

选项生成单元104通过分析图5B中所示的翻译关系来生成选项。具体来说，提取与最少数目的目标语言的对应样例相关联的源语言样例，并将所提取的源语言语句样例产生作为选项。

例如，如图5B所示，存在三个目标语言候选样例e1、e2、e3与源语言语句样例j0相对应。对于目标语言样例e1，其对应于样例j0、j1，其中j0对应于目标语言的三个样例e1、e2、e3，而j1对应于目标语言的两个样例e1和e2。在这种情况下，样例j1具有最少的多义性，于是被选择(步骤S402)。

同样，对于目标语言样例e2，其对应于样例j0、j1和j2。样例j0对应于目标语言的三个样例e1、e2、e3，样例j1对应于目标语言的两个样例e1和e2，样例j2只对应于目标语言的一个样例e2。在这种情况下，j2的对应关系具有最少的多义性，因此提取样例j2(步骤S402)。

接下来，对于目标语言样例e3，其对应于样例j0和j3。样例j0对应于目标语言的三个样例e1、e2、e3，样例j3对应于目标语言的一个样例e3。在这种情况下，样例j3具有最少的多义性，因此提取样例j3(步骤S402)。这样，样例j1、j2、j3被产生作为选项(步骤S403)。

接着，将介绍用于显示输入语句和所生成的选项的显示屏。图6A和图6B是显示显示屏的内容的一个实例。图6A示出了显示屏上显示输入语句和样例选项的一个实例，图6B示出了显示屏上显示所选择的选项的翻译结果的一个实例。

如图6A所示，用户输入的语句显示在显示屏的下方，选项生成单元104生成的样例选项显示在显示屏的上方。图6A示出了英语中的意思是“No，thank you.”的日语601被输入作为源语言语句的情况。

在这种情况下，假设如图2所示的平行语料库存储在存储单元111中。那么，通过前面描述的处理建议了包括日语602和日语603的两个选项(步骤S309)。

输入源语言语句的用户可以通过诸如笔、鼠标伙键盘的输入装置从建议的选项中选择与说话人意思一致的样例。图6A示出了用户用笔选中了日语602的情况。

输入接收单元101在接收了用户通过输入装置所选择的输入后(步骤S310)，如图6B所示，在显示单元上输出与日语602相对应的目标语言样例“No，thank you.”(步骤S311)。

下面，将介绍显示屏的配置的另一个实例。图7是示出了显示屏的内容的另一个实例的示意图。

在存储单元111中存储的信息中，一个对应于目标语言中的多个样例的样例，如果具有最少的多义性，也有可能被产生为一个选项。在这种情况下，对应于源语言语句的特定样例的翻译就具有多义性，因此就不能将其建议为一个样例选项。

因此，在建议选项时，选项生成单元104所提取的作为选项的样例可以与特定样例的翻译是否具有多义性的信息相对应地显示。

图7示出了用下划线将对应翻译具有多义性的源语言语句样例与没有多义性的样例区分开来的情况。显示方法不仅仅局限于这种方法，任何以相关方式输出表示存在多个翻译样例的信息的显示方法都可以使用。

对应的样例也可以替换地用除下划线以外的其他符号标识，或者可以改变对应样例的字符或者背景的颜色以供标识。此外，可以将对应翻译具有多义性的样例和对应翻译没有多义性的样例分成两组，分别在不同的显示列中显示。

尽管上述情况使用了这里建议的方法用于具有显示器和输入装置的移动终端，但是所建议的方法也可以用于其他类型的装置，如移动电话或台式终端。

如上所述，根据第一实施例的基于样例的翻译设备以这样的方式操作：当输入的源语言语句具有多个翻译样例时，从对应于每个翻译样例的多个源语言语句样例中将具有最少多义性的样例建议给用户作为选项。用户可以从具有与输入语句类似含义的样例的选项中确认并选择一个与讲话意图一致的样例。结果是，降低了输出与讲话意图相偏离的翻译的可能性。

在根据第二实施例的基于样例的翻译设备中，具有相同含义的多个翻译样例被集中地存储为一个样例组，其被认为是一个样例，并处理。

第二实施例与第一实施例的不同之处在于存储单元的配置。配置和功能的其他部分与图1的方框图所示的根据第一实施例的基于样例的翻译设备的配置相类似，因此，这些部分用相同的参考标记标出，而不再重复介绍。

与第一实施例相类似，根据第二实施例的存储单元111用于存储平行语料库。存储单元111与第一实施例的存储单元111不同之处在于，与源语言语句的样例按照对应关系设置的具有相同含义的多个翻译样例被集中地存储为一个样例组。

图8是示出了存储在存储单元111中的平行语料库的数据结构的一个实例。如图8所示，存在两个具有相同含义的英语翻译样例“Iunderstand.”和“I see.”对应于日语样例801，这两个英语样例用“：”隔开，并集中地存储为如英语样例802所示。

具体来说，不同于第一实施例，具有相同含义的英语样例并不利用不同的直线按照彼此的对应关系存储为独立的样例，而是使用一条直线将其存储为一个组。

通过这种方式集中地处理具有相同含义的多个样例，避免了执行不必要的处理的不方便性。例如，根据第一实施例，具有相同含义的样例被按照对应关系分别存储，因此步骤S305确定源语言语句的对应样例具有多义性，并且执行选项生成处理(步骤S307)。

相反地，通过以与根据第二实施例的其他样例相同的方式处理具有相同含义的样例组，步骤S305确定源语言语句的对应样例没有多义性，因此避免了执行选项生成处理。

除了如上所述将多个样例作为一个样例来处理以外，根据第二实施例的基于样例的翻译设备的基于样例的翻译处理的一般流程与图3中所示的根据第一实施例的基于样例的翻译处理的一般流程的流程图相同，因此不再重复解释。

当用户选择了对应于如上所述的样例组的源语言语句样例时(步骤S310)，输出控制单元105输出样例组中包含的多个样例中的任意一个作为翻译(步骤S311)。

如上所述，在根据第二实施例的基于样例的翻译设备中，具有相同含义的多个样例集中地存储为一个样例组，并视为一个样例来处理。因此，省去了多义性检测处理和选项生成处理的不必要的部分。

基于样例的机器翻译一般在平行语料库中都具有大量数据。因此，特别是对于具有有限存储能力的移动终端来说，希望不用将平行语料库存储在终端上，而是希望通过通信设备获取由外部服务器管理的样例。

在根据第三实施例的基于样例的翻译设备中，通过通信单元在用于管理平行语料库的样例管理服务器中检索与输入的源语言语句相对应的样例。

图9是显示根据第三实施例的基于样例的翻译设备900的配置的方框图。如图9所示，基于样例的翻译设备900包括通信单元912、输入接收单元101、样例搜索单元102、多义性检测单元103、选项生成单元104和输出控制单元105。同时，基于样例的翻译设备900还通过网络，如因特网，与样例管理服务器950连接。

第三实施例与第一实施例的不同之处在于，添加了通信单元912，删除了存储单元111。配置和功能的其余部分与图1的方框图所示的根据第一实施例的基于样例的翻译设备100的配置类似，并用相同的参考标记标出，不再重复介绍。

样例管理服务器950包括通信单元941和存储单元951。通信单元941控制从基于样例的翻译设备900接收样例搜索请求并向基于样例的翻译设备900返回构成翻译结果的样例的处理。

与第一实施例中类似，存储单元951存储平行语料库，并且与根据第一实施例的存储单元111具有相同的结构。因此，不再介绍存储单元951。

基于样例的翻译设备900的通信单元912向样例管理服务器950发送一个源语言语句，并接收由样例管理服务器950针对所发送的源语言语句所搜索和返回的样例。

下面，将介绍根据具有这种配置的第三实施例的基于样例的翻译设备900所执行的基于样例的翻译处理。图10是示出了根据第三实施例的基于样例的翻译处理的一般流程的流程图。

步骤S1001的输入接收处理与根据第一实施例的基于样例的翻译设备100中的步骤S301的处理类似，因此不再介绍。

在接收了输入语句后，样例搜索单元102通过通信单元912从样例管理服务器950获取与输入语句相一致或相类似的源语言语句的样例(步骤S1002)。

步骤S1003到步骤S1011的多义性检测处理、选项生成处理和输出处理都与根据第一实施例的基于样例的翻译设备100的步骤S303到步骤S311的处理类似，因此不再介绍。

下面，将介绍根据第三实施例的具有该配置的基于样例的翻译设备900所执行的选项生成处理。图11是示出了根据第三实施例的选项生成处理的一般流程的流程图。

步骤S1101的未处理样例选择处理与根据第一实施例的基于样例的翻译设备100的步骤S401的处理类似，因此不再介绍。

选择了未处理的样例之后，选项生成单元104通过通信单元912从样例管理服务器950获取与所选择的未处理翻译样例相对应的源语言样例中的一个，该样例与具有最少数目的目标语言翻译样例相关联(步骤S1102)。

步骤S1103到步骤S1104的选项生成处理和完成确定处理与根据第一实施例的基于样例的翻译设备100的步骤S403到S404的处理类似，因此不再介绍。

如上所述，在根据第三实施例的基于样例的翻译设备中，可以通过通信单元从用于管理平行语料库的样例管理服务器中搜索与输入的源语言语句相对应的样例。结果是，样例管理处理就集中在样例管理服务器上，从而降低了样例管理处理负担。

根据第一到第三实施例的基于样例的翻译设备所执行的基于样例的翻译程序以建立在ROM(只读存储器)中的形式提供。

根据第一到第三实施例的基于样例的翻译设备所执行的基于样例的翻译程序也可以通过记录为计算机可读记录介质中的可安装或可执行的文件的形式提供，所述计算机可读记录介质如CD-ROM(光盘只读存储器)、软盘(FD)、CD-R(可刻录光盘)或者DVD。

作为另一替换，根据第一到第三实施例的基于样例的翻译设备所执行的基于样例的翻译程序也可以以存储在计算机中的形式提供，所述计算机连接到诸如因特网的网络上，并且所述程序可以通过网络被下载。作为另一替换，根据第一到第三实施例的基于样例的翻译设备所执行的基于样例的翻译程序可以通过诸如因特网的网络来提供或分布。

根据第一到第三实施例的基于样例的翻译设备所执行的基于样例的翻译程序具有模块化的结构，包括前面提到的各个部分(输入接收单元、样例搜索单元、多义性接测单元、选项生成单元、输出控制单元)，作为实际硬件，CPU(中央处理单元)从ROM中读取基于样例的翻译程序，并执行，从而把前面提到的各个部分装载并生成到主存储器中。

对于本领域技术人员来说很容易出现其他优点和变形。因此，本发明在其更广阔的方面并不局限于这里所显示和描述的具体细节和代表性实施例。因此，在不脱离由所附权力要求及其等同方式所限定的精神和范围内，可以做出各种变形。

Claims

1、一种基于样例的翻译设备，包括：

存储单元，其存储第一语言的第一样例和第二语言的第二样例，所述第一样例与至少一个与所述第一样例具有相同含义的第二样例相关联，所述第二样例与至少一个与所述第二样例具有相同含义的第一样例相关联；

输入接收单元，其接收所述第一语言的语句的输入；

第一样例搜索单元，其基于所述第一语言的语句，从所述存储单元搜索第一样例；

第二样例搜索单元，其搜索与所述第一样例相对应的第二样例；

确定单元，其确定是否存在多个搜索到的第二样例；

第一获取单元，当所述确定单元确定存在多个搜索到的第二样例时，所述第一获取单元从所述存储单元获取与搜索到的多个第二样例中的每一个相对应的第一样例；

第二获取单元，其从所述存储单元获取与所获取的第一样例相对应的第二样例；

选项生成单元，其生成与最少数目的所获取的第二样例相关联的所获取的第一样例，作为将被输出的第一样例的选项；

输出控制单元，其输出所述第一样例的选项。

2、根据权利要求1所述的基于样例的翻译设备，

其中，所述第一样例搜索单元从所述存储单元搜索与所述第一语言的语句相一致的第一样例。

3、根据权利要求1所述的基于样例的翻译设备，

其中，所述第一样例搜索单元从所述存储单元搜索与所述第一语言语句的相似程度大于预定阈值的第一样例。

4、根据权利要求1所述的基于样例的翻译设备，

其中，当存在多个第一样例时，所述第二样例搜索单元搜索与所述多个第一样例中的每一个相对应的第二样例。

5、根据权利要求1所述的基于样例的翻译设备，

其中，所述输出控制单元相关联地输出信息和选项，该信息表示存在多个所获取的第二样例，该选项是所述第一样例的选项中的具有多个对应的所获取的第二样例的第一样例的选项。

6、根据权利要求5所述的基于样例的翻译设备，

其中，所述输出控制单元输出所述第一样例的选项中的具有多个对应的所获取的第二样例的第一样例的选项，所述选项用下划线表示。

7、根据权利要求5所述的基于样例的翻译设备，

其中，所述输出控制单元输出所述第一样例的选项中的具有多个对应于所获取的第二样例的第一样例的选项，该选项与不具有多个对应的所获取的第二样例的第一样例的选项区分开。

8、根据权利要求1所述的基于样例的翻译设备，

其中，当存在多个与最少数目的所获取的第二样例相关联的第一样例时，所述选项生成单元从与最少数目的所获取的第二样例相关联的第一样例中，生成具有最高优先级的第一样例的选项。

9、根据权利要求1所述的基于样例的翻译设备，还包括：语音识别单元，其接收第一语言的语音，听觉地识别所接收的语音，并输出语音识别结果，

其中，所述输入接收单元接收所述语音识别结果作为所述第一语言的语句。

10、根据权利要求1所述的基于样例的翻译设备，还包括：字符识别单元，其接收第一语言的字符信息，识别所接收的字符信息，并输出字符识别结果，

其中，所述输入接收单元接收所述字符识别结果作为所述第一语言的语句。

11、根据权利要求1所述的基于样例的翻译设备，还包括：显示单元，其显示所述第一样例的选项，

其中，所述输出控制单元将所述第一样例的选项输出到所述显示单元。

12、根据权利要求1所述的基于样例的翻译设备，还包括：语音合成单元，其将与由用户从所述第一样例的选项中选择的第一样例相对应的第二语言的语句合成为第二语言的语音，

其中，所述输出控制单元输出所述第二语言的语音。

13、根据权利要求1所述的基于样例的翻译设备，

其中，当存在多个具有相同含义的第一样例时，所述存储单元将所述具有相同含义的第一样例设置为第一样例组，并将所述第一样例组与所述第二样例相关联地集中存储，

当存在多个具有相同含义的第二样例时，所述存储单元将所述具有相同含义的第二样例设置为第二样例组，并将所述第二样例组与所述第一样例相关联地集中存储，

所述第一样例搜索单元从所述存储单元搜索所述第一样例和所述第一样例组中的一个；

所述第二样例搜索单元搜索与所述第一样例和所述第一样例组中的一个相对应的第二样例和第二样例组，

所述确定单元确定搜索到的第二样例或搜索到的第二样例组的总数是否不小于二，

当所述确定单元确定搜索到的第二样例或搜索到的第二样例组的总数不小于二时，所述第一获取单元从所述存储单元中，为所述第二样例中的每一个或者所述第二样例组中的每一个，获取与搜索到的第二样例中的每一个或搜索到的第二样例组中的每一个相关联的第一样例或第一样例组，

所述第二获取单元从所述存储单元获取与所获取的第一样例或所获取的第一样例组相对应的第二样例或第二样例组；

所述选项生成单元生成与最少总数的所获取的第二样例或所获取的第四样例组相关联的所获取的第一样例或所获取的第一样例组，作为所述第一样例的选项。

14、一种基于样例的翻译设备，包括：

通信单元，其通过网络将第一语言的语句、第一语言的第一样例或第二语言的第二样例传输到与所述通信单元相连的样例管理服务器，并接收从所述样例管理服务器返回的第一样例或第二样例，所述样例管理服务器具有存储单元，用于存储所述第一样例和所述第二样例，所述第一样例与至少一个与所述第一样例具有相同含义的第二样例相关联，所述第二样例与至少一个与所述第二样例具有相同含义的第一样例相关联；

输入接收单元，其接收所述第一语言的语句的输入；

第一样例搜索单元，其基于所述第一语言的语句，通过所述通信单元从所述样例管理服务器的存储单元中搜索第一样例；

第二样例搜索单元，其通过所述通信单元从所述样例管理服务器的存储单元中搜索与所述第一样例相对应的第二样例；

确定单元，其确定是否存在多个搜索到的第二样例；

第一获取单元，当所述确定单元确定存在多个搜索到的第二样例时，所述第一获取单元通过所述通信单元从所述存储单元中获取与搜索到的第二样例的每一个相对应的第一样例；

第二获取单元，其通过所述通信单元从所述存储单元中获取与所获取的第一样例相对应的第二样例；

选项生成单元，其生成与最少数目的所获取的第二样例相关联的第一样例，作为将被输出的第一样例的选项；以及

输出控制单元，其输出所述第一样例的选项。

15、一种基于样例的翻译方法，包括：

接收第一语言的输入语句；

基于所述第一语言的语句，从存储有第一语言的第一样例和第二语言的第二样例的存储器中搜索第一样例，所述第一样例与至少一个与所述第一样例具有相同含义的第二样例相关联，所述第二样例与至少一个与所述第二样例具有相同含义的第一样例相关联；

搜索与第一样例相对应的第二样例；

确定是否存在多个搜索到的第二样例；

当确定存在多个搜索到的第二样例时，从所述存储单元获取与搜索到的第二样例的每一个相对应的第一样例；

从所述存储单元获取与所述第一样例相对应的第二样例；

生成与最少数目的所获取的第二样例相关联的第一样例，作为将被输出的第一样例的选项；以及

输出所述第一样例的选项。

16、一种基于样例的翻译方法，包括：

接收第一语言的输入语句；

基于所述第一语言的语句，通过通信单元从样例管理服务器的存储单元中搜索第一语言的第一样例，所述第一样例与至少一个与所述第一样例具有相同含义的第二样例相关联，所述第二样例与至少一个与所述第二样例具有相同含义的第一样例相关联，所述通信单元将所述第一语言的语句、所述第一样例或第二语言的第二样例传输到所述样例管理服务器，并接收由翻译样例管理服务器返回的第一样例或第二样例，所述翻译样例管理服务器通过网络相连；

通过所述通信单元从所述样例管理服务器的存储单元中搜索与所述第一样例相对应的第二样例；

确定是否存在多个搜索到的第二样例；

当确定存在多个搜索到的第二样例时，通过所述通信单元从所述存储单元获取与搜索到的第二样例的每一个相对应的第一样例；

通过所述通信单元从所述存储单元获取与所获取的第一样例相对应的第二样例；

输出所述第一样例的选项。