电脑同声翻译机或已不远
在那部60年代的电视剧“星际迷航”中,无论那艘星际飞船“奋进号”在宇宙飞得哪,它所遇到的外星人总能操一口流利的加州英语。该剧解释说柯克船长及其船员随身携带有微小的、智能化全能翻译机,它可以扫描外星人脑电波,将外星人语言同声传译成适当的英语。
这当然属于科幻情节了。但是最好的科幻作品总能预言未来。很多人认为最先出现在“星际迷航”中的翻盖式交流机启发人们设计出蛤壳式移动电话。此外,更凶险的方面包括:数个军队及军事设备公司所制造出的高能量激光武器和移相器极为相似。在自动同声翻译机被发明出来之前,还要过多久人们会认为学校里那些沉闷的语言学习是多余的?
那可能没有语言教师、口译员以及其他靠双语沟通吃饭的人所想的那么遥远。过去几个月里,诸如强大的微软公司及一些独立发明人等发布的一系列消息表明可行的同声翻译机很快出现,即使它不那么完美。
今年夏天,伦敦发明家威尔.鲍威尔向公众展示了一个系统,该系统可以为英语、西班牙语对话双方做翻译,前提是对话双方有耐心、语速慢。每个谈话者头戴一个连接手机的无手柄耳机,还要戴一个用于体育运动的护目镜,它可以显示出翻译文本,就像外文电影字幕。
今年11月,日本最大的移动电话话务公司NTT DoCoMo 推出一款服务,可以提供日语和英语、汉语或者韩语之间的电话翻译。说话双方连续说话,该公司听到通话内容后几秒内就可以翻译出来,翻译结果视适当情况,呈现出男音或女音。
这种翻译服务的贡献可能是最具迷惑性。今年10月,该话务公司首席研究员瑞克.拉希德(Rick Rashid)在天津某会上用英语演说时,他的结束语被翻译成普通话,先是以字幕的形式出现在头顶上方的视频屏幕上,然后就是电脑语音形式。值得注意的是,拉希德讲话的中文版还带有他本人的说话特点和音调变化。
虽然以上三种系统各不相同,但是都面临这同样的问题。第一个挑战就是原声识别及数字化。过去,语音识别软件从声音组成——即音素上来分析语音。普通话中共有24个音素,英语中包括40个音素,而非洲语系中所包含的音素超过100个。在重建原声之前,人们用由数据语音模型和概率技巧构成的高斯混合模型来辨别每一个音素。这种技术最常用于公司电话接听系统中烦人的语音邮件监狱。该技术所含的词汇量有限,但效果还行,它也尝试涉猎更自由的范围,但是它每四个单词就至少有一个是错的。
拉希德所展示的翻译机有好几方面的进步。首先,它的目标在于连续识别三个音素——即senones,而非一个。英语中像这样的senones多达9000多个。如果它们能被识别出来的话,再识别出它们的所属词汇要比仅识别出单个音素那种情况容易得多。
微软的senone识别器依赖于其深入的神经网络,这是一种启发自人脑的数学技巧。这种人造网络即是数个由虚拟神经元组成的软件。每个神经元承担来自其邻居的信号强度,以此为基础,将结果发送给其他邻居,其他邻居同样地以此类推。可以对这种网络进行训练,使之匹配输入和输出,方式就是改变其组件——神经元之间的联系强度。
关于人脑,有一点可以确定的就是它们的神经元呈层状分布。深入的神经网络就模仿自这种分布格局。微软发明的系统有九层:最底下一层识别讲话的声波特点,其上一层识别这些特点的结合,以此环环相扣,由此逐渐产生越发复杂的联系,最顶上一层就猜测出它所认为的系统接收到的senone。给每个senone作标签,形成讲话记录库,这样正确的结果可以被反馈到网络中,这为的就是提高翻译准确率。
微软研究员称他们的“深入神经网络翻译机”错误率要比传统的翻译系统少上至少1|3,某些情况下,每八个单词只错一个。谷歌公司已开始将这种“深入神经网络”应用于其安卓系统智能手机的语音识别上(尽管还没用在翻译上),并称其错误率降低了20%。另一种语音识别服务体系Nuance也公布了相似的进步。“深入神经网络”可以像计算机一样,对智能手机或家庭电脑强大的网络服务商要求严格,因此大多数语音识别和翻译软件(包括微软、谷歌以及Nuance)都在云环境中运行。
但是识别语音只是翻译的第一步,与此同样重要的就是不仅要把所听到的语言转换成外文词汇(鉴于所有语言意思的模糊性以及一些概念不可译的事实,这一点已经够难了),还要把它们转换成外文句子。这些语言通常有不同的语法规则,因此其语序也不尽相同。所有,即使一个句子中的英语词汇都是确定的,电脑语言系统也可能生成不自然或者搞笑的错误翻译。
谷歌针对智能手机应用程序及网络服务翻译的解决办法就是“集体智慧”。它将待翻译文本和通过其软件的数百万句子放在一起进行比较,然后选出最匹配的翻译。卡内基.梅隆大学研发出一款针对游客的翻译应用——Jibbigo, 其运行原理和上述相似,但是也得让发展中国家用户修正他们的母语翻译。即便如此,语言根本的模糊性也使得机器翻译能手感受到什么叫“世界苦恼”。
比如,即使NTT DoCoMo电话翻译机使用起来快捷简单,它同样采用“神经网络系统”,在面对高于幽默要求的翻译时,也无从下手。所翻句子必须简短以保证翻译的准确性,即使如此,翻出来的单词也常是混杂在一起,不成句子。
微软打赌说当翻译出的对话是说话者原声,听者会更包容这类错误。它的新系统可以破解对话中的特别音质,方法就是分析长达一个小时的录音。然后它可以生成相似频率的合成语音。这种系统在中国运转良好,拉希德那被计算机翻译出来的普通话(时有错误)获得了热烈的掌声。
全能译员只在会议厅里工作,不管是跨星系还仅是跨大洲,游客都雇不到他们。鲍威尔的对话翻译机在任何有手机信号的地方都可以使用,耳机所接受到的语音被传到附近电脑的语音识别软件上,输出文本由链接微软在线翻译引擎的移动电话网络发出。
翻译对话的一大难点在于决定什么时候是谁在说话。为了做到这一点,鲍威尔的系统不是尝试直接识别声音,而是通过两个翻译引擎来同时接收听到的声音:英语转换成西班牙语,西班牙语转换成英语。由于输出结果应该只有一种能讲得通,这一系统就可以决定是谁在说话。做到这一点后,它就可以将翻译呈现在对方的护目镜上了。
此时此刻,对耳机、云服务以及笔记本的需求意味着鲍威尔的同声翻译系统还处在十分原始的阶段。它在交替传译及单向翻译方面要先进的多。当下,最复杂的技术要数Jibbigo了,它要在完全不联网的情况下,掌握今天智能手机中该应用程序十种语言的语音识别和4万词汇。
问题还是存在的:在真实世界里,人们相互交流间会使用俚语,或者交流环境是嘈杂的大街,这其中任何一种情况都可以使最好的翻译系统崩溃。但是,尽管离实现“星际迷航”式对话还有好些年,在将科幻小说变成现实上,全能翻译机铁定会打败移相器、输电波以及曲速引擎。
标签: #英语翻译软件哪个好加生词