当前,Google 的在线翻译已经为人熟知,其第一代的技术即为基于统计的机器翻译方法,基本原理是通过收集大量的双语网页作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。
不过,采用该技术目前仍无法达到令人满意的效果,经常闹出各种翻译笑话。因为,基于统计的方法,需要建立大规模的双语语料库,而翻译模型、语言模型参数的准确性直接依赖于语料的规模及质量,翻译质量直接取决于模型的质量和语料库的覆盖面。
除了上述传统的方式,2013年以来,随着深度学习的研究取得较大进展,基于人工神经网络的机器翻译逐渐兴起。就当前而言,广泛应用于机器翻译的是长短时记忆循环神经网络。该模型擅长对自然语言建模,把任意长度的句子转化为特定维度的浮点数向量,同时“记住”句子中比较重要的单词,让“记忆”保存比较长的会话时间。该模型较好地解决了自然语言句子向量化的难题。
其技术核心是通过多层神经网络,自动从语料库中学习知识。一种语言的句子被向量化之后,在网络中层层传递,经过多层复杂的传导运算,生成译文。这种翻译方法最大的优势在于译文流畅,更加符合语法规范。相比之前的翻译技术,质量有较高的提升。
04
智能同传翻译离我们还有多远?
需要说明的是,很多人对机器翻译有误解,认为机器翻译偏差大。其实,机器翻译运用语言学知识,自动识别语法,模拟语义理解,进行对应翻译,因语法、语义、语用的复杂性,出现错误是难免的。就已有的成果来看,全场景通用的机器翻译,其翻译质量离终极目标仍相差甚远。
随着全球化网络时代的到来,语言障碍已经成为二十一世纪社会发展的重要瓶颈,实现任意时间、任意地点、任意语言的无障碍自由沟通是人类追求的一个梦想。这仅是全球化背景下的一个小缩影。在社会快速发展的进程中,机器翻译将扮演越来越重要的角色。
Copyright © 2002-2024 北京百睿德文化传播有限公司 版权所有 地址:北京市朝阳区广渠门外大街31号合生国际 备案号:皖ICP备11014461号-34 网站地图