在2015年度国家科学技术奖励大会上,由百度与中国科学院自动化所、中国科学院计算技术研究所、浙江大学、哈尔滨工业大学、清华大学等单位共同研发的“基于大数据的互联网机器翻译核心技术及产业化”项目(以下简称“机器翻译项目”),获得了国家科学技术进步奖二等奖。
此项目获国家科技大奖,标志着互联网大数据为我国机器翻译技术插上了腾飞的“翅膀”,同时也引发了人们对机器翻译的关注和探讨:在如今的大数据时代,机器翻译能否取代人工?记者就此采访了相关专家。
“机器翻译”技术是世界性难题
机器翻译技术涉及计算机、认知科学、语言学等学科,一直被科学界公认为是人工智能领域最难的课题之一。
“机器翻译出现于20世纪40年代,美国等发达国家曾出现过机器翻译技术研究热潮。然而多年来,机器翻译却一直没有得到普遍应用。”百度技术副总裁、机器翻译项目负责人王海峰接受记者采访时介绍,因为让计算机理解人类语言,要经历从分析、理解到转换生成等繁杂步骤,让原本只认识“0”和“1”的计算机去实现不同语言之间的翻译,涉及语言现象的灵活多样、翻译知识获取难度大、翻译模型计算复杂度高等多个难题。
据了解,中国机器翻译研究起步于1957年,是世界上第4个开始研究机器翻译的国家。虽然历经几十年的发展,但机器翻译技术始终未能突破真正实用的门槛。王海峰从1993年初开始从事机器翻译领域研究工作,最终他组建了项目研究团队,集合了清华大学、浙江大学、哈尔滨工业大学以及中科院等国内顶尖科研力量,通过百度丰富的海量互联网数据,再经过云计算平台处理,才让机器翻译从理论走向实践,变成可能。
基于大数据的互联网翻译成为突破口
近些年来,随着互联网以及大数据的迅猛发展,基于大数据的互联网翻译成为了机器翻译技术实用化的突破口。王海峰说:“组建研发团队后,我们从整个互联网上挖掘翻译资源,在此基础上使用云计算平台训练统计翻译模型、深度学习模型,最终让机器翻译真正达到实用水平,也实现了机器翻译领域很多研究者们的毕生夙愿。”
王海峰介绍,互联网大数据给机器翻译带来了机遇,语言资源数据量激增,使得海量翻译知识的自动获取和实时更新成为可能。但同时,互联网大数据也带来了新的挑战:比如互联网语言数据噪声大,语言歧义现象多,小语种双语资源数据稀缺等。他们的项目团队遭遇了不少难题,比如2010年初,通过数据分析,他们的研究团队发现,互联网数据虽大,里面却存在着大量的低质语料,比如“好好学习、天天向上”在抓取回来的语料中大多数都被翻为了“good good study,day day up”。
面对如此令人啼笑皆非的语料,项目团队反复研究改进,最终将传统文本处理技术与互联网技术完美结合。国家科技奖的项目评审专家认为,该获奖项目突破了机器翻译领域内的四大世界级技术难题:“提出基于大数据的互联网机器翻译模型,快速响应高负荷翻译需求;基于大数据的翻译知识获取,克服语言数据噪声问题;通过深度语义分析和翻译技术,解决语言语义歧义问题;提出枢轴语言机器翻译技术,实现了稀缺语种的多语言翻译。”
未来需要机器翻译和人工翻译的融合发展
现在,在百度等大数据翻译平台,输入任何需要翻译的语言,都能得到比较准确的翻译语言结果。那么,有了机器翻译技术,未来机器翻译是否会取代人工翻译呢?
“与人工翻译相比,机器翻译具有独特的优势。随着互联网数据的不断丰富、翻译模型的持续创新,机器翻译效果会被打磨得越来越好。也许三五年后,看似高大上的机器翻译会融入日常生活的方方面面。”王海峰接受记者采访时表示:“首先,机器翻译现在可以覆盖多达几十种语言,这对于人工翻译来说是难以达到的。另外,机器翻译系统具有可涵盖多领域、多行业的海量词典和翻译模型,可在不同场景下进行翻译,而反观人工翻译,则往往只能精深于某个特定的领域或行业。机器翻译正在为人们生活带来各种便利。人们可以通过机器翻译,解决衣食住行中遇到的语言难题。小到出国旅游、科技文献翻译,大到国际贸易、跨语言文化交流,多语言信息联通需求,都让机器翻译发挥重要价值。”
哈尔滨工业大学的李生教授表示,机器翻译在生活服务、学习等领域正逐渐替代人工翻译,成为个人翻译助手。不过目前的翻译技术手段还无法完全达到“信、达、雅”的标准。但随着信息技术的推动,实现及时的全世界信息共享,单靠人工翻译显然很难完成,但机器翻译也不会完全替代人工翻译,二者需要融合发展。