尽管翻译出来不是很有文学性,但AI正确理解到了“望着同一个月亮”这层意思。
为了更好地评价微软翻译的才能,这儿请出老牌选手百度翻译,让它们比试一下。
不出所料,看来微软翻译在用整句进行操练的时分把握了句与句之间的转机联系,后来不知怎样又算到前半句里了。
最终一题检测一下白话文中的另一个常见语法现象倒装
微软翻译尽管多学会了一个互文,但毕竟仍是年青选手,对句子之间联系的处理需求再操练。
尽管也特别操练了“微软”和“电脑”这种现代才呈现的名词,但遇到“一九七五年”这种古代不必的表达就不行了,前老板比尔盖茨的姓名也没认出来。
提到现代的表达方式,其实这个翻译东西还能够倒过来用,把白话文译成白话文。
比方诸葛丞相那句“我从未见过有如此厚颜之人!”要是用白话文说出来是不是就更对味了?
百度是最早用机器学习做白话文翻译的,还申请过相关专利:「一种在白话文与白话文之间进行文体转化的办法和设备」。
相关白话文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次选用的,便是Transformer模型:
比较于其他干流言语(中文现代文、英文等),白话文能够说是操练数据很少,一起还存在句式改换、繁简混合等问题,形成翻译的僵硬。
其一,针对数据量缺乏,使用相同字词进行数据组成和增强。白话文和现代文有一些相同意义的字词,假如对这些词语进行召回、对齐,再扩展到短词短句,就能组成很多可用的操练数据。
其二,针对句式改换不灵敏,对数据格式进行变形,提高鲁棒性。白话文断句和现代文不太相同,为此研究人员经过数据格式变形,来扩展操练数据量,让模型也学会翻译相似句子。
其三,针对字体辨认不力,用简繁混合数据操练,提高模型辨认才能。为了让机器学习能一起辨认简繁混合的白话文,研究人员在操练模型时会将简体中文和繁体中文数据混合在一起进行操练,保证翻译模型不犯错。
其四,针对现代文的“新词”,专门树立有关数据集和辨认模型,保证不“乱翻译”。为了尽最大或许防止模型在遇到现代文中的“高铁、电脑、互联网”这种词时呈现紊乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来辨认这些新词。除了新词,也针对博客、论坛、微博等新文体进行操练。
这次微软的白话文翻译是直接整合到了Bing翻译里,莫非还能够把白话文翻译成外语?
看来简单句没有难倒AI,咱们提高一下难度,用一首比较闻名的英文诗「当你老了」试试:
等等,“暗淡”、“阴景深”、“弯下腰在酒边”这都是什么鬼?
不过,微软也说过,这次首要完成的是白话文和现代文互译,阐明其他言语在翻译成白话文之前,应该也需求先翻译成现代文。
破案了,微软的英译中的确不太行或许也是导致英文翻译成白话文呈现失误的原因。
顺带一提,尽管正派的英文字句翻译得不太行,不过在这种字词的翻译上居然还有点文艺?