当前位置: 首页 > 科技 > 人工智能 > 机器翻译能解放生产力吗?_腾讯新闻

机器翻译能解放生产力吗?_腾讯新闻

天乐
2020-12-04 08:14:43 第一视角

软件翻译并不是新鲜事物,但为何在当下开始有了像“机器翻译能否代替人工翻译”这类的话题呢?

我们都知道只有技术革命才能解放生产力。在翻译领域里,基于自然语言“神经网络模型”的机器翻译的出现,终于让大家看到了颠覆性的技术。从中,大家看到“神经网络”的革命性和未来性,内心中对这项技术有了些憧憬和疑问,也就有了如此疑问。我们不讲总的机器翻译历史和时间轴事件,仅从应用角度到来看,软件翻译可以有三个阶段。

第一阶段是以地球村和东方快车为代表时代,也就是windos95、win98时代,中国刚刚有互联网的那段时间,地球村以输入词为主、东方快车以划线句子和段落为主。至于翻译质量我们不做评价,小编只记得这两款软件的使用量还是很大的,跨度大概3,4年的时间。之后是以金山词霸为主,经常被列为装机必备软件,也是中国最有生命力的软件之一。

第二阶段是在线翻译时代,当网络已成为基建的时候,百度、金山、有道等等软件也把翻译当时流量业务或者经营性业务,已经逐步脱离的个人工具的概念。

第三阶段为人工智能时代的开始,重新定义了机器与语言的关系。完全改变了技术呈现结构。尤其是Transformers神经网络模型的出现和商业实验性应用,终于让人们改变了翻译软件的只能查单词、翻译句子就差强人意的印象。也正是第三阶段的出现才有了“机器翻译”这个新词、新含义。

科技发展,神经网络的出现目的是不是代替人工我们不得而知,但机器翻译就目前来说,是可以当成唯一解决人工大批量文本翻译的唯一可行性方案。并且技术可预期性,发展性、成熟性都有很大的想象力空间和进步空间。因此就目前阶段而言,机器翻译赋能人工翻译、辅助人工翻译可能更为准确。

第一阶段、第二阶段和第三阶段的技术革命到底在哪里呢?

前两个阶段主要是通过规则编写和预制格式来进行遍历性的翻译,只要出现了规则不匹配的就会出现乱用词汇的情况出现。如果穷举的方式必然不是人类语言处理的最优方式。从根上来讲语言是对动态的,而基于规则、统计方式的翻译软件是静态的,天然就不具备替代的可能性。

第三阶段的革命性也就于神经网络的问世,同人类一样具有了一点学习能力和变化能力,都是在相对动态的处理语言规则、表达语言逻辑和含义。既然同宗,那么剩下的就是解放生产力的时间问题了。

我们也稍微理解下“机器翻译”概念,原文(人类)-->原文字典码(机器)-->神经网络高纬度坐标轴(神经模型)-->译文字典码-->译文(人类)。机器居间理解原文内容转换机器识别代码在转换译文的过程。这个过程也就是“人工智能机器翻译”。过程中神经模型和人类大脑神经模型的差距,也就是解放生产力的时间跨度。就语言表达来讲,相同的词汇在各个领域都有不同含义。

人类的大脑是有限的,不可能把所有的领域都学会、学全;神经网络模型也是一样的,必须要根据垂直行业特点来进行单独学习,避免过拟合现象。泛化太大就会出现“聪明过头”现象,把其他领域的含义引申到了本领域内。

这也是蓝灯鱼机器翻译目前为什么只注于专利领域引擎的原因

即便如此,我们在训练一个神经网络模型也相当吃力,一个模型对机器配置的要求非常高,十几个高显存的GPU同时运算基本是保底配置。算机整体的算力,神经网络的结构上还需要不断提升,才能追上人脑智商。

神经网络模型也可以称为基于知识的翻译模型,因为神经网络直接是通过具有逻辑关系词语、短句进行优选选择拼接,词语之间的逻辑关系都具有一定的强关联性。因此小样本的平衡语料也可能训练出一个较为优秀的模型,也可以说神经网络模型是理解了语料,学习了知识,学会你会的,解放你的生产力。

好的软件是磨出来的,不是开发出来的,这是一个好产品的基本逻辑。

对于一个翻译模型,通常影响较大的有3个方面,人工精修平衡语料,越多越好,多到多少呢,2000W不多,5000W不少,1个亿对于机器来说也是小意思,能磨好这么多语料显然是要下功夫和投入的。另外就是对于神经网络参数的上千次、万次的调整以及工程在初始和最后的查缺补漏。磨出来的蓝灯鱼引擎目前基本达到了翻译初稿水平,可以说是部分解放了生产力。从版本更新历程上,在准确性、流畅性正在不断的提高。

当然革命尚未成功,模型仍需努力。革命道路不会一帆风顺,但革命道路一定需要我们大胆尝试。

蓝灯鱼模型接下来的尝试呢?

模型会话研究:通过会话记忆,对同一篇文章内容表达更加统一。

模型符号标记通译:翻译后,符号对照更加准确标准。

原文译文切词算法:提高翻译结果的表达流畅性、准确性。

敬请期待!

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部