31位中外院士,260多位海内外人工智能专家学者,22场人工智能专题论坛……
2021年6月5日-6日,包括微软、亚马逊、百度、京东等在内的,全球人工智能专家学者与商界名流齐聚杭州,在“2021全球人工智能技术大会暨全球人工智能技术博览会”上,对当下的人工智能把脉问诊,进行思想碰撞和技术交流,以及展望未来。
在这一全球性的行业盛会上,传神语联参与发起中国人工智能学会“多语种智能信息处理专业委员会”,并成为常委单位。
传神在十年前提出多语智能信息处理,并通过旗下的语联网平台,将多方面的自然语言处理技术、大数据技术、大量在线译员、以及大规模的术语语料资产有机结合,通过创新的人机协作体系向各语言服务机构赋能,帮助各类组织和个人,以前所未有的综合效率和成本获得所需的语言服务,从而实现更快、更丰富的全球文化、贸易和信息交流。
那么,何为自然语言处理技术,何为人机协作体系,它们与AI时代有着怎样密不可分的关系?对此,笔者进行了深入了解与探索。
人工智能领域皇冠上的明珠
目前人工智能可大致分为四个阶段:运算智能、感知智能、认知智能,以及发展到未来会触达到创造智能。自然语言处理技术属于认知智能,包括语言理解、知识和推理,相当于人类的大脑思维。
“自然语言理解是人工智能领域皇冠上的明珠,自然语言处理技术(NLP)是人工智能赋能社会和赋能行业的硬核科技。”微软亚洲研究院原副院长、创新工场首席科学家、ACL前主席周明博士,作为世界顶级的AI科学家、自然语言处理领域代表性人物,在该会议分论坛表示,“自然语言处理技术的重要性比肩芯片、操作系统”。
“它是感知智能基础上的认知智能最重要的技术。它的进步会推动推理、决策、问题求解等技术,推动人工智能的理论和技术发展。”周明博士如是表示。
“如果我们能够推进自然语言处理,就可以再造一个微软。”无独有偶,美国微软公司联合创始人比尔·盖茨也对自然语言处理在人工智能时代,及未来社会发展中的重要性,给予中肯的定义。
看似一小步,实则跋山涉水,行程千万里。
自然语言处理技术,就是使机器人或计算机设备从标准格式化的问答,变得会学习、有知识、会思考、善交流。包括人们日常用到的搜索引擎、各种智能交互场景,都需要自然语言处理技术的支撑。
随着互联网的发展,用户接触的信息量是20年前的1000倍,从当初的电视、报纸,广播,到现在的PC端、移动端,对语言翻译效率提升的要求亦越来越多。
“当我们浏览国外网站、新闻资讯等内容时,如果没有语言翻译就等于看不懂的‘天书’,只是一页页字符,让人很迷茫。”传神语联董事长何恩培接受采访表示, 当前的人工翻译每年处理的字符量是1500亿,而机器翻译调用的字符量每天就在8000亿至10000亿之间,这表明信息处理空间达到2400倍。
随着信息量的增加,未来十年还会从目前经常用到的60对语言进化到150对。按照中国国标,翻译的准确率要求高达99.7%,而今天的机器翻译准确率难以超过70%。
人工翻译准确率高但效率低、成本高;而机器翻译效率高、成本低但准确率不高。如何将二者优势结合,创造出兼具高准确、高效率、低成本的翻译服务模式,正是自然语言处理领域最具价值的命题之一。
传神语联正在打造或肩负这样的角色与使命,不断探索。既不执着于传统的人工翻译,也没有执着于机器翻译。
探索多语智能,求解千年难题
事实上,翻译作为沟通世界的纽带与基础要素,早在东汉就有记载。而在形成规模和组织后的1600年,行业都未曾出现重大突破;法国科学家早在1933年开始畅想机器翻译,在近代50年才有突破性发展。
2015年是第一次真正意义上的突破,由畅想变为初步应用。而同样被认为人类难题的登月计划,1961年提出,仅11年就得以实现,可见自然语言处理的难度远高于人类很多难题。
随着全球化深入和数字化时代到来,翻译不再只是满足高端人士的工作需求,而是深入人们生活的各个场景与基础生活需求,如购物、知识获取、社交等多语需求场景,无时不在,无处不有;未来,新的应用场景像电网上电器一样,不断增长。
物流行业的智能分拣机器人、各种工业机器人等,都是人工智能相对成熟的“场景边界”效果。但在“开放世界”中的多语种网页浏览与知识获取、生活交互场景等,还有很长的路要走。自然语言的处理则是解决这些问题的关键。
以上场景的应用,就需要强大的自然语言处理。而当前,一般的机器翻译引擎都只能在简单的新闻稿等领域有比较好的表现,在复杂的专业领域则无法胜任。普适性的机器翻译在广泛使用上,也已遇到瓶颈。
在此大背景下,创建语联网的大胆想法涌入何恩培的脑海,并在心底生根发芽。
从2011年设想至2017年酝酿问世,传神语联用了6年时间。从调研、论证到技术探索与创新,一次次的自我革命,终于等来传神语联“人 机器,孪生译员”诞生的这一刻。
“孪生译员”模式,通过设置“场景边界”的方式,跟踪一个翻译组织乃至一名译员的翻译过程,在翻译结果、上下文等场景化数据中进行学习,建立多维度异构模型并持续迭代,让每个翻译组织或译员,都可以将自己的翻译经验、风格数字化克隆,形成具有专属特征的孪生翻译引擎。同时,将自己的翻译资产,变成24小时躺着赚钱的服务能力。
例如文本解析、智能聚类、智能分拆、智能匹配、智能纠错、智能合并等一系列技术,都将在这一过程中发挥作用,组织起几十、几百乃至几千名翻译人员同时处理一个翻译任务,并使得每个人都能够很好地完成自己的工作,从而远超人工翻译效率,并保证翻译结果。
“孪生译员”在提高翻译效率和综合质量基础上,也可作为机器翻译引擎对外输出产能。
人机共译,是翻译最终出路
在语联网诞生之前,中国甚至全球语言服务行业的各领域翻译公司,各自为阵,小而散,成为一个个语言信息的孤岛,互不往来,更没统一标准。语联网及“孪生译员”通过大数据的科技创新与不断变革,将中国、甚至世界各地的翻译公司和翻译人员连接一起,形成一个规模庞大的智能翻译矩阵。
基于以上方式,传神语联建立了一个“数据-训练-应用-数据”的闭环,让机器在每一次工作中变得越来越聪明,给人类提供越来越多的帮助。每一次任务完成过程中,积累的所有数据和信息都将成为机器翻译引擎学习的新材料,这就是传神的“Twinslator”孪生译员。
“人机共译才是出路。”传神创始人何恩培说,语言特殊的人文属性,决定了未来翻译绝不是单纯机器的事情。
新技术时代,翻译的突破,更需要人的参与大协同。
“机器围棋比赛有固定棋谱规则可循,语言背后是文化,是生命进化的呈现,无法简单推论与佐证。”传神语联董事长何恩培曾公开表示,当下的语言服务是机器依赖于人类大脑的思考与加工,人类判断翻译标准,使机器翻译与场景结合,而不是机械性的转换。
“这是一个不断探索的过程。”何恩培表示,到现在为止,自然语言处理技术,连看起来最简单的文章断句都无法精准实现。
何恩培说,人类与人工智能的最佳相处方式,或许就是“译员与孪生译员”的关系。译员与孪生译员的关系,就像工匠和徒弟之间的关系,工匠指导徒弟,徒弟经过某种场景的训练,创造出孪生译员的产能,更好的赋能AI,与时代共进步。
传神语联做多语智能的探索者。人赋慧于机器,而机器赋能于人。就像机器赋予人类超越自身极限的“力量”一样,人也能通过赋慧于机器,让机器越来越智慧与“通灵”。