一、前言:60秒长语音有希望消灭了
从2010年,讯飞推出业界首个中文语音输入法,将语音输入带到大众面前直到今天,语音输入早就不再是当初功能机时代“语音王”的土味儿模样。如今,语音输入已经逐渐超过手写,成为在手机端一种不可或缺的日常输入方式。
但是,语音输入痛点也有很多,比如口音、方言、多人说话、噪声、吞音、远场语音等,具体到日常场景当中表现为:中英文混杂语音输入识别不佳、在安静场所难以使用、噪声环境的输入效果容易受到影响、同音字词的识别效果不佳。
这样一来,随着输入量的增加,很多语音输入工具的表现常常令人抓狂,促使越来越多的人在QQ/微信你来我往一段又一段令人崩溃的60秒长语音。
日前,讯飞输入法的Android版和iOS版均更新了AI语音引擎,进一步优化通用语音识别效果,同时还基于说话人和使用场景,重点提升语音候选词、噪声环境、轻声说话及专有名词的识别准确率,使讯飞输入法通用语音识别准确率在98%的基础上进一步提升。
先来看看讯飞输入法更新日志:
Android V9.1.9671
1、升级A.I.语音引擎,提升语音候选词、噪声环境、轻声说话及专有名词的识别效果
2、优化离线语音使用体验,无网、弱网环境语音输入依然出色
3、无障碍模式适配新增手势操作,双指滑动切换候选并支持阅读
4、拓展表情发送功能,适配QQ国际版和QQ极速版
iOS V9.1.2930
1、升级A.I.语音引擎,提升语音候选词、噪声环境、轻声说话及专有名词的识别效果;
2、优化离线语音使用体验,无网、弱网环境语音输入依然出色
3、减少键盘闪退现象,提升输入稳定性
看更新日志说得这么美好,实际效果如何呢?正好手里的华为P40 Pro所载讯飞输入法升级到了最新版,笔者也已经使用了一段时间,接下来就是我们的评测体验。
二、可能是市面上免切换语音输入效果最好的输入法
此前,讯飞输入法大数据显示,约80%的方言母语者同时使用普通话,在私密场合或者面对方言交流对象时,习惯使用方言,表达更亲切;在正式的社交或工作场合,使用普通话避免沟通障碍。
这便催生了免切换模式的出现。其实早在9.0版本的时候,讯飞输入法就内置了“普通话粤语免切换”模式,实现普通话、粤语语音输入免切换,在普通话保持高精准识别的同时,粤语识别率高达95%,并通过语音输入来高效打出粤语正字。
Android V9.1.9671和iOS V9.1.2930最新版本的讯飞输入法保留并进一步优化了“不用切换”的语音输入,在默认中文“普通话(随心说)”识别模式下,已经实现了英文语音、中英夹杂、英文+中文以及带口音的普通话等不同场景的免切换识别支持。
——全英文语音输入
在默认中文“普通话(随心说)”识别模式下,我们直接开飙英文。
我们使用TED演讲音频,录入一段相当长的英文语料,被讯飞输入法准确识别并加以合适的排版、断句。
——中英夹杂语音输入
一般来说,输入法的语音识别只能同时识别一种语言。如果在普通话当中突然插入一个“hello、byebye”之外的并不太常见的英文单词,很多输入法可能就反应不过来,直接识别失败了。也就是难以处理中英混输,尽管或许能识别出了夹杂在中文里的英语词汇,但却会在整句语义判断上产生干扰,最后导致句子不通顺。
不同语言的混输绝对算是语音输入技术的一大难点。
然而语言混用的现象我们又很难绕开,比如“DNA序列测定”、“开启MTP”、“AMOLED材质的屏幕和IPS的材质屏幕哪个更好”,如果用中文强行表达,变成了“脱氧核糖核酸序列测定”、“开启多媒体文件传输协议”、“有源矩阵有机发光二极体显示屏和平面转换液晶面板显示屏幕哪个更好”,会让人感觉十分别扭和陌生。
通常情况下,用键盘输入中英文混合的内容,需要选词甚至切换语言,而最新版的讯飞输入法支持中英文语音混合输入,而且免切换的,无需多余的设置,在默认中文“普通话(随心说)”识别模式下就可以体验。
比如直接说出“在一个阳光普照的moment,我欣喜若狂地拿到了大公司offer”,讯飞输入法精确识别出了中英文词汇,并理顺句子,所转换出来的文字非常通畅。
在体验的过程当中,其混合输入的速度和准确率也都非常高,几乎和单一普通话的识别效果没有明显差距,解决了语言混合输入效率低下的一大痛点。
——完整中文+完整英文语音输入
在默认中文“普通话(随心说)”识别模式下,我们尝试使用完整中文+完整英文音频,看看讯飞输入法的识别效果如何。
——带口音普通话
受限于时代以及教育、地域的原因,尤其像爸妈那一代并不擅长用手机打字,普通话语音输入又常常带着一些浓重的口音,面临识别不准确的问题,怎样才能满足他们的语音输入需求呢?
针对这个痛点,最近新版讯飞输入法支持无切换的带口音普通话语音识,帮助这些用户们更好的使用语音输入功能与其他人聊天。
还记不记得去年在网络上一直刷屏的“雨女无瓜”,初看完全不懂在说什么,还在琢磨“雨女”和“无瓜”是什么关系?原来这四个字是出自《巴啦啦小魔仙》游乐王子经常挂在嘴边的塑料普通话,这种带口音、方言的话确实可爱,但如果真的语音输入“小盆友要有小盆友的亚子,要你寡,雨女无瓜”,输入法能反应过来吗?
这里我们实测了一下,在默认中文“普通话(随心说)”识别模式下,我们使用上面那段“塑料普通话”,讯飞输入法准确打出“小朋友要有小朋友的样子,要你管,与你无关”,让对方看得明明白白。
南方版的“塑料普通话”试完了,我们再来测测北方的,依然是在默认中文“普通话(随心说)”识别模式下,作为地道山东人的笔者说出一句“你是个好银,肿么了”,讯飞输入法准确识别出“你是个好人,怎么了”。
iOS系统输入法
讯飞输入法
如此好用的语音输入功能在手,确实不用为自己的口音、方言担忧了。
三、语音候选词识别效果体验
语音输入提高了我们手机端的打字效率,但实际使用中会发现,当语速快到“飞起”的时候,发音的连读现象可能导致识别结果不准,特别是嘟嘟囔囔的发音很容易出现偏差,以及前后鼻音不清晰,同音不同义。
面对这种“硬伤”,新版讯飞输入法提供“语音候选词”功能智能判断输入结果是否存在问题,从而快速修改。只要在讯飞输入法语音设置中勾选开启“语音候选词”,对已输入文字智能判断并给予正确候选建议。
这是讯飞输入法首创的语音功能,即语音输入中实现智能纠错,提供中英字词候选,不仅是语音识别也是对语义的理解。主要解决用户发音不标准、同音异字的问题,能够节省用户修改和重新输入的时间。
开启该功能后,讯飞输入法会对输入结果进行智能判断,可能有误的地方标蓝进行定位提示;当点击标蓝处,候选栏就会出现可修正的结果(同音、近音或英文)。有了语音候选词功能,可快速定位可能输入有误的地方,用户不用删除整句重新输入。
新版讯飞输入法重点升级了“语音候选词”的能力,支持同时上屏中文和英文的候选结果,方便纠错或中英文的替换操作。
举个例子,原始识别结果为“英译”,而实际可能说的是中文“音译”,由此将可能的候选结果都展示出来,点击标蓝的“英译”就可以方便用户选择识别结果。还有很多类似的情况不胜枚举:
四、超90分贝噪声环境+36分贝耳语实测
——耳语输入识别体验
通过前面的测试,我们看到无论是对普通话、带口音普通话还是语音候选词识别效果的优化,都可以让让使用语音输入的频率越来越高,说话秒变文字,缩短交流的时间成本。
可是,生活中总有一些地方比如安静的办公场所,比如说会议室或人多的地铁、电影院等公共场合,这时候大声说话来语音输入会显得十分尴尬,那么有没有化解之法?
新版本的讯飞语音输入法提升了耳语输入的识别效果。顾名思义,耳语输入就是像用“耳语”般使用低分贝音量进行语音输入,即便声音很小也不会影响手机的语音识别准确率。
这项功能决了用户在很多场合环境下使用语音输入不便的痛点,无论安静的办公场所、会议室还是人多的地铁、电影院等公共场合都能继续语音输入。
值得一提的是,新版语音输入自适应大声和耳语,在默认中文“普通话(随心说)”识别模式下,点击麦克风对着手机耳语说话,文字立即呈现在屏幕上,如此也不会打扰到周围人,还能继续畅快地使用语音输入。如果你常常因大声说话而尴尬,不妨来试一试讯飞输入法的耳语输入。
——噪声环境的语音输入识别效果
相信你此前一定遇到过这样的情况:街头嘈杂环境使用语音输入,偶尔会出现“反应迟钝”的现象。这是因为很多语音技术严重受限于应用场景,环境噪音的干扰导致了语音识别效果。在不改变录音设备终端的情况下,只有在软件层面进行优化才能有所改善。
此前我们在做科技讯飞硬件设备评测时曾领教过其降噪算法的能力
而科大讯飞很早之前就已经将噪音抗变换性工作做到了AI语音引擎之内。具体来说,在进行语音识别时,讯飞输入法会将待识别的语音处理成与模型训练时相一致的语音特征:实时语音录音先通过环境嗅探区分出噪音环境的分类(车内外噪音、会场音响噪音、地铁噪音等)。
分领域噪音补偿可以基于环境嗅探的知识分辨出各种不同领域,自动采用不同的算法去除带噪语音中的噪音,从而达到提高信噪比的效果;而混合训练技术则可以弥补去噪后语音所产生的同真实安静语音的语谱差异。
以此实现噪音环境的识别性能大幅提升,综合形成抗噪解决方案。
五、语音互译与方言输入:9门外语、23种方言可选
——外语与中文互译
对于很多英文不太好人而言,和不会中文的外国人交流是一件比较困难的事情:先用中文拟好常用语,翻查外文字典编写成句;或者将中文复制到翻译APP中翻译,也有部分用户在网页上翻译,这再来观察翻译结果是不是真的贴切准确,比较浪费时间。
基于人工智能实现的机器翻译一直都是科大讯飞所倾注的领域之一,新版讯飞输入法的互译功能也有着更新,现在已经实现了9种语言与中文的即时翻译,包括英、日、韩、俄、泰、越、西、法、德,是目前市面上互译语种最多的输入法。
2019年世界人工智能大会(WAIC)上,科大讯飞“新一代语音翻译关键技术及系统”荣获2019年卓越人工智能引领奖(SAIL)应用奖,在国际口语机器翻译大赛IWSL2018端到端模型赛道夺得第一名。科大讯飞还是北京2022年冬奥会和残奥会官方自动语音转换与翻译独家供应商。
以Android版快捷翻译韩语的操作为例。任意输入界面打开讯飞输入法,点击讯飞键在菜单面板找到“快捷翻译”,点击开启翻译工具栏,通过最左侧按钮查看选择翻译语种。在中韩状态下,输入中文上屏韩语;在韩中状态下,输入韩语上屏中文,免去来回切换翻译APP的繁琐操作,输入文字同时翻译出结果。
——方言输入识别
俗话说,“十里不同音”,中国地大物博,南北差异很大,不同的方言极具特色。
面对方言常用者与非方言用户沟通的强烈需求,新版讯飞输入法支持23种方言语音输入,也就是方言语音输入可以翻译成普通话文字,借此解决两个方言不同的国人之间的沟通障碍。
六、离线语音输入体验:没网该咋用?
在没有网络、流量不足、网络不佳等情况下,手机本地编解码的离线语音输入便派上用场。为提升离线语音输入的实用性,早在上一个版本,也就是讯飞输入法9.0时,其离线语音识别率达96%,接近在线语音输入的效果。
在体验过程当中我们发现,讯飞输入法安离线语音输入不仅在无网络或网络不佳时正常使用语音输入,提升准确率的同时实现边说话边上屏的效果。开启离线语音以后,在“情景模式”中选择“网络不佳时自动开启”,尤为适合处于地铁、电梯、穿越隧道或者人流密集等网络不稳定的场景。
七、总结:能动口再不动手 脱离键盘的自动档体验
最后我们来放一个小彩蛋——彻底消灭键盘,也可以实现语音转文字的调整修改,“莫得键盘”是语音/文字输入的最理想状态。在讯飞输入法的键盘模式菜单里选择“莫得键盘”,键盘形态完全消了,取而代之的是一个机器人头像,它叫“飞飞助手”。
需要进行语音输入时,只要轻点一下飞飞助手,用户可以随时通过语音口令编辑文字和标点、搜索表情和皮肤、打开剪贴板、切换输入法模式。
举例来说,当需要编辑文字时,你可以直接说把“上楼”改成“下楼”;修改标点可以说把“逗号”改成“问号”;清空内容可以说“删除全部”;搜索表情可以说“搜索表情”;切换输入模式可以说“打开繁体输入”等等;甚至在完成文字输入之后,还可以动动嘴说“发送”即可发出信息。
在体验过Android V9.1.9671最新版的讯飞输入法之后,能够感受到其带来的便利,无论是真正的免切换语音输入、对语音候选词、耳语输入、噪声环境输入、语音翻译、方言语音输入等效果的提升,还是离线语音输入体验的优化,都大大降低了用户“动手”的频率。
再结合“飞飞助手”这样彻底消灭键盘的功能玩法,可以说讯飞输入法所提供的语音输入功能几乎快要让人摆脱键盘的束缚,实现了动动嘴就能完成文字输入、编辑、发送的玩法。
笔者在体验并习惯之后,现在已经懒得在手机上再用手写输入,如同开惯了自动档位的车,便很难再回手动挡。
想要体验Android V9.1.9671和iOS V9.1.2930最新版本的讯飞输入法,现在就可以去应用商店当中速度更新了。