当前位置: 首页 > 科技 > 人工智能 > 智能音箱是如何听懂人话的,它会变得更聪明吗_腾讯新闻

智能音箱是如何听懂人话的,它会变得更聪明吗_腾讯新闻

天乐
2020-07-15 07:11:13 第一视角

当你问智能音箱问题时,有时候你会得到的是一个愚蠢的答案,有时候甚至不知道它是如何理解你意思的,使用过智能音箱或其他语音助手的朋友对这一场景一定并不陌生,这个时候,你可能会问,为什么智能音箱能听懂人话?它能变得聪明吗?

想解答这个问题,我们需要先了解智能音箱,听懂语音的工作原理。语音,文本,图片,视频,这些信息对于机器来说,属于非结构化数据,无法直接理解,机器能够理解并做出反馈的是结构化数据,简单理解二者之间的区别与关系,非结构化数据相当于写了一段文本的word文档,而结构化数据则是将这段文本进行总结归纳的excel文档,当我们向智能音箱提问时,智能音箱会先将语音转化为文字,然后将文字形成结构化数据理解并反馈,最后再将文本转换成语音输出答案。

三大流程对应的三种技术,其中ASR和TTS技术相对成熟,像ASR已经广泛用在语音转文字,语音输入法,智能翻译笔等应用上,据中科院2019年的测试,国内四家主流智能音箱品牌ASR识别率均在94%以上,智能音箱听不懂我们的话,问题主要出在NLP环节上,AI在拿到文本后,需要进行语料清洗,分词,词性标注,实体命名识别,去除停用词等一系列操作,才能将文本正确转化为结构化数据,并做出反应。

智能音箱,今天已经可以比较智能的处理明确的指令问题,比如打开电视,今天天气怎么样,设定闹钟等,但在开放性语境下,智能音箱错误频出,这是因为口语文本经常会出现歧义,机器难以理解,特别是在处理同音字繁多,语法复杂的中文时,歧义的现象尤其多见,比如,帮我上一个半小时之后的闹钟,音箱基本没法识别是半小时还是一个半小时,再比如,帮我预订一家餐厅,不要日本菜,AI大概率无法理解,不要在句子中的含义,面对复杂的自然语言,AI想要辨别、理解、消除歧义,必须要分析海量语料,也就是对人类语言的实例进行学习。

供AI学习的语料,主要有三种来源,一是AI算法企业根据需求自己构造的语料库,比如针对特定功能,需要构造人名库,地名库,歌手名库等,第二是从互联网上大量抽取的文本,最常见的是从社交网络中抽取,以便机器理解最新的口语表达方式,最后则是用户在与产品交互的过程中产生的数据,像我们与智能音箱对话的部分内容会被上传到厂商的语料库供AI学习。

那如果长时间和智能音箱对话,是不是能让智能音箱更懂我呢?答案是很难,一般来说,所有的训练学习过程,都是在AI算法商一端完成的,算法商会根据所有用户的数据,对AI进行训练更新,而非针对某个特定用户,所以要想让智能音箱听懂每个人习惯性的语病,倒装,口头禅等等,目前的最好办法,是自己手动录入,指定它应该做出什么反应。

虽然智能音箱技术还没有完全成熟,但在互联网巨头眼中,它却是必须攻下来的阵地,2019年的中国智能音箱市场经历了爆发式增长,总出货量4589万台,同比增长109.7%,其中,阿里的天猫精灵,百度的小度音箱,小米的小爱音箱三家,占据了九成以上的市场份额,智能音箱在出口量上涨的同时,却没给巨头们带来利润,2019年,百度副总裁锦坤向媒体表示,百度是通过补贴维持了小度音箱的低价,而另据业内人士估算,每卖一台小米音箱,小米只赚一块钱,巨头们的底层逻辑是智能音箱,很有可能成为未来家庭的控制中心,所以要用现在的低价策略换取未来物联网时代的入场券。

这样的策略确实能带来销量的增加,但切实解决用户的痛点,才能保证产品使用率,为了提高智能音箱在用户生活中的不可替代性,厂商都在费尽心思给智能音箱添加新的功能,因为谁也不想看到,当物联网时代真正到来的时候,用户家中的智能音箱已经落满了厚厚的灰尘。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部