高准确率以后，进阶中的语音输入体验？_腾讯新闻

编辑导语：如今随着科技的不断发展，更多技术出现，比如我们平常经常会用到的语音输入，由于需求变多，很多用户需要使用语音输入的功能；语音输入里也需要高准确率，提高用户体验；本文作者分享里关于语音输入功能的准确性，我们一起来看一下。

2020年，距离第三方输入法陆续推出语音输入功能，已经接近10年；疫情期间，多场景下的语音输入需求激增。

据估算，2020年第三方输入法用户规模接近7亿，接近9成使用拼音输入，而语音输入的用户接近4成（数据来源：MobTech，2020中国第三方输入法行业洞察报告）。

“准确”是厂商对于语音输入的预期，也是持续重点优化的方向；在这10年间，各大输入法厂商公布的语音输入准确率越来越高，那么在目前这种高准确率的输入体验下，用户对于语音输入还有哪些更高的要求，这将是厂商未来必须面对和思考的问题。

本文中，我们就聚焦语音输入用户，一起来深入探讨用户为什么使用语音输入，用户在什么场景中使用语音输入，以及他/她心目中的语音输入应该是什么样子。

01 研究目的和方法

1. 研究目的

了解语音输入用户的真实使用场景和使用动机。

探究语音输入用户对语音输入的评价标准。

2. 用户

我们招募了15名不同行业和职业的用户（分别是金融/保险销售、教师、大学生，和互联网白领），均为语音输入的高频用户；体现在行为上，他们每天都会多次使用到语音输入，且从态度上，语音输入是他们需要输入时优先考虑的输入方式。

3. 研究方法

我们采用了日志+访谈的方式来了解用户对语音输入的认知和态度，以及真实的使用行为。

通过对语音输入进行现场评测来了解用户对语音输入的评价标准。

具体如下所示：

1）日志：用户挑选一个典型的工作日和休息日进行语音输入的日志记录，记录内容包括每次语音输入的使用环境，使用场景，使用原因和使用体验；日志使我们能够得到用户真实的使用场景和使用体验。

2）访谈：结合用户日志中记录的语音输入使用情况，通过访谈了解用户对语音输入的知晓和使用历史，使用场景和动机，使用行为和体验。

3）现场评测：用户在现场根据自己的使用场景和习惯进行语音输入，并通过对比多个手机输入法的语音输入结果的优劣；研究员对用户的主观评价维度进行提炼和分析。

02 语音输入的使用

在手机中进行输入，是最基础的工具型需求，拼音输入和语音输入都是满足需求的方式。

图：拼音全键盘输入（左）和语音输入（右）

有趣的是，两者在可用性的不同维度表现非常不同。在输入场景下，有效性指的是用户完成输入的正确和完整程度。

从有效性来看，目前语音输入的结果常常需要修改，因此不如键盘输入；效率指的是用户完成输入所需要付出的资源，如时间和努力程度；在这个维度上，语音输入占优势，输入速度更快，且用户只需要动动嘴，更不费力。

不同的用户和不同的使用场景都会影响两个维度的相对重要性和两种输入方式在不同维度的差异程度，从而解释了不同输入方式的选择。

图：可用性的三个维度：有效性（用户完成特定目标的正确和完整程度），效率（用户完成特定目标的效率，与消耗的资源，如时间、努力程度，成反比），满意度（用户使用产品时感受到的主观满意程度）。

1. 用户特征

“懒”不仅是驱动技术发展的核心动力，也是技术尝鲜者的共同特质。

通过日志我们发现，用户选择语音输入，并不局限于走路，单手等不方便打字的情景中，当需要输入时，语音输入是优先选择的输入方式，除非是不方便说话的情景中。

在访谈中，他们会说：“可以动动嘴皮子就完成的事情，干嘛还要动手呢？”这样的用户，对可用性中的效率维度更为敏感。

他们乐于去尝试各种新的方式，只要它能够提高效率；对他们来说，改变输入习惯的门槛更低。

2. 场景特征

当使用场景对结果的准确性要求不高，或对于效率要求高时，语音输入比键盘输入更合适。

使用语音输入的一大场景是日常的聊天，在此场景下，用户对于准确性的要求没那么高，语音输入的准确率也达到了较高的水平，因此键盘输入在有效性维度的相对优势不明显。

用户提到在日常聊天中，需要修改的比较少，甚至有时有错误也不会修改，直接发送。

另一大语音输入的场景是工作相关的输入量巨大且及时性要求高的场景。

工作相关的场景中，往往对准确率要求很高，语音输入相对于键盘输入有效性差距大；但由于输入量巨大，且及时性要求可能很高，此时语音输入效率高的优势被放大，用户还是会选择语音输入，这体现了有效性对于效率的妥协。

图：工作相关的使用场景（不同颜色代表不同职业人群）

03 用户对语音输入结果的主观评价标准

1. 研究与分析方法

研究员给出不同的场景，用户结合自己的习惯，进行语音输入（三个输入法同时进行语音识别），用户根据结果对比优劣，并说明原因。

研究员对用户的主观评价维度进行提炼与分析：

2. 研究发现

从用户主观表述和对语音输入结果的评价来看，用户对于语音输入的预期是“准确”，但是它与客观的“准确”不同。

当用户使用语音输入时，尽管输入方式是语音，但最终用户希望信息呈现的方式是文字，而用户评判结果的标准也是从“文本表达”的角度，即语音输入的结果理想态应和键盘输入是一致的。

而从语音到文字的过程，可能造成结果偏差的原因有很多；例如从技术层面的识别错误（语音识别结果和人耳识别结果存在差异），也有由于用户采用语音这种方式造成的天然区别（例如用户口语中不自觉的口头禅和语气词），还有具体的表达形式上用户可能存在偏好和习惯（例如文字的数字和阿拉伯数字的差异）。

用户的主观评价维度具有一定的层级特征，最底层的是基础语音的识别，主要是句子中“关键结构”的准确识别，第二层是语义的精准识别，主要包括语气和情感的表达，第三层是表达形式上更易阅读，关键信息突出，第四层也是最高层是个性化的需求，主要是个人的习惯用法。

总的来说，从低到高，用户的修改意愿也慢慢下降。

1）基础语义识别准确：基础语义识别主要包括句子中“关键结构”的识别错误，这种错误往往直接影响语义的表达；其中比较常见的错误是人地名的识别，用户对于具有一定知名度的地名有较高的准确识别预期。

2）精确语义准确识别：精准语义识别主要涉及结果的规范性、语气、情感表达，对语义有不同程度的影响。

语气传达主要通过一些语气助词和语气标点，准确的传达对语音输入来说尤其困难；首先，个人的语气相对主观，语气词和语气标点的使用也有一定的群体特征（尤其是标点对于语气的表达，例如多个句号表无语）；如“唉”和“诶”，虽然读音相似（ai和ei），但前者往往表叹息或惋惜，而后者表示招呼或者诧异。

3）表达形式易阅读：当语义表达没有问题后，用户也会在意表达的形式是否利于阅读；一种错误类型就是缺少断句，造成信息接收方难以阅读和理解句子的意思。

值得注意的是，尽管用户希望断句，但他在输入时，并不会在需要断句处进行有意的停顿；因此，判断是否需要断句，并不能完全根据用户输入时的节奏，而是需要根据语义进行判断。

4）个性化表达：标准化的表达并不能满足用户个性化的需求。用户在日常使用时或多或少存在一些个人特色的表达习惯与偏好；例如语气词的识别，“好的呀”可能属于标准的表达方式，但用户可能习惯使用“好的吖”；这些个性化的表达习惯，在社交中往往成为个人的表达风格。

04 小结

语音输入的结果最终理想态和键盘输入的结果是一致的，呈现的都是“我”的输入习惯。

准确的语义表达是或许只是语音输入最基础的目标，进阶中的语音输入需要学会的不仅仅是标准的表达，更是个性化的表达。

作者：技术中台UER小分队

本文由 @Du Design 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 unsplash，基于CC0协议

人工智能

为你推荐

科沃斯引领行业智能进化京东超品日掀家用机器人消费热潮

Unity助力创作者制作百万级播放量神作_腾讯新闻

神州泰岳创新新技术，实现产业全覆盖_腾讯新闻

新一代人工智能计算平台发布：当算力成为一种新生意_腾讯

百度输入法不仅让你打字如飞，还让你风趣浪漫会聊天_腾讯

张院士，开讲了！_腾讯新闻

没有车企愿意只作华为的“肉体”_腾讯新闻

5 张图带你了解 Pulsar 的存储引擎 BookKeeper_腾讯新闻

世界首座金属3D打印桥梁成功在阿姆斯特丹安装_腾讯新闻

4层楼的距离拾音：腾讯会议发布天籁语音模组方案_腾讯新闻

热门文章

猜你喜欢