谷歌新系统：能在视频电话中检测到“讲话者”_腾讯新闻

天乐

2020-10-04 02:03:59 第一视角

据外媒报道，在视频通话来说，系统是可以通过切换的方式以突出谁在说话，然而不幸的是，对于像手语这样的无声语言其则无法触发这些算法，但现在谷歌的一项研究可能会改变这一点。这是是一个实时手语检测引擎，它可以分辨出某人何时在做手语以及何时结束。

谷歌研究人员一篇在ECCV上发表的新论文描述了如何高效、几乎没有延迟地完成这项工作。如果手语检测成功了但却导致视频延迟或降级那就无法达到目的，所以他们的目标是确保模型既轻便又可靠。

据了解，该系统首先会通过一个名为PoseNet的模型来运行视频，该模型会估计每一帧中身体和四肢的位置。这个简化的视觉信息会被发送给一个模型，而该模型能根据使用German Sign Language（德国手语）的视频中的姿势数据进行训练，然后它将现场图像跟其认为的手语的样子进行比较。

这个简单的过程已经在预测一个人是否在做手语方面实现了80%的准确率，另外再加上一些额外优化的话，准确率则达到了91.5%。

为了不向现有电话添加新的“某人正在做手语”的信号，该系统采用了一个巧妙的小技巧。其使用一个虚拟音源来产生20kHz的音调，这虽然超出了人类的听觉范围但却能被认出。

【来源：cnBeta.COM】

提示：支持键盘“← →”键翻页

人工智能