据外媒报道,在视频通话来说,系统是可以通过切换的方式以突出谁在说话,然而不幸的是,对于像手语这样的无声语言其则无法触发这些算法,但现在谷歌的一项研究可能会改变这一点。这是是一个实时手语检测引擎,它可以分辨出某人何时在做手语以及何时结束。
谷歌研究人员一篇在ECCV上发表的新论文描述了如何高效、几乎没有延迟地完成这项工作。如果手语检测成功了但却导致视频延迟或降级那就无法达到目的,所以他们的目标是确保模型既轻便又可靠。
据了解,该系统首先会通过一个名为PoseNet的模型来运行视频,该模型会估计每一帧中身体和四肢的位置。这个简化的视觉信息会被发送给一个模型,而该模型能根据使用German Sign Language(德国手语)的视频中的姿势数据进行训练,然后它将现场图像跟其认为的手语的样子进行比较。
这个简单的过程已经在预测一个人是否在做手语方面实现了80%的准确率,另外再加上一些额外优化的话,准确率则达到了91.5%。
为了不向现有电话添加新的“某人正在做手语”的信号,该系统采用了一个巧妙的小技巧。其使用一个虚拟音源来产生20kHz的音调,这虽然超出了人类的听觉范围但却能被认出。
【来源:cnBeta.COM】