Nvidia在GTC大会上,推出使用云计算GPU加持的人工智能视频会议组件Maxine,让用户能够以H.264流媒体图片标准十分之一的带宽,高性能地传输图片,由于Maxine采用云计算原生架构,开发者还能够利用Kubernetes的扩展性缩放服务规模。另外,Maxine集成先进的视频、音频和对话AI功能,提供视线校正(Gaze Correction)、超高分辨率、噪音消除和脸部打光等功能。
Nvidia使用人工智能新技术,大幅度降低传输视频所需要的带宽,Maxine并不会真的流媒体整个画面的像素,而是通过人工智能技术,分析每个会议参与者的脸部关键点,并在另一端进行动画处理,因此需要传输的资料,会比起完整的画面少上许多。
Nvidia使用在GPU上执行的人工智能视频压缩技术,将视频段宽消耗,减少到H.264流媒体视频压缩标准的十分之一,不只减少服务供应商的成本,也让最终用户可以用更少的传输资料,获得顺畅的视频会议体验。
Maxine还应用了生成对抗网络技术,让视频会议服务供应商,提供各种功能改善视频会议体验,像是自动校正脸部,能够让脸看起来正对所有会议参与者,也能校正会议参与者的视线,模拟眼神接触。这些功能可以让会议参与者,即便不看着摄影机,也能维持专心与人对话的状态。
而视频会议服务供应商,也能添加替身功能,让会议参与者选择以动画人物代替自身图片,即时表现情绪以及声音。另外,Maxine还能提供人像关注功能,即便说话者随意移动,画面也会自动跟随说话者。
Maxine集成了各种Nvidia人工智能SDK与API,像是可提供对话式人工智能功能的SDK Jarvis,开发人员可以借由集成虚拟助理,在视频会议服务加入语音识别、语音理解和语音生成功能,让虚拟助理代为记录笔记,帮忙配置项目,或是以人声回答问题,也能够提供翻译、字幕和语音转文本服务,帮助参与者理解会议内容。
除了使用Jarvis,Maxine平台还利用DeepStream SDK,强化音频和视频功能,并且以TensorRT SDK,执行高性能深度学习推理。官方提到,Maxine平台的人工智能运算,因为都在云计算处理,最终用户不需要使用专用硬件,就能获得这些人工智能功能。
Maxine的云计算原生基础架构设计,是以GPU执行Kubernetes容器集群,提供各式人工智能微服务,因此开发者能够扩展服务规模,应对突如其来的大量请求,而且Maxine模块化的设计,开发人员可以选择需要的人工智能功能,集成到视频会议解决方案中。