贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI
Deepfake模仿生成人脸效果出众,真假难辨。
由此引发的争议和担忧,使得各大平台先后封杀了Deepfake。
但最近,外媒又报道了不法之徒用音频版Deepfake开始了新的诈骗活动,“一血”就拿下24.3万美元(约182万人民币)。
棘手的是,目前安全专家毫无破解之法。
发生了什么?
今年6月,一家美国的科技公司员工收到了“自家”CEO发来的语音邮件,要求他“马上协助完成一笔紧急的生意”。
但是,这次CEO的声音听起来却有一点怪:
音频Deepfake来自量子位00:0000:05
是boss的声音没错,但是感觉机械了点,尖锐了点,而且这种语音邮件的联系方式也很反常。
这位员工还是比较机敏,把事情上报给了公司法务,终于证实这是一起合成人类语音的诈骗事件。
随后,这家公司把相关资料提供给了美国安全咨询公司Nisos来调查,但结果却无法令人满意。
专家挠头,表示无解
Nisos使用Spectrum3d音频频谱图工具分析了Deepfake语音邮件的音频记录。
技术人员注意到了音频频谱图中的峰值反复出现。Nisos怀疑是Deepfake创作者用多个轨道的声音合成后播放,以此来伪造某一目标人物的音色。
此外,音频频谱断断续续,与正常的人类录音不一致。以1.2倍速度播放时,这段音频听起来更像是文本转语音的软件合成结果。
最重要的一点,研究人员没有在这段音频中检测到任何背景噪音。
比较Deepfake音频和正常人类录音,可以发现真实情况下,频谱的音高和音调更加平滑,而且背景中总能检测到噪音。
但是,Nisos的分析也只能到此为止了,因为缺乏更多的数据样本,研究人员无法知晓或推测生成音频的算法模型细节。
Nisos找到了一个疑似诈骗犯使用的电话号码,但是没有任何注册身份信息,出于法律原因,Nisos没有回拨号码去联系。
所以,目前来看,还没有识别和追踪诈骗者的技术手段。
但研究人员总结了Deepfake音频的特点。Deepfake音频创作者为了创建更为逼真的音频,通常需要满足如下几个条件:
1、截获目标人物几乎没有背景噪音的高质量音频;
2、在对方不需要或无法回电、交谈的情况下发送音频;
3、以留言的形式避免与音频接收者实时交谈。
以前发生过吗?
2019年9月,英国出现了第一起Deepfake音频诈骗事件。
犯罪分子使用音频版Deepfake对英国一家能源公司高管的声音进行模仿。
该公司的执行董事在接听诈骗电话后将超过24.3万美元汇入了一个匈牙利账户。
第一笔进账后,骗子接着打了第二个要求转账的电话,这才引起了怀疑。
目前,该罪犯仍未被抓获,但据外媒报道,这起案件中的Deepfake音频效果及其逼真,不仅模仿了音色,对于标点、语调的把握也十分到位,甚至还学会了公司boss的德国口音。
今年2月,互联网安全公司Symantec报告了三起Deepfake音频诈骗案例,犯罪分子通过电话会议、YouTube、社交媒体以及TED演讲获得了公司高管的音频,然后用Deepfake算法复制高管的声音,致电财务部门的高级成员要求紧急汇款。
骗子一般利用VoIP网络电话账号联系攻击对象,绕过通话,直接使用语音邮件功能发送合成音频。
Nisos认为,现在的小规模发送Deepfake音频,可能只是犯罪分子在“试水”,随着Deepfakes的创建或购买变得越来越容易,音频、视频的合成处理质量不断提高,此类电子诈骗将更为普遍。
普通人该怎么办
尽管Nisos的研究人员说,目前这种Deepfake算法还没有外包给单个个体或大规模生产的可能。
但Nisos通过“特殊渠道”联系到了熟悉Deepfake项目的开发者,他们说不确定这种情况将来会不会成为可能。
音频Deepfake的核心问题不仅要捕捉人的音色,还要捕捉具体的言谈举止习惯。
然而,类似Yandex反向图像搜索工具的语音版,可以用来收集大量样本,然后建立和训练Deepfake模型,帮助将源语音转换为目标语音。
那么当下普通人如何预防类似的诈骗呢?
Nisos认为,尽管Deepfake真假难辨,但能力毕竟有限。
对于可疑的留言或语音邮件,可以使用已知号码回拨该发送者进行通话;
公司员工也可以针对公司内部信息或某些机器无法轻易回答的问题在通话过程中进行挑战性提问,以查明通话对象的身份。
你曾经遇到过AI生成的语音诈骗吗?