当洛天依们遇上AI变声神器，虚拟偶像终于能说人话了_腾讯

关注并标星「标贝科技」

━━━━━━

在李佳琦和薇娅早已成为直播带货的代名词时，我们无法想象，虚拟偶像洛天依在淘宝直播的坑位费竟然高达90万元，是薇娅的五倍之多。

即便你不是虚拟偶像的受众，你也无法否认，它们正声势浩大的进军各个领域，寻求更多商业化的可能。当洛天依、我不是白吃等先行者在虚拟直播中取得不错成绩后，一众虚拟偶像们跃跃欲试，加入进来。

然而随着直播次数的增加，虚拟偶像背后的公司发现，其毫无情绪的、容易产生杂质等问题的声音，竟然成为阻碍它们收获更好直播效果的因素。他们寻求一项技术，能够赋予虚拟偶像们更为鲜活的生命特性。

“我是不白吃”“狗哥杰克苏”等虚拟偶像已经做出尝试，他们与标贝科技，一家提供AI声音转换技术的公司进行合作，试图解决这个问题。

虚拟ip直播崭露头角，声音却成一大痛点

2020年，短视频或者直播，总有一个风口让人不想错过。继明星、央视主持人、罗永浩等陆续入局直播后，虚拟偶像强势袭来。

国内虚拟偶像顶流洛天依先是做客李佳琦直播间，后与天猫青年实验室合作在五一期间进行直播。有媒体报道，洛天依的淘宝直播坑位费是当下头部带货主播的10倍，高达90万元。相比之下，李佳琦和薇娅的报价则分别为32万和18万。

如此高偿回报的诱惑下，一禅小和尚、狗哥杰克苏等虚拟偶像们纷纷入局。人潮涌入的背后，问题逐渐浮现。除了虚拟偶像无法自主直播带货，需要一位真正的主播在一旁配合外，声音成为一大问题。

4月21日洛天依在李佳琦直播间内表演才艺“唱歌”时，就因声音没有出来，李佳琦却在旁边感叹道“好好听哦”，引发观众群嘲。

其实对于观众而言，虚拟主播“好看”“好听”的特质是吸引他们的首要因素，观众对虚拟主播们的声音很是敏感。打开知乎搜索“洛天依声音”，首页满是质疑其“声音奇怪”的提问。

原本，对于国内虚拟偶像来说声音就是一大难点，容易因为配音杂质等问题导致效果不佳。在日本，许多VTuber背后都有经过专业训练的声优和整个专业团队进行配合。现在的虚拟直播更是对国内虚拟偶像提出更高的声音要求。

首先，主播每次直播时间普遍较长。靠原来的声音技术，很容易中间出现小差错，导致粉丝离开直播间；

其次，对于虚拟主播背后的配音而言，很难一个人坚持这么长时间的直播，如果采取几个配音轮流上阵的做法，又容易让观众听出差别。万一这些配音突然辞职，虚拟主播的声音更加难以连续；

最后，如果是直播带货，则需要虚拟主播的声音中有更加丰富的情绪。你很难想象，李佳琦如果用平淡的语气说出“所有女生，买她”，还会产生这么高的销售量么？

这些问题，在虚拟主播大量使用合成器来实现声音的当下，其实很常见。确实，如果使用变声器，容易出现声音机械感强、无法场景化、需要人工反复调节声音参数导致不稳定的等情况。况且有行业内人士透露，目前头部IP在声音情感方面有更高要求。

针对这些问题，使用AI声音转换技术是目前比较好的解决方法。据了解，“我是不白吃”“狗哥杰克苏”等虚拟主播就即将采用一家名叫标贝科技的公司提供的该项技术。

AI声音转化，

助力虚拟偶像像“真人”般发声

AI声音转化技术究竟如何解决这些痛点呢？

此前运用传统变声器易导致声音效果不稳定的问题，使用AI声音转化后可在免去人工调节声音参数环节的基础上，实现一站式自动声音变化，还能保障声音的稳定连贯。

如果你担心因配音者变化给虚拟偶像带来影响，则可通过AI声音转化提前对虚拟偶像进行声音定制。配音师耗费十几个小时才能完成的声音效果，AI模型只需要几个小时的训练就可以定制出独特的声音，亚马逊就运用这项技术成功为Alexa定制出新声音。

目前，国内的标贝科技已经掌握这项技术，通过深度学习可以为虚拟偶像定制出个性化的声音。

为了实现声音定制，标贝科技收集了一个大概100人左右规模的语音库，这些人覆盖儿童、青年、老年等不同年龄段，每个人会说500句话，其中300句话是相同的，200句话是不同的。在不同人之间，存在一些共性，比如情绪，也存在一些不同的东西，比如声音特点。

对这个语音库进行机器学习后，可以吸取不同年龄段人群说话的特点，这些特点可能受说话人的知识背景、生活环境影响，也可能受生理因素（比如声带的发育阶段，声带的老化情况等）影响，最终实现虚拟主播的声音定制化。

更为重要的是，AI声音转化技术还可以保留原说话人的语气和情感，让声音富有情绪，不再顿挫、冰冷，使得虚拟偶像的形象更为鲜活。

标贝建立起一个语音数据总规模时长超10万小时的数据库，帮助他们训练出声音中的不同情感，无论是高兴还是忧伤，情感程度或强或弱，都能通过这项技术实现。

在标贝科技运用AI声音转换技术生成的一段音频中，当主人公说到“真是太可怕了，世界上到处充满了恐怖”，我们能明显听出说话人担心焦虑的情绪；当音频下一句进行到“我决心已定，我从未见过大海，现在应该去看看啦”时，说话人的情绪又立即转换为开心。

该项技术并非停留在试验阶段，标贝科技已将其投入于自己开发的智能语音APP恐龙贝克中。他们不仅为虚拟偶像恐龙贝克定制出独特的声音，还让其复刻配音员话语中的情绪，用抑扬顿挫的语气，向小朋友讲述童话故事。

他们现在正与MCN建立合作，将这项技术正式投入虚拟偶像中使用。

智能生活，影视综音，

AI声音技术的广阔未来

虚拟偶像产业在国内已形成千亿级市场规模，商业化却始终做的不够。AI声音转换技术能显著提升国内虚拟偶像的声音质感，或许是助其通向更多商业化的第一步。

其实在人工智能领域，像AI声音转换这样的智能语音技术目前的产业化程度相对成熟，是一个产业规模较大的细分领域。据前瞻经济学人APP的数据显示，2014年国内智能语音时长规模只有30亿元，到2019年已经增长至204亿元。但在虚拟直播、明星IP开发、影视剧等领域中，却尚未普及。

以虚拟直播为例，通过AI声音转换技术缩短虚拟偶像的声音定制等耗费的前期投入时间；在直播过程中，省去人工调配声音的成本，还能避免声音出错；饱含情感的声音，能够调动观众情绪，激发他们的购买行为。使得虚拟直播成为虚拟偶像获得商业回报的有力途径。

现在，有明星开始尝试通过开发虚拟形象来拓展自己个人IP的商业价值。黄子韬就曾推出过以自身形象为原型的虚拟偶像“韬斯曼”，运用到条漫、插画、动态漫画和有声漫画市场。如果声音问题能够解决，未来这类明星虚拟偶像可以涉足直播，甚至与当下大热的虚拟直播带货结合在一起，开启新玩法。

虚拟偶像参与综艺也是近些年来虚拟偶像在商业化中做出的尝试。三年前，一位名叫“荷兹HeZ”的虚拟偶像作为选手参与到选秀节目《明日之子》中，突破大众对虚拟偶像的有限想象，如果虚拟偶像能够从这一赛道中脱引而出，将来可以开发出在明星代言、音乐等领域的商业价值。上综艺节目，通常考验的是虚拟偶像在颜值、嗓音和表现力力三方面的实力，如果能够运用AI声音转换技术，对虚拟偶像的声音有所提升，将助力虚拟偶像参与更多综艺，拓展其商业价值。

甚至在影视制作的配音过程中，AI声音转换技术也有潜在的利用空间。国内，像边江这样顶级的配音演员数量有限，很多影视剧可能想找他配音，却无奈因为他排不出档期而错失机会。如果能够运用AI声音转换技术，定制出和边江一模一样的声音，可以有效提高优质配音演员的产出。

除此以外当AI声音转换技术运用到娱乐互动领域，娱乐玩具可以跟你对话、可以rap、可以唱歌；到游戏领域，你可以在游戏中秒变大叔、萝莉，不用担心自己的声线单一；到匿名社交领域，进行个性化通话时，可以隐藏自己的声音。

可见AI声音转换技术一旦被普及，不仅可以拓宽虚拟偶像的商业化途径，对于影视制作、游戏，乃至社交领域都可能产生不小影响。

目前，标贝科技正作为先行者尝试将技术落地产业，特别是在虚拟直播领域已经同“我是不白吃”“狗哥杰克苏”等虚拟偶像达成合作关系。而未来随着AI技术对声音领域的赋能进一步落地升级，一个个更科技化的娱乐生活场景或将到来。

人工智能

为你推荐

科沃斯引领行业智能进化京东超品日掀家用机器人消费热潮

Unity助力创作者制作百万级播放量神作_腾讯新闻

神州泰岳创新新技术，实现产业全覆盖_腾讯新闻

新一代人工智能计算平台发布：当算力成为一种新生意_腾讯

百度输入法不仅让你打字如飞，还让你风趣浪漫会聊天_腾讯

张院士，开讲了！_腾讯新闻

没有车企愿意只作华为的“肉体”_腾讯新闻

5 张图带你了解 Pulsar 的存储引擎 BookKeeper_腾讯新闻

世界首座金属3D打印桥梁成功在阿姆斯特丹安装_腾讯新闻

4层楼的距离拾音：腾讯会议发布天籁语音模组方案_腾讯新闻

热门文章

猜你喜欢