本文整理自快手视觉互动技术负责人简伟华在Datafun数字人论坛的主题名为《快手3D数字人直播与互动解决方案》的演讲,本演讲介绍了快手在直播、社交等领域进行的虚拟世界互动应用的系列实践,背后是来自3D数字人直播互动技术方案的支撑:平台侧, 快手虚拟世界互动平台(Kuaishou Metaverse Interactive Platform,简称KMIP),基于 PAAS 技术基础支撑不同应用场景和用户群体;及软件接入侧,快手虚拟演播助手(Kuaishou Virtual Studio,简称KVS)和接入KMIP平台实现云渲染和玩法扩展能力的KMIP SDK。演讲内容做了脱敏,内容有删减。
大家好,我是来自快手 Y-Tech团队的简伟华,在快手负责视觉互动技术的研发和应用落地。我们是从21年下半年开始做数字人专项的研发,分为2D数字人和3D数字人两个方向。目前我主要负责3D 数字人的研发和业务落地。
今天的分享分为四个部分,首先是快手 3D 数字人直播互动的应用案例和解决方案的整体介绍。第二是方案的平台侧的介绍;第三是方案的软件接入侧的介绍,最后是总结和展望,也很欢迎各方合作伙伴接入快手虚拟世界应用生态,与数亿用户一起共拓元宇宙应用市场。
快手大家都比较熟悉,它是一个短视频和直播的国民APP,快手APP的日活和月活都比较高,达到数亿的量级,UGC视频创作者每天是几千万,直播的主播创作者是日几百万的量级。能够正常的看到前述用户群体的数量是逐渐递减的,但其贡献的价值却是逐渐递增的。互联网是一个双边平台,可以认为生产者和消费的人数量相乘构成平台的价值空间(V=k·m·n)。能否在直播短视频形态下找到一种新的内容生产形态,让更多的用户能进行内容合作共创呢?这不但可以大幅度提升快手生产侧生产者和作品数量,还可以让内容的互动性、沉浸感更强,从而带来更大的业务价值。
我们直接想到的是可以将快手消费者变成我们的生产者,当然也能够最终靠增加非真人的AI创作者(这里不详细展开)来达成。具体实现上,通过将 3D 数字人技术应用于直播和短视频的场景,让每一个用户都有他自己的分身。数字人是一种人机交互的模式,在此不进行详述了。虽然3D数字人技术应用于直播会有很多挑战,例如形象精度越高,实时驱动渲染越逼真,难度越大,但也会带来更大的商业潜力。
下图中最左边是快手官方数字人关小芳,已达到了百万粉丝量级,是行业内较好的数字人应用实践的案例。我们大家都认为,如果数字人只是单人开播,跟真人的开播没有本质区别,多数字人参与的人机互动能够扩展使用范围,带来更大价值空间。在快手,直播间的3D互动玩法应用开始涌现,正是以多人的3D 数字化身方式去呈现和参与互动,早期可能是数字化身以固定的动作库或者行为树逻辑作比较简单的互动,像去年比较流行的云蹦迪的形态,多人互动演进专业化的趋势是显而易见的,如今年更普及的虚拟演唱会和直播间的更高级互动玩法,已经有擅长专业玩法开发的外部CP参与进来,玩法中主播观众的互动自由度逐步提升,同时快手也建立了直播小玩法的开放平台。
快手在对数字人进行了一年多的研发和业务落地以后,相比行业有自己的预判,我们大家都认为3D数字人从愚昧之巅走过了绝望之谷,已逐渐向开悟之坡迈进。类比游戏行业千亿美金市场,我们大家都认为类似游戏的 3D 虚拟世界互动会在直播间和短视频生态进行很好的普及。这里定义的虚拟世界互动这个名词,指的是在虚拟空间发生的多人间的沉浸式、交互式的互动。这样的形态以前在其他的产品业务上也有出现,比如说社交类的Zepeto,游戏类的Roblox,开放剧情类的产品Rival Peak ,展会类的瑶台等,在直播中则对应于直播间互动玩法。
我们也看到直播间的虚拟世界互动(小玩法)最近一年发展非常迅速,明年市场规模能够达到百亿人民币的量级,如果每个互动的个体都是实时驱动表现力非常强的3D 数字人的话,它的互动效果和业务上限会更高,当然这个是有实现过程的。和《虚拟人数字人3.0》书中的观点类似,我们大家都认为这样的一个过程分四个阶段,一阶段是单人体验,比如说早期虚拟主播的个人直播间开播;第二个阶段是一个小范围的多人交互,发生简单的多人互动;第三个阶段是大规模的类 MMO 的一个多人涌现式体验,这样的一种情况下已经需要 AI 协助下的内容生成;第四个阶段是在线的社交元宇宙的形态,比较极致的开放世界和AIGC内容生成。我们判断目前行业处在第二个阶段和第三个阶段之间。
如何促进用户共创参与虚拟世界互动,构建沉浸式强互动直播内容?在技术侧,我们提出了快手3D数字人直播和互动解决方案,方案分为平台侧和软件接入侧,平台侧我们构建了快手虚拟世界互动平台,英文名是Kuaishou MetaVerse Interactive Platform,它基于PaaS技术,支撑各种上层应用,软件接入侧面向开播和虚拟世界互动,我们有一体化接入的软件——快手虚拟演播助手,也有可接入的SDK,如快手直播伴侣 APP 和快手APP 可通过KMIP SDK接入PaaS平台实现云渲染的互动玩法,CP的玩法应用可以接入KMIP Game SDK,实现 AI能力的扩展。
快手3D数字人直播互动解决方案有一些优势,能够较好地解决目前数字人开播和互动的痛点。
3. 对接了快手的特效平台,数万款的丰富特效能够直接在数字人开播里应用,它的功能也比较丰富,能够完全满足我们对元宇宙直播间各种需求;
4. 可以通过高性能异构计算和云渲染去支持多观众和多主播的虚拟世界互动,如果未来每个主播和观众操作的都是高精度的数字人,这个能力是较为重要的;
5. 将 AI 能力融入开放生态,带来直播间的千人千面的内容和互动,提升玩法和内容上限。而传统玩法更多是基于预设的剧本逻辑和程式的开展。
通过上面介绍的数字人解决方案,我们独立运营了几个直播数字人的IP,并实现了智能文娱等方向的落地应用。第一张图是我们打造的百万粉官方虚拟主播关小芳,接地气创新各种互动玩法。第二个是我们的歌唱类虚拟主播张凤琴,她使用到我们 AIGC相关的技术,我们在打造这些数字人的过程中,也是在建模、驱动、渲染、运营等全链路的环节都有了技术和经验方法的积累,也把这些沉淀到了我们的数字人解决方案里,并通过Streamlake TOB打造了蒙牛的首位虚拟员工“奶思”。
前面提到,如果只是单人开播,数字人只是真人的一个子集,数字人在多人虚拟世界互动中能发挥更大的价值,我们也从这个方面去做了更多探索。通过前面所说的小玩法的开放平台接入了丰富的互动应用,明显提升了直播间的数据指标。左图是虚拟世界杯应用,连线的主播分别带领自己直播间的观众进行对抗,而且主播观众在这个应用里是第一人称操控的,能够开展充分的互动。右图中海上大作战分为红蓝两个阵营,观众分阵营通过不同的打赏礼物攻击和守卫小芳 ,我们正真看到有的大R整蛊主播的效果已经有了一些剧情扮演、虚拟制片的成分。
上面分享的是偏纯玩法的应用,接下来再分享一些IP内容社交互动的案例。左侧是我们跟熊出没IP的公司一起打造的光头强元宇宙演唱会,观众在观看直播的同时,能够最终靠打赏排名靠前第一人称进入到直播间跟光头强进行近距离物理碰撞,带来趣味的互动效果。这场活动的账号涨粉和弹幕数据非常的高。再看一下跟薄荷公司合作的周杰伦的元宇宙音乐空间在快手落地的案例,活动期间人均发送弹幕量也非常高,我们大家可以看到未来内容演进的一种趋势,是IP 内容加持下的强沉浸式和强社交互动的体验。未来的直播间虚拟世界的应用落地,会有偏纯游戏类的,也有内容和玩法融合像狼人杀、剧本杀的社交内容。它应该是一个框架,能够装各种各样的应用场景和落地实践。
上面对应用案例进行了介绍,接下来进行技术方案的阐述,首先讲一下平台侧方案,也就是快手虚拟世界互动平台。用户(主播或观众)的设备软件(直播伴侣App,快手App,KVS等)通过集成KMIP SDK将结构化的交互指令(如面捕动捕数据,键盘鼠标的操控指令)传递给KMIP云服务平台,进行计算处理后将这个流媒体的信息进行回流回显,实现多端低延时接入的媒体交互和虚拟世界互动应用。
1. 支持多终端接入,支持 PC/手机/XR 等全端设备,在快手,终端观众和创作者的设备环境需求是不一样的。创作者会使用更高阶设备,可以在一定程度上完成更好的互动展示效果;终端观众则更需要能够低门槛的参与,手机接入,最好不用露脸用语音或触屏就能驱动他的avatar形象;
2. RTC 结构化低延时传输各种数据,比如动捕/语音/文本/控制参数/直播互动参数等;
3. 将参与多人互动的主播和观众的状态进行同步,保证物理的单人捕捉融入线上多人互动时符合物理规律;
5. 支持端云协同的异构计算,如果主播和观众达到了MMO这样多人互动的场景,每个互动对象又都能够高精度数字人驱动的话,需要的算力是很恐怖的,需要支持端云协同渲染,可能还需支持分布式的计算。
KMIP由三层构建,分别是基础层、计算层和接入层,基础层是支撑平台的服务底层,主要管理通用的计算网络以及存储等资源,既支持自研云平台能力,也兼容第三方云平台能力。计算层,是KMIP的核心能力层,它包含四个模块,分别是AI引擎,图形引擎、音视频能力和资产库。接入层包含了鉴权、智能调度和端云协同等模块。同时,接入层还通过协议跟业务后台进行交互。
简单介绍下KMIP的计算层中资产库的功能,我们整合接入了Y-tech、 MMU 的AI能力,可生成用户自定义的资产,支持拍照 AI 捏脸,结合传统骨骼捏脸去细调效果,另外我们也在研究AIGC生成式技术,如果AIGC生成人物模型,场景和对应的礼物(虚拟世界的人货场)的技术能更快地标准化,会更加有助于3D数字人加速落地。另外我们建立了材质光照和渲染性能的分级的规范标准,也提供了Lookdev 的调试工具和标准,能够保证数字人进入到各个虚拟世界的应用时能够和谐化同步,跨引擎时的效果也有保证 。
说到互动,动作捕捉肯定不能少。前文中也提到我们有高质量和低成本的分级方案,低成本方面,普通网络摄像头就可以驱动虚拟角色,有利于低门槛规模使用。
简单讲解一下无穿戴动捕,传统定义的动捕,分为动作捕捉和3D驱动两个模块,动作捕捉需要捕捉的比较精准,3D 驱动是要让它能够驱动当前的模型符合业务需求,达到逼真效果。动作捕捉模块涉及的技术包括图像和人物检测分割,和基于图像对表情、身体、手指整体的推理计算。目前我们支持表情、身体、手指同时捕捉,基于多年的积累在行业内也是达到了不错的水平;3D 驱动模块,会动作重定向到当前的模型,以及符合物理规律(如布料和毛发仿真的效果)实现真实的物理碰撞和刚体模拟效果等;再配合结构化数据传输,渲染输出看到的实时互动的逼真画面效果。
我们在技术上能达到行业领先的高帧率、低延时和高精度的标准。右图是无穿戴动捕的演示效果,我们大家都认为未来无穿戴动捕的演进方向,是生成式3D动画和实时驱动的动画的深层次地融合,从捕捉设备的精度和表演者自身能力弥补的角度,实现言出法随高表现效果的需求,这一趋势也推动算法同学在进行生成式角色动画的前沿研究。
上面介绍了资产库和AI引擎的一些技术。接下来介绍一下云渲染虚拟世界互动相关的技术。这一块主要是由CG图形引擎和音视频流媒体两个模块组成。通过云渲染可以让观众以第一人称视角高临场感地参与到整个活动中,另外我们也自研了独立的游戏网联服务,它也兼容目前流行的商用引擎,比如像UE、Unity和Cocos。接入自研的网联服务,能支持超过千人的同屏在线互动,理论还可以达到万人。另外自研网联服务还支持RTC协议低延时传输动捕,语音,控制参数等结构化信息。
上面分享的虚拟世界杯案例,类MMO的多主播和多观众在线强互动的虚拟世界互动应用,这是怎么实现的呢?主播通过接入KVS,RTC传输他的面捕、动捕和操控、互动的结构化信息,到游戏应用,观众或者用户则同样通过RTC将对应的操控信息发送到云端。用户如果是第一人称视角,一般是在云端渲染的,因为手机端的算力不一定可以支撑大型MMO这样的计算需要,我们也在云端部署了GPU集群的算力。主播侧则可以再一次进行选择在云端进行统一的渲染,或者PC开播时电脑够好也可以在本地进行渲染。通过这样的框架,主播和观众就能轻松实现低延迟的实现MMO多人同屏交互,过程中也是会和KMIP服务后台作比较深度的交互。这种类 MMO 的架构扩展性是比较强的,主播和观众在这个架构里是对称的,未来虚拟世界互动不一定非得是主播发起的,它也可能是用户和用户之间,或者用户发起主播参与,这样才可以使消费的人直接变成生产者,从而提升业务价值。这套多人虚拟互动的框架或者容器,能扩展的业务场景非常多的,如剧本杀或者多人会议的场景,都可以往这里面填充,未来也会向元宇宙直播间演进 。
回到KMIP计算层,不管是端渲染还是云渲染,它的性能开销都是非常大的,再进一步想象一下,好莱坞影视级的数字人放到实时计算的场景里,再扩展到多人互动,它的开销得多大?为了优化整体AI的计算渲染平衡,我们推出了快手数字人的统一元计算框架。同时也设计了插件化的开发架构,以提升开发效率。在整体的AI计算和渲染优化中,使用了KwaiNN的引擎,在端到端的动作捕捉加速上提升了大概30%。
上面简要介绍了KMIP平台侧的能力,那么我们的应用开发者怎么接入呢,应用接入后,主播和用户如何体验参与内容共创?这里的接入软件,包括了快手虚拟演播助手,和在快手多款 APP上接入的KMIP SDK, CP应用也会接入我们的KMIP Game SDK,实现 AI 新能力的扩展。
简单介绍一下快手虚拟演播助手,它是一款面向 PC 端的软件,提供包括数字人、虚拟场景、特效道具在内的一站式的开播,在数字人开播上是十分便捷的。它在互动上打通了KMIP 平台,能够最终靠接入虚拟世界互动应用,实现更高阶的多人互动。我们大家都认为未来的直播间数字人互动应该至少达到这个水平,数字人通过我们的技术服务实现了基础的跨直播间同屏互动,相对真人它可以上天下海入地,不需要服化道就能实现丰富的多人场景。
如果需要更大规模开展多人虚拟世界互动,需要接入App,使海量的主播和用户能用起来,这是通过 KMIP SDK来实现,通过 KMIP 后台服务去创建云渲染任务,拉起云服务器上部署的互动应用,实现实时所见即所得的操控和媒体交互。
下面是一个典型的直播间弹幕小玩法进行云渲染时的流程示意,里面有两种SDK,一种是 KMIP SDK,它负责云渲染接入。另外就是 KMIP Game SDK,它除了能更好管理监控我们的三方互动应用,还增加了 AI 赋能,实现更多的玩法种类的扩展,也实现了直播间千人千面的表现。任何一个人都是自己的导演,每个人都能自由地在多终端实时共创:体验时的操控形式,包括剧情,在每次进入直播可能都不一样。我们采用了3dmm人脸和姿态实时重建技术,能够实时“抠脸”进入玩法,带来更强的代入感和角色扮演的情节。目前在快手平台里,大部分的虚拟世界互动应用,因为早期商业化变现的原因,还是类游戏的玩法应用,但是未来可以期待更多剧情创作和虚拟制作类的互动应用的出现。接入KMIP Game SDK,还可以直接和我们的云渲染的部署进行打通,开发者只要按照SDK 的流程接入,便能很方便地进行调试,在线预览云化以后的效果。也很好地实现了自动化的上线部署更新,移动端主播也可使用增进营收。
快手目前有6亿月活的用户,有数千万的视频和直播创作者,在直播间虚拟世界互动这个场景有非常大的发展空间,除了直播间之外,还可以扩展到我们的社交和生产等很多场景。除了技术侧的支持外,我们还有很多产运侧的扶持政策。刚才也提到我们这套多人互动的框架,是一个容器,不论内容应用还是技术能力,都可以往里面填充。所以我们也衷心欢迎外部的开发者厂商跟我们合作,不论是互动玩法、内容IP,还是3D资产、硬件驱动等等,我们也相信未来半年到一年3D数字人的虚拟世界互动会有规模化的落地效果。
毕业于清华大学,在视频+AI和XR领域有超过10年的经验。曾在华为和腾讯负责创新研发技术工作,目前在快手领导团队开发3D数字人解决方案和虚拟世界互动平台。