【科学强国】虚拟人诞生记
近年来,“造人”成为业界高度关注的话题,虚拟人似乎已经准备好在未来世界闪耀光芒。
摄影/宁颖
2012年,洛天依以中文虚拟歌手的身份正式出道。随后,登上各大卫视,与明星同台演唱。2021年春晚舞台与2022年北京冬奥会文化节开幕式上也出现了她的身影。2021年,AYAYI作为虚拟写真人物,首次出现在时尚软件上。如今,AYAYI已经和娇兰、保时捷等品牌达成合作,并作为“数字员工”入驻了阿里。此外,除了独立的虚拟人物,甚至已经有了虚拟女团。A-Soul是乐华娱乐旗下虚拟偶像女团,共由5名成员组成。出道三年来,吸引了不少目光。
虚拟人正踩着人类的脚印前行。行业报告显示,到2030年我国虚拟数字人整体市场规模将达到2700亿元。其中,“身份型虚拟人”市场规模预计达到1750亿元,占主导地位,而“服务型虚拟人”总规模也将超过950亿元。得益于AI、VR、AR等技术的发展,虚拟人的应用场景正在从传统的虚拟偶像等娱乐行业迈向更多元化的领域。
“十四五”规划纲要将虚拟现实技术列入数字经济重点产业,并给出明确发展方向,加速虚拟人的场景化应用落地。新业态、新体验的背后,是无数代码、动画、程序,以及运营推广。人们不禁发问,创造虚拟人到底需要什么样的技术?一个AI驱动的虚拟人,能有什么样的产业价值?“造人”产业路在何方?
数百项细化指标成就“好皮囊”
“态浓意远淑且真,肌理细腻骨肉匀。”一头俏丽的黑发落在肩上,头发的纹路清晰可见。两只大眼之间是挺拔的鼻梁,而你甚至可以在她棕色的瞳孔中看到小一号的自己。说话时,喉咙与肌肤的颤动呈现出更细微的表情变化与皮肤纹理。我们仿佛能体会到气流从肺部上升的整个过程。这是李星澜,不是真人,而是科幻游戏《星球:重启》中的NPC。李星澜不是简单的游戏NPC,根据开发团队MMC工作室介绍,李星澜是他们的首位元宇宙虚拟人。除了在游戏中引导玩家之外,她还在游戏外发抖音、接代言、做主持人。去年12月底,在第十三届华语科幻星云奖的颁奖典礼上,她从科幻作家刘慈欣手上接过了最佳科幻游戏创意奖奖杯。
细腻的肌理与生动的微表情是李星澜的一大特色,这也符合如今大众对于虚拟人的印象——一个个越来越漂亮、越来越接近于真人的3D人物模型。但“好皮囊”背后却没那么简单。不少人或许都有过游戏“捏脸”的经历,成百上千的数据与固定表情已经令不少玩家叫苦不迭,但虚拟人的动态微表情与及时互动更为复杂。
不同于早在十年前流行的网络游戏中的“捏脸”,为虚拟人“捏脸”实际上是一场动静之间的博弈。随着技术更新,元宇宙概念的火热,人们对捏脸师的要求愈来愈高,促使其有了更细化的分支,新职业“虚拟数字人捏脸师”随之诞生。他们站在虚拟与现实之间,用数据、代码以及诸多设计元素为虚拟人创造形象。有人将他们称为虚拟世界的“女娲”。
打开三维建模软件,一个静态立体的人脸模型清晰地呈现在左侧的显示界面上。“如果想要他动起来,就需要将每个点位都变成可编辑的状态。”说着,王雨便开始点击右侧的操作界面。鼠标键盘一顿工作后,显示界面中头发、额头、眉毛、眼睛、耳朵、鼻子、嘴巴所对应的每个区域都被放大拆解,成为可供操作的内容。王雨是专职虚拟人的捏脸师,本就是学设计的他,在元宇宙概念兴起时,转行到了数字虚拟人领域。据王雨介绍,捏脸最重要的是细节。从眉毛的弯度到嘴唇的曲线甚至每一块肌肉的紧实程度,都是需要考虑的地方。而最为复杂的部位则是眼睛。“让虚拟人拥有类人外观,眼睛是最大的功臣。”从内外眼角到上下眼皮,再到瞳孔晶状体,近30个维度的精细拆解,使得眼睛能被 “捏”成任意的类型,以匹配不同的人脸特征。除此之外,调节数字人细微参数,以及所处位置的灯光、环境等背景元素是王雨避免“恐怖谷效应”的妙诀。所谓恐怖谷效应,是当机器人的外形与人非常接近的时候,人们产生的一种心理恐惧的效应。这也是许多人看到一些虚拟人时感到不适的原因。
虚拟人形象栩栩如生,固然离不开个体工作者的细微设计,更在于技术领域的突破。外表宛若邻家小妹的李星澜,成就她的是几乎当前市面上最极致的超写实技术。据悉,李星澜的一大技术核心是数字人面部基表情制作和自动化绑定。基表情是指面部表情编码系统会有一系列基础表情,通过这些基表情组合就可以满足各种不同的表情表现需求。自动化绑定则极大提高了整个虚拟人生成表情的效率,无需人工手动添加。MMC团队利用人脸扫描和美术刻画为李星澜制作出70多个基表情,是大部分其他虚拟人的一倍以上。此外,NVIDIA相关技术也在协作和渲染方面提供了许多便利,NVIDIA Omniverse可以实时渲染出高保真、物理级精确的结果,相比过去影视制作中动辄几十数百小时的渲染时间大大缩短。
“中之人”与AI,虚拟人的内核
相较于静态的外在形象,对于虚拟人而言,更为重要的是动态管理。和动画作品的底层逻辑一样,能真实动起来的虚拟人,才是合格的虚拟人。许多动画专业学生制作的动画人物静止时形象都比较好,一旦动起来就手脚脱节、图层冲突,完全变了模样。而虚拟人对动态真实的要求更为严格,动画作品中一系列夸张处理完全不适用。
根据内核及处理方式的不同,虚拟人有两大分类。 一是广义虚拟人,指通过CG建模、中之人(虚拟形象扮演者)联合动捕驱动技术打造出的虚拟人。二是超级自然虚拟人,其核心为通过AI技术“一站式”完成虚拟人制作与运营全过程,并具备感知、表达、交互能力。现存市场中前者较多,典型的是A-Soul虚拟形象女团,后者是行业发展趋势,典型如微软小冰。
由中之人驱动的虚拟人,依靠对真人的深度采集完成,包括动作捕捉、面部表情捕捉、音视频合成等等,再绑定到虚拟人上。由AI驱动的虚拟人则利用了深度学习、小样本学习、自然语言处理、神经网络渲染等技术手段,比如输入演讲稿或者语音,AI模型就能自动输出肢体动作、面部表情、声音。
据业内人士介绍,动作捕捉设备主要涉及全身、面部和手指三种构成,节点越多,动作越精细。其原理是对身体活动关节等部位进行捕捉,通过构建人体骨骼模型来还原身体的运动。一边是绿幕,一边是实时的虚拟人界面,在3D摄像头捕捉到绿幕下的人物动作的同时,虚拟人便据此作出相应的反应。“利用动作捕捉驱动的虚拟人,更像是提线木偶,他的动作行为乃至面部表情与真人都是相同的。”该人士表示。
动捕驱动与AI驱动各擅胜场。
据广州虚拟动力网络技术有限公司介绍,动捕技术的一大优势在于它连接了真人和虚拟世界,借助动捕设备,用户可重建和增强虚拟世界的体验感。它能让用户的虚拟分身在元宇宙中和其他人保持自然的交流。根据实时捕捉人物表演的能力,用户可以借助虚拟形象进行实时互动,增强虚拟交互体验。其输出的数字人内容精细度更高、表现力更强、运动动作更加自然。
相比于真人动捕驱动来说,AI驱动虚拟人则可以为企业降本增效,延展营销边界,常常用于企业营销、新闻传媒、教育教学、品牌电商、文旅文博宣传等领域。“如果是动捕技术,成本是一秒钟1000块,这意味着时长一分钟的视频,大概需要六万块。而通过 AI 的方式去生成,1分钟只需要30块钱。”业内人士表示,两种方式的成本相差千倍。然而需要注意的是,尽管AI和深度学习等技术的突破在很大程度上降低了虚拟人的制作门槛,但是低成本建模和驱动的虚拟数字人,与手工精细制作依旧存在差距。
虚拟数字人是构建元宇宙的基础设施,市场广阔,这也吸引着越来越多的个人与企业加入“造人”行业。根据不同的需求,动作捕捉驱动与AI驱动愈发成为虚拟人行业泾渭分明的两个方向。
ToB和ToC,服务与流量
切换新赛道,步入新领域,不少公司看中的是我国虚拟人产业蓬勃发展的势头。作为连接数字世界和现实世界的重要媒介,随着产业热度持续提升,不少人关心,未来虚拟人如何与更多行业场景深度融合,为人们带来哪些更沉浸的数字生活体验?
全球来看,虚拟人产业链可分为上中下游三类。虚拟人上游包括内容制作类、工具类和IP策划类;中游主要指XR厂商、CG厂商、AI厂商和综合类厂商;下游主要涵盖企业服务、文娱领域和品牌代言。
一方面,元宇宙概念下,品牌希望用更亲近的方式贴近消费者的生活。另一方面,虚拟数字人因不受时间、空间与物理技能的限制,其能力也显示出超越真人的价值,可以发挥的效用远非娱乐、商业产业那么简单。具体到商业模式上,虚拟人业务主要分为ToB和ToC两端,分别对应以功能应用为主的服务型虚拟人和以个性表达为主的偶像型虚拟人。前者主要应用于影视、金融、文旅等领域,变现方式是为需求方采购服务型虚拟人,以替代真人。例如,万科的首位虚拟员工“崔筱盼”负责催办企业的预付应收逾期单,小冰AI“超级模式”的定价是360元/年,主要服务于办公场景,辅助会议纪要、文案撰写等工作,其甚至没有具体的虚拟形象,只存在交互界面。后者主要针对游戏、传媒等领域,变现模式主要是打造虚拟偶像或虚拟IP,再通过流量变现。以洛天依为例,其深受广大二次元文化爱好者的喜爱,在B站拥有数以百万计的粉丝。粉丝群体也经常参与线上直播、线下演出等活动,形成了一个紧密的社群。
当前,我国数字经济发展方兴未艾,作为其中的一个重要环节,虚拟人的场景化应用有望为数字经济发展注入新动能。尽管实践与理论都已经有了相当的进步,但不少从业者依旧认为,当下的虚拟人仍面临着技术、成本等痛点,行业爆发还要多久,没有谁可以准确预测。或许,等到虚拟数字人精细好看,并且动作灵动、有智慧、有情感,能与人互动,而不只是停留在宣传片里的时候,虚拟数字人才真正走进用户的生活,迎来爆发。
其实,不管是功能型的虚拟人,还是面向C端的娱乐性质的虚拟人,对真人都没有完全的替代作用,更多的是作为现实生活的补充。诚然,服务型虚拟人能够完成部分工作为企业创造价值,偶像型虚拟人带有精神属性能够为用户提供情绪价值,但这些与已有的现实世界似乎并没有什么区别。
来源:《小康》·中国小康网
作者:袁凯
编辑:刘彦华
审核:龚紫陌
来源:科学强国微信公众号