【科学强国】数字人:人机交互的革命

 《小康》 ● 中国小康网   2022-10-18 19:42:34

  随着虚拟数字人在关键平台上的运用,它在许多行业里发挥了重要作用,虚拟数字人引发了人们对它的好奇与关注。与模拟机器人相比,虚拟数字人在形象、表达和理解层面渐渐贴近日常生活,那么,现如今的虚拟数字人可以为我们做什么?它具体应用于哪些领域以及具备哪些优势呢?国内领先的超写实数字人创作平台——数字栩生CEO宋震有着他的专业解答。

  以AI技术为驱动,实现数字人“千人千面”

  数字栩生是一家掌握光场重建核心技术的数字人垂直领域硬核科技公司,成立仅一年多,团队成员大部分都是90后。现有30多位员工,以技术团队为主,公司刚完成由联想创投领投、蓝色光标和蔚领时代跟投的Pre A轮融资。“我们非常看好AI和数字人的结合,以AI技术赋能数字人的各个环节,实现与NLP(自然语言处理,Natural Language Processing)系统,甚至大模型系统的对接,为他们的AI能力提供数字人接口和数字人服务,我们主要的研究都聚焦在数字小脑上,用数字小脑去驱动数字人,让数字人不再是千篇一律,而是千人千面,每个数字人都有自己的独立个性和特征。”

  在宋震看来,数字人需要有自己的思想,能够思考问题,能够学习。“我们把与AI系统连接驱动数字人的中台叫数字小脑,它跟真实人类的脑结构是一样的,大脑是负责理性思考,也就是现在NLP部分。它只负责理性思考,产生不了感情,但是人在交流过程中,更多的是很多带感情色彩的沟通,而不是冷冰冰的理性。”比如“你真坏”这句话,从不同人嘴里说出来,以及面对不同的对象说,意义完全不同,而AI大脑只能理解这三个字的表面意义,理解不了其情感意义,做不到深度的思考。

  “数字人的理性知识具备了,但距离感情交流还比较远。我们认为未来数字人应该是带感情交流的独立个体,他不光有视觉、听觉,还应有触觉、嗅觉。”有了视觉之后,他早上打招呼可以很自然地表达:“嘿,你今天穿这件衣服真漂亮!”比如嗅觉,“好香!你今天喷的什么香水?”但目前的数字人交互是做不到的,AI大脑停留在知识层面的逻辑思考。“他可以下围棋,赢过世界冠军,但是谈恋爱肯定不如一个普通人那样富有情感。”

  “当数字人具有了视觉和嗅觉,有了人类五官的这些功能之后,他才有可能更像一个人,但现在他还是一台思考和工作的机器。”宋震坦言,目前的技术只负责把人还原出来。“我们不做AI的大模型系统,比较乐观地看,未来三到五年还会有一些更好的成果出现。我们看到一些内测,如果咱们之间隔着一块布互相看不到彼此的时候,我可能并不知道我在跟AI聊天,现在能做到聊二三十个话题都不会露馅。”

  业内人士表示,数字人在可控性、可编程性和规模成本等方面具有优势。目前,数字人在服务行业场景的覆盖面大,但参与程度还不深,随着技术进步,其应用广度和深度将不断扩展。据宋震介绍,数字人目前有做主持人、主播、游戏里的演员,以及服务型的场景,比如金融、保险类的客服,问题和回答标准化,没有太多个性化内容,是AI比较好的应用落地场景。

  改变人机互动模式,让交流更有情感

  互联网刚兴起的时候,流行一句话叫:“网上聊天的时候,你不知道对方是不是一条狗。”随着未来虚拟人越来越真实,越来越规模化之后,成本也越来越低。“有了美颜这些功能以后,我们看到的已经不是真实世界里的那个人了。像抖音、快手这样的平台,我们不知道视频背后的人真实的模样,潜移默化中接受了虚拟人的存在。比如,我希望我的家人永生,而他是可以活在虚拟的世界里的,我想他的时候就可以和他聊天,而这在技术上是可以实现的。如果数字人能够提供足够的情感价值,那么我为什么非要跟真人谈恋爱呢?”宋震表示,数字人可能会改变现有社会的运行规则,也会带来很多哲学和伦理问题,“现实世界里如果同时跟三个人谈恋爱,肯定不道德,但在虚拟世界里,同时跟十个虚拟人谈恋爱,我是不是不道德的?所以,数字人现在只是开始,未来十年会迎来属于它的黄金阶段。”

  春草是今年8月刚推出来数字人,她是一名高三女生,18岁,正处青春期,叛逆,却积极阳光,热爱攀岩运动,是小有成绩的运动员,她鼻子上的伤疤,是第一次参加攀岩锦标赛时留下的印记,是一个热血元气的女孩。这是由蔚领时代和海西传媒合作开发的中国数字人演员,智能数字面部技术从渲染到算法,由数字栩生研发制作,从采集原型的50多个表情,到拆分成400多个子表情,自动绑定系统后,再组合成2000多个微妙表情,最后通过AI支配实现动态呈现,通过AI交互实验不同情境的演绎。

  “春草的定位除了游戏里的角色之外,导演可以直接跟这个演员互动讲戏,然后让她现场表演。春草是在我们的光场采集录影棚里制作的,采用了我们独有的面部支持技术,能够让演员直接驱动春草,进行表演,导演能直接看到结果,这个技术是颠覆性的。”宋震介绍说。

  之前的数字人完成面部表情捕捉之后,导演不能直接看到结果,需要精修、渲染。但是春草在表演时,可以实现实时的互动,作为演员,她能听到导演的指令。“春草的诞生标志着实时驱动的数字人能进入到表演环节了。以前的数字人更多是功能性的,做一个主播,或者服务员,情绪表达没有那么强烈。但演戏需要技术,而且是一种人工智能的技术。”

  数字手语主持人“千言”是数字栩生的另一个成功案例,她可以实现电视转播手语的自动生成,可以完成从汉语到手语、手语到汉语的双向翻译,实现听障聋人群的信息无障碍交流。千言现在已经签了几百家电视台,做手语主播,还有一些教育场景,比如给聋哑人进行教学的时候使用。此外,还有政府的无障碍通道,如果聋哑人去办事,千言可以担任AI翻译。

  “通过计算机模仿听障人士的大脑,将播报文本输入进系统中,千言便可进行实时手语播报。除了实时手语播报,千言还能演唱三山五园歌曲、跳手语舞蹈。”宋震介绍,千言是和千博信息公司合作的,“千博信息是国内非常领先的AI公司,主要是把我们说的话翻译成聋哑人能够理解的手语,我们觉得这个素材特别好,通过数字人实现对残疾人的关心和帮助,用数字人技术提高他们的生活质量。”

  国内首创微表情AI生成,提升情绪表达

  “AI大脑”实现自然语言处理、知识管理、对话系统等功能,并实现对多个业务系统的实时连接,提供人机交流的主题逻辑功能。 “AI小脑”实现基于深度学习的个性化数字人动作表情自动生成,为人机交流提供更自然的交互体验。

  AI小脑就是人和数字人的交互转化成文本或是音频,能够自动翻译成个性化的表情和动作。宋震介绍,“我们在看邓丽君这个虚拟人的时候,就发现她不光是用邓丽君的声音在说话,还有一些她本人的小调皮的表情和动作,可以跟人开玩笑,给人感觉仿佛是在和邓丽君说话。这就是深度学习在语言领域的一种处理方法,只要上传一段邓丽君的声音,经过训练之后,再开口讲话,就变成邓丽君的声音了。”数字栩生引入了“AI小脑”理念,为现有AI大脑平台与虚拟人的驱动间搭建“桥梁”,丰富了虚拟人的信息灵敏度与范围,也将语音和文字信息转化为带有情感的、可听可视的信息,为虚拟人“注入”情感,解决现有数字人感情表达不真实的问题。

  人的表情非常复杂。人类在长达十几万年的进化过程中,养成了人的眼睛对表情的敏感度非常高,我们可以从一个微妙的表情,就能感受到他人所传递出来的情绪。“人脸的复杂性体现在40多块肌肉,能组合出来5000多种不同的表情。没经过表演训练的人可能做不出来那么多表情。表情不光是可视化的符号,还是可以传递很多信息的内容。‘我生气了’,可以通过表情马上就能看出来。前几年我们所有的科研方向都聚焦在怎么真实地再现和表达表情。”

  光场采集,是数字栩生为了采集到真实个人的表情专门制作的一套设备。“比如说采集人的50个表情,我们会把它拆成将近500个表情,然后让这些表情再运动起来,又能组合出来几千种表情,以期达到传递很微妙信息的效果,能够非常真实地再现人脸的表情。即便是经过专业训练演员也不过如此了。”宋震讲述说,前几年,在采集表情的时候,几乎采了北京电影学院表演系的所有学生,因为他们受过表演训练,能够做出更丰富、更准确的表情,能够更精准地传达自己的情绪,“就是我们俗话说的表演级表情。”

  表情采集之后,用数字栩生自有的一套算法,重建三维模型,做表情的重建,包括表情的拆分和组合,一整套技术组合以后,才能得到一个面部栩栩如生的人。

  “数字人的动作则使用动作捕捉技术来呈现,这是一套比较成熟的技术体系,从好莱坞电影技术中萌发和诞生,迄今为止已经发展几十年了。我们目前的研究重点是使用AI技术自动生成动作,也取得了不少成果。每次动作都用捕捉的方式,复杂而且困难,如果自动生成,就变成一种自动化的动作。”

  数字人无法实时交互的话,就缺少了很多应用场景,只能用于生产视频,因此数字栩生的研究方向就是生产能够实时交互数字人。“只有在数字人能实现交互以后,他才可以干很多事情,脱离了原来的偶像身份,走进千家万户了。这是一种跨时代的新技术,在国内也是先进的。”

  宋震介绍,目前公司的几个联合创始人,背景都跟虚拟世界相关,他个人的主要研究方向是仿真,研究怎么把世界虚拟化,而合伙人则分别是研究VR、AR的。“怎么在虚拟世界里去做更沉浸的交互,共同点就是虚拟世界。五六年前,我们发现了一个痛点,虚拟世界里的人质量很差,传递不了、也表达不了任何的东西,就是个假人。如果想达到非常真实的交互,需要付出的代价非常大,周期长、成本高,邓丽君这一版的数字人做了两年。这样的话,如果想进行大规模的商业化是不可能的。我们就围绕着这个痛点,想着怎么在虚拟世界里做好一个能交互的高真实的数字人。数字人的真实度的追求是无止境的,所以目前数字栩生锁定的客户主要是要求更高的类型,“未来我们在不断地提高,同时也努力降低数字人的生产成本,让更多的人能用上,需求和成本之间更加匹配。”

  从产业发展来看,数字人现在才刚刚崭露头角,其实人最喜欢的是人和人的交互。“我并不认为数字人是台机器,对人机交互来讲,它是一场革命。”宋震说。

  “我们的愿景是以数字技术构建人性光芒,帮助用户创造价值,让人机交互不再是冷冰冰的屏幕,为生活带来更多美好的情感。”宋震表示会持续致力于改变人机交互的方式,“目前,我们跟手机、电脑的交互是没有感情的,希望将来在AI技术的支持下,跟机器交互的时候,实现情感的连接和流动,让更加真实的数字人参与进我们的生活。”

  作者:孙媛媛

  编辑:于靖园

  审核:龚紫陌


作者:综合
责任编辑:康小君
来源:科学强国微信公众号
热点文章
独家专稿