元宇宙之数字虚拟人专题研究：科技人文的交点，赋能产业的起点

来源 | 未来智库2022-03-11 17:30:53

1、虚拟人概览定义：数字虚拟人是拥有数字化外形的虚拟人物数字虚拟人的广义定义为数字化外形的虚拟人物，具有“虚拟”（存在于非物理世界中）+“数字”（由计算机图形学、图形染、动作捕捉、深度学习、语音合成等

1、虚拟人概览

定义：数字虚拟人是拥有数字化外形的虚拟人物

数字虚拟人的广义定义为数字化外形的虚拟人物，具有“虚拟”（存在于非物理世界中）+“数字”（由计算机图形学、图形染、动作捕捉、深度学习、语音合成等计算机手段创造及使用）+“人”（具有多重人类特征，如外貌、人类表演/交互能力等）的综合产物。打破物理界限提供拟人服务与体验是其核心价值。

实现场景角度，目前以图片、视频、直播等为主，未来VR设备/全息投影有望为数字虚拟人在现实世界的投射提供更丰富的道具和软硬件基础。由于各场景时延（如直播等实时场景要求低时延，但内容生成场景无该要求）、驱动方式（计算驱动对模型的深度学习能力有极高要求）等不同，对技术、运营等要求差异较大。

技术角度，数字虚拟人近年的发展来源于CG、语音识别、图像识别、动捕等相关技术的共同成熟，除CG建模+真人驱动的类别外，多模态技术与深度学习成为未来核心点。 ✓ 我们认为“人”是其中核心的因素，高度拟人化（外貌形象、行为表情、交互的拟人程度）为用户带来的亲切感、参与感、互动感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验，是数字虚拟人在各个场景中取代真人重要标准。

2、虚拟人技术

技术：视觉制作层面建模、动/面捕捉、渲染为核心制作技术环节

数字虚拟人的制作涉及众多技术领域，且制作方式尚未完全定型，《2020年数字虚拟人发展白皮书》总结出在“数字虚拟人通用系统框架”，包含任务形象、语音生成模块、动画生成模块、音视频合成显示模块以及交互模块。在此基础上提炼出五横两纵的技术架构。“五横”是指用于数字人制作、交互的五大技术模块，即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中，人物表达包括语音生成和动画生成，动画生成则包含驱动（动作生成）和渲染两大部分。“两纵”是指 2D、3D 数字人，3D 数字人需要额外使用三维建模技术生成数字形象，信息维度增加，所需的计算量更大。数字虚拟人视觉制作部分的工业化流程，涵盖了建模、骨骼绑定、动捕、面捕、渲染、材质解算等各个环节。

技术层面

建模：相机阵列扫描静态重建为主流，动态光场重建为发展重点

数字虚拟人建立的第一步需要进行前期的形象设计以及建模。2D数字虚拟人需要原画等形象设计，而3D数字虚拟人需要额外使用三维建模技术生成数字形象，信息维度增加，所需的计算量更大，无论是基于IP或者真人设计，都需要进行面捕以及身体的建模。

3D建模技术目前主要包含静态扫描建模以及动态建模两类： 静态扫描建模仍为主流，其中相机阵列扫描重建快速发展，目前可实现毫秒级高速拍照扫描（高性能的相机阵列精度可达到亚毫米级），满足数字人扫描重建需求，替代结构光扫描重建成为当前人物建模主流方式。相比静态重建技术，动态光场重建不仅可以重建人物的几何模型，还可一次性获取动态的人物模型数据，并高品质重现不同视角下观看人体的光影效果，成为数字人建模重点发展方向。海外Microsoft、Google、Intel、Facebook 等巨头公司都在积极展开相关研究，国内清华大学、商汤科技、华为等也展开了相关研究，并取得国际水平的同步进展。

建模绑定技术：技术突破不断

2018年，腾讯游戏旗下NExT Studios高保真数字虚拟人Siren(塞壬)亮相GDC，其高还原度媲美真人的形象，以及可实时驱动的表情动作；制作中“绑定技术“环节就耗费了大半年时间。 2021年6月，由新华社、腾讯联合打造的全球首位数字航天员、数字记者“小诤”首次出现新华社数字视频中，带领用户漫游三大空间站；小诤项目的绑定流程较 Siren(塞壬)项目缩短了一半，依靠的就是创作团队创新沉淀出的高效人脸制作管线——xFaceBuilder。

驱动技术：智能合成、动作捕捉为虚拟人主流动作生产方式

驱动动作技术包括手动调节关键帧、预制动作、动作捕捉、智能合成（文字/语音驱动）等。手动调整动画关键帧与预制动作（类似MMD）无法实现实时互动。

智能合成：其中2D、3D数字人均已实现嘴型动作的智能合成，其他面部/ 身体部位的动作智能合成未能完全实现。（报告来源：未来智库）

动捕：通过将捕捉采集的动作迁移至数字虚拟人是目前动作生成主要方式，核心技术是动作捕捉。可分为光学式、惯性式及计算机视觉动捕等。现阶段光学式和惯性式动捕占据主导。计算机视觉动捕虽然相对开发难度大，目前精度较低，但就成本/对环境要求低，可移动范围大，使用场景想象力较大，目前已有消费级应用（部分VR设备采用），成为聚焦热点。

渲染技术：硬件与算法突破，渲染真实与实时性大幅提升

渲染技术，是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来的过程。主要由离线与实时渲染两种类型。

离线渲染，就是在计算出画面时并不显示画面，计算机根据预先定义好的光线、轨迹渲染图片，渲染完成后再将图片连续播放，实现动画效果。优点是渲染质量相对好，美学和视觉效果好，缺点是无法实时控制，主要应用于影视等方面，代表性软件包括Maya、3DMax等。

实时渲染，是指计算机边计算画面边将其输出显示，优点是可以实时操控，缺点是要受系统的负荷能力的限制，必要时要牺牲画面效果，主要应用于游戏等方面，代表引擎包括Unreal Engine（虚幻）、Unity Engine等。

随着硬件能力的提升和算法的突破，渲染速度、效果真实度、画面分辨率均大幅提升，在虚拟人物实时渲染方面，已经能做到以假乱真。2016年，EpicGames （虚幻引擎开发商）联合 3Lateral、Cubic Motion等公司联合开发的可实时驱动的虚拟人物在当年的Siggraph会议中做了演示，成功在消费级的硬件环境下实时渲染了高质量的虚拟角色。2018年5月，腾讯发布虚拟人Siren，也一个支持实时渲染的虚拟人物。

技术层面：交互式数字虚拟人可分为真人/计算机驱动两种

从驱动技术角度来看，交互型数字虚拟人可分为真人和计算机驱动两种类型。

真人驱动型数字虚拟人，以真人为核心，用户可以通过3D建模、动作捕捉技术、渲染等技术，在网络上形成真人的虚拟化身，在动作灵活度、互动效果等方面有明显优势，一方面能够在影视内容的创作中减低生产成本，为影视行业降低门槛，推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中，帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。

计算机驱动型数字虚拟人，以深度学习技术为主，本质上还是算法，但会拥有一个定制化的虚拟外表。计算驱动的数字虚拟人最终效果受到语音合成（语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯）、NLP技术（与使用者的语言交互是否顺畅、是否能够理解使用者需求）、语音识别（能否准确识别使用者需求）等技术的共同影响。尽管在特定方向上，各感知类技术已有的商业化能力已足以支撑，然而，但要达成理想的综合效果，需要该公司在三个方面同时具有较强的综合能力。

3、虚拟人应用市场及商业模式

虚拟偶像

2022年核心市场规模将达121亿：根据艾媒数据，虚拟偶像在网民中的认可度较高，以网民总数10.11亿（《中国互联网络发展状况统计报告》2021年6月数据）计算，2021年深度+浅度追星人群占比超80%，约8亿人；而在追星群众中63.6%关注支持虚拟偶像，则预计有超5亿人为虚拟偶像受众，随着虚拟偶像应用面铺开，渗透率有望进一步提升。根据艾媒数据，2020年中国虚拟偶像核心市场规模为34.6亿元，YOY+69.3%，预计2021-2023年中国虚拟偶像核心市场规模分别达62.2/120.8/205.2亿元， YOY+79.6%/+94.3%/+69.8%；2020年虚拟偶像带动市场规模为 645.6亿元，YOY+70.3%，预计2021-2023年分别达1074.9/1866.1/3334.7亿元， YOY+66.5%/+73.6%/+78.7%。

用户范围广、花费多、时长长：根据艾媒数据， 2021年虚拟偶像用户中29-30岁青年群体占比超90%，男女比例相对均衡，高收入人群居多。而中国网民中近50%用户为虚拟偶像月均花费金额超500元，且86.5% 的用户为虚拟偶像的花费与现实偶像持平或者更多；近75%的用户为虚拟偶像日均花费时间超过1小时。随着二次元领域的主要受众群体90/00后的逐渐拥有了自主消费能力，虚拟偶像在流量变现、内容变现等方面将会获得更好的支撑，具有非常强的忠诚度、号召力以及商业变现前景。

虚拟分身

游戏行业虚拟形象需求扩大：虚拟分身（AVATAR）满足个人在虚拟世界中为自己创造独特形象的身份需求，在社交、游戏等领域被反复验证。游戏需要玩家带入角色，对人设天然要求高。随着硬件技术迭代，游戏在画面精细度和角色操控自由度方面越发强大，游戏厂商有较好的虚拟形象技术沉淀。以最典型的RPG为例，在2021年近3000亿游戏市场规模中，TOP100收入移动游戏中， RPG（角色扮演类游戏）占比达31.3%，较20年30.9%仍有一定提升。RPG游戏开始只有低还原度/有限的角色选择，逐渐升级至设置自由度极高的“捏脸”系统，可以让玩家根据自己的审美细化设定角色外观，加强第二分身的游戏沉浸感、真实感。

虚拟社交构建元宇宙支撑框架，虚拟分身成为元宇宙入口。浸式体验，虚拟社交平台用户通过打造自己的虚拟形象进行社交互动，将人与人更轻松地相互连接起来。社交平台的拓展和深化，铸造了元宇宙的支撑框架，元宇宙最终要实现多个个体在虚拟世界的交互，在聚合用户的过程中社交平台起到了关键作用。国内虚拟社交头部公司集中布局，先后上线获测试虚拟社交产品。如字节派对岛（内测）、百度息壤、腾讯超级QQ秀、网易瑶台等，SOUL、BUD、啫喱等社交 APP也相继涌现。海外虚拟社交以VR平台为主流，包括Vrchat、Horizon 等。

4、产业链及相关公司分析

基础层：海外公司形成较深的技术壁垒

基础层为数字虚拟人提供基础软硬件支撑，硬件包括显示设备、光学器件、传感器、芯片等，基础软件包括建模软件、渲染引擎。显示设备是数字人的载体，既包括手机电视、投影、LED显示等2D显示设备，也包括裸眼立体AR、VR等3D显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI计算。建模软件能够对数字虚拟人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染，主流引擎包括 Unity 公司的Unity 3D、Epic Games公司虚幻引擎等。总体来看，处于基础层的厂商已经深耕行业多年，已经形成了较为深厚的技术壁垒。

平台层：建模渲染

平台层包括软硬件系统、生产技术服务平台、AI 能力平台等为数字虚拟人的制作及开发提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息，利用软件算法实现对人物的建模、动作的重现；渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI 能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多，腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。

头部厂商——腾讯：游戏IP可开发虚拟人形象，加码AI和虚拟人制作技术研究

供了大量的素材；②旗下NExT Studios、腾讯云和 AI Lab 深入研究虚拟人制作技术和AI技术。

游戏IP：先后推出QQ炫舞-星瞳，英雄联盟-KDA女团。 ✓ NExT Studios：拥有独立的照相建模实验室、高质量人脸制作管线、给予光学动捕的动画生产管线，极大提高了虚拟人的制作效率。（报告来源：未来智库）

AI Lab：由 100 余位来自世界知名院校的科学家，以及 300 多位经验丰富的应用工程师组成，并与世界顶级院校与机构合作。目前已打造出AI虚拟人“艾灵”，可以展示AI作诗、AI书法等国风才艺，也可以与歌手展开跨次元合作。

腾讯云：提供虚拟人实时渲染解决方案。接入轻量级SDK，即可将虚拟人和场景搬上云端实时渲染，享受稳定、高画质、低延时体验。支持使用 iOS 及安卓设备采集语音、脸部及身体动作，同时也支持动捕设备数据传输至云端。支持观众进入虚拟场景与主播互动等超前玩法，打造更强的参与感和沉浸感。兼容原创虚拟人、虚拟场景等多类型数字资产，支持与直播、演唱会等场景耦合。

头部厂商——阿里：开发虚拟人应用于电商，达摩院 XR实验室完善底层技术

阿里在虚拟人方面主要分为两个方向：①开发虚拟人应用于电商；②达摩院 XR实验室深入研究虚拟人技术。

应用于电商的虚拟人：①电商AI虚拟模特塔玑。商家只需要上传一张商品的平铺图，就可以生成模特的实拍图，用于店铺的商品详情页。AI模特利用创新算法技术在目标人脸（Target Face）模块基础上，生成成千上万种五官组合，形成全世界独一无二的虚拟人脸，降低了商家被盗图的风险。同时利用算法技术将服装平铺图转化成 3D图“穿”在模特身上，直接降低了商家上新的人力和财力成本。②淘宝人生。用户可定制自己的虚拟形象。③邀请虚拟人代言：引入天猫超级品牌日数字主理人 AYAYI。

XR实验室：为阿里达摩院下X实验室中的XR实验室，致力于研究物品与人物的三位建模、高真实感渲染、自然人机交互、大场景地图与定位、机器人抓取操纵领域。将产品运用于：

①全息店铺：通过自研硬件设备对室内外空间扫描建立VR店铺模型，并在移动端提供VR展现。可基于VR店铺模型叠加各类空间信息和服务，如商品信息、订购导览等，也可以在VR店铺模型中嵌入虚拟人，如虚拟导购员等。

②AR平行世界：通过自研硬件设备对室内外空间扫描建立三维高精地图，并通过摄像头在地图中实现高精度定位，实现AR导航、AR信息叠加、AR打卡拍照、AR虚拟客服等能力。同时提供内容生产平台，帮助企业轻松实现各类效果定制化。

③IDC智能运维机器人：由XR LAB自主设计开发的、具备机械臂控制能力的数据机房运维机器人，通过视觉与触觉融合的复杂操作控制算法，具备在数据中心实现“自动更换硬盘、精细化巡检、自动资产盘点”的三大核心业务能力，为数据中心提供无人值守、无人巡检和数据安全的完整解决方案。

报告节选：

元宇宙之数字虚拟人专题研究：科技人文的交点，赋能产业的起点