今日视点【diǎn】:单卡 30 秒跑【pǎo】出虚拟 3D 老婆!Text to 3D 生成看清毛孔细节的高精【jīng】度数字人【rén】,无缝衔接 Maya、Unity 等【děng】制作【zuò】工具

2024-9-21 15:19:07来源:量子位

ChatGPT 给 AI 行【háng】业注入一【yī】剂鸡血【xuè】,一切曾经的【de】不敢想,都成为【wéi】如今【jīn】的基操。

正持续进击的Text-to-3D,就被视【shì】为继 Diffusion(图【tú】像)和【hé】 GPT(文字)后,AIGC 领域【yù】的下一【yī】个前沿热点,得到了【le】前所未有【yǒu】的关注度。

这不,一款【kuǎn】名为【wéi】 ChatAvatar 的产品低调公【gōng】测,火速【sù】收揽超 70 万浏【liú】览【lǎn】与关注,并登【dēng】上抱抱脸周热门(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持从 AI 生成的单视角 / 多视【shì】角【jiǎo】原【yuán】画生成【chéng】 3D 风格【gé】化角色的 Image to 3D 技【jì】术,受到了广泛关注

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由此吸【xī】引不少网友【yǒu】纷【fēn】纷试用并贡献脑洞。有人【rén】拿这【zhè】款【kuǎn】产品和 ControlNet 结合,发现效果细腻【nì】写【xiě】实到有些【xiē】出乎意料。这款使用起来几【jǐ】乎零门槛的 Text-to-3D 工具名叫ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据【jù】了解,这【zhè】是全球首【shǒu】款 Production-Ready 的 Text to 3D 产【chǎn】品,通过简单的文【wén】本,例【lì】如一个明星的名字、或是某个想要的【de】人【rén】物长相,就能生成影视级的 3D 超写实数字人资【zī】产。

效率也非常高,平【píng】均仅需 30 秒,就能做出一张以假乱【luàn】真的脸【liǎn】——甚【shèn】至【zhì】是你自【zì】己的。

未来,生成领域还将拓展到其他三维资产。

并【bìng】且该【gāi】模型带有【yǒu】规整的拓扑、带有【yǒu】 4k 分辨率【lǜ】的 PBR 材【cái】质【zhì】,同时带有绑定,可以直【zhí】接【jiē】接入 Unity、Unreal Engine 和 Maya 等制作引擎的生产管线中。

所以【yǐ】,ChatAvatar 到底是【shì】怎【zěn】样一个 3D 生成工【gōng】具?背后究竟用到了什么技【jì】术?

30 秒完成一次 " 画皮 "

亲【qīn】身体【tǐ】验 ChatAvatar 的玩法【fǎ】发现,可以说是真【zhēn】 · 零【líng】门槛。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能按需生【shēng】成 3D 人【rén】脸,并覆盖【gài】一张【zhāng】贴合模型的【de】真实 " 人皮 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体验过程中,我们向【xiàng】 ChatBot 描【miáo】述了这样一个【gè】想【xiǎng】要生成的 3D 形象:点击【jī】左侧的 Generate 按钮,平均 10s 不到,屏【píng】幕上就出【chū】现根【gēn】据描述【shù】生成的 9 种不同 3D 人脸的初【chū】始雏形。

随意选择其中【zhōng】一【yī】种后,会基【jī】于选择继续优【yōu】化模型和【hé】材质,最后出【chū】现【xiàn】覆盖皮肤【fū】后的模【mó】型渲【xuàn】结果,并展【zhǎn】现不同光影下的渲染效果——这【zhè】些渲【xuàn】染在浏览器内实时完成:

用鼠标拖【tuō】动,还能旋转头部,并放大看更【gèng】细节的【de】局部效果,毛孔【kǒng】和痘痘都清晰可见:值得一提的是,如果用【yòng】户是个【gè】提示工程高手,直接【jiē】在【zài】左侧框【kuàng】中输入 prompt,同样可以完成【chéng】生成【chéng】。

虽然 beta 版本【běn】还没【méi】上线发型功能【néng】,但【dàn】整体【tǐ】而言,最后【hòu】生成【chéng】的【de】 3D 数字人资产与描述内容已经有高匹配度。

官【guān】网上【shàng】还陈【chén】列了许多 ChatAvatar 用【yòng】户的【de】生成资产,不同人种、不【bú】同肤色、不同年龄,喜怒哀乐【lè】,美丑胖瘦,各式【shì】相【xiàng】貌应有尽有。

总【zǒng】结一【yī】下 ChatAvatar 这款产品生成 3D 数字【zì】人资产【chǎn】的效果亮点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根据官方宣传片【piàn】介绍,ChatAvatar 甚至可以进一步生成【chéng】超出【chū】人类范畴【chóu】的【de】角色,如【rú】阿凡达等影视作品中【zhōng】的角色【sè】:最重【chóng】要的是,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这【zhè】意味着,ChatAvatar 生成的 3D 资产可以【yǐ】直接接【jiē】入游戏和影视生产【chǎn】流程。

当然,在正式接入工业流程之前,首轮公测,ChatAvatar 已经吸引了数千【qiān】名【míng】艺术家和专业美【měi】术人【rén】员【yuán】参【cān】与,推特【tè】相关【guān】话题受到【dào】近百万的浏览与【yǔ】关注。

随随便便一条推文,浏览量都能破 50k。

积攒了【le】大批 " 自【zì】来【lái】水【shuǐ】 " 不是没有原因,看看 3D 的爱因斯坦之【zhī】脸,试问谁不【bú】说一句真的很像?要是【shì】和 ControlNet 结【jié】合【hé】,生成效果不亚于单反相【xiàng】片直【zhí】出【chū】:已经【jīng】有不少用户体验后【hòu】,开【kāi】始畅【chàng】想将这个 Text-to-3D 工具大规模应用在游戏、影视等工业应用上了。

据了解,用户【hù】反馈会【huì】成为 ChatAvatar 团【tuán】队快速迭代和【hé】更新的重要依据,形成数【shù】据飞轮,以便及时提供【gòng】更【gèng】加完整和贴【tiē】近需求的功【gōng】能。

事实上,对【duì】于此前的 3D 行业设【shè】计师或公司来说,大部分 AI 文字转 3D 应用并非效果不好【hǎo】,但实际落【luò】地到【dào】工【gōng】业设计流程【chéng】上,还【hái】是有不少【shǎo】难度【dù】。

这次 ChatAvatar 能【néng】如此出【chū】圈,背后究竟有什么技术【shù】上的原【yuán】因【yīn】?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要【yào】替代人类,事实上【shàng】仅仅就 Text-to-3D 领域【yù】,就并非【fēi】那么容【róng】易替代。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么【me】理解?从【cóng】专【zhuān】业 3D 美工设【shè】计的视角来说,至【zhì】少有三个方面——

质量、可控性和生成速度。

首先是质量。尤其【qí】是对于强调视觉效果的影视、游戏行业【yè】来说,要想生成符【fú】合管线要求的 3D 资产,拓【tuò】扑规【guī】整度、纹理贴【tiē】图的精度等【děng】 " 行【háng】业【yè】潜规则 ",都是【shì】 AI 产品【pǐn】第一道必【bì】须【xū】迈过去的坎。

以拓扑结构的规整度【dù】为例,这里本质上指的是 3D 资【zī】产【chǎn】布【bù】线的【de】合理【lǐ】度。

对于【yú】 3D 资产来说【shuō】,拓扑的规整【zhěng】度【dù】,往【wǎng】往直接影响物【wù】体的动画效果、修改处理效【xiào】率和贴图绘制速度:

据【jù】行内 3D 美工设计【jì】介绍【shào】,手工重拓扑的时间成本往往比制作 3D 模型【xíng】本【běn】身【shēn】更【gèng】高,甚至按倍数以计【jì】。这【zhè】意【yì】味【wèi】着即使【shǐ】 AI 模型生【shēng】成的 3D 资产再炫酷,如果生成的拓扑规整度达【dá】不到要【yào】求,成本就【jiù】无法从根本上得到降低。更别提纹理精度【dù】。

影眸科技的 ChatAvatar 项目在生成质量【liàng】、速度以及【jí】标准兼容【róng】上相比【bǐ】先【xiān】前的【de】工【gōng】作都有明显的提升

以目【mù】前游戏、影视【shì】行业普遍要求的 PBR 贴图为例,包含的反【fǎn】射【shè】率贴图、法线贴【tiē】图【tú】等一【yī】系【xì】列贴图,相当于 2D 图像 PSD 文件的 " 图【tú】层 ",是 3D 资产流水线生产必不可少的条件【jiàn】之一。

然而,目前 AI 生成的 3D 资产往往是【shì】一个 " 整体 ",少有能【néng】按要求单独【dú】生成符合产业环境的【de】 PBR 贴图的效【xiào】果【guǒ】。

其次是【shì】可控性【xìng】,对于生成式 AI 而言【yán】,如何让生【shēng】成【chéng】的内容更加 " 可【kě】控 ",是 CG 产【chǎn】业对于这【zhè】项技术提【tí】出的又一大要求。

以大众所熟知的 2D 产【chǎn】业【yè】为例,在 ControlNet 出【chū】现之前,2D AIGC 行业一直处在一种 " 半摸【mō】黑前进【jìn】 " 的状态【tài】。

也就是说,AI 能生成指定类别的物【wù】体画【huà】面,却【què】无法生成指定姿态的物【wù】体,生成效果全靠提【tí】示【shì】工【gōng】程和【hé】 " 玄学 "。

而【ér】在 ControlNet 出现后,2D AI 图像生【shēng】成的可控性获得【dé】了【le】突【tū】飞猛进【jìn】的提升,然而对于 3D AI 而言,要想生成对应效果的资产【chǎn】,很大【dà】程度上【shàng】依旧【jiù】得依靠【kào】专业的【de】提示工程。

最【zuì】后是生成速【sù】度。相比 3D 美工设计而【ér】言,AI 生成的【de】优势在于速度,然而【ér】如果 AI 渲染的速度【dù】和效果无【wú】法与人【rén】工匹敌的话【huà】,那么这项【xiàng】技【jì】术依旧无法【fǎ】给产业带来收益。

以【yǐ】当前在 AI 技术上【shàng】颇受欢迎的 NeRF 为例,其产业【yè】化【huà】落地就面【miàn】临速度和质量【liàng】的兼容性难题。

在生成质量较高的情【qíng】况下,基【jī】于 NeRF 的 3D 生成往往需要相当【dāng】漫长的时【shí】间【jiān】;然【rán】而如果追求【qiú】速度,即使是【shì】 NeRF 生【shēng】成的 3D 资产便完全无法【fǎ】投入产业使用。

但即【jí】使解决【jué】了这个问题,如何在不损失精度的前提下【xià】让 NeRF 与【yǔ】传统 CG 行业的【de】主流引擎【qíng】兼【jiān】容【róng】仍然是一个巨大的问题【tí】。

从【cóng】上面的产【chǎn】业【yè】标准化流程不难发现,大部【bù】分 AI 文本转 3D 应用落地【dì】存在【zài】两大瓶颈

一个是需要手动【dòng】完成提示工程,对于【yú】非 AI 专【zhuān】业【yè】人士、或不了解 AI 的【de】设计【jì】师【shī】来说不够友【yǒu】好;另一个是生成的 3D 资产往往不【bú】符合【hé】产业标准,即使再【zài】好看也无法【fǎ】投入【rù】使用。

针对这【zhè】两【liǎng】点,ChatAvatar 给出了两点具体【tǐ】有效的解决方案。

一方面,ChatAvatar 实现了【le】除手动输【shū】入提示工【gōng】程【chéng】外【wài】的第二【èr】条道路,也是【shì】更【gèng】适合【hé】普通人的一条捷径:通过 " 甲方模式【shì】 " 直接【jiē】对话描述需求。

团队官方【fāng】推特介【jiè】绍称,为了实现这一【yī】特【tè】性,ChatAvatar 基于 GPT 的能力,开【kāi】发了一种【zhǒng】对话描述转人像特征的方【fāng】法。

设计师只需要不【bú】断和 GPT 聊天,描述自己想要的 " 感【gǎn】觉 ":

GPT 就能自动帮忙完【wán】成【chéng】提示【shì】工程,将结果【guǒ】输送给 AI:换而言之,如果说【shuō】 ControlNet 是 2D 行业的 "Game Changer",那么对于 3D 产业来说【shuō】,能实现文本转 3D 的 ChatAvatar,无异于行业【yè】的游戏【xì】规【guī】则改【gǎi】变者。

另一【yī】方面更为【wéi】重【chóng】要,那就是 ChatAvatar 能完美兼容 CG 管线,即生成的【de】资【zī】产在拓扑结构、可【kě】控性和速度【dù】上都符【fú】合产业要求。

同时,生成的模型和高精度材【cái】质贴图,还能【néng】在后期的渲染中达【dá】到极为逼真的渲染效果【guǒ】。

为了实现这【zhè】样的效果,团队【duì】为【wéi】 ChatAvatar 自【zì】研了一个【gè】渐进式 3D 生成框架 DreamFace。

其中的关键【jiàn】,在于【yú】训练【liàn】该模【mó】型用的底层数据,即影眸科技基于 " 穹顶光【guāng】场【chǎng】 " 采集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过引入外部 3D 数据库,DreamFace 能【néng】够直接输【shū】出【chū】符合 CG 流程的【de】资产。

生成的资产驱动渲染的效果

上述两大技【jì】术瓶颈的【de】解决【jué】,本质【zhì】上【shàng】进【jìn】一步加速了 AIGC 洪流下," 生成 " 将【jiāng】取代 " 搜索 " 的时代趋势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此前,我【wǒ】们需要找到【dào】一张符【fú】合需求的图片或者资【zī】产【chǎn】时,通常会使用搜索引擎【qíng】进行【háng】查询。

ChatAvatar 项目【mù】主页上展示的巨大的 " 搜【sōu】索框 " 和整齐的资产【chǎn】卡【kǎ】片,看【kàn】似搜索引擎,但实际【jì】上是一种【zhǒng】与搜索截然不同【tóng】的资产【chǎn】查找方式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以前,如果我们需【xū】要一张插图,可能【néng】要在多个图【tú】库中反复【fù】搜【sōu】索,或【huò】是通过 Photoshop 合成、手绘【huì】等【děng】较复杂的方式才能得【dé】到【dào】结果【guǒ】。但在 Stable Diffusion 等技术出现后,你只需要通过文字描述【shù】想要的【de】图【tú】像,就能直接【jiē】生成符合需求的结果。

这【zhè】对于传统的资【zī】产库来说【shuō】是【shì】一个巨大的冲击。而 ChatAvatar 的目标,正是【shì】用 3D 生成替代【dài】传统的搜【sōu】索式 3D 资产库【kù】。

AIGC 领域的下一个前沿热点

ChatGPT 一石激【jī】起千层浪,进入 AI 2.0 时代之【zhī】后,人们的目光【guāng】也投向包含图【tú】像、视频、3D 等信息【xī】的【de】多模态 AI。

仅就 3D 生成领域而言,无【wú】论【lùn】是影【yǐng】视还是【shì】游戏行业【yè】,3D 内容生【shēng】产和【hé】消费市场已经拥有足【zú】够大的【de】规模,但在制作层面却因技【jì】术难度【dù】遭遇掣肘。

譬如,文本【běn】领域大行其道【dào】的【de】 Transformer,在 3D 生成领域的使用还【hái】相对有限。

去年夏天,当文生图领域因【yīn】 Diffusion Model 取得成【chéng】绩后,人们开始期待文字生成 3D有同样惊【jīng】艳的表【biǎo】现。一【yī】旦生成式 AI 的【de】 3D 创作技术成熟,VR、视频等的内容创【chuàng】作都将起【qǐ】飞。

扩散模型 Midjourney5.1 生【shēng】成的 " 梵高【gāo】风【fēng】摄影 "

事实上【shàng】,无【wú】论是科技【jì】巨头还【hái】是初创公司,的确都在朝 Text-to-3D 这个方向暗【àn】暗发【fā】力。

去【qù】年 9 月,谷歌发布了基于【yú】文本提示生成【chéng】 3D 模型的 FreamFusion,声称不需【xū】要 3D 训【xùn】练数据,也不【bú】需要【yào】修改图像扩【kuò】散模型【xíng】。紧随其后,Meta 也推【tuī】出可以从【cóng】文本一键生【shēng】成视频的 Make-A-Video 模型。

后来的【de】 Text-to-3D 的 AI 模型队伍中,还先后出现了英伟达 Magic3D、OpenAI 最新开源【yuán】项目【mù】 Shap-E 等,今年 8 月【yuè】将举办的计算【suàn】机图形顶会 SIGGRAPH 2023 所【suǒ】展示的论【lùn】文,也【yě】有多【duō】篇与【yǔ】 Text-to-3D 有关。

影眸科技有【yǒu】关【guān】文【wén】本指导的渐进式 3D 生【shēng】成框架 DreamFace 的论文,就是【shì】其【qí】中之一。

而 ChatAvatar,也是目前【qián】为【wéi】止最集中【zhōng】在 3D 数字人资产【chǎn】方向的生成式模型产品【pǐn】。

其背后的 AI 初创公司影眸科技,2020 年孵化自上海科技【jì】大学【xué】 MARS 实验【yàn】室,成立后获【huò】得奇绩创坛与红杉种子【zǐ】的【de】两轮投资【zī】。

公司专注于专【zhuān】注于计算【suàn】机图形学【xué】、生成式 AI 的【de】研究与【yǔ】产品化。2021 年,AIGC 还未掀起巨浪之时,公【gōng】司就已经【jīng】推出国内首个 AIGC ToC 绘【huì】画应用 Wand,产品一度登【dēng】顶 AppStore 分【fèn】区榜首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将【jiāng】首【shǒu】个商业化【huà】场景具体【tǐ】锚定在数字人后,ChatAvatar 是他【tā】们乘 AIGC 东风在该【gāi】方向的最新进展。

作为一个新推出的产品,ChatAvatar 在【zài】兼容性【xìng】、完成度和精【jīng】度等【děng】产品效果层面,都超出了影【yǐng】眸【móu】团队预期。然而在吴迪口中,行【háng】至此处的过程【chéng】 " 很狼狈 "。

主要【yào】原因不外乎 " 缺人 " 一事。目前,影眸已经在多类别 3D 生成【chéng】技术上取得了进展【zhǎn】,下一步还计划推【tuī】出【chū】 "3D 生【shēng】成【chéng】大模型 "。

影眸科技将【jiāng】于 5 月【yuè】上线首个多模态跨平【píng】台 3D 搜索引【yǐn】擎 Rodin,打【dǎ】通 Sketchfab 等多【duō】个 3D 资产平【píng】台,支持以文搜 3D、以图搜 3D 甚【shèn】至以 3D 搜 3D。搜索引【yǐn】擎只【zhī】是 Rodin 的初【chū】级形态,影眸将把【bǎ】 Rodin 打【dǎ】造为 3D 生成大模型。

需要持【chí】续向前【qián】推【tuī】进,就需要更【gèng】多【duō】的工程化【huà】团队、技术【shù】美术和拥【yōng】抱生成式 AI 的【de】产品人才【cái】加入团队。作【zuò】为【wéi】一个以研发为背景主基调的团队,这样的人才仍然紧【jǐn】缺。

" 人【rén】是万物的尺【chǐ】度【dù】," 吴迪表示【shì】道," 我们需要更多【duō】志同道合【hé】的人加入,共同推动 3D 领域的创新发展【zhǎn】。"

可以看到,ChatAvatar 背【bèi】后技术【shù】从无【wú】到有的搭建,揭示了一家【jiā】 AI 初【chū】创公司的不【bú】断创【chuàng】新;而从这家公司对人才的渴【kě】望以小见【jiàn】大,更揭【jiē】示【shì】着 AIGC 浪潮下【xià】,每一个细【xì】分领域想要从水下浮出水面的心。

你愿意拥抱生成【chéng】式 AI,成【chéng】为【wéi】 Text-to-3D 领域的【de】 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件