欢迎访问中国企业网
当前位置:首页 > > 正文

天工一刻 | 一文看懂3D大模型

发布时间:2024-09-28 03:46分类: 浏览:182评论:0


导读:随着大模型技术迎来颠覆性突破,新兴AI应用大量涌现,不断重塑着人类、机器与智能的关系。为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技...


随着大模型技术迎来颠覆性突破,新兴AI应用大量涌现,不断重塑着人类、机器与智能的关系。

为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。


3D大模型,正在成为下一个风口。
自2023年年底以来,一大批AI 3D模型生成相关技术取得突破,Meta、Adobe、Stability AI,以及VAST(Tripo AI)、sudo AI、Meshy AI、Rodin等海内外玩家动作频频。

今年3月以来,arXiv上的3D生成(3D Generation)论文数量更是从200+篇/月飙升至400+篇/月,几乎飙升100%——这背后是3D模型多项核心技术取得突破,大量新兴研究涌现。

与此同时,此前百花齐放的技术路径也在逐渐形成产业共识,步入收敛。
例如,在GAN、VAE、Diffusion等不同生成方案中,以Diffusion Transformer(DiT)为代表的大模型路径脱颖而出,逐渐成为当前的研究主流方案。
不过,当前,在3D生成技术路径上,仍然存在“2D升3D”“纯原生3D”“混合3D”的不同技术流派。

在过去半年甚至一年多的时间里,AI 3D生成技术发展堪称突飞猛进:3D模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时为单位的3D模型生成时间压缩到秒级,带来惊人的效率提升。
3D模型的GPT时刻,即将来临。


01.

传统3D模型设计:流程长、环节复杂、价格贵

大多数人对3D模型并不陌生。
最常见的是各类游戏、影视、动漫、CG中的3D人物与3D物品/环境。
当前,最精致的3D模型已经足以高度媲美真人。

(游戏《黑神话·悟空》截图)
此外,在VR、元宇宙、数字人等科技前沿赛道,3D模型也有着广泛的应用。
(央视新闻数字手语主持人)
对于处在三维空间中的人类来说,3D内容毫无疑问能够提供比文字、图片、视频更沉浸、更逼真的内容体验。
随着3D技术的发展,未来,人们甚至可以像《黑客帝国》《头号玩家》一样,创造出一个三维立体的、足以以假乱真的虚拟世界——元宇宙。
但正如文字-图片-视频-3D所承载的信息量呈指数上升,3D内容生产的复杂度也在急剧增加。

以传统3D模型的生成为例,其制作环节可分为:概念设计/原画、3D建模、UV拆分、烘焙贴图、绘制材质、动画制作、渲染等诸多环节。

根据模型的复杂度与精细度不同,一个3D模型的生产周期可能在数小时、乃至数天以上,成本范围在40美元~650美元之间。
流程长、环节多、程序复杂、价格昂贵,同时普遍依赖专业人员手动操作,一道道关卡将3D模型的制作门槛不断推高。
值得注意的是,当前的3D大模型远远做不到替代3D设计师,其生成的质量并未达到“开箱可用”的商业级别,而更像是Adobe、数位板这类帮助设计师减少重复劳动,提高生产力的工具。
3D大模型想要解决的,是3D制作流程中最耗费时间精力、最重复劳动的环节——建模与贴图,通过AI技术将3D设计师们从重复劳动中解放出来,更专注地投入到艺术创作当中。


02.

流派众多,百花齐放

评价一个3D模型生成效果,有以下几个核心指标:

1、几何模型的形状准确度;

2、纹理贴图质量效果与“几何-纹理”一致性;

3、3D模型生成速度

3D建模相关研究最早可以追溯到20世纪60年代末的线框模型(Wire Frame Model),此后已经历数十年发展。
此前,3D生成技术流派众多,在各种细分方向百花齐放。

按照生成方式分类主流3D生成的派别包括文生3D(text-to-3D)、图生3D(image-to-3D);


按照生成路径划分根据论文《A Comprehensive Survey on 3D Content Generation》的分类,可以将3D大模型生成分为:2D升3D(2D prior-based 3D generative)、纯原生3D(3D native generative)、混合3D(hybrid 3D generative)三大派别;


根据3D建模方案划分,可以分为:点云(Point Cloud)、网格(Mesh)、深度(Depth)、神经场(Neural Fields)、混合(Hybrid)等多种方案;

(3D生成模型技术发展路线,数据截止至2023年8月;来自论文《3D Generative Models: A Survey》)

根据3D生成模型划分,则包括GAN、VAE、Autoregressive、Diffusion等模型。

目前,3D大模型业内最新“新鲜”的研究成果来自Meta。
2024年6月25日,Meta发布了其最新3D大模型研究——Meta 3D Gen。这是一款文生3D(text-to-3D)大模型,其能够在数十秒(<1分钟)内生成几何形状准确、纹理材质优秀的3D模型。
准确来说,Meta 3DGen是一套组合模型,其几何形状与贴图纹理是两个步骤(2 Stages),分别由Meta 3D AssetGen、Meta 3D TextureGen两个模型生成。
(Meta 3D Gen生成流程,来自论文《Meta 3D Gen》)
这一技术路径将3D几何生成与3D纹理贴图作为两个步骤分别处理,其优势在于几何形状质量更好,而缺点在于会影响模型生成速度与几何纹理一致性。
目前,业内也有不少3D大模型方案选择1 Stage一步到位的端到端生成方案,几何与纹理同步输出生成,这一技术路径的优势在于速度与纹理效果,但缺点在于几何形状质量会受到纹理影响——如一张带有波点图案的水平桌面,可能会被3D模型识别为凹凸不平。
这两条技术路径各有千秋,目前业内尚未达成共识。
 

03.

3D大模型的三大主流路径

当前,3D大模型研究的最大挑战,不是算法、甚至也不是算力——而是数据。
训练数据短缺问题在文本、图像、视频大模型领域都存在,但在3D大模型领域格外严重。
昆仑万维董事长兼CEO方汉在接受媒体采访时曾表示,在3D模型生成赛道,全世界的数据只有1000多万,优质的数据只有200万。
3D数据资源少、清洗难度高、高质量3D数据资源难以获取……种种困难为3D大模型的打造形成了诸多限制。

因此,早期3D生成模型的研究思路以“2D升3D”为主——先生成多视角的2D图像,然后根据该图像生成3D模型。


01

2D升3D



这一思路的代表项目为2022年9月底谷歌推出的DreamFusion项目《DreamFusion: Text-to-3D using 2D Diffusion》。
与3D模型资源相比,文生2D图(text-to-image)领域拥有数十亿计的海量资源,因而谷歌DreamFusion项目采用了“2D升3D”的思路,先使用一个预训练2D扩散模型基于文本生成一张二维图像,然后引入Score Distillation Sampling(SDS)基于概率密度蒸馏的损失函数,生成高质量和复杂的三维结果。
这一方法的亮点在于无需任何3D数据预训练即可生成3D模型,开创了SDS路径的先河,也在随后催生出大量“2D升3D”的相关研究。
(2D升3D路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)
但与此同时,以SDS为代表2D升3D路线也存在生成速度慢、生成质量不可控等问题,其中最受关注的是由此带来的“多头”问题(Janus problem)——在生成的3D模型中,有时会出现两个甚至多个人物/动物头部,高度影响模型的合理性。
因而,近年间,原生3D又逐渐成为研究主流。
准确划分起来,原生3D又可以分为“纯原生”3D生成与“混合”3D生成两条路径。


02

“纯原生”3D


“纯原生”3D生成方案与通用大模型思路类似,采用端到端方案,首先使用海量3D数据集训练大模型,然后以前馈(feed-forward)方案生成3D模型。
(“纯原生”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)
这一路径的代表玩家毫无疑问有OpenAI——Scaling Law与大模型领域的坚定支持者。
2022年12月,OpenAI发布论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》,并开源了文生3D项目Point-E;2023年5月,OpenAI则进一步发布论文《Shap-E: Generating Conditional 3D Implicit Functions》,开源了升级版模型Shap-E。
(OpenAI于2022年底发布的Point-E大模型3D生成效果demo)

(OpenAI于2023年发布的Point-E大模型3D生成效果demo)
与文本大模型不同,在3D大模型领域,OpenAI并没有显著的领先优势
3D原生路径的真正代表玩家为Adobe于2023年11月推出的LRM项目《LRM: Large Reconstruction Model for Single Image to 3D》。
LRM是图生3D的代表模型,其拥有5亿参数,能够在5秒钟内实现图片-3D模型的生成。LRM采用高度可扩展的transformer-based架构,其突破性地将图生3D任务转换成了“将图片翻译为3D模型”的任务,并在100+万公开3D数据集上进行了训练。
Adobe的LRM项目因3D模型的生成质量与生成速度都有着极大提高,其发布后在学术与产业界引起了大量关注,并也从此催生了一大批相关研究。
不过,高质量3D数据稀缺依旧困扰着“纯原生”3D大模型的发展。因而,近年间,“混合”3D生成技术路径悄然兴起。


03

“混合”3D



混合3D是当下3D大模型最前沿的技术方向,也是昆仑万维3D大模型团队专攻的技术方向。

由于纯原生3D路径训练数据不足,而2D升3D路径只能提取有限的3D几何知识。

因此,在最新的混合3D路径中,大模型研发人员将3D信息注入预训练的2D模型,例如,通过多视角图像微调Stable Diffusion模型,使其能够生成稳定、一致的3D模型。

以困扰“2D升3D”路径的“多头”问题(Janus problem)为例,通过将多视角Stable Diffusion与大规模3D重建模型相结合,混合3D能够有效解决模型3D 几何生成质量问题,解决多头问题并提升模型生成速度。

(“混合”3D大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)

除了昆仑万维外,这前沿一思路的代表项目包括哥伦比亚大学的Zero123、加州大学与Adobe等的One-2-3-45、香港大学与腾讯游戏等的SyncDreamer、香港大学与清华大学等的Wonder3D、Adobe的Instant3D等等。

这一技术路径既利用了目前丰富的2D图像资源,规避了3D数据不足问题,又一定程度上突破了2D升3D带来的几何等多项问题。

当前,昆仑万维3D大模型团队坚持自研混合3D技术路线,在3D大模型两大核心领域(3D几何生成与3D纹理生成)均达到产业最领先水平。相较于同类产品,昆仑万维3D大模型有着极强的模型优势与数据壁垒,在3D大模型领域拥有三大产品技术亮点:

1.模型生成速度更快;

2.模型布线更加规则,方便接入游戏引擎;

3.模型纹理更加可控。

例如,在3D纹理生成领域,今年3月,昆仑万维联合北京大学、浙江大学、南洋理工大学共同发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》,该论文是3D大模型纹理生成领域的最前沿技术成果之一,其创造性地将深度信息(Depth)融入模型纹理生成环节,使得3D模型的纹理生成效果更稳定、更自然;项目的另一大亮点在于模型的可交互性,普通用户只需要通过简单的文字指令,就能实时改变3D模型的局部颜色、纹理,大幅降低3D大模型纹理生成的工业应用门槛。

(昆仑万维2024年3月发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》)

InTeX是一款可交互的、文生纹理(Text-to-Texture)大模型,用户可以通过简单的文字指令实时改变3D模型的局部纹理。

(InTeX文生纹理效果Demo)

该模型通过将深度信息(Depth)与 inpainting纹理贴图相结合,解决了目前常见的预训练深度Diffusion + inpainting模型方案存在几何-纹理不一致、不可控问题,提高了模型生成速度,并能够允许用户实现特定区域的重新绘制和精确的纹理编辑。

值得一提的是,在最新的Meta 3D Gen纹理生成研究中,引用了昆仑万维团队《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》的研究内容。


04.

结语

在过去半年甚至一年多的时间里,AI 3D生成技术发展堪称突飞猛进:3D模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时单位的3D模型生成时间压缩到秒级,带来惊人的效率提升。
与此同时,3D大模型目前仍然面临着训练数据不足、模型几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战,暂时无法满足4A大作、科幻电影中高度精细化的3D模型生成需求。不过在大量中小型场景中,已经能够满足需求。
在影视、游戏行业中,3D大模型能够快速生成3D原型,帮助设计师们实时具现化灵感,提高工作效率。
而在工业设计、制造等场景中,3D大模型还可以用于产品原型设计和仿真测试,减少研发成本和时间。
此外,3D大模型在AI视频、元宇宙,甚至具身智能领域都有着广阔的应用空间。
随着相关技术的快速发展,3D大模型即将迎来更多突破性进展。


参考资料:
1.3D Generative Models: A Survey
2.A Comprehensive Survey on 3D Content Generation
3.Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting
4.LRM: Large Reconstruction Model for Single Image to 3D
5.Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials
6.Meta 3D Gen
7.Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects
8.Point-E: A System for Generating 3D Point Clouds from Complex Prompts
9.Shap-E: Generating Conditional 3D Implicit 




往期推荐
01
天工一刻|一文看懂小模型与端侧模型
02
天工一刻|一文看懂MoE混合专业大模型
03
 天工一刻|一文看懂图文多模态大模型
04
天工一刻|一文看懂向量数据库


排行