打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-

https://whiteinblue.github.io/earthcrafter/

论文链接-https://arxiv.org/pdf/2507.16535

代码链接-即将开源



为什么需要这个算法?--虽然最近的3D生成工作已经取得了显著进展,但是将这些方法扩展到地理范围,例如模拟数千平方公里的地球表面,仍然是一个悬而未决的挑战。
这个算法能做什么?--阿里的研究团队通过数据基础设施和模型架构的双重创新来解决这个问题。EarthCrafter是一种通过稀疏解耦潜在扩散进行大规模3D地球生成框架。它可以在多种不同的条件下生成,包括:单视图航空语义、单视图RGBD等。
这个算法效果如何?--大量实验表明,EarthCrafter在大尺度场景中生成的表现要好得多。该框架进一步支持从语义引导的城市布局生成到无条件地形合成的多功能应用。


资讯配图


01-EarthCrafter核心优势

资讯配图

    EarthCrafter是一种通过稀疏解耦潜在扩散进行大规模3D地球生成框架。该架构将结构和纹理生成解耦开来。

    双稀疏3D VAE将高分辨率几何体素和纹理2D高斯散斑(2DGS)压缩到紧凑的潜在空间中,在很大程度上减轻了巨大地理尺度带来的昂贵计算,同时保留了关键信息。

    作者提出了在混合输入(语义、图像或两者都没有)上训练的条件感知流匹配模型,从而独立灵活地对潜在的几何和纹理特征进行建模。

    除此之外,作者介绍了Aerial-Earth3D,这是迄今为止最大的3D航空数据集,由美国大陆拍摄的5万个精心策划的场景(每个场景价值6亿美元×6亿美元)组成,包括4500万个多视图谷歌地球帧。每个场景都提供姿势注释的多视图图像、深度图、法线、语义分割和相机姿势,并具有明确的质量控制,以确保地形多样性。

02-EarthCrafter落地场景

02.01-复杂环境下的场景生成
资讯配图
02.02-基于语义的场景生成
02.03-基于RGBD的场景生成
02.04-无条件场景生成
02.05-基于语义的多场景生成
02.06-基于语义的多纹理生成

03-EarthCrafter基础原理

资讯配图

    图c展示了EarthCrafter算法的整体流程。图a与图b展示了EarthCrafter分别对TexVAE和StructVAE压缩的潜在空间中的纹理和结构进行建模。

    EarthCrafter还包含纹理和结构流匹配模型,即TexFM和StructFM,用于对相关的潜在表现进行建模。

04-EarthCrafter性能评估

资讯配图
    上图展示了该方法与多个SOTA方法(SceneDreamer、CityDreamer、CityDre amer*)在相同输入下的城市场景生成效果。通过观察与分析,我们可以发现:该方法生成的3D场景更真实一些,可用性更强一些。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图