首页 / 科技 / 如视科技发布空间大模型 Argus 1.0 Skill,全景图到3D转换实现毫秒级实时重建

如视科技发布空间大模型 Argus 1.0 Skill,全景图到3D转换实现毫秒级实时重建

摸鱼不慌
摸鱼不慌管理员

空间数字化技术正在成为世界模型落地的底层底座。6月13日,李飞飞联合创立的World Labs一次性发布三篇聚焦3D生成、4D生成任务的突破性论文;刚刚落幕的CVPR 2026国际计算机视觉顶级会议上,3D重建、3D生成、空间建模相关研究包揽最佳论文、最佳学生论文等多个重磅奖项。而在国内,深耕空间数字化十余年的如视科技(Realsee)已提前布局,其基于空间大模型 Argus 1.0 推出的 Argus 1.0 Skill 已支持 Claude Code、Codex 等多个大模型平台。

模拟器类世界模型:真实场景三维数字化成核心底座

AI科学家李飞飞在6月4日发布长文,系统阐述了世界模型的定义与发展方向。她将世界模型划分为渲染器(Renderer)、模拟器(Simulator)、规划器(Planner)三大功能形态,并指出:“模拟器是实现 AI 融入真实物理世界的核心关键,领域内最困难的未解问题也都集中在模拟器。”

“模拟器是实现 AI 融入真实物理世界的核心关键”——李飞飞

当前学术圈与工业界已形成共识:想要做强模拟器类的世界模型、落地物理AI与具身智能,真实场景三维数字化技术是无法绕开的底层底座。

Argus 1.0 技术原理:Transformer架构与全景图输入

如视推出的空间大模型 Argus 1.0 区别于传统方案——传统3D重建通常需要多视角采集、大量特征匹配、复杂几何优化、漫长计算时间,对数据质量要求极高。Argus 1.0 最大的特点在于:支持全景图输入,实现单张或多张全景图到3D空间的毫秒级转换,可推理出所有图像带绝对尺度的相机位姿、深度图和点图。

  • 首创全景图输入:业界首个支持全景图输入的深度推测大模型,能兼容单张或多张照片及AI生成的图片。
  • Transformer架构:基于Transformer构建的前馈式神经网络模型,显著提升模型性能,实现高精度空间重建。
  • 大规模真实数据训练:覆盖多种场景,确保生成的三维空间具有高可靠性、高泛化性。
  • 毫秒级实时重建:通过优化算法和架构设计,快速响应输入,提供无感知的用户体验。

Argus 1.0 Skill:空间智能成为可调用的基础能力

随着Argus 1.0 Skill的发布,如视正在尝试把空间能力做成“API化的空间操作系统”。该Skill目前的核心能力包括:空间深度估计、相机位姿估计,可应用于空间拼接、多视角对齐、VR空间生成、数字孪生等场景,也能落地于水电纪录、临展纪录、餐厅展示等日常生活场景。未来还将开放空间CAD自动生成、空间物体检测与分割、空间语义识别、空间编辑与再加工、漫游视频生成等功能。

Argus 1.0 Skill(体验版)已在GitHub上发布:https://github.com/realsee-developer/skills

如视科技发布空间大模型 Argus 1.0 Skill,全景图到3D转换实现毫秒级实时重建  第1张

如视空间智能模型Argus 1.0发布 5800万真实空间数据库构建核心壁垒

如视基于过去十余年积累的全球最大三维空间数据库,支撑其空间智能模型Argus 1.0在真实场景下的高精度重建能力。该数据库覆盖全球70余个国家和地区,包含住宅、商业、零售、工业等空间类型,总规模超过5800万真实场景。

真实世界数据:空间智能的“上限与下限”

空间智能领域面临的挑战并非模型框架,而是真实世界的复杂性。不同房型、装修、设备、光照、遮挡,甚至同一房间不同时间拍摄的差异,都让依赖合成数据或小规模场景训练的3D模型在真实环境中效果大打折扣。

“当前很多公司、实验室依赖合成数据、小规模场景、单一采集设备所训练出来的3D模型可以在特定环境下表现优异,但是一旦进入真实世界,效果往往大打折扣。”

如视通过十年真实场景全面采集,积累了覆盖多源环境的空间数据,使模型训练能够接触到丰富的真实世界空间分布,从而获得更强的空间推理能力、场景泛化能力与多源数据适应能力。

十年积累:全球最大室内三维数据库

如视的数据库精确还原物理空间布局,可用于导航、场景理解与闭环仿真。其规模和丰富度在行业内“独一份”,为Argus 1.0实现高精度空间重建提供了重要基础。

  • 住宅空间
  • 商业空间
  • 零售空间
  • 工业空间

REALSEE 3D数据集开源:规模达Habitat十倍以上

2025年底,如视开源了REALSEE 3D数据集,这是目前全球最大的面向室内3D感知与重建的多视角RGB-D数据集。该数据集含10,000个室内场景,配套全景RGB-D、CAD/平面图、语义分割与3D检测标注。

相较于此前较大规模的Habitat数据集,REALSEE 3D在真实场景规模上达到其10倍以上。该数据集旨在推动室内三维感知、重建与场景理解领域的研究,并已获得从业者的广泛认可与高度评价。数据集下载地址:https://github.com/realsee-developer/RealSee3D

如视科技发布空间大模型 Argus 1.0 Skill,全景图到3D转换实现毫秒级实时重建  第2张

如视科技600余项专利与年2亿研发投入 构建具身智能真实训练场景

近日,如视科技(REALSEE)对外展示了其基于真实三维数据资产的具身智能训练场。该训练场依托体量庞大、类型丰富的REALSEE 3D数据集,可支撑大模型训练与日常三维重建工作,并基于标准化实景三维资产搭建专业训练环境,深度适配具身智能与模拟器研发需求。

真实场景数据驱动的训练场

在物理AI爆发前夜,如视科技正在补齐真实世界训练场的关键一环。其REALSEE 3D数据集是由真实场景采集而来的三维空间数据,能够为机器人提供接近现实的感知与交互环境。据介绍,这种训练场有助于加速从实验室Demo到产业落地的转化,降低研发成本。

“物理AI爆发前夜,如视正在补齐真实世界训练场的关键一环。”——如视科技

十年耕耘:技术积累与产业验证

如视科技长期保持高强度研发投入,年均研发投入超过2亿元。截至目前,团队已积累600余项国内外授权专利。在学术方面,科研成果近年来多次入选CVPR、ICCV等国际顶级会议;在硬件方面,已建立起从消费级到专业级的全场景空间采集产品矩阵。这些技术与产品已服务于房产、零售、工业、文旅和展馆等九大行业,覆盖超过3000家品牌客户。

  • 年均研发投入超过2亿元
  • 600余项国内外授权专利
  • 九大行业超3000家品牌客户

从论文到落地的差异化路径

AI行业经常出现论文多、Demo多而真正落地少的现象。如视科技的不同之处在于其已经经历了产业验证,通过真实三维数据资产将学术成果、硬件产品与行业应用衔接。其规模化服务于房产、零售、工业等领域,表明该技术已从概念阶段进入商业应用阶段。

如视科技发布空间大模型 Argus 1.0 Skill,全景图到3D转换实现毫秒级实时重建  第3张

如视科技构建立体感知体系:从扫描硬件到三维AI的开源循环

近期,围绕“世界模型”与物理AI的讨论持续升温。如视科技打造了贯穿“扫描硬件、三维大模型、开放接口”的全链条技术体系,试图为物理世界数字化提供底层支撑。该体系旨在将线下的每一个场景快速转化为数字模型,从而让机器人能够精准理解周遭环境及物理规则。

硬件产品矩阵与物理世界重构

AI当前正从处理文字图像,向解析与重建物理世界演进。结合李飞飞对世界模型的分类,主打物理仿真的模拟器被视作下一代AI的核心方向,而实景三维数字化被认为是这一方向的地基。如视科技的硬件产品矩阵,正是为了夯实这一地基而设计的工具层。

三维大模型:从数据采集到模型推理

在如视的体系中,扫描硬件负责采集真实场景的结构数据,而三维大模型则承担将这些原始数据解析、重建为可交互的数字模型的任务。该模型并非仅处理抽象符号,而是直接对空间几何、物理材质进行建模,这使得数字模型能够承载真实环境的物理规则。

“当线下的每一个场景都能快速变成数字模型,当机器人能精准理解周遭环境与物理规则,物理AI的下一个黄金时代也就真正到来了。”

开放接口与生态闭环

如视科技进一步提供了开放接口,允许开发者将上述扫描硬件与三维大模型的能力整合进自身应用。这构成了从“感知采集”到“智能理解”再到“生态落地”的完整回路。在这一回路中,真实场景的模拟器世界模型,其“GPT”式的规模化应用时刻是否已经到来,仍需观察,但技术路线已逐步清晰。

  • 全链条体系:涵盖扫描硬件(感知层)、三维大模型(认知层)、开放接口(应用层)。
  • 目标场景:为机器人导航、数字孪生、自动驾驶等提供高保真的物理环境模拟。
  • 核心逻辑:通过将真实世界的三维数据化,填补当前AI在理解物理空间和规则方面的短板。

行业展望

如果这一全链条体系能够持续跑通,且成本与效率达到商用临界点,那么依赖于真实场景模拟的世界模型,或将推动物理AI进入一个新的发展阶段。然而,其“爆发”依赖于硬件普及率、大模型推理成本以及开放接口的生态丰富度,这些因素的成熟度尚需时间验证。