首页 / 科技 / 如视科技发布空间大模型 Argus 1.0 Skill，全景图到3D转换实现毫秒级实时重建

如视科技发布空间大模型 Argus 1.0 Skill，全景图到3D转换实现毫秒级实时重建

摸鱼不慌管理员 2026-06-23 09:03:38

空间数字化技术正在成为世界模型落地的底层底座。6月13日，李飞飞联合创立的World Labs一次性发布三篇聚焦3D生成、4D生成任务的突破性论文；刚刚落幕的CVPR 2026国际计算机视觉顶级会议上，3D重建、3D生成、空间建模相关研究包揽最佳论文、最佳学生论文等多个重磅奖项。而在国内，深耕空间数字化十余年的如视科技（Realsee）已提前布局，其基于空间大模型 Argus 1.0 推出的 Argus 1.0 Skill 已支持 Claude Code、Codex 等多个大模型平台。

模拟器类世界模型：真实场景三维数字化成核心底座

AI科学家李飞飞在6月4日发布长文，系统阐述了世界模型的定义与发展方向。她将世界模型划分为渲染器（Renderer）、模拟器（Simulator）、规划器（Planner）三大功能形态，并指出：“模拟器是实现 AI 融入真实物理世界的核心关键，领域内最困难的未解问题也都集中在模拟器。”

“模拟器是实现 AI 融入真实物理世界的核心关键”——李飞飞

当前学术圈与工业界已形成共识：想要做强模拟器类的世界模型、落地物理AI与具身智能，真实场景三维数字化技术是无法绕开的底层底座。

Argus 1.0 技术原理：Transformer架构与全景图输入

如视推出的空间大模型 Argus 1.0 区别于传统方案——传统3D重建通常需要多视角采集、大量特征匹配、复杂几何优化、漫长计算时间，对数据质量要求极高。Argus 1.0 最大的特点在于：支持全景图输入，实现单张或多张全景图到3D空间的毫秒级转换，可推理出所有图像带绝对尺度的相机位姿、深度图和点图。

首创全景图输入：业界首个支持全景图输入的深度推测大模型，能兼容单张或多张照片及AI生成的图片。
Transformer架构：基于Transformer构建的前馈式神经网络模型，显著提升模型性能，实现高精度空间重建。
大规模真实数据训练：覆盖多种场景，确保生成的三维空间具有高可靠性、高泛化性。
毫秒级实时重建：通过优化算法和架构设计，快速响应输入，提供无感知的用户体验。

Argus 1.0 Skill：空间智能成为可调用的基础能力

随着Argus 1.0 Skill的发布，如视正在尝试把空间能力做成“API化的空间操作系统”。该Skill目前的核心能力包括：空间深度估计、相机位姿估计，可应用于空间拼接、多视角对齐、VR空间生成、数字孪生等场景，也能落地于水电纪录、临展纪录、餐厅展示等日常生活场景。未来还将开放空间CAD自动生成、空间物体检测与分割、空间语义识别、空间编辑与再加工、漫游视频生成等功能。

Argus 1.0 Skill（体验版）已在GitHub上发布：https://github.com/realsee-developer/skills。

如视科技发布空间大模型 Argus 1.0 Skill，全景图到3D转换实现毫秒级实时重建第1张

如视空间智能模型Argus 1.0发布 5800万真实空间数据库构建核心壁垒

如视基于过去十余年积累的全球最大三维空间数据库，支撑其空间智能模型Argus 1.0在真实场景下的高精度重建能力。该数据库覆盖全球70余个国家和地区，包含住宅、商业、零售、工业等空间类型，总规模超过5800万真实场景。

真实世界数据：空间智能的“上限与下限”

空间智能领域面临的挑战并非模型框架，而是真实世界的复杂性。不同房型、装修、设备、光照、遮挡，甚至同一房间不同时间拍摄的差异，都让依赖合成数据或小规模场景训练的3D模型在真实环境中效果大打折扣。

“当前很多公司、实验室依赖合成数据、小规模场景、单一采集设备所训练出来的3D模型可以在特定环境下表现优异，但是一旦进入真实世界，效果往往大打折扣。”

如视通过十年真实场景全面采集，积累了覆盖多源环境的空间数据，使模型训练能够接触到丰富的真实世界空间分布，从而获得更强的空间推理能力、场景泛化能力与多源数据适应能力。

十年积累：全球最大室内三维数据库

如视的数据库精确还原物理空间布局，可用于导航、场景理解与闭环仿真。其规模和丰富度在行业内“独一份”，为Argus 1.0实现高精度空间重建提供了重要基础。

住宅空间
商业空间
零售空间
工业空间

REALSEE 3D数据集开源：规模达Habitat十倍以上

2025年底，如视开源了REALSEE 3D数据集，这是目前全球最大的面向室内3D感知与重建的多视角RGB-D数据集。该数据集含10,000个室内场景，配套全景RGB-D、CAD/平面图、语义分割与3D检测标注。

相较于此前较大规模的Habitat数据集，REALSEE 3D在真实场景规模上达到其10倍以上。该数据集旨在推动室内三维感知、重建与场景理解领域的研究，并已获得从业者的广泛认可与高度评价。数据集下载地址：https://github.com/realsee-developer/RealSee3D

如视科技发布空间大模型 Argus 1.0 Skill，全景图到3D转换实现毫秒级实时重建第2张

如视科技600余项专利与年2亿研发投入构建具身智能真实训练场景

近日，如视科技（REALSEE）对外展示了其基于真实三维数据资产的具身智能训练场。该训练场依托体量庞大、类型丰富的REALSEE 3D数据集，可支撑大模型训练与日常三维重建工作，并基于标准化实景三维资产搭建专业训练环境，深度适配具身智能与模拟器研发需求。

真实场景数据驱动的训练场

在物理AI爆发前夜，如视科技正在补齐真实世界训练场的关键一环。其REALSEE 3D数据集是由真实场景采集而来的三维空间数据，能够为机器人提供接近现实的感知与交互环境。据介绍，这种训练场有助于加速从实验室Demo到产业落地的转化，降低研发成本。

“物理AI爆发前夜，如视正在补齐真实世界训练场的关键一环。”——如视科技

十年耕耘：技术积累与产业验证

如视科技长期保持高强度研发投入，年均研发投入超过2亿元。截至目前，团队已积累600余项国内外授权专利。在学术方面，科研成果近年来多次入选CVPR、ICCV等国际顶级会议；在硬件方面，已建立起从消费级到专业级的全场景空间采集产品矩阵。这些技术与产品已服务于房产、零售、工业、文旅和展馆等九大行业，覆盖超过3000家品牌客户。