上海创智学院联合多所高校发表两篇ICML 2026论文,提出医学AI“Think with Images/Videos”范式
上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,在ICML 2026上被接收的两篇论文中,首次提出了“Think with Images/Think with Videos”范式。该范式旨在解决当前医学多模态模型在病灶识别与手术分析中“看错区域、漏看病灶”的核心痛点。
传统医学多模态模型的局限:视觉证据被“被动接收”
过去的医学多模态模型通常将一张影像或一段视频编码为视觉特征后,直接由大模型生成答案与解释。但问题在于,一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往决定了诊断结论是否成立。模型在“被动接收”视觉上下文时,容易忽略关键区域或时刻。
新范式:视觉证据成为推理过程中的主动工具
两篇论文的核心创新在于:模型不再仅基于图像或视频生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新获得的证据修正判断。这意味着,视觉不再只是输入,视觉证据本身成为模型思考过程的一部分。
“模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。”
团队与成果背景
- 上海创智学院LeapQuest团队牵头,联合浙江大学、上海交通大学、复旦大学共同完成研究。
- 两篇论文均被ICML 2026接收,分别聚焦图像与视频场景下的医学AI推理。
- 该范式被命名为“Think with Images”与“Think with Videos”,对应不同的视觉模态。

请提供需要整理的原始素材(通稿、公告、媒体报道)。当前仅收到短语“△Ophiuchus:面向医学图像的tool-augmented Think with Images”,缺少具体事实、时间、数据、主体等要素,无法执行新闻正文生成任务。

医学AI进入“视觉证据思考”新范式:模型主动定位关键影像片段
多模态模型在医学临床视频分析中的工作逻辑正在被重构。Ophiuchus与MedScope近日提出一套名为“think with images/think with videos”的系统化方法,使模型在推理过程中主动决定是否需要补充证据、应聚焦哪个区域、以及回看哪一段视频,并将工具返回的观察结果纳入后续推理链条。
传统的医学AI工作流程是将单张影像或整段视频统一编码为视觉特征,随后交由大模型生成答案与解释。但这种方法存在一个核心局限:解释的完整性不等于模型真的定位到了关键证据——在临床场景中,一个微小病灶、一处边界变化或一段仅有几秒钟的手术动作,往往直接决定了诊断结论的正确性。
从“被动接收”到“主动验证”
此前多数多模态模型扮演的是“被动接收视觉上下文”的角色,即一次性读取所有视觉信息后直接输出结果。新范式的突破在于:视觉不再仅仅是输入数据,而是成为模型思考过程的一部分。模型可以像医生阅片那样,根据推理需要主动调用工具返回的观察结果,并交叉验证自己的判断。
所谓“think with videos”,是指模型在每一步推理中都具备“视觉证据意识”——它可以选择看哪里、回看哪一帧,并将这些视觉反馈融入逻辑推导。这种方式让模型的行为更接近临床医生的实际操作:反复观察、定位、比对,而不是一次性地“猜测”答案。
临床场景下的关键差异
“医学AI过去最常见的工作方式,是把一段视频编码成视觉特征,然后让大模型生成答案与解释。解释看起来完整,并不代表模型真的看到了关键证据。”
在手术视频分析、内窥镜影像识别、超声动态扫查等场景中,病灶可能仅出现在连续几帧画面中,传统模型容易将其淹没在冗余视觉信息中。新范式通过让模型“主动索取”特定片段,显著提升了对这类微小但关键证据的捕捉能力。
Ophiuchus与MedScope此次提出的并非某个具体算法或工具,而是医学AI领域首次被系统化表述的推理范式——它不追求模型“写解释”更完整,而是让模型真正开始“用视觉证据思考”。

Ophiuchus推出视觉智能体协同机制:通过SAM2等工具解决医学图像细粒度诊断难题
一款名为Ophiuchus的医学多模态大模型近日提出新思路:将大模型改造为能与外部视觉工具协同的智能体,以应对现有模型在细粒度视觉证据上的识别短板。
现有模型“看错区域、漏看病灶”的症结
Ophiuchus的研发团队指出,当前医学多模态大模型虽然能写出逐步推理过程,但遇到需要细粒度视觉证据的任务时,仍容易“看错区域、漏看病灶、误把正常结构当异常”。他们认为,这一问题并非单纯语言能力不足,而是视觉交互机制不足所致。
Ophiuchus的解决方案:视觉智能体协同工具
Ophiuchus将大模型改造成一个能与医学图像工具协同的视觉智能体。它可以基于当前推理状态,决定是否调用外部视觉工具,从而主动获取更精准的视觉信息。
具体而言,Ophiuchus支持的三种外部工具包括:
- SAM2:用于对图像区域进行精细分割,帮助模型更准确定位病灶边界。
- BiomedParse:根据文字提示定位指定的医学结构,实现语义驱动的目标区域识别。
- Zoom-in:放大关键区域,获取更高分辨率的局部细节。
工具调用结果形成观测反馈,驱动下一步推理
与常规工具调用不同,Ophiuchus中工具的输出不是孤立结果,而是以“observation”(观测)的形式回归到推理链中,与已有的推理状态合并,驱动模型进行下一步判断。这一机制使得模型能够“重新看一眼”疑点区域,逐步逼近正确诊断。
“这不是单纯语言能力不足,而是视觉交互机制不足。”——Ophiuchus团队对现有模型局限性的核心判断。

Ophiuchus技术范式:将工具调用嵌入模型推理链
一项名为Ophiuchus的新技术方案正在改变AI模型与外部工具交互的方式。其核心差异在于,并非简单将工具“外挂”在模型之外,而是将工具调用整合为模型推理链条的内在组成部分。
从“调用工具”到“用工具思考”
根据技术描述,Ophiuchus要求模型自主掌握一套完整的工具使用流程:判断调用的时机、选择合适的工具、解析工具的返回结果,以及在工具输出不可靠时调整自己的执行策略。这一过程打破了传统模型中工具调用与逻辑推理分离的架构。
模型需要学会何时调用工具、选择哪个工具、如何解释工具输出,以及当工具结果不可靠时如何修正策略。
推理与执行的闭环机制
在这种框架下,工具不再是独立的外部资源,而是模型在解决复杂问题时主动调用的思维辅助手段。模型在执行推理步骤时,可以将某一阶段的推理任务“委托”给工具完成,随后将工具的输出重新吸收进入下一阶段的推理。这使得模型具备了动态校验和纠错能力。
- 时机判断:模型需自我评估当前推理步骤是否需要外部工具介入。
- 选择机制:从候选工具集中选取与当前子任务最匹配的一个。
- 结果解释:对工具返回的结构化数据进行语义化解读。
- 策略修正:当工具结果与预期偏差时,模型可回溯并切换工具或调整调用参数。
对行业的技术影响
这一设计理念将AI模型的能力从“会调用工具”推向“会用工具思考”,标志着系统级AI在自我调节和任务规划方面的一次重要尝试。相关方案的实际表现,仍有待后续应用场景的进一步验证。

Ophiuchus与MedScope:医学AI从“静态看图”迈向“动态推理”新阶段
近期,医学人工智能领域出现两项技术框架——Ophiuchus与MedScope,分别聚焦于医学图像中的局部证据提取与长临床视频的动态分析。两项研究的核心逻辑在于,医学AI的能力不再仅取决于模型规模或语言推理,而在于模拟医生“看哪里、怎么看、看完如何修正”的诊断过程。
Ophiuchus:让视觉证据深度介入推理路径
据公开信息,Ophiuchus技术框架的核心价值并非为医学大模型增加几个视觉工具,而是让模型在诊断过程中主动执行“看哪里、怎么看、看完如何修正”的闭环。该框架在工具使用准确性评估中,实现了97.9%的平均工具调用准确率。
研究团队指出,当诊断任务真正依赖局部结构、病灶边界和细胞级证据时,模型大小或语言推理能力并非唯一的性能瓶颈。Ophiuchus通过一种机制,使视觉证据能够持续进入推理过程,而非仅仅作为初始输入。
Ophiuchus在工具使用准确性评估中达到97.9%的平均工具调用准确率。
MedScope:长临床视频的“Think with Videos”范式
如果说Ophiuchus解决的是医学图像中的局部证据问题,MedScope则将这一范式推进至长视频场景。长临床视频的挑战在于,关键证据不仅细且稀疏,模型不仅需要看对内容,还需要看对时间。
一个手术动作、内镜视野变化、器械进入与离开的瞬间,可能仅持续数秒,却决定模型是否真正理解临床过程。MedScope提出的“Think with Videos”范式,并非让模型将整段视频一次性压缩成上下文,而是模拟临床医生的观察方式:先快速建立全局理解,再回到可疑时间窗。
技术实现:分步观察与局部整合
MedScope的具体执行路径包括:使用cropvideo截取片段,通过getframe获取关键帧,最后将这些局部观察结果整合进最终答案。这一流程将长视频分解为多个可追踪的时间单元,使模型在推理过程中能够回溯“关键时刻”。
从Ophiuchus到MedScope,两项技术共同指向一个方向:医学AI需要一种能让视觉证据不断进入推理过程的机制,而非仅仅依靠静态图像或一次性编码的完整视频。

MedScope 推理过程实现可审查性:结合文本与视觉思维链差异
△Textual CoT 与 Visual CoT 的差别使 MedScope 的推理过程天然具备可审查性。该机制允许分析模型回答结果时,不仅依赖文本输出,还可回溯视觉证据。
可审查性的运作方式
MedScope 的推理过程可审查性体现为:模型为什么回答这个结果,不只看它“说了什么”,还可以看它“回看了哪一段视频、找到了哪些帧、这些证据是否支持结论”。
“模型为什么回答这个结果,不只看它‘说了什么’,还可以看它‘回看了哪一段视频、找到了哪些帧、这些证据是否支持结论’”
文本与视觉思维链的差异
Textual CoT(文本思维链)侧重语言逻辑链,而 Visual CoT(视觉思维链)则聚焦于视频帧与图像证据。两者结合使推理过程在文本输出之外,增加了可回溯的视觉路径,从而提升透明性。

MedScope发布ClinVideoSuite与GA-GRPO框架:推动视频模型从“猜答案”转向“找证据”
在医疗视频分析领域,模型如何基于局部时间窗内的视觉证据而非整体特征做出判断,成为临床推理的关键挑战。MedScope团队近日推出ClinVideoSuite数据集与GA-GRPO训练框架,旨在让视频模型学会“寻找证据”而非仅“猜测答案”。
ClinVideoSuite:构建证据关联训练数据
ClinVideoSuite包含三部分核心数据:635K时间戳密集caption,提供视频片段与文本描述的精细对齐;254K证据关联QA,要求模型回答问题时必须依赖局部时间窗中特定的视觉证据;34K视觉CoT轨迹,记录模型逐步推理的过程。此外,该数据集还集成了用于强化学习的交互式训练环境,使得训练不再是简单的问答任务,而是强调问题与局部视觉片段之间的因果关联。
三阶段训练路线:从预热到工具调用
MedScope采用三阶段训练路线。第一阶段为临床推理warm-up,让模型学习医学语义与长程视频理解能力;第二阶段通过visual-CoT cold-start SFT(监督微调),教会模型何时需要更多证据以及如何调用工具;第三阶段引入GA-GRPO强化学习方法,重点优化时序对齐的工具使用能力。
GA-GRPO通过grounding-aware reward(基于接地感知的奖励)和evidence-modulated advantage(基于证据调节的优势),使模型更倾向于检索那些真正支持结论的视觉片段,而非所有视频帧。
关键名词解读:GA-GRPO与视觉CoT
GA-GRPO(Grounding-Aware Group Relative Policy Optimization)是一种强化学习算法变体,它引入“接地感知”奖励信号,专门针对模型在视频中定位具体时间片段的行为进行激励。视觉CoT(Visual Chain-of-Thought)则指模型在推理过程中生成的逐步视觉搜索轨迹,类似人类医生反复查看特定区域的思维过程。
- ClinVideoSuite:一个包含密集标注、证据关联QA及推理轨迹的综合视频数据集,专为临床推理训练设计。
- SFT(Supervised Fine-Tuning):监督微调阶段,通过已有标注数据指导模型学习特定任务。
- cold-start:在强化学习前先通过SFT让模型具备初步能力,避免从零开始探索。
实际影响:技术路线对医疗视频分析的启示
业内人士指出,这种强调“局部证据”而非“整体答案”的训练范式,有助于提升模型在复杂临床场景中的解释性与可靠性。当模型能够明确指出依据哪一帧或哪一段视频做出判断时,医生对AI辅助的信任度可能得到增强。

Ophiuchus与MedScope定义医学多模态推理新范式:视觉成为思维过程的一部分
在最新的医学智能研究中,Ophiuchus与MedScope两项工作共同推进了一种新的多模态范式:模型的推理过程不再只是语言token的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。这一范式将视觉从单纯的“输入”转变为“思维过程”的组成部分。
MedScope在视频理解评测中取得开源模型最佳成绩
具体而言,MedScope在SVU-31K和ClinVideo-Eval两项评测中,于多粒度视频理解、细粒度时序推理和grounded VQA(接地视频问答)三个维度上,均达到当前开源模型中的最佳水平。这标志着医学视频理解任务在开源社区中迈出了关键一步。
论文数据指出,保留证据奖励机制(evidence reward)时,模型定位质量明显更优。例如R@0.5从40.1下降到33.2,mIoU从4.3下降到38.8——说明仅靠答案级监督无法使模型可靠地选择正确证据。
证据奖励机制缺失显著降低定位质量
研究团队特别对比了去掉证据奖励(evidence reward)后的表现。数据显示,当去掉该监督信号,模型在关键定位指标上出现显著下滑:R@0.5(一种召回率指标)从40.1降至33.2,mIoU(平均交并比)从4.3下降到38.8。这一反差表明,答案级监督不足以教会模型可靠地定位证据。
证据奖励机制的本质是在训练过程中,对模型选出的视频片段或图像区域与正确答案之间的重合度给予正向反馈,从而强化模型“寻找证据”的能力。相比之下,仅关注最终答案的监督方式会使模型更倾向于猜测而非严谨推理。
范式核心:视觉从输入变为思维载体
综合两篇工作的贡献,最重要的并非Ophiuchus处理图像、MedScope处理视频的各自表现,而是它们共同定义了一种新的医学多模态智能范式。在这种范式中,模型不再将视觉素材视为外部输入的“原料”,而是将其作为推理循环中的一环:语言指令触发工具调用,工具返回图像区域或视频片段,模型根据这些证据调整推理路径,再通过反馈信号优化证据选择。
这种闭环交互机制直接提升了模型在细粒度时序推理和定位任务上的可靠性,为医学影像分析、手术视频理解等场景提供了新的技术路径。

医学AI Agent新能力:以“思考即引用”规则降低幻觉
近日,Ophiuchus和MedScope团队提出“Think with Images/Videos”技术路线,使医学AI在给出解释前主动寻找、验证并引用视觉证据。这一方法将医学AI从一次性预测转向“假设-查证-修正-回答”的闭环,有望成为医学AI Agent的关键拐点。
临床推理天然依赖证据链
与通用视觉问答不同,医学任务要求每个结论都有可复核的证据。放射科医生放大病灶边缘,病理医生寻找细胞形态,外科医生回看关键操作,内镜医生追踪病灶随时间的变化——临床视觉推理本质上是交互式、证据驱动且可复核的。
“Think with Images/Videos的意义,正是让医学AI向这种真实临床认知方式靠近。它不再满足于一次性预测,而是在模型内部建立‘假设-查证-修正-回答’的循环。”
新技术赋予医学AI三类关键能力
- 更少幻觉:通过主动查证视觉证据而非仅靠文本关联,减少无根据的推理。
- 更强可解释性:每一步推理都可回溯到具体图像区域,支持医生复核。
- 更适合复杂流程:适应放射、病理、内镜等不同场景的阶梯式诊断需求。
在传统流程中,AI模型常一次性输出答案,缺乏对中间证据的显式引用。新方法要求模型在生成回答前主动搜索并引用视觉线索,相当于将医生的“找证据”习惯内化为模型训练目标。这使医学AI从“答题者”演变为“核查者”,更贴近真实临床认知方式。

医学AI多模态大模型转向“边看边想”:从Ophiuchus到MedScope
据量子位报道,医学多模态大模型正经历一场底层范式转向:从仅“看图”“看视频”过渡到在推理过程中持续主动观察影像,模型不再满足于输出答案,而是开始主动寻找视觉证据。
推理边界的重新定义:视觉证据参与思维链
这一转变的核心在于“think with images/videos”被单独提出。它并非一个更花哨的工具调用框架,而是重新定义了AI推理的边界——推理不再是单纯的语言生成,而是围绕证据进行的动态视觉探索。
当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据,医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。
多模态思维链:从语言到视觉的动态演进
素材指出,这种转向体现在三个层面:从看图到在推理中持续看;从输出答案到寻找证据;从语言链条到视觉证据参与的多模态思维链。模型在推理过程中可动态调用影像数据,形成“观察-验证-再观察”的闭环。
- 主动回看原始影像,而非仅依赖单次截图分析
- 对疑似病灶区域进行自动放大与局部聚焦
- 从连续视频帧中截取关键证据用于验证判断
LeapQuest团队:推动医学AI走向基于证据的视觉推理
报道提及,LeapQuest(起跃界问)是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队。该团队聚焦Visual Reasoning、Agentic RL、Clinical Tools三大方向,致力于推动模型从“生成答案”走向基于证据的观察、验证与行动。
