首页 / 财经 / DeepSeek发布DSpark推理加速框架，聚焦大模型高并发效率

DeepSeek发布DSpark推理加速框架，聚焦大模型高并发效率

摸鱼不慌管理员 2026-06-27 19:05:42

6月27日，DeepSeek官方在Github更新了一篇新论文，公布了其推理加速框架DSpark。该框架旨在解决大语言模型在高并发场景下的推理效率瓶颈。论文由DeepSeek与北京大学联合发布，DeepSeek创始人梁文锋位列作者名单。

DSpark框架核心：针对高并发的推测解码

DSpark框架的核心技术路径是推测解码（Speculative Decoding）。这是一种通过预判模型输出内容来降低计算延迟的方法，而非单纯依赖扩大算力。团队在论文中开源了DSpark模型权重。

“当行业在讨论谁的模型更聪明时，DeepSeek仍然把目光投向更现实的问题：如何让模型更快。”——DeepSeek官方论文发布背景描述

同步发布训练代码仓库DeepSpec

与DSpark框架发布同步，DeepSeek还开源了由算法驱动的训练代码仓库DeepSpec。该仓库专注于为推测解码提供训练层面的支持，通过算法优化来提升推理过程中的预测准确率。

口径解读：效率竞争成为行业新焦点

在模型参数规模竞赛持续的背景下，DeepSeek此次将研发重心转向推理环节的效率优化。基于论文信息，DSpark框架直接针对高并发场景，这一选择反映出行业对模型实际部署成本的关注度正在提升。业内人士指出，推理效率的提升对于降低大模型商业运营成本具有直接影响。

DeepSeek开源DSpark推理框架，用户端生成速度提升60%-85%

DeepSeek于近日发布其最新技术论文《DSpark：基于置信度调度的半自回归生成推测解码》，并同步开源了配套的推理优化框架DSpark。该技术旨在解决大语言模型在线服务中的核心性能瓶颈问题。

技术原理：针对自回归生成瓶颈的改进方案

论文指出，当前大语言模型采用自回归方式逐词元生成文本，即每个新词元的产生都需基于全部已生成词元完成一次前向传播。这一机制导致输出长度越长，用户等待时间越久，且GPU利用率低下，尤其在实时对话助手、多轮智能体工作流等低时延敏感场景中，性能瓶颈尤为突出。

目前业界的主流解决方案主要分为自回归草稿模型（如Eagle3）和并行草稿模型（如DFlash）两条技术路线。DeepSeek在论文中认为，这两种路线均存在各自的生成质量瓶颈与系统效率瓶颈，且现有方案普遍缺乏负载自适应校验机制。

DSpark框架：半自回归架构的两套互补机制

基于上述背景，DeepSeek提出了DSpark推测解码框架。该框架采用半自回归架构，通过两套互补机制，旨在解决草稿生成与校验环节之间的权衡矛盾，将高吞吐并行生成与自适应负载感知校验机制融为一体。

根据论文，在数学推理、代码生成、日常闲聊三类任务的受控离线基准测试中，相较于自回归草稿模型与并行草稿模型，DSpark框架能够大幅提升单轮平均可接受词元长度。

实际部署效果：V4在线服务系统性能显著提升

DeepSeek已将DSpark部署至其DeepSeek-V4在线服务系统中，并基于真实用户流量评估其实际性能。结果显示，相较于现有的生产环境基线系统MTP-1，在相同吞吐量条件下，DSpark将用户端生成速度提升了60%至85%。

此外，该框架的跨模型通用性也得到了验证。DeepSeek将DSpark部署于阿里巴巴旗下的Qwen3-4B、8B、14B三个模型上，测试数据显示：相较于自回归草稿模型，DSpark的平均单轮可接受词元长度分别提升了30.9%、26.7%、30%；相较于并行草稿模型，DSpark分别提升了16.3%、18.4%、18.3%。