DeepSeek发布DSpark推理加速框架,聚焦大模型高并发效率
6月27日,DeepSeek官方在Github更新了一篇新论文,公布了其推理加速框架DSpark。该框架旨在解决大语言模型在高并发场景下的推理效率瓶颈。论文由DeepSeek与北京大学联合发布,DeepSeek创始人梁文锋位列作者名单。
DSpark框架核心:针对高并发的推测解码
DSpark框架的核心技术路径是推测解码(Speculative Decoding)。这是一种通过预判模型输出内容来降低计算延迟的方法,而非单纯依赖扩大算力。团队在论文中开源了DSpark模型权重。
“当行业在讨论谁的模型更聪明时,DeepSeek仍然把目光投向更现实的问题:如何让模型更快。”——DeepSeek官方论文发布背景描述
同步发布训练代码仓库DeepSpec
与DSpark框架发布同步,DeepSeek还开源了由算法驱动的训练代码仓库DeepSpec。该仓库专注于为推测解码提供训练层面的支持,通过算法优化来提升推理过程中的预测准确率。
口径解读:效率竞争成为行业新焦点
在模型参数规模竞赛持续的背景下,DeepSeek此次将研发重心转向推理环节的效率优化。基于论文信息,DSpark框架直接针对高并发场景,这一选择反映出行业对模型实际部署成本的关注度正在提升。业内人士指出,推理效率的提升对于降低大模型商业运营成本具有直接影响。

DeepSeek开源DSpark推理框架,用户端生成速度提升60%-85%
DeepSeek于近日发布其最新技术论文《DSpark:基于置信度调度的半自回归生成推测解码》,并同步开源了配套的推理优化框架DSpark。该技术旨在解决大语言模型在线服务中的核心性能瓶颈问题。
技术原理:针对自回归生成瓶颈的改进方案
论文指出,当前大语言模型采用自回归方式逐词元生成文本,即每个新词元的产生都需基于全部已生成词元完成一次前向传播。这一机制导致输出长度越长,用户等待时间越久,且GPU利用率低下,尤其在实时对话助手、多轮智能体工作流等低时延敏感场景中,性能瓶颈尤为突出。
目前业界的主流解决方案主要分为自回归草稿模型(如Eagle3)和并行草稿模型(如DFlash)两条技术路线。DeepSeek在论文中认为,这两种路线均存在各自的生成质量瓶颈与系统效率瓶颈,且现有方案普遍缺乏负载自适应校验机制。
DSpark框架:半自回归架构的两套互补机制
基于上述背景,DeepSeek提出了DSpark推测解码框架。该框架采用半自回归架构,通过两套互补机制,旨在解决草稿生成与校验环节之间的权衡矛盾,将高吞吐并行生成与自适应负载感知校验机制融为一体。
根据论文,在数学推理、代码生成、日常闲聊三类任务的受控离线基准测试中,相较于自回归草稿模型与并行草稿模型,DSpark框架能够大幅提升单轮平均可接受词元长度。
实际部署效果:V4在线服务系统性能显著提升
DeepSeek已将DSpark部署至其DeepSeek-V4在线服务系统中,并基于真实用户流量评估其实际性能。结果显示,相较于现有的生产环境基线系统MTP-1,在相同吞吐量条件下,DSpark将用户端生成速度提升了60%至85%。
此外,该框架的跨模型通用性也得到了验证。DeepSeek将DSpark部署于阿里巴巴旗下的Qwen3-4B、8B、14B三个模型上,测试数据显示:相较于自回归草稿模型,DSpark的平均单轮可接受词元长度分别提升了30.9%、26.7%、30%;相较于并行草稿模型,DSpark分别提升了16.3%、18.4%、18.3%。
行业评价:推理基础设施同步更新
从技术角度看,该论文的主要价值在于通过算法创新显著提升了模型的推理生成速度。在当前大模型行业逐渐走向落地的背景下,更快速、更低成本地输出结果正成为行业竞争的关键要素。
有开发者在社交平台评价称:“AI Infra再次被DeepSeek加速了。”也有用户认为,DeepSeek的模型迭代与推理基础设施保持同步更新,发布V4版本时即同步推出推理优化方案,并提供了论文与代码,同时验证了跨模型的通用性。
