AMD GPU资源冲突导致游戏与AI推理同时运行崩溃,开发者发布开源补丁解决
6月15日消息,AMD显卡用户在Windows系统中同时运行AI推理和大型DX12游戏时,长期面临驱动级资源冲突导致的崩溃问题。该问题现已被开发者通过GitHub上的开源项目提供了解决方案。
开源补丁实现无冲突并发
GitHub用户Beat-k通过开源项目BEA_ROCm发布了补丁方案。该方案已成功在Radeon RX 7900 GRE显卡上实现了DX12游戏与基于ROCm平台的AI推理任务的无冲突并发运行。
游戏崩溃时常伴随的错误代码为exit code 2或0xc0000005。
问题根源涉及多个驱动层面
开发者详细排查了导致崩溃的多层原因。ROCm是AMD为加速高性能计算及人工智能任务而推出的软件平台。此次揭示的冲突点涵盖了从内存管理到内核调度的多个环节。
- Flash Attention KV缓冲区布局解析差异。
- SDMA(System DMA)引擎队列冲突。
- 显存过度分配问题。
- AMD AGS库与Adrenalin驱动的冲突。
- 驱动遥测模块对内核调度的干扰和破坏。
这一解决方案的发布,有望为同时需要运行AI应用和游戏的AMD显卡用户提供更稳定的使用体验,减少因驱动冲突导致的中断。

llama.cpp获关键补丁 gfx1100架构Windows ROCm实现AI推理与游戏并行
一项针对RDNA 3架构显卡在Windows平台的多任务优化取得关键进展。最新修复方案通过了《彩虹六号:围攻》DX12游戏与Ollama 7B模型推理同步运行的压力测试,为相关显卡用户解锁了AI与图形并行任务的能力。
双层补丁应对堵塞性Bug
此前的技术障碍呈现层级依赖的堵塞效应,需要按顺序逐个解决才能暴露下一层问题。为解决此问题,技术团队设计了一套双层补丁架构。
第一层为环境变量补丁集,它在ROCm子进程启动前应用,以预置必要的修复设置。第二层则是直接向AI框架核心库llama.cpp提交的代码级修改。
核心修复涉及流同步与注意力计算
针对llama.cpp的补丁代码共计35行,主要围绕两项核心功能进行优化。首先是对gfx1100架构下Windows ROCm的流同步机制进行修复。
流同步是多线程GPU编程中的关键技术,用于协调不同计算任务(流)之间的执行顺序和数据依赖关系,确保计算结果的准确性。其次,对Flash Attention的门控处理逻辑进行了调整。Flash Attention作为一种高效的自注意力算法实现,是当前大语言模型推理速度的关键优化点之一。
压力测试验证多任务稳定性
修复方案的实际效果通过了严格的实测验证。在长达10轮的连续压力测试中,系统需同时运行图形密集型游戏《彩虹六号:围攻》(采用DX12 API)并进行Ollama 7B模型的本地推理。
- AI推理平均延迟为12.2秒。
- 显存占用稳定在9.5GB。
- DX12图形负载在6轮游戏中保持饱和状态。
- 游戏全程未发生崩溃。
方案已开源并完成交叉验证
这意味着基于gfx1100架构的显卡(如RDNA 3系列的部分型号)在Windows平台上运行AI与图形复合负载的主要系统级障碍已被扫清。相关SDK已经开源,向上游提交的代码合并请求也已准备就绪。
该修复方案的普适性得到了初步确认。除目标平台外,第三方已在gfx1101架构的Ubuntu系统上完成了交叉验证,表明其底层修复思路具有一定的通用性。这为整个RDNA 3全系显卡在Windows系统上实现稳定的“AI+图形”多任务并发提供了可行的技术路径。
