首页 / 科技 / 江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用

江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用

摸鱼不慌管理员 2026-06-29 17:04:09

近日，国际语音通信协会ISCA主办的Interspeech 2026公布录用结果，江苏省语言计算及应用重点实验室（以下简称“实验室”）共4篇论文被会议接收。本届会议主题为“Speaking Together”，其录用成果被视为语音语言技术前沿方向的风向标。

收录成果聚焦语音识别可靠性与大模型适配

本次被收录的成果覆盖听觉感知、语言认知、大模型及智能体、全链路对话系统柔性定制等方向。其中一项代表性工作针对会议转写、车载指令等高安全场景中错误识别被高置信度掩盖的痛点，提出具备弃权感知能力的转录框架。

该成果直接支撑识别结果可信、可控的客户价值，增强思必驰在复杂场景语音识别可靠性、语音大模型高效适配、面向部署工程化交付的核心能力。

RAS指标：权衡信息量与错误规避

语音识别系统在噪声与语义歧义条件下，常生成看似置信度较高、实则错误的转录，给用户与下游应用带来误导。传统词错误率指标只衡量准确率，难以刻画结果的可靠性。该工作提出可靠性导向指标RAS——RAS全称为Reliability oriented Metric for Automatic Speech Recognition，在转录信息量与错误规避之间进行权衡，其权衡参数依据人类偏好校准。

训练上先以监督式自举完成初始化。
再结合强化学习训练出具备弃权能力的识别模型。

实验表明，该方法在保持有竞争力识别准确率的同时，显著提升转录结果的可靠性，为高安全要求的语音交互提供可控的识别质量保障。

“产学研用”融合的实验室架构

实验室由思必驰科技股份有限公司牵头，联合上海交通大学、苏州大学共建，是江苏省在通用人工智能领域布局的重要战略科技力量。实验室以思必驰的产业平台为依托，汇聚上海交大、苏大的科研资源，形成“产学研用”深度融合的创新共同体。

支撑三大场景体验升级

本次论文成果持续增强思必驰在智慧出行座舱交互、智慧办公会议转写、智慧物联远场对话的体验升级，并提升面向多行业客户的标准化交付效率与可扩展能力。

江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用第1张

无参考语音识别评估方法READ问世，噪声环境下错误率降低20%

一项针对远场家居、车载等噪声场景的语音识别评估技术取得新进展。该成果直接面向识别结果难以离线校验的现实需求，旨在无需标注数据的前提下提升识别质量。

从依赖参考到无参考：评估思路的转变

传统的语音识别评估通常依赖参考转写文本，而已有的无参考方法则多借助模型内部置信度或额外语言模型来判断识别质量。这些方式在噪声环境中往往存在局限。

新提出的READ（Read What You Hear）方法直接基于语音信号对识别候选进行评估，强调识别候选的声学基础。研究团队指出，该方法利用预训练自回归语音合成模型，在给定文本假设的条件下计算语音单元的条件似然，从而衡量语音与文本之间细粒度的声学差异。

“READ指标无需额外训练即可用于识别候选的优化。”研究描述中强调，方法依托语音合成能力实现跨语音与文本的声学校验，属于听觉感知技术体系。

实验验证：噪声环境下提升显著

实验结果显示，READ指标与识别错误表现出显著相关性。经过该指标优化后，识别结果的相对错误率最高降低达20%，尤其在噪声环境下提升更为明显。

这一评估手段为复杂声学环境下的识别质量提升提供了新的路径，可直接支撑远场家居、车载等场景下无需离线校验的识别优化流程。

方法解析：条件似然衡量声学差异

所谓条件似然，是指在给定文本假设的条件下，语音合成模型生成对应语音单元的概率。概率越高，说明文本与语音之间的声学匹配度越高，反之则存在较大偏差。该方法无需额外的标注数据或外部语言模型，仅需一条语音信号即可完成对多个识别候选的排序与筛选。

直接基于声学信号，不依赖参考转写
利用预训练自回归语音合成模型计算条件似然
无需额外训练，可在线优化识别结果

江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用第2张

语音大模型论文提出TASU2框架：实现低资源场景下的可控CTC模拟与跨模态对齐

在语音大语言模型的后训练过程中，高效的跨模态对齐与鲁棒的低资源适应是关键环节，但大规模音频与文本配对数据的采集成本居高不下。一项最新研究提出的TASU2框架，旨在通过可控的CTC模拟技术，在无需语音合成的条件下，为模型适配新场景提供低成本路径。

聚焦低资源适配痛点：数据采集成本与对齐效率

该成果面向多语种、多方言与新领域快速上线时数据采集成本高的痛点，直接支撑低成本、快适配的客户价值。已有的纯文本对齐方法虽然可通过从转录文本模拟CTC后验分布来缓解数据负担，但对不确定性与错误率的控制有限，其课程设计在很大程度上仍依赖启发式策略。

TASU2框架核心：可控模拟与系统性课程设计

该工作提出TASU2，一种可控的CTC模拟框架。其核心能力在于，能够在指定词错误率范围内模拟CTC后验分布，生成与声学解码接口更加匹配的文本派生监督信号。这使得系统化的后训练课程成为可能，监督难度可平滑调节，无需依赖语音合成技术。

在多种源域到目标域的适应设定下，TASU2在领域内与领域外识别任务上均优于已有方法，并持续超越纯文本微调及基于语音合成的数据增强等强基线，同时有效缓解源域性能退化。

技术归属与应用路径

该方向归属听觉感知技术体系，并与大模型及智能体技术体系的语音大模型优化紧密结合。它为识别能力向新场景的快速迁移提供了高效路径，有助于降低模型在新领域适配过程中的部署门槛。

CTC（Connectionist Temporal Classification）：一种用于序列预测的算法，常用于语音识别中，允许模型在输入音频与输出文本序列之间建立对齐关系，无需逐帧标注。
跨模态对齐：指将音频信号与文本信息在语义或特征层面进行匹配，是语音大模型实现理解与生成能力的基础步骤。

江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用第3张

SURE统一框架推出破解语音模型选型与部署的横评难题

3月18日，一项名为SURE（A Unified and Reproducible Experimentation framework for Speech Understanding）的统一实验框架成果对外发布。该成果指出，当前语音基础模型与语音大语言模型虽推动了语音理解技术的进步，但面向部署的模型选择长期受制于两方面制约：不一致的后处理使评估结果难以直接比较，不同数据规模与训练流程下的训练结果也难以复现。

框架致力于解决横向比较与复现痛点

SURE框架对预测格式、文本归一化与评分方式进行了标准化处理，并在真实的声学与语言压力条件下，对从传统流水线到语音大语言模型的多类强系统实施跨范式评估。此举旨在直接回应不同模型方案难以横向比较、训练结果难以复现的工程痛点。

“该工作提出统一实验框架SURE，对预测格式、文本归一化与评分方式进行标准化。”——成果原文

引入智能体辅助训练转换流程

除评估功能外，SURE还引入了一项智能体辅助的训练转换流程。该流程能够将论文与代码映射为遵循统一协议、基于匹配开源数据子集的版本化、可运行训练流水线。

支撑规模化选型与高效交付

整体提升面向部署评估的可比性与可复现性。
直接支撑面向部署的可靠选型与高效交付的客户价值。

江苏省语言计算及应用重点实验室4篇论文被Interspeech 2026录用第4张

思必驰持续升级三大领域产品：智慧出行、智慧办公与智慧物联

思必驰在对话式人工智能领域的技术研发正加速转化为产品力，其围绕智慧出行、智慧办公与智慧物联三大方向的产品能力实现新一轮升级。识别结果在噪声与歧义场景下更可信，多语种与新领域的适配更快速，面向部署的模型选型与交付更可复现，语音反馈更自然及时，弱网与低功耗条件下的使用体验更顺畅。

交付效率与场景适配能力提升

依托上述技术能力，思必驰在多行业项目中的交付效率与场景适配速度持续提升。该公司致力于为客户提供更一致、更可靠的语音交互服务，通过持续优化的技术体系满足不同业务场景的差异化需求。

科研与产业结合：从学术前沿到商业落地

思必驰长期深度参与国内外学术前沿研究，在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML、NeurIPS等顶级学术会议上屡获佳绩，持续产出高质量科研成果。该公司秉持科研与产业应用紧密结合的理念，正持续推进科研成果向产品能力的转化，围绕真实业务场景打磨可落地、可规模化、可持续优化的语音语言技术体系。

平台型企业的技术储备与认证

作为专业的对话式人工智能平台型企业，思必驰具有源头技术创新和应用创新的能力。自2022年7月获国家科技部批准建设“语言计算国家新一代人工智能开放创新平台”以来，该公司接连于2023-2024年获批组建苏州市、江苏省、长三角三级创新联合体，并于2025年携手上海交通大学、苏州大学，牵头组建“江苏省语言计算及应用重点实验室”。

国家级项目承接与荣誉认证

思必驰承担了包括国家重点研发计划、国家发改委“互联网+”重大工程和人工智能创新发展工程、国家工信部人工智能与实体经济深度融合项目、长三角科技创新共同体联合攻关计划项目等十余项国家级、省部级项目。该公司曾三度斩获国内人工智能最高奖“吴文俊奖”，荣获中国专利优秀奖，以及信通院车载智能语音交互系统最高级别认证。此外，思必驰被高盛全球人工智能报告列为关键参与者，被Gartner评为东亚五大明星AI公司之一。