今天,海天瑞声携手清华大学电子工程系语音与音频技术实验室(SATLab),正式发布 Dolphin-CN-Dialect 汉语多方言语音识别模型!

Dolphin-CN-Dialect 是一款面向汉语多方言、多口音、真实场景优化的新一代语音识别模型,它并非简单扩大模型规模,而是在 Dolphin 系列模型基础上,围绕数据配方、tokenizer、训练稳定性、流式转写、热词增强和部署效率做了一次系统升级,破解主流 ASR 模型方言识别率断崖下跌的行业难题。

主流语音识别模型在普通话场景已表现优异,但切换至方言和地区口音时识别率大幅下降,核心原因并非模型参数不足,而是训练数据分布严重不均衡:普通话数据充足,方言样本天然稀缺,简单混合训练只会让模型持续偏向普通话。Dolphin-CN-Dialect 通过 temperature-based sampling 重塑训练分布,让低资源方言在训练中被真正“看见”,而非被普通话数据淹没。

Dolphin-CN-Dialect 核心特性

· All-in-one 多方言覆盖

单模型支持 21 类汉语方言 / 地区口音,覆盖普通话、台湾普通话、四川话、吴语、闽南语等全场景中文语音,无需切换多模型即可完成识别。

· 精准高效的轻量识别

0.4B 小参数模型实现性能与效率的均衡,21 个方言 / 口音测试集平均 CER 达到 5.74%,对应平均准确率约 94.3%;实现 38% 的方言识别准确率提升和 16.3% 的整体 CER 相对降低,标准普通话性能仅有约 0.2% 的轻微波动。

Accuracy = 100 - CER,越靠外代表识别越准确。完整实验以技术报告表格为准。

· 流式转写 + 双模式热词增强

支持流式 + 非流式一体化推理,适配实时字幕、会议转写、客服质检、录音整理等全业务场景;搭载 encoder-level 上下文偏置与 prompt-based 两种热词增强方案,精准适配方言场景、噪声场景、长尾词场景。

· 训练机制全面优化

通过训练机制优化缓解 loss spike、修复短音频漏字问题;数据管线 I/O 吞吐从 50MB/s 提升至约 800MB/s,减少 GPU 空转。

· 低资源方言专项优化

基于 temperature-based sampling 平衡训练数据分布,让稀缺方言样本获得充分训练,在吴语、闽南语等高难度方言上实现显著识别提升。

关键技术方

· 为中文方言重新设计数据配方

使用与 Dolphin V1 一致的训练数据底座,通过 temperature-based sampling 在 Natural Sampling 和 Uniform Sampling 之间做平滑,让低资源方言被更多学习,同时保留高资源普通话数据的稳定性。

配方优化后多方言测试集平均 WER 从 8.04 降至 5.62,相对下降 30.1%;宁夏、湖北、陕西、河南、山西、天津、山东、安徽、湖南等方言测试集均有明显提升。训练数据仅使用 DataoceanAI 中文数据集,覆盖标准普通话和 22 类汉语方言 / 地区口音,结合 AISHELL、约 10,000 小时 WenetSpeech、KeSpeech、Common Voice 公开数据增强泛化能力。

注:这张配方图来自中间实验,供大家参考;由于实验设置与论文最终评测表格不完全一致,数字口径会有微小差异。

· 更适合中文的 tokenizer 设计

词表规模从 40,000 降至 18,173;中文采用字符级建模,适配 CTC-AED 联合架构单调对齐;英文及字母语言保留 BPE subword 建模,兼顾表达能力与词表效率。引入任务 token、时间戳 token、方言 / 地区 token,额外预留 80 个方言 token slot,为后续扩展更多地区语音预留空间。

· 训练稳定性与工程优化

将 BatchNorm 替换为 LayerNorm,缓解变长语音和异构数据带来的 loss spike;针对流式 CTC 解码短音频漏字问题,补充短音频和尾部随机截断增强,删除错误从 9.17 降至 3.66;数据管线优化后 I/O 吞吐从 50MB/s 提升至约 800MB/s。

模型效果

我们对 Dolphin-CN-Dialect 在 21 类汉语方言 / 口音、标准普通话、真实场景语音、热词增强等维度进行了系统评估,结果显示:

· 汉语方言 / 口音

21 类方言 / 口音平均 CER 5.74%;相较 Paraformer_zh 平均 CER 从 22.76% 降至 5.74%,相对降低约 74.8%;相较 Qwen3-ASR-0.6B 从 12.74% 降至 5.74%,相对降低约 54.9%;相较 FunASR-Nano-2512 从 12.73% 降至 5.74%,相对降低约 54.9%;相较 FireRed-AED 1.2B 从 6.85% 降至 5.74%,相对降低约 16.2%。

在多个高难度方言表现上,Dolphin-CN-Dialect 的优势更加明显。吴语 CER 为 9.49%,优于 Qwen3-ASR-0.6B 的 18.25% 和 FunASR-Nano-2512 的 17.77%;闽南语 CER 为 20.74%,优于 Qwen3-ASR-0.6B 的 38.64%、FunASR-Nano-2512 的 55.36% 和 FireRed-AED 1.2B 的 30.73%;上海话 CER 为 7.81%,接近 FireRed-AED 1.2B 的 7.43%。

· 标准普通话与地区口音

在 KeSpeech 与 Common Voice 台湾普通话测试集上,Dolphin-CN-Dialect-0.4B 分别取得 5.04%、5.62% 的 CER。作为仅 0.4B 参数量的轻量模型,它在同梯队(≤0.8B)中拿下双测试集最优表现,性能全面超越 Qwen3-0.6B、FunASR-Nano-2512 等更大参数量模型,甚至优于 1.7B 的 Qwen3-1.7B,展现出极高的参数效率。同时,优异的测试结果也印证了模型对真实录音、自然表达与地区口音的强泛化能力,完美匹配多方言优化目标。

· 热词增强效果

在 encoder-level 热词实验中,Dolphin-CN-Dialect-0.4B 在 AISHELL 上将 BWER 降至 4.82,在 Common Voice 上将 BWER 降至 9.46,均优于 Paraformer_zh。

在 Common Voice prompt-based 热词实验中,WER 从 7.11 降至 6.08,BWER 从 15.22 降至 6.79,BWER 相对降低 55.4%。

· 真实场景适配

适配方言、口音、噪声、长尾词等复杂中文语音环境,低资源方言识别无明显短板。

我们希望 Dolphin-CN-Dialect 的发布,能够补齐汉语方言语音识别的短板,让语音识别不只听懂标准普通话,更能听懂更真实的中国话,推动多方言语音技术在日常沟通、办公协作、行业服务等场景的普及与落地。

米兰娱乐,九游棋牌,

米兰官方网站相关资讯:九游体育官网,