揭秘国足3对手男篮下封口令拒发布会

作者：董昌凤编辑：陈信蓉来源：jiuyou.com 发布：2026-05-14 20:41:52

今天，海天瑞声携手清华大学电子工程系语音与音频技术实验室（SATLab），正式发布 Dolphin-CN-Dialect 汉语多方言语音识别模型！

Dolphin-CN-Dialect 是一款面向汉语多方言、多口音、真实场景优化的新一代语音识别模型，它并非简单扩大模型规模，而是在 Dolphin 系列模型基础上，围绕数据配方、tokenizer、训练稳定性、流式转写、热词增强和部署效率做了一次系统升级，破解主流 ASR 模型方言识别率断崖下跌的行业难题。

主流语音识别模型在普通话场景已表现优异，但切换至方言和地区口音时识别率大幅下降，核心原因并非模型参数不足，而是训练数据分布严重不均衡：普通话数据充足，方言样本天然稀缺，简单混合训练只会让模型持续偏向普通话。Dolphin-CN-Dialect 通过 temperature-based sampling 重塑训练分布，让低资源方言在训练中被真正“看见”，而非被普通话数据淹没。

Dolphin-CN-Dialect 核心特性

· All-in-one 多方言覆盖

单模型支持 21 类汉语方言 / 地区口音，覆盖普通话、台湾普通话、四川话、吴语、闽南语等全场景中文语音，无需切换多模型即可完成识别。

· 精准高效的轻量识别

0.4B 小参数模型实现性能与效率的均衡，21 个方言 / 口音测试集平均 CER 达到 5.74%，对应平均准确率约 94.3%；实现 38% 的方言识别准确率提升和 16.3% 的整体 CER 相对降低，标准普通话性能仅有约 0.2% 的轻微波动。

Accuracy = 100 - CER，越靠外代表识别越准确。完整实验以技术报告表格为准。

· 流式转写 + 双模式热词增强

支持流式 + 非流式一体化推理，适配实时字幕、会议转写、客服质检、录音整理等全业务场景；搭载 encoder-level 上下文偏置与 prompt-based 两种热词增强方案，精准适配方言场景、噪声场景、长尾词场景。

· 训练机制全面优化

通过训练机制优化缓解 loss spike、修复短音频漏字问题；数据管线 I/O 吞吐从 50MB/s 提升至约 800MB/s，减少 GPU 空转。

· 低资源方言专项优化

基于 temperature-based sampling 平衡训练数据分布，让稀缺方言样本获得充分训练，在吴语、闽南语等高难度方言上实现显著识别提升。

关键技术方法

· 为中文方言重新设计数据配方

使用与 Dolphin V1 一致的训练数据底座，通过 temperature-based sampling 在 Natural Sampling 和 Uniform Sampling 之间做平滑，让低资源方言被更多学习，同时保留高资源普通话数据的稳定性。

配方优化后多方言测试集平均 WER 从 8.04 降至 5.62，相对下降 30.1%；宁夏、湖北、陕西、河南、山西、天津、山东、安徽、湖南等方言测试集均有明显提升。训练数据仅使用 DataoceanAI 中文数据集，覆盖标准普通话和 22 类汉语方言 / 地区口音，结合 AISHELL、约 10,000 小时 WenetSpeech、KeSpeech、Common Voice 公开数据增强泛化能力。

注：这张配方图来自中间实验，供大家参考；由于实验设置与论文最终评测表格不完全一致，数字口径会有微小差异。

· 更适合中文的 tokenizer 设计

词表规模从 40,000 降至 18,173；中文采用字符级建模，适配 CTC-AED 联合架构单调对齐；英文及字母语言保留 BPE subword 建模，兼顾表达能力与词表效率。引入任务 token、时间戳 token、方言 / 地区 token，额外预留 80 个方言 token slot，为后续扩展更多地区语音预留空间。

· 训练稳定性与工程优化

将 BatchNorm 替换为 LayerNorm，缓解变长语音和异构数据带来的 loss spike；针对流式 CTC 解码短音频漏字问题，补充短音频和尾部随机截断增强，删除错误从 9.17 降至 3.66；数据管线优化后 I/O 吞吐从 50MB/s 提升至约 800MB/s。

模型效果

我们对 Dolphin-CN-Dialect 在 21 类汉语方言 / 口音、标准普通话、真实场景语音、热词增强等维度进行了系统评估，结果显示：

· 汉语方言 / 口音

21 类方言 / 口音平均 CER 5.74%；相较 Paraformer_zh 平均 CER 从 22.76% 降至 5.74%，相对降低约 74.8%；相较 Qwen3-ASR-0.6B 从 12.74% 降至 5.74%，相对降低约 54.9%；相较 FunASR-Nano-2512 从 12.73% 降至 5.74%，相对降低约 54.9%；相较 FireRed-AED 1.2B 从 6.85% 降至 5.74%，相对降低约 16.2%。

在多个高难度方言表现上，Dolphin-CN-Dialect 的优势更加明显。吴语 CER 为 9.49%，优于 Qwen3-ASR-0.6B 的 18.25% 和 FunASR-Nano-2512 的 17.77%；闽南语 CER 为 20.74%，优于 Qwen3-ASR-0.6B 的 38.64%、FunASR-Nano-2512 的 55.36% 和 FireRed-AED 1.2B 的 30.73%；上海话 CER 为 7.81%，接近 FireRed-AED 1.2B 的 7.43%。

· 标准普通话与地区口音

在 KeSpeech 与 Common Voice 台湾普通话测试集上，Dolphin-CN-Dialect-0.4B 分别取得 5.04%、5.62% 的 CER。作为仅 0.4B 参数量的轻量模型，它在同梯队（≤0.8B）中拿下双测试集最优表现，性能全面超越 Qwen3-0.6B、FunASR-Nano-2512 等更大参数量模型，甚至优于 1.7B 的 Qwen3-1.7B，展现出极高的参数效率。同时，优异的测试结果也印证了模型对真实录音、自然表达与地区口音的强泛化能力，完美匹配多方言优化目标。

· 热词增强效果

在 encoder-level 热词实验中，Dolphin-CN-Dialect-0.4B 在 AISHELL 上将 BWER 降至 4.82，在 Common Voice 上将 BWER 降至 9.46，均优于 Paraformer_zh。

在 Common Voice prompt-based 热词实验中，WER 从 7.11 降至 6.08，BWER 从 15.22 降至 6.79，BWER 相对降低 55.4%。

· 真实场景适配

适配方言、口音、噪声、长尾词等复杂中文语音环境，低资源方言识别无明显短板。

我们希望 Dolphin-CN-Dialect 的发布，能够补齐汉语方言语音识别的短板，让语音识别不只听懂标准普通话，更能听懂更真实的中国话，推动多方言语音技术在日常沟通、办公协作、行业服务等场景的普及与落地。

米兰娱乐，九游棋牌，

米兰官方网站相关资讯：九游体育官网，

原标题：《王的盛宴》拍摄延期专家警示风险高 | 稿源：www jiuyou com | 责任编辑：董小凤

次日持刀枪报复(图) 我热爱工作并以此为傲

相关文章

推荐阅读