炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:科技行者)

这项由亚马逊研究团队完成的工作发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR第306卷。论文编号为arXiv:2606.01666,有兴趣深入了解的读者可通过该编号查询完整论文。

当你打开手机上的AI助手,向它提问一个问题时,背后那个"大脑"——也就是大型语言模型——需要在零点几秒内激活数十亿个参数来回答你。这就像一家万人企业,每次接一个小订单,都要全体员工放下手头工作同时上阵。效率低、耗电多、成本高,这是当前AI大模型最真实的困境。亚马逊的研究团队决定对这种工作方式动一次根本性的手术。

一、大公司的效率难题:为什么AI模型这么"费电"

现代大型语言模型,比如驱动各种AI助手的那些系统,通常拥有几十亿甚至上百亿个参数。每次你输入一句话,模型就需要把所有这些参数都"转动一遍"来生成回答。这种方式被研究者称为"稠密激活"——不管你问的是"今天天气怎么样"还是"请帮我推导量子力学公式",同样数量的计算资源都会被调用。

研究者很早就意识到这种方式过于浪费。以最近发布的Qwen3-30B-A3B模型为例,它拥有305亿个参数,但每次回答一个问题时,实际被用到的只有33亿个。换句话说,九成的"员工"在摸鱼。这种架构被称为"混合专家模型"(Mixture of Experts,简称MoE),它的核心思想是把大模型拆分成许多小的"专家小组",每次只让最合适的几组专家来处理当前的问题。

然而,从头训练一个MoE模型并不是件容易的事。这个过程不稳定、数据需求量极大,还需要复杂的"负载均衡"机制来防止某几个专家被过度使用而其他专家无事可做。于是,研究者们开始探索另一条路:能不能把一个已经训练好的普通大模型,直接改造成MoE模型?这个过程被称为"MoE化"。

问题的核心在于:改造的时候,怎么决定哪些神经元归哪个专家管?这个分组决策至关重要,分得好,改造后的模型依然聪明;分得不好,模型就会像一个被随意拆散的团队,不知道该怎么协作。亚马逊的研究团队在这里找到了一个新颖的切入点,他们把这个分组问题类比成了一个经典的物流问题——最优运输问题。

二、前人的方法:靠"感觉"分组的隐患

在亚马逊团队提出新方法之前,已有几种主流的"MoE化"方案,但它们都有一个共同的软肋。

最简单粗暴的方式是随机分组,就像把一个公司的员工随机打散成若干个小队。LLaMA-MoE就采用了这种方式,随机把神经元塞进不同的专家里,然后再花费大量算力重新训练来弥补随机分组带来的损失。这种方式耗时耗力,而且分组本身没有任何道理可言。

更聪明一点的方式是根据神经元的"性格相似性"来分组。有的方法看神经元处理输入时的权重是否相近(权重聚类),有的方法看哪些神经元倾向于同时被激活(共激活聚类)。CMoE这个方法就用了平衡K均值聚类算法,把同时活跃的神经元归为一组。

这些方法听起来很合理,但亚马逊团队指出了一个被所有人忽视的根本问题:这些方法都在优化"中间过程",而不是"最终结果"。

用一个具体的例子来理解这个问题。大模型里的前馈网络层(FFN)处理信息的方式是两步:第一步,把输入信号变换成一个中间表示;第二步,把这个中间表示再变换成输出。现有方法在分组神经元时,只看了第一步里神经元的行为,却没有考虑第二步——也就是这些神经元最终如何影响输出结果。这就好比给餐厅的厨师分组时,只看谁的刀法相似,却不看谁做出来的菜最受顾客欢迎。

为了验证这个问题有多严重,研究团队做了一个精准的单层重建实验:把模型的某一层单独拿出来,用不同方法分好专家组后,直接测量"改造后的输出"和"原始输出"之间的误差。结果触目惊心。在LLaMA-2模型上,随机分组的误差是亚马逊新方法的36倍,而最好的对比方法CMoE的误差也有2倍多。在LLaMA-3模型上,这个差距更是高达41倍对比2倍。

这个实验清楚地证明:看"谁和谁长得像"完全不够,关键要看"谁和谁搭档,能产出最好的结果"。

三、核心创意:把分组问题变成快递派单问题

亚马逊团队的新方法叫做DOT-MoE,其中"DOT"代表"可微分最优运输"(Differentiable Optimal Transport)。

最优运输问题是数学领域的一个经典概念,可以用一个非常直观的场景来理解:假设城市里有若干个仓库和若干个零售商,每个仓库有一批货物,每个零售商需要特定数量的货物。最优运输问题就是要找到一个调货方案,使得总的运输成本最低,同时每个仓库的货物全部送完,每个零售商的需求全部满足。

在DOT-MoE里,"仓库"变成了神经元,"零售商"变成了专家组,"运输"变成了神经元归属某个专家组的决定,"运输成本"变成了这种归属方式导致的输出误差。研究团队的目标就是找到一个分配方案,让每个神经元都有归属,每个专家组的神经元数量恰好相等,同时整体的输出误差最小。

然而,这个问题有一个技术上的挑战:每个神经元只能属于一个专家组,这是一个"非此即彼"的离散决策,而神经网络的训练需要能够顺滑地计算梯度(可以理解为"调整方向的指示信号")。一旦决策是离散的,这个信号就会消失,训练无法进行。

研究团队用了一个叫做"熵正则化"的数学技巧来绕过这个障碍。简单说,他们在最优化目标里加入了一个"允许模糊"的成分,让分配方案在训练过程中可以是"60%属于专家A,40%属于专家B"这样的模糊概率,而不是非此即彼的硬性归属。这个模糊分配通过一种叫做"Sinkhorn-Knopp迭代"的算法来计算——这个算法的工作方式类似于反复校准,交替保证每行的概率之和为1(每个神经元只被分配一次)和每列的概率之和为固定值(每个专家组的容量相等)。为了数值稳定,整个计算在对数域进行,避免了数值过小导致的下溢问题。

等到训练完成后,再把这个模糊的分配方案"硬化"成明确的归属:按照分配概率从高到低排序,依次确认每个神经元的最终归属,同时确保每个专家组不超载。这个"硬化"过程本身不能传递梯度,于是研究团队又用了一个叫做"直通估计器"(Straight-Through Estimator,STE)的技巧:前向计算时用硬化后的结果,反向传播梯度时假装用的是软分配,让优化信号能够顺利传回去更新分配逻辑。

这整个设计的精妙之处在于它同时解决了三件事:分配是可以学习的(不靠启发式规则),分配是平衡的(每个专家组神经元数量相等,通过Sinkhorn严格保证),优化目标是输出级别的误差(不是中间表示的相似度)。

四、路由器的设计:谁来决定每个问题找哪个专家

光有专家分组还不够,还需要一个"调度员"来决定每个输入问题应该找哪几个专家组来处理。这个调度员在MoE架构里叫做"路由器"。

DOT-MoE的路由器设计很直接:给定一段输入文字,路由器把每个词(token)映射到一个概率分布,表示这个词应该由哪些专家组来处理的可能性有多大。然后选出概率最高的前k个专家组,只激活这k组专家来处理这个词。

路由器的训练同样面临离散决策的梯度问题——"选前k个"这个操作也是不可微的。于是研究团队对路由器也应用了直通估计器:前向计算用真正的离散选择结果(某个词就是被分配给了这k个专家),反向传播时假装用的是softmax输出的连续概率值来传递梯度。

最关键的创新点在于:神经元分组的学习和路由器的学习是同时进行的,相互影响,共同优化。之前的方法通常是先固定分组,再训练路由器;而DOT-MoE允许两者在训练过程中互相适应。分组方式影响路由器应该把什么样的输入路由给哪个专家,路由器的偏好反过来又会影响什么样的分组更合理。这种协同优化让最终结果更加自洽。

五、训练过程:在不改变大模型本身的情况下完成改造

DOT-MoE的训练分为两个阶段:对齐阶段和微调阶段。

对齐阶段是整个方法的核心。在这个阶段,大模型原有的所有权重全部冻结,一个参数都不动,只训练两组新引入的参数:神经元与专家组之间的亲和度矩阵(用于Sinkhorn计算的原始分数)以及路由器的权重。训练用了一个叫做Dolmino-mix的数据集,在8块H100 GPU上跑了3500步,整个过程不到3小时。

训练时的目标函数结合了多个成分。第一个成分是让改造后的MoE模型的输出概率分布尽可能接近原始稠密大模型的输出——这是知识蒸馏的思路,让稠密模型作为"老师",MoE模型作为"学生"。第二个成分是标准的语言建模损失,确保模型依然会"说话"。第三个成分是路由器Z-loss,惩罚过大的路由分数,防止数值不稳定。第四个成分是负载均衡损失,鼓励所有专家组被大致均匀地使用,防止出现少数专家被过度使用、其余专家闲置的"专家崩塌"现象。

对齐阶段结束后,提取最终的神经元分配矩阵,把原来的稠密FFN权重真正拆分成E个独立的专家FFN模块,得到一个标准的MoE架构模型。接下来可以选择进行微调阶段,用更多数据进一步恢复和提升模型性能。研究团队统一用12亿个token进行了微调,以便与其他基线方法做公平比较。

在训练过程中模拟稀疏计算的方式也很巧妙:并不真的把权重拆开,而是通过一个掩码操作,把不属于当前激活专家的神经元的中间激活值直接置零,再进行后续的矩阵乘法。这样既模拟了稀疏MoE的计算效果,又能在原有的稠密权重上完成梯度计算。

六、实验结果:数字背后的真实差距

研究团队在三个主流开源大模型上验证了DOT-MoE的效果:LLaMA-2-7B、LLaMA-3-8B和Qwen2.5-7B。评测覆盖了六个常识推理基准:ARC-Challenge(科学题)、Winogrande(常识填空)、HellaSwag(情境理解)、PIQA(物理常识)、SciQ(科学问答)和BoolQ(是非判断)。

在最严格的零样本评测中(不给任何参考示例,直接答题),DOT-MoE的表现相当突出。以LLaMA-2-7B为例,把模型压缩到原来一半参数量后,DOT-MoE的六项平均准确率达到61.5%,而同样设置下CMoE只有44.5%,DISP-LLM(一种结构化剪枝方法)达到57.4%。在LLaMA-3-8B上,DOT-MoE零样本均值59.8%,CMoE只有41.8%。在Qwen2.5-7B上,DOT-MoE在较大参数预算下达到72.3%,远超CMoE的55.5%和DISP-LLM的66.7%。

与结构化剪枝方法的比较同样引人关注。结构化剪枝是另一类压缩大模型的主流方法,它的做法是直接永久性地删除一部分参数,从而减小模型体积。在LLaMA-2-7B上,DOT-MoE在WikiText-2语料上的困惑度(衡量语言模型"迷惑程度"的指标,越低越好)达到7.99,而当前最优的结构化剪枝方法DISP-LLM是9.84,半结构化剪枝方法SparseGPT是10.17,Wanda是11.02。数字越小意味着模型对语言的理解越好,DOT-MoE在这里处于领先位置。

加入12亿token的微调后,差距进一步扩大。在LLaMA-3-8B上,用相同的12亿token微调后,DOT-MoE均值67.8%,CMoE是64.7%。当微调数据量扩大到70亿token时,DOT-MoE进一步提升到71.0%,超过了同样用70亿token微调的LLaMA-MoE-v2(66.8%)。在Qwen2.5-7B上,较大参数量版本的DOT-MoE微调后达到73.4%,而原始稠密模型是80.6%,差距被大幅缩小。

七、消融实验:拆解每个设计决策的贡献

研究团队做了一系列精心设计的消融实验,验证每个设计选择背后的道理。

第一组实验研究专家粒度的影响。总专家数量分别设为16、37、74、148、256,同时保持每次激活的参数比例不变(始终用25%的FFN参数)。结果显示,专家数量从16增加到148时,模型性能稳步提升;但超过148之后,收益趋于饱和。这与OpenAI和AllenAI等机构在训练MoE模型时观察到的规律一致:专家粒度越细,路由决策就越精准,但过于碎片化的专家会带来边际效益递减。对比方法CMoE在专家数量增加到37时性能直接崩溃,WikiText困惑度超过5000,而DOT-MoE在这个规模下依然运行良好,说明其路由机制对高专家数量有更强的适应性。

第二组实验研究推理时的灵活性。研究团队训练了两个版本的Qwen2.5-7B模型,分别在50%和75%的FFN稀疏度下进行对齐训练,然后分别在30%、50%、75%、90%四个不同的推理时稀疏度下进行评测。结果很有规律:在75%稀疏度下训练的模型,在所有推理稀疏度设置下都比在50%下训练的模型表现更好。在极端的90%稀疏度推理时(只激活10%的FFN参数),75%稀疏度训练版本的平均准确率是39.12%,而50%稀疏度训练版本只有36.38%。研究团队解释这种现象的原因是:当训练时可用的激活神经元更少,每个专家被迫学会更高效地编码信息,最终形成更紧凑、更具区分度的专家表示。这对实际部署意味着一个实用的好消息:在高稀疏度下训练一次,就能灵活调整推理时的计算预算,无需重新训练。

第三组实验研究专家粒度对推理速度的影响。使用vLLM这个高性能推理框架,在4种专家数量(8、16、74、148)和3种批次大小(1024、2048、4096)下测量吞吐量(每秒处理的token数)。结果显示,专家数量从8增加到148,吞吐量几乎没有变化。原因在于vLLM的融合MoE内核实现:所有专家的权重被拼接存储,通过token重排序,整个计算等效于一次大矩阵乘法,专家数量的变化不影响GEMM运算的规模,因此不影响速度。这意味着使用更细粒度的专家分组不会带来性能代价。

第四组实验研究不同初始化策略对后续微调的影响。在相同训练数据和相同超参数下,分别用DOT-MoE、CMoE和LLaMA-MoE-v2初始化LLaMA-3-8B,然后追踪训练过程中的训练损失、WikiText困惑度和HellaSwag准确率。DOT-MoE从训练起点就有明显优势:初始训练损失更低,WikiText困惑度更低。随着训练进行,CMoE和LLaMA-MoE-v2出现了一个令人担忧的现象:训练损失继续下降,但WikiText困惑度和HellaSwag准确率不再进步,甚至略有下滑,这是过拟合的典型信号。DOT-MoE则在两个维度上都持续改善。这说明更好的初始专家分组不仅提供了更好的起点,还带来了更好的泛化能力。

八、延伸应用:同样的思路也能用在注意力机制上

除了前馈网络层,研究团队还把同样的最优运输框架扩展到了Transformer的另一个核心组件——多头注意力机制。

注意力机制的工作原理是把输入的每个词同时与多个"注意力头"进行交互,每个头关注输入序列的不同方面。类似地,可以把这些注意力头分成若干个专家组,每次只激活其中几组来处理当前输入。分组的优化逻辑与FFN完全相同:引入亲和度矩阵,用Sinkhorn迭代找到平衡分配,用直通估计器处理离散选择。

在Qwen2.5-7B上,注意力层的50%稀疏度实验中,OT分组方式的平均准确率是64.1%,而随机分组加训练路由器的基线只有46.2%,差距达到17.9个百分点。值得注意的是,注意力参数大约只占模型总参数的三分之一,所以仅对注意力层做MoE化的整体压缩效果有限;将注意力MoE和FFN MoE结合起来是一个自然的扩展方向。

九、规模扩展性验证

为了证明DOT-MoE不只在7-8B参数规模的模型上有效,研究团队还在Qwen2.5-32B这个更大的模型上进行了测试,同样目标是激活25%的参数。结果显示,DOT-MoE的零样本平均准确率达到73.1%,而CMoE只有38.8%,差距扩大到34.3个百分点。这说明随着模型规模增加,OT分组方式的优势不仅没有缩小,反而有所扩大。

在序列长度的鲁棒性方面,研究团队测试了从2048到32768个token的不同上下文窗口长度。DOT-MoE在所有长度下相比CMoE保持约2个困惑度点的优势,说明每个token独立做路由决策的设计天然适合长上下文场景。

在训练开销方面,研究团队也做了详细的性能分析。Sinkhorn迭代只占总训练时间的约2%。DOT-MoE特有的所有操作(包括亲和矩阵计算、硬化分配、直通估计器)合计带来约15%的额外开销,主要来源是贪婪取整操作目前在CPU上运行,存在CPU到GPU的数据传输开销。一旦这个操作改用GPU专用内核实现,开销可以大幅降低。更重要的是,这些开销只在对齐训练阶段产生,推理时的模型已经是标准MoE架构,没有任何额外计算。

说到底,DOT-MoE做的事情可以用一句话概括:它找到了一种有数学依据的方式,把一个"全体员工同时上岗"的大公司,改造成了一个"根据订单智能派遣专属小团队"的高效企业,而且改造过程不需要重建公司(冻结原有权重),只需要重新规划部门划分和调度系统。

这项研究的意义不只是一个学术上的方法改进。归根结底,让AI模型变得更高效,意味着它可以部署在算力更有限的设备上,意味着更低的服务器成本,意味着更低的碳排放。每次你用手机上的AI功能,背后都需要远程服务器的大量计算——如果这些计算可以减少一半,影响是相当现实的。

当然,这项研究也有明确的局限性和未来方向。亲和度矩阵目前是随机初始化的,如果能利用权重相关性或预计算的激活统计量来初始化,可能加速Sinkhorn收敛并得到更好的初始分组。另外,对于训练中长期闲置的专家,可以考虑直接剪除,进一步压缩模型的内存占用。在更大规模(如千亿参数量)的模型上进行验证也是自然的下一步。对这些问题感兴趣的读者,可以通过arXiv:2606.01666找到完整论文,深入了解所有技术细节和实验设置。

Q&A

Q1:DOT-MoE和普通剪枝方法有什么区别?

A:普通剪枝是永久性地删除模型参数,就像直接裁员,被删的知识就消失了。DOT-MoE不删任何参数,而是把所有参数分成若干个"专家小组",每次只激活几组来处理当前问题,全部知识都保留着,只是按需调用。两者都能减少推理计算量,但DOT-MoE在保留模型能力方面更有优势,特别是在长尾知识方面。

Q2:DOT-MoE改造一个大模型需要多少计算资源?

A:资源需求相对较低。对齐训练阶段冻结了原始模型的全部权重,只训练不到2%的新参数(亲和度矩阵和路由器权重),在8块H100 GPU上只需不到3小时就能完成LLaMA-3-8B的改造。后续微调阶段用了12亿个token,规模也远小于从头训练。整体来看,比从头训练MoE模型节省了大量资源。

Q3:改造后的模型在实际推理时速度会更快吗?

A:是的,激活参数减少50%意味着每个token的计算量减半,实际推理速度有实质性提升。实验表明,使用vLLM的融合MoE内核时,专家数量的增加不会带来额外的速度损失,因为所有专家的计算被合并成高效的矩阵运算。模型部署后是标准的MoE架构,与主流推理框架完全兼容。

bb体育投注,乐鱼官方网站,

bb体育下载相关资讯:leyu,