炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:机器之心Pro)

本文由阿里巴巴 Z-Image 团队联合香港科技大学等机构共同完成。第一作者为香港科技大学预备博士生 & 通义实验室实习生姜登阳,他的研究方向为视觉表征和生成。

少步扩散模型(如 Z-Image-Turbo)凭借高效采样和优异质量,已成为图像生成领域的主流方案。然而,这些经过 "步数蒸馏" 的模型在持续微调时面临一个棘手问题:传统监督微调(SFT)和离线 RL 方法会让模型 "忘记" 原本的少步生成能力,训练与推理之间存在严重的分布偏移。

为此,阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,仅凭目标图像 - 文本对即可让模型在保持原有少步采样能力的同时,学会新概念、新风格和新领域偏好。在 LoRA 定制和全量微调实验中,D-OPSD 在概念学习、视觉质量、提示词遵循和先验知识保留之间取得了最佳平衡。

一、核心问题:少步模型的 "持续学习" 困境

当前高性能图像生成模型正从低效的多步采样器转向高效的少步采样器。这些经过步数蒸馏的模型在减少函数评估次数的同时保持了生成质量,极具实用价值。但如何对这类模型进行持续微调,学界尚无明确答案。

传统训练范式各有短板:

D-OPSD 在设计空间中占据了一个独特的位置:在线策略、无需奖励模型、保持训练 - 推理一致性,同时通过自蒸馏引入目标图像 - 文本对。

二、关键发现:扩散模型继承了 LLM/VLM 的 "上下文能力"

近期,大语言模型(LLM)领域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了广泛关注。其核心思想是:学生模型在自身采样出的轨迹(on-policy roll-outs)上进行训练,而教师模型在更丰富的上下文条件下提供更强的监督信号,从而在不依赖外部奖励模型的情况下实现高效的后训练对齐。例如,在 LLM 中,学生基于自身采样的回答进行优化,教师则在更完整的上下文(如参考文档、多轮对话历史)下给出更优的预测,通过分布对齐将学生拉向教师。

现代配备 LLM/VLM 编码器的扩散模型,能够从编码器中继承上下文学习(in-context learning)能力。研究团队发现,当仅用文本提示时,模型生成的是通用结果;而当将目标图像与文本提示一起输入编码器、使用多模态特征作为条件时,即使不做任何额外训练,模型也能生成保留目标概念或风格的图像变体。

这一涌现行为为在线策略自蒸馏提供了关键基础:目标图像不再作为直接的降噪目标(那会改变轨迹本身),而是作为更强教师条件的上下文监督信号。学生分支仅基于文本条件采样,教师分支基于文本 + 图像的多模态条件提供更强预测,两者在同一个 on-policy 轨迹上进行对齐。

三、方法框架:学生跑轨迹,教师给监督

D-OPSD 的训练流程如下:

对于每个训练对 首先编码学生和教师条件,然后进行学生 on-policy 轨迹采样,再在同一状态上,对齐学生预测速度和 教师预测速度,然后更新学生模型和同步 EMA 更新教师。

与 LLM 中的 OPD(On-Policy Distillation)类比:学生的采样响应对应学生的降噪轨迹,教师的更强预测对应更强的条件降噪场。核心区别在于,自回归 LLM 输出离散词表分布,可直接用 KL 散度对齐;而流匹配扩散模型参数化条件速度场,因此 D-OPSD 采用速度预测的均方误差作为对齐目标,起到类似的作用 ——> 将学生的条件生成动态拉向教师,在更强的多模态上下文下对齐诱导的轨迹分布。

四、为什么 D-OPSD 能保留少步能力?

与 SFT 相比,D-OPSD 避免了强迫模型拟合在其自身少步采样过程中从未出现过的目标图像状态。优化始终在学生的实际 rollout 上进行,大幅减少了训练与推理之间的失配。因此,D-OPSD 为步数蒸馏扩散模型提供了一种在线策略监督训练范式,使其能够从目标图像中学习新概念、风格或领域偏好,同时保留原始的少步采样行为。

五、核心实验效果

1. LoRA 定制:少量样本学会新概念

在仅有少量图像 - 文本对的 LoRA 训练中,D-OPSD 能够从极少量样本中学习新概念,同时保持少步生成质量,并能泛化到未见过的提示词。

对比基线模型、SFT 和 PSO:

2. 全量微调:适应新领域不丢老本

在全量微调实验中,D-OPSD 将模型向目标领域(如动漫风格)适配,同时保留原始领域知识和少步推理能力。

六、未来值得研究的方向

未来,D-OPSD 框架还可向多个方向拓展:

即少步扩散模型仍有巨大的后训练提升空间。"蒸馏 + 在线策略" 范式,为未来进一步释放扩散模型在可控性、组合性与持续学习能力方面的潜力,提供了一个充满前景的新方向。

bb体育直播,ued体育直播,

贝博体育官方下载相关资讯:ued体育在线,