炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:极客公园)

构建持续学习的 Agent 模型。
作者|徐珊
编辑|郑玄
Mindverse 完成由美团领投的 A 轮融资,元禾璞华、韶音、变量资本和老股东追加跟投,历史股东包括蚂蚁、源一、红杉中国、真格、高榕等一线基金,融资额近 5000 万美元,高鹄资本担任独家财务顾问。
一个会持续学习的先进 Agent模型,到底该怎么构建?
在大模型智能上限一路被推高时,「持续学习」的最佳答案还是没有出现。
「真正的 Agent 能力并非来自精巧的提示词拼凑,而是源自后训练。」
Mindverse (心洲科技) 是少数把赌注押在模型「内部」的一家创企,它在通用大模型的基础上,用强化学习让它从复杂、多步骤的真实任务中学会如何把事做成,让模型从「知道很多」变为「能办好事」。
而实现持续进化的关键在于 LoRA 技术,它就像给一个强大的共享大脑挂上无数轻量的「技能包」,每个技能包只占极小参数,却能独立更新、彼此隔离,让模型以极低成本不断积累属于特定用户或场景的记忆与能力,而不是每次从头重训。
三年前,当整个行业的目光还盯在预训练上,Mindverse 的创始人 Andrew 就在一篇和姚顺雨合作的论文里写下了一个几乎没人认同的判断:
Agent 的能力,最终要回到模型训练本身,而不是靠 prompt 和框架拼出来。
早期 Mindverse(心洲科技)内部研讨会议 | 来源:Mindverse三年过去,当行业注意力从预训练涌向后训练,这家公司发现,自己一直默默走的那条路,已经站到了潮水的正中央。很快他们将开源自己训练的 750B agent 模型,这也会成为全球第一个在 GLM 5.1 上完成强化学习后训练的成果。
看准这件事很早,公司团队却不大。Mindverse 核心研发约 20 人,成员来自 DeepSeek、字节 Seed、xAI,也有清华、MIT、杜克的背景,累计发表过 200 多篇顶会论文。
两位创始人陈锴杰、Andrew 从 2018 年就一起休学创业,做过机器人、办过实验室,又各自回到学校,2023 年再次走到一起。Andrew 抓住了从 agent 训练到先进 agent model 的技术范式,首席科学家马骁腾带来了十年的强化学习积累,而陈锴杰则主要关注业务模型的应用和用户价值判断。
在和陈锴杰这场对话里,我们想弄清楚的是:如何用后训练的方式,训练出一个便宜、好用、还能持续成长的模型?
以下是极客公园和创始人陈锴杰的对话,经过整理:
01
模型变强的下半场,在后训练
极客公园:这一两年,行业的注意力肉眼可见地从预训练转向后训练。后训练这件事,是什么时候真正变重要的?
陈锴杰:今天预训练和后训练的边界已经越来越模糊,预训练阶段也会混入大量 Agent 轨迹数据。但大体上仍然可以这样区分:预训练主要利用互联网数据建立对世界的基本认知,后训练则把这些认知转化成具体能力。
真正的分水岭大概出现在 DeepSeek 发布 R1 的时候。那是行业第一次看到强化学习能够系统性地推动大模型能力提升,也是后训练地位快速上升的开始。在那之前,后训练消耗的算力可能只占预训练的 3% 到 5%,现在绝大部分模型能力的进步都发生在后训练阶段。
一个重要原因是,行业开始积累此前互联网中不存在的数据。Claude Code 这样的产品里大量真实任务产生的 Agent 轨迹开始被沉淀下来,成为推动后训练持续演进的重要基础。
极客公园:后训练真正解决的,到底是模型的什么?是能力,是对齐,还是让它「学会做事」?
陈锴杰:是在「对世界的基本认知」这个底子之上,去增强它在真实任务里的能力。预训练给了它知识和世界观,但一个知道很多事的人,不等于一个能把事做成的人——后训练补的就是后面这半截:怎么在真实任务里把已有的认知用起来、用对。
而且这件事还有一个更未来的形态,叫持续学习(continual learning)。我们想做的是有一种训练模型的方法,能让模型用很低的成本不断演化、进化,学习新的知识、做新的任务,也遗忘那些不需要的知识和任务,让效果以一种渐进的方式提升。它不是训练完就定型,而是一边在真实场景里运行、一边持续地更新自己。
极客公园:你们认定要靠训练去解决这件事,其实下手很早。2023 年那篇 FireAct 就提出「agent 能力来自训练、而不是 prompt」,当时还是个非共识。为什么你们敢这么早押?
陈锴杰:这个判断和我离开学校后的第二次创业经历有关。当时我们在做 AI 游戏,用的是 GPT-2、GPT-3 时代的模型。能力很有限,但已经需要构建一个会随着用户行为不断变化的 AI 世界,本质上是在搭建复杂工作流。
那两年我们很清楚地看到一个问题。单个步骤成功率达到 95%,看起来已经很高,但当十几个步骤串联在一起时,误差会不断累积,最终破坏整个体验。长程任务不可能只依赖 Prompt 拼接完成,能力最终必须通过训练获得。今天大家常说的 trajectory,本质上就是一条连续的思考与行动轨迹。
后来姚顺雨提出 ReAct,把思考和行动组织成一条连续轨迹。我们看到这件事的时候,其实非常有共鸣。也是从那个时候开始,我们越来越确信,Agent 能力最终会回到训练本身。Andrew 和他一起发完 FireAct 那篇论文之后,我们也决定沿着这条路线继续往前走,成立公司,把这件事做下去。
极客公园:这条路绕不开 LoRA。但大部分人对 LoRA 的印象还停在「给图片加个滤镜」。在你们这儿它显然不是这个角色,该怎么重新理解它,它和强化学习又是什么关系?
陈锴杰:我们选 LoRA,最初其实是个很现实的考虑,它是一个极致性价比的训练方法。你可以把它理解成一个自适应的适配器:它不去动整个模型,而是把模型里最关键的那部分参数提炼出来训练,用很少的参数就能拟合整个模型的训练效果。因为我们最早只有几十卡、一百卡的集群,受到这个限制我们必须把每一分算力的效率榨到极致。
但今天 LoRA 演变成了构建持续学习的技术底座,它负责让模型的能力能够不断地被承载、被更新。它和强化学习其实是分工的两件事,强化学习是后训练里最主要的方法,负责把模型的能力真正练出来。在万亿参数这个规模下,强化学习和 LoRA 的适配两件事情都很困难,但都绕不开。
极客公园:那你们研究真正的转折点是哪一刻?我们注意到一个挺微妙的细节,几乎在同一时间,硅谷的 Thinking Machines 也在做同一件事。
陈锴杰:转折在 2025 年 9 月前后。我们发现在足够大的 MoE 模型上用 LoRA 做强化学习,性能是没有损失的。一个轻量的低秩方法去更新模型,和把整个模型全参数更新一遍,效果一样。这意味着我们能用 1/10 的成本,拿到和全参数训练一模一样的结果。现在它从一个性能和效率的取舍变成了对效率的单调优化。
做出这个结果时我们第一反应是怀疑自己。直到 Thinking Machines 随后在 9 月 29 日他们发了《LoRA Without Regret》,结论跟我们完全一致。看到他们独立印证了同一件事,我们反而踏实了。
到去年 12 月底,我们完成了万亿参数的 LoRA 强化学习,和 Thinking Machines 同期发布。全球那时能做到的只有我们两家,今年加上 Fireworks(Cursor Composer 模型的合作伙伴)也就三家。
极客公园:你说LoRA是「构建持续学习的技术底座」。这句话具体怎么理解?为什么 LoRA 这层东西,会成为模型「持续学习」的关键元器件?
陈锴杰:它是基模上面的一个更小的层,比如我们最新要发的模型,就是基模加上面这个 LoRA 一层,LoRA 这层的参数量大概是基模的千分之五,有很多个的话会更大。因为这一层参数不多,所以它便宜、好训、可以扩展。
举个例子,假设我服务一个金融客户,先把他的股票、市场数据训成一个金融推理模型。过三个月,金融市场又发生很多事、股价也变了,这些新数据怎么办?OpenAI、Anthropic 要把这些再训进预训练里,是很贵、很难、动起来成本极大的一件事;但这个金融客户,因为 LoRA 本身够小,只要继续训这个 LoRA、把新数据再训进去就行。LoRA 的大小也不固定,可以做得很小很小,小到每个人有一个、薄薄的一片,用一个人一个月的数据去训,可能就是几十美金的量级;而最大的、能追平全参数训练效果的 LoRA,也不过几万、几十万美金。所以它有非常大的可调节空间:你企业数据少能训,数据多也能训,想要接近预训练级别的大提升、让它学会一门新的代码语言,也能训。薄、好训、可加、便宜,这就是 LoRA 在持续学习上的第一层意义,在单个 LoRA 上。
极客公园:如果不用任何术语,让一个普通人听明白,你们到底在做一件什么事?
陈锴杰:我们在一个足够强的大模型底座上,挂很多个「技能包」,让一个模型能同时变成成千上万个各有所长的模型,去服务不同的人、不同的企业、不同的场景。
这个底座就是 base model,提供通用的智能上限;那些"技能包"就是 LoRA,每一个承载一小块具体的东西,里面可以是某个用户的长期偏好、某个企业的业务经验、某类任务的打法。过去大家的默认做法是"一个模型服务所有人",所有人共用同一套参数;我们想做的是反过来,共享同一个聪明的底座,但每个人、每个场景头上都有一片属于自己的、还能持续长大的参数。我们把这套结构叫 mixture of LoRA。
极客公园:mixture of LoRA,这名字会让人立刻想到 MoE,大家熟悉的 mixture of experts。这两个「mixture」是一回事吗?
陈锴杰:有学习 MoE 的地方,但不一样。MoE 里单独一个 expert 是没法完成推理的,它更像是模型内部自己分出来的计算单元。但 mixture of LoRA 里,每一个 LoRA 都是独特的、可以单独调用、对应一块明确的能力。
举个例子,假设我要做金融任务,我可以一次性挂 10 个 LoRA,一个学股价、一个学财报、一个学风控……分头去学。哪天我又要加两个新任务,比如港股打新的技巧,我完全不用动前面那 10 个已经学好的,直接再加两个 LoRA 进去学就行,学完一挂,模型的能力就天然扩展了一块,旧的一点没受影响。这就是为什么我们说它是一个"天生适合持续学习"的结构。因为其所有的能力是一块块累加上去的,而不是每加一点新东西就得把整个模型重训一遍、还冒着把旧本事弄丢的风险。这也是 LoRA 的第二层意义,在 mixture of LoRA 的持续扩展上。
我们还在探索的、更远的可能,比如说让 LoRA 之间协商、合作。当我们有了 mixture of LoRA 这个架构,我们会关注不同的 LoRA 之间的协作,会不会因为模型的多样性带来更好的结果。
极客公园:这套结构落到一个真东西上,就是你们即将要发的模型?
陈锴杰:对我们很快会开源我们训练的模型,它天生就支持 mixture of LoRA,是一个 750B 参数的 Agent 模型,其中是 744B 的预训练 GLM 5.1 + 6B 的 LoRA。我们应该是除了智谱以外,第一个在 GLM 5.1 上完成强化学习后训练的团队。
在 GLM5.1 上面做 LoRA 强化学习是有实打实的工程门槛的,需要适配 DSA,DeepSeek Sparse Attention,还有 MTP,Multi Token Prediction。我们这个模型不是去追「什么都会」的通用基模,它是专门面向 agent 场景深度后训练出来的,主要服务于生成式 UI 的编码、生活中的聊天、长链路推理和工具调用。
极客公园:新模型你们定义成一个 Agent Model。这个词该怎么理解?大家在后训练上的投入,最终都是为了它吗?
陈锴杰:最新的前沿模型都是面向 agent 的模型。拿 Claude 举例:它出了 Claude Code 之后,模型训练就会用 Claude Code 的数据,这些数据和我们平常用豆包那样「问一句答一句」完全不同。在 Claude Code 里,你写一段代码是一个非常长的任务,中间有很多交互,是一条很长链路的数据。用这些数据训练之后,Claude 这个模型就越来越"agent native",越来越适应 agent 的架构,因为它本来就是用这些数据训出来的。所以模型和应用场景是相辅相成的,大家都在往这个方向演进,进度各不相同。
我们做的也是这件事,只不过场景放在生活上。Macaron 是我们的 agent harness,生活场景里同样有很多复杂的工具调用、代码执行,还有很多模糊的请求,用户自己也不知道想干嘛。我们会把这些串成一条连续的任务链路,让模型在这条链路里通过训练做得更好,去提升 agent 的表现。所以当我们说 agent model 时,指的就是:这个模型训出来,是为了在一个多轮 agent 环境里使用的,它专门为这个环境做了优化。它还是一个模型,但做了 agent 的训练。
我们很特别的地方在于,市面上几乎没有专门为 agent 工作流优化的模型。国内大批量的开源模型,基本还在追赶 GPT 和 Claude 最先进的那一代,所以大家的精力很多还在预训练上,怎么先赶上,可能还顾不上把 agent 这部分在后训练里做得特别好。
Claude 肯定在逐渐做,做得也非常好,但同时他们要管的课题多很多。我们是专门为 agent 训练模型,让它把 agent 任务做得更好,工具调用、记忆提取、什么时候该把任务交还给用户、什么时候继续多轮思考,这些它都会做得更好。
02
模型时代,时间就是最大的壁垒
极客公园:大家最初认识 Mindverse(心洲科技)就是从 Macaron 开始。你谈到Macaron 不只是个 C 端产品,而是模型的agent harness。能具体讲讲,模型和产品到底怎么互相喂养?这和大家常说的「拿用户数据训模型」有什么不一样?
陈锴杰:我们从一开始,就是把模型训练和 C 端应用的迭代放在一起看的,它不是"先有模型、再拿产品收集点数据"那么简单,而是一个双向的循环。
但我们和很多人有个关键区别,我们不直接拿用户的数据去训练。生活里的隐私和工作一样重要,而很多人会直接拿用户数据训模型。我们的做法是借助用户的反馈,去理解数据里的分布和特点,然后造一个我们自己的模拟环境,把模型放进这个模拟环境里训练。我们会故意往里面加很多噪声、干扰、极端情况,因为真实用户的表现本来就非常极端:会中途打断、会改目标,还会给到错的、过时的信息。模型在这种环境里练出来,才扛得住现实里 agent 真正会遇到的状况。而且后训练需要的数据量其实很小,几万条、几十万条就是一个很有意义的规模,它不像预训练要那么大的量,更关键的是数据质量要非常高。
反过来,模型也喂产品。这些训出来的能力,训完是直接部署回 Macaron 的,产品体验的上限本就由模型能力决定。这和 Anthropic 是同一个逻辑,Claude 的训练直接服务 Claude Code,Claude Code 里跑出来的东西又流回去训模型,只不过我们的场景是生活。所以 Macaron 对我们的意义,不是多一个产品入口,而是给模型提供了一个真实、长期、会持续产生反馈的 agent harness 和训练环境。Macaron,现在有 200 多万用户、超过 10 万日活。
极客公园:你们很看重「生成式 UI」。模型把答案讲清楚不就行了,为什么非要它会「画界面」?
陈锴杰:模型什么都返给你一段文字,其实不是一种好的表达方式。人类天生就是一个视觉动物,对图形的感知要显著的好于文字。同样一件事,展示一张图表,肯定比把这些数字写成一大段话更清晰——这中间省掉的,是你的认知负担。Google 在 IO 大会上讲的 omni 也是这个意思,模型该用更丰富的形式把结果交给你,而不是永远丢一堆文本让你自己消化。
所以在 Google 定义的 A2UI 这个标准上,SOTA 衡量的就不只是「模型能不能生成 UI」,而是「它生成的这个界面,帮用户下降了多少认知负担」。在生活场景里这件事尤其关键:你问「今天吃什么」,给你弹出几个能直接点的选项卡,和给你写三百字,体验完全是两回事。模型会不会"好好说话",在 C 端是直接决定体验的。
极客公园:你们在模型上面公布的 benchmark 也挺有意思,生活类任务上拿了 SOTA,但代码、数学这些硬核任务,你们明说了只逼近、不追第一。这个取舍本身是一种表态吧?
陈锴杰:这个选择本身就说明了我们是一家什么样的公司。姚顺雨在「AI 下半场」里的观点我们特别认同:接下来 benchmark 可能是模型训练里最重要的一环,因为你选择什么 benchmark,就是你想让模型在哪些任务上变强。
我们挑了四个,Living Bench 是我们自己定义的、Vita Bench 是美团出的,这两个打的是生活类长链路任务,比如一次旅行规划,听着简单,真做起来牵涉的环节和个人偏好特别多;A2UI 是 Google 提出的生成式 UI 标准;PinchBench 是海外常用来刻画 OpenClaw 这类 agent 任务表现的榜单。这四个上我们都做到了 SOTA。
而客服、写代码、纯数学这些传统任务,对我们也重要,但不是我们最想争第一的地方,我们会去逼近开源模型的最好水平,但不在这上面争第一。说白了,我们不想做一个样样考第一的通用模型,我们想做一个在「真实生活里把复杂的事办成」这件事上最好的 agent 模型。
但从另一个角度来看,我们整套训练框架是可复用在多个场景的。我们通过这次发布的首个模型,本质上是验证了「基座大模型+技能包」这条路在复杂长链路任务里的有效性。因此,面对更广阔的企业端垂直需求,我们不需要从头训模型,只需要基于同一个底座,快速增强出对应场景的专精技能,以极低边际成本覆盖新的 Benchmark。
极客公园:听说你们能将模型后训练的成本降低 1/10,且效果保持不变。这 10 倍到底省在哪?这个事情在万亿参数的模型上去做有什么难的地方?
陈锴杰:省是因为我不用为每个用户、每个场景都复制一整个大模型。打个比方,如果要给几千个人各部署一个完整的万亿参数大模型,那等于把同一个庞然大物原样复制几千份,需要的算力是个天文数字,经济上根本不可能发生。但在我们的结构里,这几千个模型共享同一个底座,各自只带一片小小的 LoRA,所需的算力跟部署一个模型相比几乎没有增加,省掉的,就是那几千份重复的底座。
至于为什么「越大越难」,是因为困难不是线性涨上去的,而是一道道工程门槛。在小模型上挂个 LoRA 没什么稀奇,但要在接近万亿参数的超大模型上稳定训练、并且把成百上千个 LoRA 同时部署好,背后是一整套系统工程:算子要重写、显存怎么管、训练和推理怎么保持一致、几百万个技能怎么加载切换、多个客户之间怎么隔离……每一项到了这个尺度都会变成硬骨头。
国内目前能在这种尺寸上做 LoRA 训练的,可能就我们一家。我们现在甚至在往极小的方向抠,传统 LoRA 一般用 16 或 32 的 rank,我们在研究 rank 等于 1、甚至比 1 还小的算法,因为很多个性化要存的信息其实没那么多,技能包越小,性价比越高,能挂的数量也越多。
极客公园:数量是个关键词。去年 12 月你们一个底座上能挂 10 个 LoRA,今年就说能到百万级。这个跳跃靠什么?而且「模型数量」听起来也成了一个新的 scaling 维度?
陈锴杰:靠两件事。一是把 LoRA 做得越来越小,刚才说的 rank 做到 1,单个就更容易承载;二是更好的缓存机制,以前大家可能是三层缓存,我们多做了一层,加上很多并行处理的方法。也因此,它不是上百万个同时激活,而是这上百万个能以很快的速度激活,大概一秒以内,一个请求进来、命中了一个还没激活的 LoRA,也能在一秒内响应。所以「同一个 batch 只能做几十个」其实不是限制,它取决于资源,你要部署百万个,把卡开多一点就行。
而「模型数量本身成为一个 scaling 维度」,是让我们很兴奋的事。过去大模型的 scaling 主线是把一个模型越做越大;agent 时代多出来一条线,是把模型的数量也规模化。
我们验证过它是成立的,挂上去的模型越多,整体智能稳定往上走,差不多是一个自然对数 scale 的线性提升。这对我们来说也是个挺震惊的发现。所以我们可以做到一人一个、一个公司一个,或者一个任务领域一个。
极客公园:你们说全球能做这件事的只有三家,可这听起来更像是「做得早」。如果大厂下定决心、甚至自己造一套 LoRA 后训练架构,他们做得到吗?你们真正的护城河是什么?
陈锴杰:在大模型这件事上,时间本身就是壁垒。你看 OpenAI 和 Anthropic 之间也没有壁垒,没有谁做得了、谁做不了,技术平台一样、人也在流动。今天的 AI 是一个不断「形成共识、追共识、再形成新共识」的过程。从有没有共识,到强化学习、到 O1、R1、再到 agent,大家交替领先。真正的差别是在这种交替里,谁先做出来、谁走得更快,谁就能率先和用户、和 toB 客户形成循环,把价值锁定下来。
但我们也确实积累了一些别人一时绕不过的东西。一个是真实的工程沉淀和行业认可,我们在开源社区和蚂蚁、华为一起构建 AReaL-MinT,和字节、英伟达一起构建 verl-mint,这是国内两个最主要的强化学习框架,都把我们的 LoRA 技术整合了进去;英伟达把我们挂在了官网首页。这些不是 PR,是大家在底层真的用上。
另一个是我们看问题的起点不一样,大厂做模型通常从预训练、从数据和基础设施往下推,我们是从用户需求、从真实产品里跑出来的问题往回推。这个从产品里长出来的洞察,是只在实验室里训模型的人拿不到的。
极客公园:这些和大厂的合作具体落在哪一层?顺着聊聊钱,你们的商业化逻辑是什么?既给云厂商做底层、自己又做产品,这中间不会打架吗?
陈锴杰:合作分几个层次。和英伟达是在开源社区双向的技术共建,我们把算子写出来、一起共建底层平台;和字节、蚂蚁是在开源社区共建强化学习框架,我们既用他们的平台,也把高效训练的方法贡献了进去。再往上到业务层,因为我们有高效的并发训练、并发推理基础设施,能帮客户把训练成本降一个数量级、大概到原来的 1/10,就和华为云、微软云、阿里云、火山这样的客户形成合作,和华为是很深的战略合作。
至于会不会打架,我们想得比较清楚,不想把自己做成一家纯商业化的公司。如果某个方向要做成大规模服务、需要很大投入,我们更愿意交给华为云、微软云这些平台伙伴去规模化,自己专注在技术本身。所以「既服务云厂商、又自己做产品」不是左右手互搏,而是分工。他们做规模,我们做上限。C 端主要还是 Macaron,对今天的我们来说,把后端技术做到足够好,比急着谈收入更重要,技术真到位了,需求自然会找上来。
03
「模型记忆不应该是记事本,应该在参数里」
极客公园: 当一个底座上挂着成千上万个 LoRA,模型与模型之间,会开始发生什么新的事情?
陈锴杰:会开始出现分工和协作。Andrew 讲过很让我兴奋的一个类比,他觉得我们正在让模型长出「生物学」。
在生物出现之前,世界上只有化学,只有原子和分子。从化学跃迁到生命,最关键的转折点便是细胞膜。它划清了内外边界,界定了生命体的本质。放到 AI 领域,我们将这种边界隔离称作 Isolation。每一个 LoRA 都是独立的单元,如同被细胞膜包裹的个体。
以前的模型只有「物理和化学」,拼参数量、拼数据量、拼算力;而当你能把模型一个个隔离开、又让它们之间高效地交换信息时,就像单细胞走向多细胞生命,分工协作自然形成,遗传、进化亦随之发生。AI 的发展轨迹,正从纯粹的化学层级,跨步走入生物演化的长河。
极客公园:但 isolation 听起来是个很「工程」的词,甚至有点平庸。你为什么把它抬到这么高的位置?
陈锴杰:恰恰因为它看起来平庸,才容易被低估。大家谈记忆的未来,一般会盯着两个很 fancy 的方向,更好的模型结构、更高效的算法。isolation 排第三,听上去就是个「把数据隔开」的脏活。但我前面说了,从化学到生物那一跃,靠的就是细胞膜这层「隔离」。
而且 isolation 不只是技术问题,它是这套东西能不能真正进入社会的前提。企业和企业之间是有壁垒的,一家公司不可能、也不愿意把自己的长期记忆交出去,和别人的揉成一个统一的大模型。人和人之间更是如此,如果一个模型同时握着我和你的长期记忆,那我只要问它,就能把你的隐私全套出来,这是很可怕的。所以每个人、每个企业的记忆必须被干净地隔开。LoRA 的「一个底座、无数独立技能包」,现在看就是实现这种隔离的一个很好的方式。
极客公园:为什么你们认定,光靠大模型本身解决不了「记忆」和「个性化」这件事,非得用 LoRA 这种机制来补?
陈锴杰:因为今天主流的记忆做法,本质上是把东西写进一个外部的文档或数据库里,你可以理解成模型旁边挂了一个不断变长的记事本,它记住的是事实和上下文。这种方式一开始很好用,模型越用越懂你;但它有个躲不掉的毛病:这个记事本只增不减,越记越长,而模型每次能真正「读进脑子」的篇幅是有限的。于是记的东西越多,命中你当下需要的那条的概率反而越低,到某个临界点,体验会开始往下掉。消费者其实很久没用过一个"越用越难用"的产品了,微信是越用越好用的,因为朋友越来越多;但一个记事本式记忆的助手,可能用到第三周就开始变笨。
我们的判断是,真正的长期记忆不该写在外部记事本里,而该「训进参数」。写进 prompt 或文档的,是临时的、外挂的;训进参数的,才是模型自己长出来的、稳定的能力。LoRA 正好是承载这件事的工具——它把你这个人的偏好、习惯、和它打交道的方式,沉淀成模型参数里的一小块,而不是一段随时可能被挤出窗口的文字。
极客公园:在「参数化记忆」这个大方向下,我们注意到你们其实不止 LoRA 一条线,还有一个叫 δ-mem 的东西。一个是离线训练出来的参数技能包,一个是实时更新的在线记忆矩阵。这两条在你们的记忆体系里怎么分工?还是说,你们自己也在赌哪条更对?
陈锴杰:其实这两条没有大家想的那么对立。δ-mem 也是从 LoRA 这套方法里长出来的,本质上做的还是同一件事,是把记忆沉淀进参数,而不是挂在外面。只是我们做研发的过程中,在架构上产生了一些创新的想法,就把它做出来了,做出来发现效果还不错。
极客公园:那就得问一个最尖锐的问题了。如果三五年后,通用底模本身强到能直接理解每一个用户,你们这套「为每个人挂一片 LoRA」的事,是不是就失去意义了?
陈锴杰:我不这么认为,而且原因正是刚才说的 isolation。最本质的一点是,每个人的数据、经验和生活经历,是各自保存的——这意味着我的数据、和另一个人的很难也不该被混在一起训进同一个模型,再让这一个模型把我们三个都服务得很好。模型本身肯定会越来越聪明,但每个人独特的体验,最后还是要靠属于每个人的那部分数据来支撑,而这些东西最终会沉淀在属于你的参数、属于你的模型层里。所以哪怕底座越来越强,「每个主体有一片只属于自己、被隔离的参数」这个需求不会消失,反而会更刚性——底座变强,只会让挂在它上面的每一片个性化技能包更值钱,而不是把它们抹掉。
极客公园:这两年另一个很热的词是 harness,给模型套一层环境记忆框架。会不会「通用模型 + harness」就够了,根本用不着你们这套「通用模型 + LoRA」?
陈锴杰:我们其实自己也做 harness,而且把 harness 和模型训练放在一起,所以反而有更多空间把这件事做好。在「后训练加 harness」这件事上,我们几乎和最好的团队站在同一条线上,同时又有自己选的方向衣食住行、长期生活主题。在这个方向上,把训模型、后训练、持续学习的 LoRA 和 harness 放在一起,我相信能做出最独特、最有价值的产品体验。
所以 harness 的发展对我们是好事,因为我们可以为了 harness 去训模型,很多团队做不了。说具体点,就是在我们的产品体验里有一个专用模型,你随手记录、分享生活碎片,它越来越懂你,给你推荐需要的餐厅、健身计划、减肥计划,孩子要买什么,推荐得越来越准。这种体验需要模型和 harness 协同。像 OpenAI 就不会专门为这件事去训一个专用的 harness 和专用的模型。这里就是我们的机会,把产品形态和模型训练放在一起。
极客公园:如果 LoRA 这条路一两年、三五年都没做出预期的效果,你们会掉头去做别的吗?还是说,你们就认定了 LoRA?
陈锴杰:我们真正三年没变的有两条:我们从第一天开始就坚持用训练的方法去提升 agent 能力,第二是让研究和产品一起做 co-design,用真实产品提供真实任务、真实的失败案例,再把这些反馈训回模型。今天其实很少看见优秀的模型公司没有自己的产品了,反过来也挺难的。
极客公园:那你们到底把自己定义成一家什么公司?会直接说自己是「模型公司」吗?和 Kimi、智谱这些比,区别在哪?
陈锴杰:我们成为了一家做 Agent 模型的 Frontier Lab,但和大家熟悉的模型公司不太一样。Kimi、智谱这些更多是从预训练、从数据和基础设施出发,去做通用底模;我们是从用户需求、从真实产品里跑出来的问题出发,去做后训练和持续学习。说得直白点,别人是先有模型再找场景,我们是从场景倒推模型。
它会自然导出一些特性,做后训练天然更贴近用户,你得对数据有理解,才能做更好的后训练,预训练是学习互联网、学习人类知识,后训练是学习场景、学习在一个场景里怎么更好地互动。连公司规模也会不一样,预训练和后训练需要的卡大概差半个量级、三到十倍,最后的体量也不同。在中国,以这个视角去训模型的公司,应该是很少的。
外界有时把我们这种形态叫 Neo Lab,它不是传统意义上的实验室,而是一种新的 AI 公司组织方式,团队年轻、人才密度高,目标不是包装一个 AI 应用,而是持续去探技术上限。海外像 Thinking Machines Lab、Ilya 的 SSI 和李飞飞的 World Labs 都有这个气质,国内还比较少。我们大概是这个形态,技术深度上和它们有相通之处,但产品和模式开始得更早。
极客公园:你们是什么时候明确「要做一家后训练公司」的?这中间最大的纠结是什么,最后怎么决策的?
陈锴杰:其实公司诞生时 Andrew 那篇论文就埋下了,它叫 Towards Language Agent Fine-Tuning,走向大语言模型 agent 的后训练。但怎么把它做扎实是难的,要把研究员号召起来,要有足够的算力和资金支持探索,应用方向也得找到答案,不然没法在空的环境里训练。更多是怎么在这两年半里把它变成现实。
决定做大规模强化学习这件事真的很难。我们做出来的时候,国内可能就四五家,DeepSeek、Kimi、字节、阿里,然后是我们。当时下决心很难,钱不多、人也不多,却要挑战这么难的事。但你不做强化学习,就没办法做后训练,所以最后还是咬牙做了,今天看是正确的选择。我能咬紧牙关,也是因为我们认定自己是一家做后训练的公司我们对创业的偏好是一致的,它应该是一家成功的、有技术价值的公司。
极客公园:现在高性能通用模型越来越闭源,而你们要基于足够大的模型才效果好。如果未来模型都闭源、你们甚至成了模型的购买方,这件事的利润空间还剩多少?
陈锴杰:我觉得总会有开源模型。现在开源和闭源效果差异不大,如果哪天差异变得非常大,事情可能会不一样;但我觉得中国会持续有很好的开源模型,这点不会变——只要有第二名,大家还是会有开源的倾向。如果真的都闭源了、我们要去购买,那怎么算性价比、服务用户能产生多少价值,可能就是未来商业模式的考量,今天公司还没到思考这个问题的阶段。也有可能在那种情况下,我们会像微软和 OpenAI 当初那样,和某一个公司深度合作,这也不是没有可能。
极客公园:三年后,你希望大家怎么记住 Mindverse(心洲科技)?有没有想过终点,会是上市、被收购,还是别的?
陈锴杰:终局在我们心里,是 agent model 和 C 端产品形成一个飞轮。我们的技术驱动出别人做不出来的产品体验,这里面甚至包含硬件和其他形态,也在和一些公司合作;同时这套训练和部署的能力会服务越来越多的企业,2B 这条线也在快速长。再往远看,这个行业的终局可能是天文级的算力被部署到太空里,超过今天一个国家的发电量,那是个遥远的图景,剩下的都是过程。
极客公园:如果只能在「做一个改变历史的研究突破」和「做一家持续盈利的公司」之间选一个,你们选哪边?
陈锴杰:我们会选研究突破那一边。不是不在乎盈利,而是我们相信,只要你在技术上真的解决了别人解决不了的问题,商业自然会来找你;反过来不成立。
如果非要落到一个普通人身上,这条路要是走通了,他的生活会少掉很多烦恼、多出一些踏实的幸福。但每个人的境遇各有不同,悲欢亦是千人千面,而这恰恰就是「个性化」这件事的全部意义,不是给所有人一个更聪明的模型,而是让智能真正洞悉每一个独特的灵魂。
*头图来源:Mindverse
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
对 Mindverse,你还有哪些好奇?
乐玩国际游戏,ued体育官网,
乐玩国际网址相关资讯:ued平台,