南太平洋岛国汤加发生6.4级地震海峡两岸茶业交流协会成立

作者：陈玥洁编辑：杜观来源：球友会体育官网发布：2026-05-14 22:08:52

随着黄仁勋踏上前往特朗普的空军一号，智谱股价暴涨36.9%，收报1150港元，创下历史新高。

从1月8日上市时的116.20港元发行价算起，智谱的股价在短短四个多月内增长了900%。

而就在暴涨之前不到24小时里，智谱创始人唐杰深夜在X上发布了一条推文，大谈了自己对整个AI产业的思考。

整条推文的核心是“长周期任务”。

请注意，英文原文是“Long-Horizon Tasks”，直译过来应该是长视野。但是在AI语境中，它是指一个任务需要跨越较长时间、较多步骤、较多中间状态才能完成。

他认为，2026年最可能的突破点不在于模型变得更聪明，而在于模型能够持续完成复杂、多步骤的任务。

在唐杰看来，一旦模型能持续规划、试错、判断和交付，它冲击的就不只是程序员效率，而是整套人类执行层。

以前AI替人写几句话，大家还能说它只是工具。一旦AI能连续几天自己干活、自己判断、自己交付结果，它要替代的就不只是某个岗位了，它可能会彻底替代某一个行业。

长周期任务是什么？

过去两年，我们评价一个大模型的好坏，主要看它在单次对话中的表现。回答是否准确、逻辑是否清晰、语言是否流畅。

这本质上是在测试智力。但长周期任务需要的不是智力，是执行力。

目标明确但路径不确定，需要持续数个小时、数天甚至数周的长期推进。

唐杰在推文中用黑客作为例子。

他说，漏洞挖掘是典型的长周期任务。需要阅读大量代码、理解系统架构、搭建测试环境、构造攻击输入、验证漏洞有效性，最后撰写技术报告。

这个过程充满试错，因为没有标准答案，只能依赖经验和直觉。

你不能只读一遍代码就找到漏洞，你要反复去尝试不同的攻击向量，在每次失败后调整思路，在每次成功后验证可靠性。

如果AI能在这种对抗性、经验化的领域站稳脚跟，那么它对普通程序员、数据分析师、法务助理等职业的冲击只会来得更猛烈。

因为这些职业的任务虽然也很复杂，但对抗性更弱，经验依赖度更低，更容易被系统化的流程覆盖。

唐杰认为，衡量AI的方式，正在从看对话、答案，变成看“长周期”任务完成能力。

一个模型可能在单次对话中表现完美，但在需要持续工作8小时的任务中频繁出错、丢失上下文、重复无效操作。

另一个模型可能单次回答不够精彩，但能稳定地推进任务，记住每一步的结果，在遇到障碍时自动换路径。

那么后者在长周期任务中的价值，就高于前者。

腾讯的姚顺雨曾提出一个概念，今天模型太依赖预训练里的“参数化知识”，真实世界更需要能从当前Context里学习并应用的模型。

当模型真正开始跑任务的时候，它需要查文档、跑代码、测接口、读日志、调参数。

一个能熟练调用这些工具的模型，比一个记住了所有API文档但不会实际操作的模型有用得多。

此外，以前的模型过于被动，它得等待人类发出指令后才能执行，而且每发出一次指令，只能执行一步。

但在长周期任务里，给定目标后，模型需要自主规划和执行。

被动响应只需要理解当前问题，主动推进需要理解整个任务的结构、当前所处的阶段、下一步应该做什么、如果失败了该如何调整。

这需要模型具备某种“任务感”，知道自己在做什么，为什么这样做，做到哪一步了。

当有了这一切后，AI就开始进入“结果交付”阶段。

企业和个人不再满足于“AI帮我写了一段代码”，而是期待“AI帮我完成了整个功能模块的开发、测试和部署”。

这是从助手到承包商的跨越。助手需要你告诉它每一步做什么，承包商只需要你告诉它最终要什么结果。

长周期任务的概念并不新鲜。学术界早就在研究强化学习、任务规划、多步推理。

唐杰认为，正是因为如下几个关键技术突破，长周期任务在今年变得可以实现。

第一个就是记忆。

百万级上下文窗口和RAG技术的成熟，让模型能够在长时间任务中保持对项目背景、历史尝试和用户偏好的记忆。

Claude Opus 4.7支持1M token上下文窗口，GLM-5.1支持200K token。这意味着模型可以在一个会话中记住数十万字的代码、文档、对话历史。

它不会因为任务太长而忘记最初的目标，不会重复已经尝试过的失败方案，不会丢失中间步骤的关键信息。

第二个是持续学习。

虽然真正的持续学习仍然困难，但模型更新周期正在急剧缩短。全球领先模型已经做到月度更新，国内模型紧随其后。如果明年能做到周更新，事实上就接近了持续学习的效果。

模型不需要在训练时就学会所有知识，它只需要能快速吸收新工具、新API、新业务规则。当更新周期足够短，模型就能跟上现实世界的变化速度。

第三个是自我判断、自我进化。

唐杰推测，Claude可能已经实现了基础的自训练能力。

模型自己写代码、清洗数据、生成合成数据，然后用这些数据训练自己。GPT-5.5就在用模型生成的代码和测试用例来改进自己的编程能力。

它开始知道自己的答案是否靠谱，知道什么时候该重试、求证或回滚。

这种能力在长周期任务中至关重要。因为没有人会在旁边监督每一步，模型必须自己判断当前方案是否可行，是否需要调整，是否已经达到目标。

但这条路径也充满风险。

自我进化意味着人类对模型训练过程的控制力在下降。当模型开始自己生成训练数据、自己评估训练效果时，我们如何确保它不会偏离人类的价值观？我们对于AI的价值又是什么？

唐杰的判断是，这些能力通过精巧的工程“tricks”实现。这意味着进展速度会比学术界预期的快得多，因为工程化的迭代周期远短于学术和技术上的创新周期。

你只需要在现有架构上做更好的prompt工程、更精细的强化学习、更可靠的工具集成。

智谱的GLM-5.1在SWE-Bench Pro上达到58.4%，超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%，就是这种工程化迭代的结果。

智谱：在长周期任务赛道上的战略押注

作为智谱的创始人兼首席科学家，唐杰发这条X显然不只是技术观察，还多了一层战略宣言。

智谱在国内大模型阵营中的特点是技术底子扎实，但商业化节奏相对谨慎。

它不像Kimi那样靠C端爆款产品快速起量，也不像阿里、百度那样有庞大的生态和流量入口。

智谱的路线一直是“模型能力先行，应用场景跟进”。先把基座模型做到足够强，再通过API、私有化部署、行业解决方案变现。

长周期任务这个方向，无论是国内还是国外，参与的玩家都很少，没有明确的领跑者，大家都在探索阶段。

OpenAI的GPT-5.5，定位就是“自主任务执行”，强调的是agent能力和多步骤工作流，Opus 4.7也是类似。

然而二者在长周期这件事上，都还差点意思。

两家公司并没有展现出压倒性优势，市场格局也还远未定型。

虽然在纯模型能力上追赶GPT和Claude很难，不过在长周期任务这个新方向上，大家都站在同一条起跑线上。

唐杰进一步提到了NPC这个概念。他认为长周期能力会推进从OPC到NPC的转变。一人公司的逻辑是“人加AI工具”，无人公司的逻辑则是“AI系统加人类监督”。

前者是增强，后者是替代。

不过无人公司并不是真的没有人，而是人的定位发生了改变，从执行者变成了目标设定者、资源配置者和责任承担者。

真正被替代的是中间执行层，比如那些负责推进任务和协调资源的岗位。在NPC里，人只需要设定目标和审核结果。

落到智谱身上，唐杰的观点预示着智谱接下来的发展方向。

智谱GLM-5.1的技术白皮书中提到，GLM-5.1能持续独立作业8个小时，单次任务可稳定执行1200-1700步操作，无需人工监控与干预。

不过这只是一张成绩单，要真正让企业放心，还得看它换到更多场景后会不会掉链子，遇到没见过的问题时能不能靠自己的手段解决。

长周期任务不是一个通用产品，它需要针对不同行业、不同场景做深度定制。

软件开发需要的是代码理解和测试执行，法律行业需要的是文档检索和合规检查，金融行业需要的是数据分析和风险评估。

不是说把模型卖给企业就完了，智谱还要把模型打包成能直接上手的agent工具箱，客户不必从零开发，也能快速搭出自己的长周期任务系统。

长周期任务系统不是智谱一家能做出来的，它需要开发者贡献工具和插件，需要企业客户提供真实场景和反馈，还需要监管机构制定安全和合规标准。

智谱的开源策略就是在构建这个生态。

从市值来看，智谱是国产AI的中流砥柱，唐杰的每一个判断都会对国内AI产生很大的影响。

就以唐杰提到的自我进化来说，智谱是会追求自我进化？还是会选择更保守的策略？

从GLM-5.1来看，智谱在走一条中间路线。

一方面，GLM-5.1的训练已经大量使用模型生成的合成数据，这是自我进化的雏形。

可另一方面，智谱强调“可解释的、可监管的”系统，这意味着它不会完全放弃人类控制。

这种平衡很难，但可能是最现实的路径。

长周期任务是企业的核心痛点，它能直接替代人力成本，能直接提高业务效率，企业愿意为此支付更高的价格。

如果智谱能拿下长周期任务，那么它的业务会进一步增长，市值也会更高。

AI吞噬世界

基于对长周期任务的判断，唐杰给出了一个预言，未来我们可能会跨越APP的概念，直接进入LLM OS时代。

什么是LLM OS？应用按需生成，用户不再管理文件、窗口和按钮，用户只管理任务、权限和结果。

然而我想说，这个判断触及了现代计算机的根本逻辑。

APP的本质是把功能固化在界面里，用户通过点击按钮来触发预设的功能。

你要是想发邮件，你就打开邮件APP，点击写邮件按钮，填写收件人、主题、正文，点击发送。每一步都是预先设计好的，你只能在设计者规定的路径上操作。

agent的本质则是把目标交给系统，让系统临时组合工具、数据和界面来达成目标。

你告诉系统“给张三发一封邮件，告诉他项目进度”，系统会自己决定用哪个邮件服务、怎么措辞、什么时候发送。你不需要知道邮件APP在哪里，不需要知道怎么操作，你只需要表达意图，系统负责执行。

如果唐杰说的这个趋势成立，软件的中心将从“打开哪个APP”变成“告诉系统我要什么结果”。这将会颠覆现有的一切。

它挑战的是80年来的冯诺依曼架构，挑战的是整个计算机科学的产业基础。

现在的操作系统，无论是Windows、macOS还是Linux，本质上都是文件管理器加进程调度器。

它们管理的是数据在哪里、程序怎么运行、资源如何分配。用户需要知道文件存在哪个文件夹，需要知道用什么程序打开，需要知道怎么在不同程序之间复制粘贴数据。

LLM OS的逻辑完全不同。

它管理的不是文件和进程，而是任务和权限。你不需要知道数据存在哪里，系统自己能找到需要的数据。你不需要知道用什么程序，系统会自己调用合适的工具。

你只需要告诉系统你要做什么，然后等待结果就可以了。

听起来不错，可是实现起来极其困难。

用户说“我要做什么”，系统能准确理解吗？

自然语言是模糊的、多义的、依赖上下文的。同样一句话，在不同场景下可能有完全不同的含义。

所以模型不仅需要具备强大的语义理解能力，还需要结合上下文、用户历史、当前状态来推断意图。

理解用户的意图以后，接下来就到了执行任务。

一个高层目标需要分解成多少个子任务，每个子任务用什么工具完成，任务之间有什么依赖关系。

“给张三发邮件”这个简单任务，实际上包含了查找张三的邮箱地址、生成邮件内容、选择发送时间、处理发送失败等多个子任务。

再往底层看就是工具调用。

邮件是工具、写字用的输入法是工具、网页也是工具。系统需要能调用成千上万个不同的工具和服务，每个工具有不同的API、不同的参数、不同的错误处理方式。

唐杰在结尾提到了监管问题。

他承认这个不可逆的进程已经开始，但同时呼吁认真思考如何监管。长周期任务和自主agent带来的监管挑战是前所未有的。

当AI独立完成一个任务并造成损失，责任应该由谁承担。开发者、使用者，还是AI本身？如果一个AI系统在执行长周期任务时做出了错误决策，导致企业损失数百万，谁来负责？

2026年4月，PocketOS就遭遇过一次典型事故。

一个基于Claude的Cursor编程agent，在处理环境问题时误删了公司的生产数据库和备份，整个过程只用了几秒钟。

现有的法律框架还没有准备好回答这个问题。

除此以外，当大量执行层岗位被AI替代，那么随之而来的就是失业潮。

但失业只是最容易被看见的结果，更深层的变化，是社会分工本身被重新改写。

过去，技术替代的往往是某个环节、某个工具、某种重复劳动；长周期agent要替代的，是“把事情推进到结果”的整套执行能力。

它一旦成立，AI就不再只是嵌在工作流里的辅助按钮，而会变成工作流本身的一部分。

唐杰认为，长周期任务不是AGI的全部，但它可能是AGI第一次真正进入现实世界、真正开始重构人类社会的方式。当AI不再只是回答问题，而是开始承包结果，我们就站在了一个历史性的转折点上。

（来源：字母AI）

乐玩官网，qy球友会，

乐玩游戏平台相关资讯：球友会app，

伍兹逐渐适应新单身生活理发店老板为老人1元理发11年

相关文章

推荐阅读

伍兹逐渐适应新单身生活 理发店老板为老人1元理发11年

相关文章

推荐阅读

伍兹逐渐适应新单身生活理发店老板为老人1元理发11年