随着黄仁勋踏上前往特朗普的空军一号,智谱股价暴涨36.9%,收报1150港元,创下历史新高。
从1月8日上市时的116.20港元发行价算起,智谱的股价在短短四个多月内增长了900%。
而就在暴涨之前不到24小时里,智谱创始人唐杰深夜在X上发布了一条推文,大谈了自己对整个AI产业的思考。

整条推文的核心是“长周期任务”。
请注意,英文原文是“Long-Horizon Tasks”,直译过来应该是长视野。但是在AI语境中,它是指一个任务需要跨越较长时间、较多步骤、较多中间状态才能完成。
他认为,2026年最可能的突破点不在于模型变得更聪明,而在于模型能够持续完成复杂、多步骤的任务。
在唐杰看来,一旦模型能持续规划、试错、判断和交付,它冲击的就不只是程序员效率,而是整套人类执行层。
以前AI替人写几句话,大家还能说它只是工具。一旦AI能连续几天自己干活、自己判断、自己交付结果,它要替代的就不只是某个岗位了,它可能会彻底替代某一个行业。
01
长周期任务是什么?
过去两年,我们评价一个大模型的好坏,主要看它在单次对话中的表现。回答是否准确、逻辑是否清晰、语言是否流畅。
这本质上是在测试智力。但长周期任务需要的不是智力,是执行力。
目标明确但路径不确定,需要持续数个小时、数天甚至数周的长期推进。
唐杰在推文中用黑客作为例子。
他说,漏洞挖掘是典型的长周期任务。需要阅读大量代码、理解系统架构、搭建测试环境、构造攻击输入、验证漏洞有效性,最后撰写技术报告。
这个过程充满试错,因为没有标准答案,只能依赖经验和直觉。
你不能只读一遍代码就找到漏洞,你要反复去尝试不同的攻击向量,在每次失败后调整思路,在每次成功后验证可靠性。
如果AI能在这种对抗性、经验化的领域站稳脚跟,那么它对普通程序员、数据分析师、法务助理等职业的冲击只会来得更猛烈。
因为这些职业的任务虽然也很复杂,但对抗性更弱,经验依赖度更低,更容易被系统化的流程覆盖。
唐杰认为,衡量AI的方式,正在从看对话、答案,变成看“长周期”任务完成能力。

一个模型可能在单次对话中表现完美,但在需要持续工作8小时的任务中频繁出错、丢失上下文、重复无效操作。
另一个模型可能单次回答不够精彩,但能稳定地推进任务,记住每一步的结果,在遇到障碍时自动换路径。
那么后者在长周期任务中的价值,就高于前者。
腾讯的姚顺雨曾提出一个概念,今天模型太依赖预训练里的“参数化知识”,真实世界更需要能从当前Context里学习并应用的模型。
当模型真正开始跑任务的时候,它需要查文档、跑代码、测接口、读日志、调参数。
一个能熟练调用这些工具的模型,比一个记住了所有API文档但不会实际操作的模型有用得多。
此外,以前的模型过于被动,它得等待人类发出指令后才能执行,而且每发出一次指令,只能执行一步。
但在长周期任务里,给定目标后,模型需要自主规划和执行。
被动响应只需要理解当前问题,主动推进需要理解整个任务的结构、当前所处的阶段、下一步应该做什么、如果失败了该如何调整。
这需要模型具备某种“任务感”,知道自己在做什么,为什么这样做,做到哪一步了。
当有了这一切后,AI就开始进入“结果交付”阶段。
企业和个人不再满足于“AI帮我写了一段代码”,而是期待“AI帮我完成了整个功能模块的开发、测试和部署”。
这是从助手到承包商的跨越。助手需要你告诉它每一步做什么,承包商只需要你告诉它最终要什么结果。
长周期任务的概念并不新鲜。学术界早就在研究强化学习、任务规划、多步推理。
唐杰认为,正是因为如下几个关键技术突破,长周期任务在今年变得可以实现。
第一个就是记忆。
百万级上下文窗口和RAG技术的成熟,让模型能够在长时间任务中保持对项目背景、历史尝试和用户偏好的记忆。
Claude Opus 4.7支持1M token上下文窗口,GLM-5.1支持200K token。这意味着模型可以在一个会话中记住数十万字的代码、文档、对话历史。
它不会因为任务太长而忘记最初的目标,不会重复已经尝试过的失败方案,不会丢失中间步骤的关键信息。
第二个是持续学习。
虽然真正的持续学习仍然困难,但模型更新周期正在急剧缩短。全球领先模型已经做到月度更新,国内模型紧随其后。如果明年能做到周更新,事实上就接近了持续学习的效果。
模型不需要在训练时就学会所有知识,它只需要能快速吸收新工具、新API、新业务规则。当更新周期足够短,模型就能跟上现实世界的变化速度。
第三个是自我判断、自我进化。
唐杰推测,Claude可能已经实现了基础的自训练能力。
模型自己写代码、清洗数据、生成合成数据,然后用这些数据训练自己。GPT-5.5就在用模型生成的代码和测试用例来改进自己的编程能力。
它开始知道自己的答案是否靠谱,知道什么时候该重试、求证或回滚。
这种能力在长周期任务中至关重要。因为没有人会在旁边监督每一步,模型必须自己判断当前方案是否可行,是否需要调整,是否已经达到目标。
但这条路径也充满风险。
自我进化意味着人类对模型训练过程的控制力在下降。当模型开始自己生成训练数据、自己评估训练效果时,我们如何确保它不会偏离人类的价值观?我们对于AI的价值又是什么?
唐杰的判断是,这些能力通过精巧的工程“tricks”实现。这意味着进展速度会比学术界预期的快得多,因为工程化的迭代周期远短于学术和技术上的创新周期。
你只需要在现有架构上做更好的prompt工程、更精细的强化学习、更可靠的工具集成。
智谱的GLM-5.1在SWE-Bench Pro上达到58.4%,超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%,就是这种工程化迭代的结果。
02
智谱:在长周期任务赛道上的战略押注
作为智谱的创始人兼首席科学家,唐杰发这条X显然不只是技术观察,还多了一层战略宣言。
智谱在国内大模型阵营中的特点是技术底子扎实,但商业化节奏相对谨慎。
它不像Kimi那样靠C端爆款产品快速起量,也不像阿里、百度那样有庞大的生态和流量入口。
智谱的路线一直是“模型能力先行,应用场景跟进”。先把基座模型做到足够强,再通过API、私有化部署、行业解决方案变现。

长周期任务这个方向,无论是国内还是国外,参与的玩家都很少,没有明确的领跑者,大家都在探索阶段。
OpenAI的GPT-5.5,定位就是“自主任务执行”,强调的是agent能力和多步骤工作流,Opus 4.7也是类似。
然而二者在长周期这件事上,都还差点意思。
两家公司并没有展现出压倒性优势,市场格局也还远未定型。
虽然在纯模型能力上追赶GPT和Claude很难,不过在长周期任务这个新方向上,大家都站在同一条起跑线上。
唐杰进一步提到了NPC这个概念。他认为长周期能力会推进从OPC到NPC的转变。一人公司的逻辑是“人加AI工具”,无人公司的逻辑则是“AI系统加人类监督”。
前者是增强,后者是替代。
不过无人公司并不是真的没有人,而是人的定位发生了改变,从执行者变成了目标设定者、资源配置者和责任承担者。
真正被替代的是中间执行层,比如那些负责推进任务和协调资源的岗位。在NPC里,人只需要设定目标和审核结果。
落到智谱身上,唐杰的观点预示着智谱接下来的发展方向。
智谱GLM-5.1的技术白皮书中提到,GLM-5.1能持续独立作业8个小时,单次任务可稳定执行1200-1700步操作,无需人工监控与干预。
不过这只是一张成绩单,要真正让企业放心,还得看它换到更多场景后会不会掉链子,遇到没见过的问题时能不能靠自己的手段解决。
长周期任务不是一个通用产品,它需要针对不同行业、不同场景做深度定制。
软件开发需要的是代码理解和测试执行,法律行业需要的是文档检索和合规检查,金融行业需要的是数据分析和风险评估。
不是说把模型卖给企业就完了,智谱还要把模型打包成能直接上手的agent工具箱,客户不必从零开发,也能快速搭出自己的长周期任务系统。
长周期任务系统不是智谱一家能做出来的,它需要开发者贡献工具和插件,需要企业客户提供真实场景和反馈,还需要监管机构制定安全和合规标准。
智谱的开源策略就是在构建这个生态。
从市值来看,智谱是国产AI的中流砥柱,唐杰的每一个判断都会对国内AI产生很大的影响。
就以唐杰提到的自我进化来说,智谱是会追求自我进化?还是会选择更保守的策略?
从GLM-5.1来看,智谱在走一条中间路线。
一方面,GLM-5.1的训练已经大量使用模型生成的合成数据,这是自我进化的雏形。
可另一方面,智谱强调“可解释的、可监管的”系统,这意味着它不会完全放弃人类控制。
这种平衡很难,但可能是最现实的路径。
长周期任务是企业的核心痛点,它能直接替代人力成本,能直接提高业务效率,企业愿意为此支付更高的价格。
如果智谱能拿下长周期任务,那么它的业务会进一步增长,市值也会更高。
03
AI吞噬世界
基于对长周期任务的判断,唐杰给出了一个预言,未来我们可能会跨越APP的概念,直接进入LLM OS时代。
什么是LLM OS?应用按需生成,用户不再管理文件、窗口和按钮,用户只管理任务、权限和结果。

然而我想说,这个判断触及了现代计算机的根本逻辑。
APP的本质是把功能固化在界面里,用户通过点击按钮来触发预设的功能。
你要是想发邮件,你就打开邮件APP,点击写邮件按钮,填写收件人、主题、正文,点击发送。每一步都是预先设计好的,你只能在设计者规定的路径上操作。
agent的本质则是把目标交给系统,让系统临时组合工具、数据和界面来达成目标。
你告诉系统“给张三发一封邮件,告诉他项目进度”,系统会自己决定用哪个邮件服务、怎么措辞、什么时候发送。你不需要知道邮件APP在哪里,不需要知道怎么操作,你只需要表达意图,系统负责执行。
如果唐杰说的这个趋势成立,软件的中心将从“打开哪个APP”变成“告诉系统我要什么结果”。这将会颠覆现有的一切。
它挑战的是80年来的冯诺依曼架构,挑战的是整个计算机科学的产业基础。
现在的操作系统,无论是Windows、macOS还是Linux,本质上都是文件管理器加进程调度器。
它们管理的是数据在哪里、程序怎么运行、资源如何分配。用户需要知道文件存在哪个文件夹,需要知道用什么程序打开,需要知道怎么在不同程序之间复制粘贴数据。
LLM OS的逻辑完全不同。
它管理的不是文件和进程,而是任务和权限。你不需要知道数据存在哪里,系统自己能找到需要的数据。你不需要知道用什么程序,系统会自己调用合适的工具。
你只需要告诉系统你要做什么,然后等待结果就可以了。
听起来不错,可是实现起来极其困难。
用户说“我要做什么”,系统能准确理解吗?
自然语言是模糊的、多义的、依赖上下文的。同样一句话,在不同场景下可能有完全不同的含义。
所以模型不仅需要具备强大的语义理解能力,还需要结合上下文、用户历史、当前状态来推断意图。
理解用户的意图以后,接下来就到了执行任务。
一个高层目标需要分解成多少个子任务,每个子任务用什么工具完成,任务之间有什么依赖关系。
“给张三发邮件”这个简单任务,实际上包含了查找张三的邮箱地址、生成邮件内容、选择发送时间、处理发送失败等多个子任务。
再往底层看就是工具调用。
邮件是工具、写字用的输入法是工具、网页也是工具。系统需要能调用成千上万个不同的工具和服务,每个工具有不同的API、不同的参数、不同的错误处理方式。
唐杰在结尾提到了监管问题。
他承认这个不可逆的进程已经开始,但同时呼吁认真思考如何监管。长周期任务和自主agent带来的监管挑战是前所未有的。
当AI独立完成一个任务并造成损失,责任应该由谁承担。开发者、使用者,还是AI本身?如果一个AI系统在执行长周期任务时做出了错误决策,导致企业损失数百万,谁来负责?
2026年4月,PocketOS就遭遇过一次典型事故。
一个基于Claude的Cursor编程agent,在处理环境问题时误删了公司的生产数据库和备份,整个过程只用了几秒钟。
现有的法律框架还没有准备好回答这个问题。
除此以外,当大量执行层岗位被AI替代,那么随之而来的就是失业潮。
但失业只是最容易被看见的结果,更深层的变化,是社会分工本身被重新改写。
过去,技术替代的往往是某个环节、某个工具、某种重复劳动;长周期agent要替代的,是“把事情推进到结果”的整套执行能力。
它一旦成立,AI就不再只是嵌在工作流里的辅助按钮,而会变成工作流本身的一部分。
唐杰认为,长周期任务不是AGI的全部,但它可能是AGI第一次真正进入现实世界、真正开始重构人类社会的方式。当AI不再只是回答问题,而是开始承包结果,我们就站在了一个历史性的转折点上。
(来源:字母AI)
乐玩官网,qy球友会,
乐玩游戏平台相关资讯:球友会app,