炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:36氪)
文|王欣逸
编辑|邓咏仪
万格智元团队有这样一些标签:00后、博士团队、埋头搞技术。
CEO王冠博恰好占全了,他现博士就读于清华大学计算机系,是一位00后连续创业者。
其团队相当年轻,规模约20人,其中近90%的成员为00后,大多数为清华、北大等院校的硕博生,也有来自亚马逊、OpenAI、字节跳动等公司的成员。
《智能涌现》独家获悉,近日,万格智元连续完成两轮五源资本、峰瑞资本参投的数千万元天使轮及天使+轮融资,源合资本担任独家财务顾问。本轮融资将用于产品研发和市场推广。
在过去,算力上云几乎是必选项。随着Claude Code、Codex、OpenClaw等Agent能力的爆发,Token需求也迎来了一轮爆炸式增长。
王冠博坦言,市面上的所有推理引擎,都不太适合端侧。现有的推理引擎大多关注速度的提升,而忽略了内存的巨大消耗。
在端侧,芯片厂商推出的内存大多不会超过32GB,内存如果过大,其使用场景也会受限。因此,对于厂商而言,他们的诉求是在现有内存条件下,能让自家的芯片推理更快、能搭载的模型更大,且不额外增加硬件的成本。
基于此,万格智元给出了端侧算力引擎cPilot+智能平台Amis的解决方案,让用户用上便宜好用的Token:
在成本上,让小内存机器能运行上较大的模型,极大降低部署模型所需硬件成本;在性能上,瞄准端侧大模型,而非小模型,给出能解决用户需求的模型本地部署方案。
“在相同内存开销下,有些方案靠牺牲速度、精度等条件,才能在低内存环境里硬把模型跑起来。相比之下,我们的端侧推理方案速度至少快了12倍。”王冠博告诉《智能涌现》。
2025年,他们几乎花了一整年时间做好产品与各个厂商芯片的适配性,彼时,C端对于端侧智能并没有强烈需求。
今年,OpenClaw等Agent工具的爆火,这也让他们看到了To C的可能。
王冠博介绍道,目前万格智元的主要客户为B端芯片厂商,与其合作开发终端硬件,为AI mini PC、AI PC或者AI NAS等产品装上他们的端侧算力引擎及本地的自研龙虾产品,并提供了一套端侧算力优化方案,预装能一键部署模型、聚合API的平台,满足C端客户对大模型本地化部署的需求。
在现阶段,万格智元的商业模式以B端业务为主,并随着B to C的实践,逐步验证和跑通C端的商业模式。
目前,万格智元与多家硬件厂商的合作已进入交付阶段,预计今年将有数万台设备预装出货。公司今年预期营收超千万元。
不做端侧小模型
当下的大模型市场,价格战打的火热。
近日,DeepSeek宣布调整DeepSeek-V4-Pro的API价格,直降75%;雷军也宣布MiMo V2.5系列模型做了价格低调,最高降幅能达到99%。
这背后的共识是,AI真正进入了不少生产力场景,用户希望低成本用上好模型的需求越来越大。
万格智元的想法与之一致,他们瞄准了端侧硬件的能力,让用户在本地就能用上大参数模型,从根本上解决了成本问题——除了硬件成本外,模型本地部署后Token成本为零。
他们从一开始就确定:不做端侧小模型,因为小模型的市场不够大,不够通用;不做后训练,因为一旦云端模型迭代,知识信息会被直接覆盖。
基于这一思路,万格智元推出了端侧AI推理引擎cPilot。
cPilot是一个面向底层生态的引擎,是一个介于底层硬件和上层软件之间的中间层,通过自研算法,最大程度压缩模型运行的内存占用,激发出底层硬件的能力。
在一般情况下,一个32GB内存的硬件只能留出8至10GB的空间用于模型推理,在本地仅能部署约4B参数大小的模型。
同样的硬件配置下,基于cPilot算力引擎,端侧能部署的模型参数可以从4B提升至80B。以某硬件厂商客户为例,在使用cPilot解决方案后,每台机器的硬件成本能省下约2000元成本,与此同时,其能部署的模型参数还能提升数倍。
不过,本地部署模型并非万能的解法,端侧的能力始终是有限的。与此同时,用户需求也在发生改变,随着模型能力越来越强,用户渐渐不再盲目追求模型能力,而是按需要调用合适的模型。
基于此,近日,万格智元还推出了端侧智能平台Amis,能接入主流Agent工具和模型,也能让用户用上云端算力。
Amis起着API聚合平台以及调度中枢的作用。用户可以直接在Amis上使用OpenClaw、Hemers等Agent工具,灵活接入、切换不同的模型,平台还能对云端以及本地算力自动分配,根据任务的复杂程度等因素进行切换。
其好处在于,用户的需求大多是轻量高频且烧Token的任务,这些在本地即可完成,仅少部分端侧难以解决的复杂任务需要上云。
用户无需为其他模型厂商付费,可以直接在Amis上配置模型,通过端云的调度,大部分简单任务本地即可完成,实现0 Token消耗,仅10%-20%的任务上云,极大压缩了成本。
王冠博称:“我们希望能比较好地切入泛C端的应用场景,Amis的最终目标是,让用户培养出使用平台的生态习惯。”
MoE已经够稀疏了,但还有十倍下降空间
王冠博认为,如果是大家都能看清的市场,那么这一定不是初创公司的机会。
在创业之初,在MoE(混合专家模型)影响力还没有那么大的时候,万格智元选择先为端侧的Dense(稠密模型)架构做优化。
彼时不少人认为开源模型的能力比较有限,万格智元在这个阶段做端侧智能,会不会为时尚早。
对此,王冠博选择了大胆去赌用户需求和行业趋势的不确定性。
这包括三件事:一是模型能力,用户会不会只需要能解决需求的模型,而非完全追求质量;二是硬件成本,这也是他们决定攻克的核心壁垒;三是Token用量会不会实现爆发式增长。
聚焦这三个锚点,万格智元先从如何优化硬件能力、降低模型运行内存切入,在底层硬件、中间层和算法软件上分别进行了全栈的优化。
从软件和算法层面来看,无论是Dense还是MoE,在推理时都只有局部参数被激活。即使是MoE这种已经利用了稀疏结构的模型,仍有约10倍稀疏度的可下降空间。
因此,万格智元设计了一套「动态稀疏化激活算法」,能准确预判在推理过程中模型应该计算和加载哪一部分参数,从而大幅降低实际参数量。
从端侧硬件层面来看,内存、CPU访存、CPU-GPU交互的三大带宽影响着计算机整体性能。面对这三大带宽限制,万格智元建立起一套类似CUDA(Compute Unified Device Architecture,统一计算设备架构)的调度体系,把硬件层打造成一个端侧大模型推理平台和端侧大模型内存管理系统,还对不同厂商的芯片做出了适配。
据王冠博介绍,在测试时,他们在一台搭载AMD芯片的机器上运行了一个35B参数的大模型,其内存占用为27.6GB;与此同时,在使用cPilot引擎的相同硬件条件下,运行这一模型的内存占用可以压缩至4.7GB。
这也意味着,在不到5GB的内存占用下,用户就可以用上Qwen3.6、Gemma 4等能具备Coding和复杂任务处理能力的大模型。
AI的下半场在端侧
“过去,端侧其实不被大家看好,”王冠博告诉《智能涌现》,“不过,不少投资人和我们聊到,今年整个投资赛道慢慢形成了一个共识,即端侧可能会是未来。”
相比于Agent能力和Token需求的爆发式增长,厂商纷纷下调Token价格的行为几乎是杯水车薪。
万格智元希望端侧能成为下一个计算范式,让用户从「租赁智能」变成「拥有智能」。
从长期来看,他们认为未来的Token的使用类似于现在的WiFi,所有硬件都拥有本地自产Token的能力,将云端拥有的能力全部搬至端侧,端侧的每一台设备都能定点服务周边的所有网络。
目前,万格智元提供的服务仍聚焦于做软件和硬件之间的中间层,不过,王冠博称,这是他们的第一阶段。
到了下一个阶段,他们可能会考虑自研端侧AI硬件。“现在还没有到特别做适合做硬件的阶段。”王冠博如是说。
一方面,芯片侧的技术还没有收敛,目前的GPU适合用于模型训练,但不适合做高效推理。现在下场做硬件反而会把形态固定化,导致后期迭代成本比较高。下一代芯片,如国产的NPU,或许会带来芯片侧的一次大变革。
另一方面,做硬件并非完全依靠技术和工程化能力,更为重要的是供应链能力,“如果是做硬件,我们需要提前10个月左右布局,来打通上下游供应链和市场销售。”王冠博称,“和B to C的客户合作,也能率先抢占生态位。”
“AI浪潮在明年会逐渐退去,这个‘退’不是指退场,而是把浪打在了端侧。”
下一阶段的端侧,会出现一个能承载住Token爆发的应用,而他们要做的是为这些应用提供更下游的服务。从长期来看,他们希望把cPilot和Amis打造成在低内存赛道上最完善、能跨平台适用、用户能开箱即用的平台。
欢迎交流~
36氪旗下AI公众号 真诚推荐你关注
易游体育官网,易游米乐体育,
yy易游下载相关资讯:yy易游平台,