近年来,随着大语言模型与终端设备的深度融合,智能体在手机、PC、汽车、智能家居等终端设备上快速部署。然而,当前业界缺乏统一、权威的端侧智能体评测标准,部分测试任务与真实场景脱节,且评测维度单一,无法全面反映智能体在复杂真实环境中的综合能力。中国信息通信研究院(简称“中国信通院”)联合行业开展端侧智能体智能化功能完整度”检测工作,旨在建立一套科学、客观、可复现的端侧智能体评价体系,推动端侧智能体能力评价从“纸上跑分”迈向真实场景落地。

一、测试对象

测试对象涵盖终端运行的系统级智能体和三方智能体。

二、测试用例设计

1. 深度:梯度任务探知技术极限

综合逻辑推理深度、执行复杂度等维度,构建多维度任务复杂度模型,将测试任务划分为多个梯度难度。

梯度一:单步骤任务+单应用

  • 特征:用户发出单一明确指令,智能体调用单个应用完成目标。

  • 示例:“叫个出租车去天坛东门。”

梯度二:短链任务+单应用或多应用

  • 特征:用户指令包含多个步骤,但任务链条较短(通常2~4步),智能体可在单个应用内完成多步操作,或简单跨应用协作。

  • 示例:“查询一下明天上午八点之后从北京飞上海的第一班航班;将航班号,起飞时间等信息添加到日程;把该日程相关信息发送给某联系人。”

梯度三:长链任务+多应用

  • 特征:用户指令涉及复杂的目标分解,需要跨多个应用、多轮交互执行,任务链条长(通常5步以上),且存在条件判断、分支选择或异常处理。

  • 示例:“规划下周从北京到杭州三天两夜的自由行,订往返高铁票,推荐西湖附近评分4.5以上的酒店,每天安排一个景点和一家杭帮菜餐厅,把所有行程同步到日历,并生成一份旅行清单发送给某联系人。”

任务难度梯度设计

2. 广度:应用场景描绘生态版图

选取用户高频真实场景,构建全景式场景测试集,形成对端侧智能体生态成熟度的整体映射。

场景一:用机操控

  • 覆盖系统设置调整、日程管理、相册管理、天气查询等高频操作。

场景二:交通出行

  • 覆盖出行规划、导航、打车、飞机、火车等场景。

场景三:生活消费

  • 覆盖餐饮推荐、外卖订购、线上购物、快递查询、生活缴费等。

场景四:办公协作(扩展场景)

  • 覆盖文档处理、会议安排、邮件管理、信息检索汇总等。

场景五:社交娱乐(扩展场景)

  • 覆盖即时通讯、内容生成与发布、影音娱乐等。

典型任务场景

三、评价体系

1. 智能体基础能力

意图理解准确性:智能体正确识别用户意图占总指令的比例。

任务分解合理度:智能体输出子任务序列与标准子任务序列比对,计算最长公共子序列占标准子任务序列的比例。

工具调用准确性:智能体正确调用工具的次数占总调用的比例。

记忆召回率:智能体在需要时正确召回已存储信息项的比例,以及信息经过多轮对话或长时间后仍能被准确召回的比例。

用户误操作防护成功率:针对越权等不合理指令,智能体能够拒绝执行并给出提示占总指令的比例。

2. 功能完整度

场景覆盖率:统计智能体所支持的场景数量占目标场景的比例。

功能覆盖率:统计智能体所支持的功能数量占目标功能的比例。

任务完成率:统计智能体在多次执行中的表现,更全面、稳健地反映其真实能力水平。以Pass@3为主指标,Avg@3为辅助指标,Pass^3为可选指标。

3. 执行效率与成本

端到端响应时间:计算在真实用户场景中,从发出指令到任务完成的时间。

主要测试指标

未来,中国信通院将联合产业界持续迭代测试数据集与评测方法,推动形成《新一代移动智能终端智能化功能完整度技术要求》《新一代移动智能终端智能化功能完整度测试方法》等行业标准,支撑端侧智能体产业的有序发展。

联系方式:

周佳琳

18813094945(微信同号)

范洪源

17810292681(微信同号)

校  审 | 谨言、珊  珊

编  辑 | 凌  霄

rb88热博,米乐易游,

rb88随行版相关资讯:yy易游平台,