SEC寻求紧急暂停花旗欺诈案件凯梅尔汇丰夺冠再次证明

近年来，随着大语言模型与终端设备的深度融合，智能体在手机、PC、汽车、智能家居等终端设备上快速部署。然而，当前业界缺乏统一、权威的端侧智能体评测标准，部分测试任务与真实场景脱节，且评测维度单一，无法全面反映智能体在复杂真实环境中的综合能力。中国信息通信研究院（简称“中国信通院”）联合行业开展端侧智能体“智能化功能完整度”检测工作，旨在建立一套科学、客观、可复现的端侧智能体评价体系，推动端侧智能体能力评价从“纸上跑分”迈向真实场景落地。

一、测试对象

测试对象涵盖终端运行的系统级智能体和三方智能体。

二、测试用例设计

1. 深度：梯度任务探知技术极限

综合逻辑推理深度、执行复杂度等维度，构建多维度任务复杂度模型，将测试任务划分为多个梯度难度。

梯度一：单步骤任务+单应用

特征：用户发出单一明确指令，智能体调用单个应用完成目标。
示例：“叫个出租车去天坛东门。”

梯度二：短链任务+单应用或多应用

特征：用户指令包含多个步骤，但任务链条较短（通常2~4步），智能体可在单个应用内完成多步操作，或简单跨应用协作。
示例：“查询一下明天上午八点之后从北京飞上海的第一班航班；将航班号，起飞时间等信息添加到日程；把该日程相关信息发送给某联系人。”

梯度三：长链任务+多应用

特征：用户指令涉及复杂的目标分解，需要跨多个应用、多轮交互执行，任务链条长（通常5步以上），且存在条件判断、分支选择或异常处理。
示例：“规划下周从北京到杭州三天两夜的自由行，订往返高铁票，推荐西湖附近评分4.5以上的酒店，每天安排一个景点和一家杭帮菜餐厅，把所有行程同步到日历，并生成一份旅行清单发送给某联系人。”

任务难度梯度设计

2. 广度：应用场景描绘生态版图

选取用户高频真实场景，构建全景式场景测试集，形成对端侧智能体生态成熟度的整体映射。

场景一：用机操控

覆盖系统设置调整、日程管理、相册管理、天气查询等高频操作。

场景二：交通出行

覆盖出行规划、导航、打车、飞机、火车等场景。

场景三：生活消费

覆盖餐饮推荐、外卖订购、线上购物、快递查询、生活缴费等。

场景四：办公协作（扩展场景）

覆盖文档处理、会议安排、邮件管理、信息检索汇总等。

场景五：社交娱乐（扩展场景）

覆盖即时通讯、内容生成与发布、影音娱乐等。

典型任务场景

三、评价体系

1. 智能体基础能力

意图理解准确性：智能体正确识别用户意图占总指令的比例。

任务分解合理度：智能体输出子任务序列与标准子任务序列比对，计算最长公共子序列占标准子任务序列的比例。

工具调用准确性：智能体正确调用工具的次数占总调用的比例。

记忆召回率：智能体在需要时正确召回已存储信息项的比例，以及信息经过多轮对话或长时间后仍能被准确召回的比例。

用户误操作防护成功率：针对越权等不合理指令，智能体能够拒绝执行并给出提示占总指令的比例。

2. 功能完整度

场景覆盖率：统计智能体所支持的场景数量占目标场景的比例。

功能覆盖率：统计智能体所支持的功能数量占目标功能的比例。

任务完成率：统计智能体在多次执行中的表现，更全面、稳健地反映其真实能力水平。以Pass@3为主指标，Avg@3为辅助指标，Pass^3为可选指标。

3. 执行效率与成本

端到端响应时间：计算在真实用户场景中，从发出指令到任务完成的时间。

主要测试指标

未来，中国信通院将联合产业界持续迭代测试数据集与评测方法，推动形成《新一代移动智能终端智能化功能完整度技术要求》《新一代移动智能终端智能化功能完整度测试方法》等行业标准，支撑端侧智能体产业的有序发展。

联系方式：

周佳琳

18813094945（微信同号）

范洪源

17810292681（微信同号）

校审 | 谨言、珊珊

编辑 | 凌霄

rb88热博，米乐易游，

rb88随行版相关资讯：yy易游平台，

原标题：利比亚全面恢复石油出口须数年暂没有能力推千元智能手机 | 稿源：易游官网 | 责任编辑：陈星

官方公信力持续下降技术彩民领走双色球4498万

相关文章

推荐阅读

官方公信力持续下降 技术彩民领走双色球4498万

相关文章

推荐阅读

官方公信力持续下降技术彩民领走双色球4498万