b体育官方app下载上交大与腾讯发布: AI助手复杂任务完成到手率仅14%根源揭示冲破

96 2026-04-28 23:04

这项由上海交通大学聚积上海东说念主工智能实验室、腾讯及南洋理工大学共同开展的盘考，以预印本姿色于2026年4月17日发布在arXiv平台，论文编号为arXiv:2604.15715。盘考的中枢是构建一套名为GTA-2的分级评测体系，挑升用来讨论AI智能体在真实器用使用场景下的时间上限。

---

引子：当AI助手际遇真实责任

每当一个新的AI大模子发布，总有东说念主迫不足待地在演示视频里展示它怎样完成复杂任务——搜索信息、处理表格、生成评释，一气呵成。看起来，通用AI助手的时期似乎依然到来。

但现实中，当你简直把一项复杂的责任任务交给AI时，甘休陆续令东说念主失望。它可能在某个中间步调卡住，或者生成了一堆文献却莫得组织成你需要的情势，又或者终末交出的"评释"根底不适应要求。

这种落差从那里来？现存的AI评测圭臬够不够真实、够不够全面？盘考团队觉得，问题的根源在于现时的评测体系自己——那些测试AI器用使用时间的"考题"，大多是东说念主工臆造的、依赖作假器用的、只在纯翰墨环境下初始的题目，根底不可响应真实宇宙里AI助手要靠近的复杂景况。

于是，他们决定我方脱手造一套更真实的科场。

---

一、这套考卷究竟考什么

要蛊惑这项盘考，不错把它瞎想成一场分为两轮的进修。

第一轮考的是"基本功"：给你一张图片，让你识别图中的翰墨，然后用贪图器算出谜底，终末把甘休标注在图上。这种任务有明确的谜底，有廓清的步调，考的是AI能不可精确调用正确器用、一步一步把问题解决。这一轮叫作念GTA-Atomic，径直袭取自盘考团队此前发布的GTA基准测试，依然在2024年的NeurIPS会议上发表。

第二轮考的是"抽象实战"：给你一份真实的销售数据表格，让你贪图各月的纰谬功绩筹商，找起程扬最佳的居品类别，画出折线图、柱状图和饼图，终末把所有内容打包成一份包含数据分析和改善提议的专科PDF评释。这种任务莫得唯独正确的作念法，考的是AI能不可重新到尾完成一件真实的出产性责任任务，何况交出一份不错实验使用的"后果物"。这一轮叫作念GTA-Workflow，是此次盘考最中枢的新孝顺。

这两轮进修共同组成了GTA-2分级评测体系，酿成了一个从"单个器用操作"到"完整责任历程"的完整评估路线。

---

二、考题从那里来：三个"真实"的信守

盘考团队在遐想题目时，反复强调了"真实性"这一原则，并将其拆解为三个层面。

第一个真实，是查询来自真实用户。盘考团队不让AI生成题目，而是让东说念主类亲手写出带有实验器用使用需求的问题，或者从Reddit、Stack Exchange等真实社区里收罗高质地的用户帖子改编而来。这么的问题不会在字里行间表露"你需要用搜索器用查一下"，而是像现实顶用户发问一样，把器用使用的需求藏在职务目的里，需要AI我方算计。

第二个真实，是器用是真实部署的。评测中使用的每一个器用——不管是图像识别、文档读取照旧图表绘图——都是真实不错初始、会产生真实输出的程序，不是用翰墨模拟的假器用。这意味着AI调用一个谬妄的器用，就会得到一个真实的谬妄甘休，而不是系统帮它"假装到手"。

第三个真实，是输入包含真实的多模态内容。任务的输入不仅限于翰墨，还包括截图、手写内容、舆图、食谱图片、空间场景等各式真实生涯中会际遇的视觉材料。AI必须真实蛊惑这些图像，而不是在纯翰墨环境下应付了事。

这三个"真实"共同组成了一皆自然的难度壁垒，把那些只会背谜底、走捷径的AI挡在门外。

---

三、责任流科场的专有挑战

GTA-Workflow的中枢难点，在于它根底莫得一个"圭臬谜底旅途"。

在基础器用使用的进修中，盘考东说念主员不错事先设定好每一步应该调用什么器用、参数填什么、预期输出是什么，然后对照AI的实验操作打分。但在责任流任务中，完成归并个目的不错出奇十种不同的旅途。更进攻的是，那些先进的AI系统（比如Manus或OpenClaw）里面有我方的筹谋机制和记挂管制，外部根底无法不雅察它们的"里面决议"，更谈不上对过程进行逐渐评分。

因此，盘考团队挑升遐想了一套"递归查验点评估机制"来纰漏这一挑战。

具体作念法是这么的：对于每一个责任流任务，盘考东说念主员不去规则AI应该怎样作念，而是把最终后果物应该悠闲的条目领会成一棵"目的树"。这棵树的根节点是举座任务目的，往下分出些许子任务节点，每个子任务节点再往下分出更细化的"叶节点"——也就是最具体、不错径直核查的子目的。

举个例子，在销售数据分析评释任务中，整棵目的树可能是这么的结构：根节点是"完成完整的数据分析评释"；它分出两个子节点，一个是"数据解析与筹商贪图"，另一个是"图表绘图与PDF生成"；在"数据解析"这个子节点底下，又有"正确贪图月度增长率"和"正确贪图客单价"等叶节点；在"图表绘图"底下，有"折线图正确响应趋势"、"柱状图包含种种目数据"和"饼图比例准确"等叶节点。

每一个叶节点都对应一个不错由AI评判模子客不雅打分的具体要求，分值从0到10。非叶节点的得分则是其子节点的加权平均值，权重由进攻进度决定，终末层层团聚到根节点，得出通盘任务的总分。这种遐想的妙处在于，它既给出了总体完成度的概览（根节点分数），又保留了每个具体子目的的细粒度信息，不错用来分析AI在哪个纰谬出了问题。

---

四、题库是怎样作念出来的

GTA-Workflow的132说念题资历了一套严格的"真金不怕火制"历程，毫不是唾手从网上抄几个问题就了事。

原始素材来自两个渠说念。一是径直收罗Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能体平台上的真实任务案例，确保题目与现时AI系统的实验愚弄场景对皆。二是从Reddit和Stack Exchange上筛选高互动度的用户发问，把真实用户的需求更正为评测题目。原始收罗到的154说念题，最终保留了132说念。

但这些原始题目并不可径直用。盘考团队让AI模子对每说念题进行分类：该删的删，因为题目要么太依赖深度视觉蛊惑而超出器用时间范围，要么根底无法用给定器用集解决；该无边的无边，把依稀的要求变廓清，把缺失的输出情势补上；该扩张的扩张，把过于轻便、器用使用不够丰富的题目扩展成真实的多步调责任流。只好少量数自己质地实足高的题目不错径直通过。

从数字来看，67说念题经过了扩张处理，62说念佛过了无边处理，只好3说念题径直通过。这证据现实中收罗来的原始素材陆续不妥贴径直作为评测题目，必须经过多量纠正才能达到圭臬。无边操作平均给每说念题加多了4.45个不停条目，后果物要求的刻画字数平均加多了14倍；扩张操作平均新增了3.48个器用，后果物要求加多了快要5倍。

纠正完成后，还需要经过自动考据和东说念主工审核两说念关卡。自动考据认真查验三条硬性规则：查验点必须刻画甘休状态而非操作动作，评分圭臬不可说起具体器用调用，任务刻画里不可出现预设的奉行步调。但凡违犯这些规则的题目，就要退回重写，真钱投注平台直到适应要求为止。终末，东说念主工标注员逐题核查任务的廓清度、可行性和真实性，并对使用频率偏低的器用进行专项补充，保证题库的器用遮蔽平衡。

---

五、科场建立：器用、模态与评分国法

GTA-Workflow支捏的输入类型比基础测试丰富得多，涵盖图片、Word文档、Excel表格、PowerPoint演示文稿、PDF文献、音频和视频，接近真实办公场景下会际遇的各式文献类型。

器用数目从基础测试的14个扩展到37个，新增了多量与实验责任相关的时间，包括读写Word、Excel、PDF、PPT文献的系列器用，音频处理器用（截取片断、降噪、曲调变换），视频处理器用（截取片断、添加翰墨考究、目的检测），以及语音转翰墨、HTML文献生成等。器用类别仍然保管感知、操作、逻辑和创作四大类不变。

输出后果物不异愈加种种，涵盖纯文本、图片、音频、视频、代码、Word文档、PDF、HTML页面、CSV数据文献、Excel表格、PPT演示文稿、JSON数据文献和Markdown文档等十余种情势，遮蔽了真实责任产出的大部分常见形态。

评分方面，盘考团队使用GPT-5.2作为AI评判模子，对每个叶节点进行0到10分的打分，并要求给出评分事理。任务总分通过递归加权团聚贪图得出，当根节点分数越过7分时，判定为任务完成。为了考据这套评分机制的可靠性，盘考团队挑升找了两名东说念主类标注员对30说念题的276个叶节点进行孤独评分，然后与AI评判模子的分数作念对比。甘休潜入，AI评判模子与东说念主类对等分的皮尔逊相关所有达到0.966，任务级别的组内相关所有为0.928，平均统统舛讹仅0.74分，与两个东说念主类标注员之间的一致性（皮尔逊相关所有0.965）基本捏平。换句话说，AI裁判的自制进度依然接近东说念主类裁判。

---

六、各大AI模子的实验发扬

当盘考团队把这套考卷递到面前最顶尖的AI模子面前，甘休令东说念主瞠目。

先看基础器用使用的进修。发扬最佳的GPT-4和GPT-4o，正确完成任务的比例不越过50%。其他闭源模子大多在25%以下，开源模子则更低，Mixtral-8x7B只好约10%，Llama-3-8B只好约3%。即即是在"给出前几步的情况下展望下一步"这种相对容易的步进测试中，GPT-4o的器用遴荐准确率也只好70%，参数填写准确率更是只好35%。这证据，哪怕是最基础的多步调器用调用任务，对现时AI来说都远比看起来难。

再看责任流任务的进修。在13个被测模子中，发扬最佳的Gemini-2.5-Pro，完整完成任务的到手率仅为14.39%。GPT-5为11.36%，Grok-4为9.85%，Claude-Sonnet-4.5为9.09%。开源模子中，Qwen3-235B-A22B和Llama-4-Scout都达到了10.61%，与顶级闭源模子差距不大。但限度较小的模子发扬则是断崖式下滑：Llama-3.1-70B到手率不足1%，Qwen3-8B和Llama-3.1-8B-Instruct则透澈为零——莫得完成任何一皆题。

相当耐东说念主寻味的是，Kimi-K2的器用调用到手率高达89.85%，器用自己调用起来险些莫得问题，但最终任务完成率却只好8.33%。这个数字明晰地证据，能正确调用器用，b体育官方app下载和能用器用完成一件真实的责任，是两件完全不同的事情。

---

七、失败图鉴：那里出了问题

盘考团队不悠闲于知说念AI失败了，更想知说念AI在哪个纰谬失败的。为此，他们对每一个失败的查验点打上了阶段标签，分析谬妄的分散。

最常见的失败发生在奉行阶段，也就是AI在实验调用器用、与文献交互的过程中出了问题。Gemini-2.5-Pro有33.7%的失败属于奉行阶段谬妄，Claude-Sonnet-4.5有34.0%。这证据，保管长达数十步的器用交互链条而不出错，是一件极其清贫的事情。

第二大失败原因是最终后果物莫得正确落地，包括文献情势分歧、文献莫得正确导出、后果物结构不适应要求等。这类失败在较弱的模子中尤为杰出，Qwen3-8B有24.7%的失败属于此类。这意味着，即便AI作念罢了大部分中间步调，终末一哩路却世俗走欠亨。

比拟之下，推理谬妄——也就是AI在逻辑想考上出了问题——反而只占很小的比例，各模子均在7%以内。这证据，现时AI模子并不空乏局部推理时间，缺的是把局部推理串联成完整任务奉行的系统性时间。

盘考团队还把失败细分为三个层级：叶节点层面的局部子目的失败（A级）、组合层面的中间整合失败（B级）和最终后果物层面的落地失败（C级）。在使用默许Lagent框架的情况下，Gemini-2.5-Pro的C级失败率高达77.78%，Claude-Sonnet-4.5更高达80.56%。也就是说，即即是最顶尖的AI，一朝用圭臬框架初始，有越过概况的时候根底交不出一份合格的最终后果物。B级失败率也高达70%支配，证据中间各部分的整合责任不异是个浩劫题。

---

八、框架的力量：换一个"初始环境"，到手率翻几番

最令盘考团队昂扬的发现之一，来自不同AI奉行框架之间的对比实验。

盘考团队用完全相通的底层AI模子（Claude-Sonnet-4.5），分别在两个不同的奉行框架下完成30说念责任流任务：一个是盘登科默许使用的Lagent框架，一个是更先进的OpenClaw框架。

甘休差距惊东说念主。Lagent框架下，根节点平均得分只好2.49分，任务完成率为0%——30说念题一皆都没完成。切换到OpenClaw框架后，相通的AI模子根节点对等分跳升至6.82分，任务完成率达到50%，叶节点通过率从10.14%飙升至73.55%。

不异的AI模子，就像归并个东说念主，换了一套更完善的责任历程和器用支捏体系，到手率从零变成了一半。

盘考团队还测试了Manus和Kortix这两个分歧外公开底层模子的营业AI智能体平台。Manus的任务完成率为53.3%，根节点平均得分6.94；Kortix的完成率不异为53.3%，平均得分6.83。这两个营业系统的发扬与OpenClaw相当，都远超单独使用顶级大模子的甘休。

从着力角度看，三个先进框架各有侧重。Manus的资本着力最高，每花1好意思元赢得的根节点得分达到0.463；OpenClaw资本最高（每30说念题破耗35好意思元），但统统性能最强；Kortix则提供了介于两者之间的平衡遴荐。

这组对比实验最径直的启示是：在责任流场景下，AI模子的时间自然进攻，但奉行框架的遐想质地不异纰谬，甚而可能更进攻。一个遐想厄运的框架，能让顶尖AI模子一败涂地；一个遐想出色的框架，能把不异的AI模子带到全然不同的高度。

---

九、难度剖解：哪类任务最难啃

盘考团队从任务复杂度、后果物类型和任务畛域三个维度，深入分析了难度分散。

从复杂度角度看，GTA-2按照叶节点数目把责任流分为轻便（3至7个叶节点）、中等（8至12个）和复杂（13至19个）三档。险些所有模子都呈现出相通的规章：跟着叶节点数目加多，叶节点通过率稳步着落。GPT-5在轻便任务上能达到约22%的叶节点通过率，但在复杂任务上降至约13%。唯独的例外是Gemini-2.5-Pro，它在中等难度任务上收货有所下滑，但在复杂任务上反而回升到约24%，发扬出一定的长程正经性。

从后果物类型角度看，所有模子在生成纯文本类后果（PDF文档、纯文本、HTML页面）时发扬最佳，平均根节点得分在3.7至4.3分之间。多媒体类后果（图片、音频、视频）居中，平均约3.48分。最难措置的是结构化数据文献（CSV、Excel、JSON）和PPT演示文稿，对等分分别只好2.62和2.79。GPT-5在PPT生成上得了3.12分，但Claude-Sonnet-4.5只好2.14分，两者出入近1分，证据不同模子在高精度数据处理上存在彰着各别。

从任务畛域角度看，六个任务类别（数据分析、熏陶与教导、筹谋与决议、创意遐想、营销计策、检索与问答）中，莫得任何一个模子在所有类别上都最强。Gemini-2.5-Pro在检索与问答上起先，Claude-Sonnet-4.5在创意遐想上后来居上，证据不同模子有各自的专长区域。举座而言，需要精确数据操作或动态信息整合的任务（数据分析、营销计策）最具挑战性，而有领悟常识基础撑捏的任务（熏陶、常识问答）相对容易。

---

十、反馈的价值：查验点也不错帮AI翻新

盘考团队还探索了一种料想的愚弄：把评估框架反过来作为翻新器用用。

实验过程是这么的：让GPT-5先生成一份责任流任务的后果物，然后由AI评判模子用查验点树进行评分。接着让GPT-5看到反馈，再作念一次。盘考团队对比了两种反馈方式：一种是"粗粒度反馈"，只告诉AI"甘休分歧"；另一种是"查验点反馈"，复返每个子目的的具体失败会诊。

甘休颇为证据问题。莫得反馈时，平均根节点得分为2.83。加入粗粒度反馈后，得分小幅提高至2.93，相对提高4.05%。加入查验点反馈后，得分高潮至3.15，相对提高12.03%。查验点反馈比粗粒度反馈的效果越过快要三倍。

这证据，越细化的谬妄会诊，就越能匡助AI找到正确的翻新标的。这也领导了一个颇具价值的愚弄标的：把查验点评估机制镶嵌AI的进修或迭代优化历程，让AI在每次尝试后赢得结构化的会诊反馈，可能是提高责任流完成时间的有用旅途。

---

十一、评估自己是否真实

任何评估体系都需要继承对于自身可靠性的质疑，GTA-2也不例外。盘考团队挑升遐想了多项考据实验。

对于评分阈值的及第，盘考团队测试了从5到9的五个不同到手判定阈值，不雅察各阈值下模子排行和分值分散的变化。甘休发现，阈值过低（5分）时，大多数模子都"合格"，分辨不出横暴；阈值过高（9分）时，险些所有模子都归零，不异失去分散时间。7分是在严格性和分散度之间平衡最佳的点，因此被选为默许阈值。

对于AI评判模子的可靠性，除了前边提到的东说念主类一致性测试，盘考团队还测试了换用Gemini-2.5-Flash作为裁判时的甘休变化。虽然Gemini-2.5-Flash给出的分数举座偏高，但四个模子的相对排行与使用GPT-5.2时完全一致，斯皮尔曼相关所有和肯德尔相关所有均为无缺的1.0。这证据具体用哪个AI模子作念裁判影响不大，排行论断是正经的。

对于跨模子自制性，盘考团队分别从GPT-5输出、Gemini-2.5-Pro输出、OpenClaw输出和Qwen3-30B-A3B输出各取30说念题，让AI评判模子与东说念主类评分对比。对所有着手，皮尔逊相关所有均高于0.92，组内相关所有均高于0.85，证据AI裁判不会因为后果物着手不同而产生系统性偏差。

---

说到底，这项盘考传达的信息相当明确：现时的AI助手，在真实责任场景下的发扬，比咱们世俗以为的要差得多。

最顶尖的AI模子，在一语气调用十几个器用、处理各式文献情势、最毕生成一份结构完整的可用后果物这么的任务上，到手率只好百分之十几。失败的原因不在于推理逻辑，而在于奉行过程的领悟性和最终后果物的落地质地。而换一个更完善的奉行框架，哪怕底层AI模子莫得变，到手率就能从零跃升到一半以上——这证据咱们现在靠近的，与其说是AI时间的天花板，不如说是AI系统工程遐想的瓶颈。

这对浅显用户意味着什么？淌若你现在用某个AI助手来完成复杂责任任务，它完不成的大概率不是因为"笨"，而是因为它背后的初始框架遐想得不够完善。改日更好用的AI助手，可能不仅仅靠进修更强的大模子来达成，更需要在系统架构层面下功夫。

这也引出了一个值得连续追问的问题：当AI奉行框架的遐想越来越像一个"责任流操作系统"时，评估这套系统的时间，和评估底层AI模子自己，会不会最终成为同等进攻的事情？GTA-2给出了一个初步的谜底框架，但更深入的探索赫然还在路上。有酷好深入了解的读者，不错通过arXiv编号2604.15715查阅完整论文，代码和数据集也将在GitHub的open-compass/GTA仓库怒放。

---

Q&A

Q1：GTA-Workflow的查验点评估机制是怎样运作的？

A：GTA-Workflow把每个任务的目的领会成一棵"目的树"，树的最底层叶节点是具体可核查的子目的，比如"折线图是否正确响应趋势"。AI评判模子对每个叶节点打0到10分，再按权重层层加权团聚到根节点，得出通盘任务的总分。根节点得分越过7分即视为任务完成。这种机制既给出总体完成度，也保留了细粒度的子目的会诊信息。

Q2：GTA-Workflow测出来顶级AI到手率只好14%，是因为题目太难了吗？

A：难度确乎比惯例评测高，但"难"的着手是真实性而非刻意刁难。任务来自真实用户需求，使用真实可初始的器用，要求生成真实可用的后果物。在这个圭臬下，顶级AI到手率低的中枢原因不是推理时间不足，而是在长达数十步的器用交互链条中难以保捏领悟性，以及最终后果物的情势和结构世俗不适应要求。

Q3：OpenClaw和Manus这些框架为什么能大幅提高AI的责任流完成率？

A：这些先进奉行框架提供了更完善的系统级支捏b体育官方app下载，包括动态筹谋时间（不错凭证中间甘休诊治后续步调）、捏久化记挂管制（能记取任务各阶段的状态和中间甘休）以及更正经的多步调器用互助机制。比拟之下，基础框架（如Lagent）主要依赖AI模子自身的单次筹谋时间，际遇奉行失败或状态丢失机空乏复原机制，导致任务半途崩溃的概率大幅升高。框架的各别，骨子上是"责任流操作系统"遐想水平的各别。

极速飞艇pk10官网入口

AI 腾讯发布 b体育官方app下载交大

推荐资讯

b体育官方app下载上交大与腾讯发布: AI助手复杂任务完成到手率仅14%根源揭示冲破

B体育 36斤活羊烤完剩6.9斤官方:退一赔三

b体育app 莫让战火拔除东谈主类共同漂后驰念

b体育官方app下载追觅CEO意思雷军: 明明是行业楷模,

b体育官方app下载 上交大与腾讯发布: AI助手复杂任务完成到手率仅14%根源揭示冲破

B体育 36斤活羊烤完剩6.9斤 官方:退一赔三

b体育app 莫让战火拔除东谈主类共同漂后驰念

b体育官方app下载 追觅CEO意思雷军: 明明是行业楷模,

b体育官方app下载上交大与腾讯发布: AI助手复杂任务完成到手率仅14%根源揭示冲破

B体育 36斤活羊烤完剩6.9斤官方:退一赔三

b体育官方app下载追觅CEO意思雷军: 明明是行业楷模,