b体育官方app下载 上交大与腾讯发布: AI助手复杂任务完成到手率仅14%根源揭示冲破


这项由上海交通大学聚积上海东说念主工智能实验室、腾讯及南洋理工大学共同开展的盘考,以预印本姿色于2026年4月17日发布在arXiv平台,论文编号为arXiv:2604.15715。盘考的中枢是构建一套名为GTA-2的分级评测体系,挑升用来讨论AI智能体在真实器用使用场景下的时间上限。
---
引子:当AI助手际遇真实责任
每当一个新的AI大模子发布,总有东说念主迫不足待地在演示视频里展示它怎样完成复杂任务——搜索信息、处理表格、生成评释,一气呵成。看起来,通用AI助手的时期似乎依然到来。
但现实中,当你简直把一项复杂的责任任务交给AI时,甘休陆续令东说念主失望。它可能在某个中间步调卡住,或者生成了一堆文献却莫得组织成你需要的情势,又或者终末交出的"评释"根底不适应要求。
这种落差从那里来?现存的AI评测圭臬够不够真实、够不够全面?盘考团队觉得,问题的根源在于现时的评测体系自己——那些测试AI器用使用时间的"考题",大多是东说念主工臆造的、依赖作假器用的、只在纯翰墨环境下初始的题目,根底不可响应真实宇宙里AI助手要靠近的复杂景况。
于是,他们决定我方脱手造一套更真实的科场。
---
一、这套考卷究竟考什么
要蛊惑这项盘考,不错把它瞎想成一场分为两轮的进修。
第一轮考的是"基本功":给你一张图片,让你识别图中的翰墨,然后用贪图器算出谜底,终末把甘休标注在图上。这种任务有明确的谜底,有廓清的步调,考的是AI能不可精确调用正确器用、一步一步把问题解决。这一轮叫作念GTA-Atomic,径直袭取自盘考团队此前发布的GTA基准测试,依然在2024年的NeurIPS会议上发表。
第二轮考的是"抽象实战":给你一份真实的销售数据表格,让你贪图各月的纰谬功绩筹商,找起程扬最佳的居品类别,画出折线图、柱状图和饼图,终末把所有内容打包成一份包含数据分析和改善提议的专科PDF评释。这种任务莫得唯独正确的作念法,考的是AI能不可重新到尾完成一件真实的出产性责任任务,何况交出一份不错实验使用的"后果物"。这一轮叫作念GTA-Workflow,是此次盘考最中枢的新孝顺。
这两轮进修共同组成了GTA-2分级评测体系,酿成了一个从"单个器用操作"到"完整责任历程"的完整评估路线。
---
二、考题从那里来:三个"真实"的信守
盘考团队在遐想题目时,反复强调了"真实性"这一原则,并将其拆解为三个层面。
第一个真实,是查询来自真实用户。盘考团队不让AI生成题目,而是让东说念主类亲手写出带有实验器用使用需求的问题,或者从Reddit、Stack Exchange等真实社区里收罗高质地的用户帖子改编而来。这么的问题不会在字里行间表露"你需要用搜索器用查一下",而是像现实顶用户发问一样,把器用使用的需求藏在职务目的里,需要AI我方算计。
第二个真实,是器用是真实部署的。评测中使用的每一个器用——不管是图像识别、文档读取照旧图表绘图——都是真实不错初始、会产生真实输出的程序,不是用翰墨模拟的假器用。这意味着AI调用一个谬妄的器用,就会得到一个真实的谬妄甘休,而不是系统帮它"假装到手"。
第三个真实,是输入包含真实的多模态内容。任务的输入不仅限于翰墨,还包括截图、手写内容、舆图、食谱图片、空间场景等各式真实生涯中会际遇的视觉材料。AI必须真实蛊惑这些图像,而不是在纯翰墨环境下应付了事。
这三个"真实"共同组成了一皆自然的难度壁垒,把那些只会背谜底、走捷径的AI挡在门外。
---
三、责任流科场的专有挑战
GTA-Workflow的中枢难点,在于它根底莫得一个"圭臬谜底旅途"。
在基础器用使用的进修中,盘考东说念主员不错事先设定好每一步应该调用什么器用、参数填什么、预期输出是什么,然后对照AI的实验操作打分。但在责任流任务中,完成归并个目的不错出奇十种不同的旅途。更进攻的是,那些先进的AI系统(比如Manus或OpenClaw)里面有我方的筹谋机制和记挂管制,外部根底无法不雅察它们的"里面决议",更谈不上对过程进行逐渐评分。
因此,盘考团队挑升遐想了一套"递归查验点评估机制"来纰漏这一挑战。
具体作念法是这么的:对于每一个责任流任务,盘考东说念主员不去规则AI应该怎样作念,而是把最终后果物应该悠闲的条目领会成一棵"目的树"。这棵树的根节点是举座任务目的,往下分出些许子任务节点,每个子任务节点再往下分出更细化的"叶节点"——也就是最具体、不错径直核查的子目的。
举个例子,在销售数据分析评释任务中,整棵目的树可能是这么的结构:根节点是"完成完整的数据分析评释";它分出两个子节点,一个是"数据解析与筹商贪图",另一个是"图表绘图与PDF生成";在"数据解析"这个子节点底下,又有"正确贪图月度增长率"和"正确贪图客单价"等叶节点;在"图表绘图"底下,有"折线图正确响应趋势"、"柱状图包含种种目数据"和"饼图比例准确"等叶节点。
每一个叶节点都对应一个不错由AI评判模子客不雅打分的具体要求,分值从0到10。非叶节点的得分则是其子节点的加权平均值,权重由进攻进度决定,终末层层团聚到根节点,得出通盘任务的总分。这种遐想的妙处在于,它既给出了总体完成度的概览(根节点分数),又保留了每个具体子目的的细粒度信息,不错用来分析AI在哪个纰谬出了问题。
---
四、题库是怎样作念出来的
GTA-Workflow的132说念题资历了一套严格的"真金不怕火制"历程,毫不是唾手从网上抄几个问题就了事。
原始素材来自两个渠说念。一是径直收罗Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能体平台上的真实任务案例,确保题目与现时AI系统的实验愚弄场景对皆。二是从Reddit和Stack Exchange上筛选高互动度的用户发问,把真实用户的需求更正为评测题目。原始收罗到的154说念题,最终保留了132说念。
但这些原始题目并不可径直用。盘考团队让AI模子对每说念题进行分类:该删的删,因为题目要么太依赖深度视觉蛊惑而超出器用时间范围,要么根底无法用给定器用集解决;该无边的无边,把依稀的要求变廓清,把缺失的输出情势补上;该扩张的扩张,把过于轻便、器用使用不够丰富的题目扩展成真实的多步调责任流。只好少量数自己质地实足高的题目不错径直通过。
从数字来看,67说念题经过了扩张处理,62说念佛过了无边处理,只好3说念题径直通过。这证据现实中收罗来的原始素材陆续不妥贴径直作为评测题目,必须经过多量纠正才能达到圭臬。无边操作平均给每说念题加多了4.45个不停条目,后果物要求的刻画字数平均加多了14倍;扩张操作平均新增了3.48个器用,后果物要求加多了快要5倍。
纠正完成后,还需要经过自动考据和东说念主工审核两说念关卡。自动考据认真查验三条硬性规则:查验点必须刻画甘休状态而非操作动作,评分圭臬不可说起具体器用调用,任务刻画里不可出现预设的奉行步调。但凡违犯这些规则的题目,就要退回重写,真钱投注平台直到适应要求为止。终末,东说念主工标注员逐题核查任务的廓清度、可行性和真实性,并对使用频率偏低的器用进行专项补充,保证题库的器用遮蔽平衡。
---
五、科场建立:器用、模态与评分国法
GTA-Workflow支捏的输入类型比基础测试丰富得多,涵盖图片、Word文档、Excel表格、PowerPoint演示文稿、PDF文献、音频和视频,接近真实办公场景下会际遇的各式文献类型。
器用数目从基础测试的14个扩展到37个,新增了多量与实验责任相关的时间,包括读写Word、Excel、PDF、PPT文献的系列器用,音频处理器用(截取片断、降噪、曲调变换),视频处理器用(截取片断、添加翰墨考究、目的检测),以及语音转翰墨、HTML文献生成等。器用类别仍然保管感知、操作、逻辑和创作四大类不变。
输出后果物不异愈加种种,涵盖纯文本、图片、音频、视频、代码、Word文档、PDF、HTML页面、CSV数据文献、Excel表格、PPT演示文稿、JSON数据文献和Markdown文档等十余种情势,遮蔽了真实责任产出的大部分常见形态。
评分方面,盘考团队使用GPT-5.2作为AI评判模子,对每个叶节点进行0到10分的打分,并要求给出评分事理。任务总分通过递归加权团聚贪图得出,当根节点分数越过7分时,判定为任务完成。为了考据这套评分机制的可靠性,盘考团队挑升找了两名东说念主类标注员对30说念题的276个叶节点进行孤独评分,然后与AI评判模子的分数作念对比。甘休潜入,AI评判模子与东说念主类对等分的皮尔逊相关所有达到0.966,任务级别的组内相关所有为0.928,平均统统舛讹仅0.74分,与两个东说念主类标注员之间的一致性(皮尔逊相关所有0.965)基本捏平。换句话说,AI裁判的自制进度依然接近东说念主类裁判。
---
六、各大AI模子的实验发扬
当盘考团队把这套考卷递到面前最顶尖的AI模子面前,甘休令东说念主瞠目。
先看基础器用使用的进修。发扬最佳的GPT-4和GPT-4o,正确完成任务的比例不越过50%。其他闭源模子大多在25%以下,开源模子则更低,Mixtral-8x7B只好约10%,Llama-3-8B只好约3%。即即是在"给出前几步的情况下展望下一步"这种相对容易的步进测试中,GPT-4o的器用遴荐准确率也只好70%,参数填写准确率更是只好35%。这证据,哪怕是最基础的多步调器用调用任务,对现时AI来说都远比看起来难。
再看责任流任务的进修。在13个被测模子中,发扬最佳的Gemini-2.5-Pro,完整完成任务的到手率仅为14.39%。GPT-5为11.36%,Grok-4为9.85%,Claude-Sonnet-4.5为9.09%。开源模子中,Qwen3-235B-A22B和Llama-4-Scout都达到了10.61%,与顶级闭源模子差距不大。但限度较小的模子发扬则是断崖式下滑:Llama-3.1-70B到手率不足1%,Qwen3-8B和Llama-3.1-8B-Instruct则透澈为零——莫得完成任何一皆题。
相当耐东说念主寻味的是,Kimi-K2的器用调用到手率高达89.85%,器用自己调用起来险些莫得问题,但最终任务完成率却只好8.33%。这个数字明晰地证据,能正确调用器用,b体育官方app下载和能用器用完成一件真实的责任,是两件完全不同的事情。
---
七、失败图鉴:那里出了问题
盘考团队不悠闲于知说念AI失败了,更想知说念AI在哪个纰谬失败的。为此,他们对每一个失败的查验点打上了阶段标签,分析谬妄的分散。
最常见的失败发生在奉行阶段,也就是AI在实验调用器用、与文献交互的过程中出了问题。Gemini-2.5-Pro有33.7%的失败属于奉行阶段谬妄,Claude-Sonnet-4.5有34.0%。这证据,保管长达数十步的器用交互链条而不出错,是一件极其清贫的事情。
第二大失败原因是最终后果物莫得正确落地,包括文献情势分歧、文献莫得正确导出、后果物结构不适应要求等。这类失败在较弱的模子中尤为杰出,Qwen3-8B有24.7%的失败属于此类。这意味着,即便AI作念罢了大部分中间步调,终末一哩路却世俗走欠亨。
比拟之下,推理谬妄——也就是AI在逻辑想考上出了问题——反而只占很小的比例,各模子均在7%以内。这证据,现时AI模子并不空乏局部推理时间,缺的是把局部推理串联成完整任务奉行的系统性时间。
盘考团队还把失败细分为三个层级:叶节点层面的局部子目的失败(A级)、组合层面的中间整合失败(B级)和最终后果物层面的落地失败(C级)。在使用默许Lagent框架的情况下,Gemini-2.5-Pro的C级失败率高达77.78%,Claude-Sonnet-4.5更高达80.56%。也就是说,即即是最顶尖的AI,一朝用圭臬框架初始,有越过概况的时候根底交不出一份合格的最终后果物。B级失败率也高达70%支配,证据中间各部分的整合责任不异是个浩劫题。
---
八、框架的力量:换一个"初始环境",到手率翻几番
最令盘考团队昂扬的发现之一,来自不同AI奉行框架之间的对比实验。
盘考团队用完全相通的底层AI模子(Claude-Sonnet-4.5),分别在两个不同的奉行框架下完成30说念责任流任务:一个是盘登科默许使用的Lagent框架,一个是更先进的OpenClaw框架。
甘休差距惊东说念主。Lagent框架下,根节点平均得分只好2.49分,任务完成率为0%——30说念题一皆都没完成。切换到OpenClaw框架后,相通的AI模子根节点对等分跳升至6.82分,任务完成率达到50%,叶节点通过率从10.14%飙升至73.55%。
不异的AI模子,就像归并个东说念主,换了一套更完善的责任历程和器用支捏体系,到手率从零变成了一半。
盘考团队还测试了Manus和Kortix这两个分歧外公开底层模子的营业AI智能体平台。Manus的任务完成率为53.3%,根节点平均得分6.94;Kortix的完成率不异为53.3%,平均得分6.83。这两个营业系统的发扬与OpenClaw相当,都远超单独使用顶级大模子的甘休。
从着力角度看,三个先进框架各有侧重。Manus的资本着力最高,每花1好意思元赢得的根节点得分达到0.463;OpenClaw资本最高(每30说念题破耗35好意思元),但统统性能最强;Kortix则提供了介于两者之间的平衡遴荐。
这组对比实验最径直的启示是:在责任流场景下,AI模子的时间自然进攻,但奉行框架的遐想质地不异纰谬,甚而可能更进攻。一个遐想厄运的框架,能让顶尖AI模子一败涂地;一个遐想出色的框架,能把不异的AI模子带到全然不同的高度。
---
九、难度剖解:哪类任务最难啃
盘考团队从任务复杂度、后果物类型和任务畛域三个维度,深入分析了难度分散。
从复杂度角度看,GTA-2按照叶节点数目把责任流分为轻便(3至7个叶节点)、中等(8至12个)和复杂(13至19个)三档。险些所有模子都呈现出相通的规章:跟着叶节点数目加多,叶节点通过率稳步着落。GPT-5在轻便任务上能达到约22%的叶节点通过率,但在复杂任务上降至约13%。唯独的例外是Gemini-2.5-Pro,它在中等难度任务上收货有所下滑,但在复杂任务上反而回升到约24%,发扬出一定的长程正经性。
从后果物类型角度看,所有模子在生成纯文本类后果(PDF文档、纯文本、HTML页面)时发扬最佳,平均根节点得分在3.7至4.3分之间。多媒体类后果(图片、音频、视频)居中,平均约3.48分。最难措置的是结构化数据文献(CSV、Excel、JSON)和PPT演示文稿,对等分分别只好2.62和2.79。GPT-5在PPT生成上得了3.12分,但Claude-Sonnet-4.5只好2.14分,两者出入近1分,证据不同模子在高精度数据处理上存在彰着各别。
从任务畛域角度看,六个任务类别(数据分析、熏陶与教导、筹谋与决议、创意遐想、营销计策、检索与问答)中,莫得任何一个模子在所有类别上都最强。Gemini-2.5-Pro在检索与问答上起先,Claude-Sonnet-4.5在创意遐想上后来居上,证据不同模子有各自的专长区域。举座而言,需要精确数据操作或动态信息整合的任务(数据分析、营销计策)最具挑战性,而有领悟常识基础撑捏的任务(熏陶、常识问答)相对容易。
---
十、反馈的价值:查验点也不错帮AI翻新
盘考团队还探索了一种料想的愚弄:把评估框架反过来作为翻新器用用。
实验过程是这么的:让GPT-5先生成一份责任流任务的后果物,然后由AI评判模子用查验点树进行评分。接着让GPT-5看到反馈,再作念一次。盘考团队对比了两种反馈方式:一种是"粗粒度反馈",只告诉AI"甘休分歧";另一种是"查验点反馈",复返每个子目的的具体失败会诊。
甘休颇为证据问题。莫得反馈时,平均根节点得分为2.83。加入粗粒度反馈后,得分小幅提高至2.93,相对提高4.05%。加入查验点反馈后,得分高潮至3.15,相对提高12.03%。查验点反馈比粗粒度反馈的效果越过快要三倍。
这证据,越细化的谬妄会诊,就越能匡助AI找到正确的翻新标的。这也领导了一个颇具价值的愚弄标的:把查验点评估机制镶嵌AI的进修或迭代优化历程,让AI在每次尝试后赢得结构化的会诊反馈,可能是提高责任流完成时间的有用旅途。
---
十一、评估自己是否真实
任何评估体系都需要继承对于自身可靠性的质疑,GTA-2也不例外。盘考团队挑升遐想了多项考据实验。
对于评分阈值的及第,盘考团队测试了从5到9的五个不同到手判定阈值,不雅察各阈值下模子排行和分值分散的变化。甘休发现,阈值过低(5分)时,大多数模子都"合格",分辨不出横暴;阈值过高(9分)时,险些所有模子都归零,不异失去分散时间。7分是在严格性和分散度之间平衡最佳的点,因此被选为默许阈值。
对于AI评判模子的可靠性,除了前边提到的东说念主类一致性测试,盘考团队还测试了换用Gemini-2.5-Flash作为裁判时的甘休变化。虽然Gemini-2.5-Flash给出的分数举座偏高,但四个模子的相对排行与使用GPT-5.2时完全一致,斯皮尔曼相关所有和肯德尔相关所有均为无缺的1.0。这证据具体用哪个AI模子作念裁判影响不大,排行论断是正经的。
对于跨模子自制性,盘考团队分别从GPT-5输出、Gemini-2.5-Pro输出、OpenClaw输出和Qwen3-30B-A3B输出各取30说念题,让AI评判模子与东说念主类评分对比。对所有着手,皮尔逊相关所有均高于0.92,组内相关所有均高于0.85,证据AI裁判不会因为后果物着手不同而产生系统性偏差。
---
说到底,这项盘考传达的信息相当明确:现时的AI助手,在真实责任场景下的发扬,比咱们世俗以为的要差得多。
最顶尖的AI模子,在一语气调用十几个器用、处理各式文献情势、最毕生成一份结构完整的可用后果物这么的任务上,到手率只好百分之十几。失败的原因不在于推理逻辑,而在于奉行过程的领悟性和最终后果物的落地质地。而换一个更完善的奉行框架,哪怕底层AI模子莫得变,到手率就能从零跃升到一半以上——这证据咱们现在靠近的,与其说是AI时间的天花板,不如说是AI系统工程遐想的瓶颈。
这对浅显用户意味着什么?淌若你现在用某个AI助手来完成复杂责任任务,它完不成的大概率不是因为"笨",而是因为它背后的初始框架遐想得不够完善。改日更好用的AI助手,可能不仅仅靠进修更强的大模子来达成,更需要在系统架构层面下功夫。
这也引出了一个值得连续追问的问题:当AI奉行框架的遐想越来越像一个"责任流操作系统"时,评估这套系统的时间,和评估底层AI模子自己,会不会最终成为同等进攻的事情?GTA-2给出了一个初步的谜底框架,但更深入的探索赫然还在路上。有酷好深入了解的读者,不错通过arXiv编号2604.15715查阅完整论文,代码和数据集也将在GitHub的open-compass/GTA仓库怒放。
---
Q&A
Q1:GTA-Workflow的查验点评估机制是怎样运作的?
A:GTA-Workflow把每个任务的目的领会成一棵"目的树",树的最底层叶节点是具体可核查的子目的,比如"折线图是否正确响应趋势"。AI评判模子对每个叶节点打0到10分,再按权重层层加权团聚到根节点,得出通盘任务的总分。根节点得分越过7分即视为任务完成。这种机制既给出总体完成度,也保留了细粒度的子目的会诊信息。
Q2:GTA-Workflow测出来顶级AI到手率只好14%,是因为题目太难了吗?
A:难度确乎比惯例评测高,但"难"的着手是真实性而非刻意刁难。任务来自真实用户需求,使用真实可初始的器用,要求生成真实可用的后果物。在这个圭臬下,顶级AI到手率低的中枢原因不是推理时间不足,而是在长达数十步的器用交互链条中难以保捏领悟性,以及最终后果物的情势和结构世俗不适应要求。
Q3:OpenClaw和Manus这些框架为什么能大幅提高AI的责任流完成率?
A:这些先进奉行框架提供了更完善的系统级支捏b体育官方app下载,包括动态筹谋时间(不错凭证中间甘休诊治后续步调)、捏久化记挂管制(能记取任务各阶段的状态和中间甘休)以及更正经的多步调器用互助机制。比拟之下,基础框架(如Lagent)主要依赖AI模子自身的单次筹谋时间,际遇奉行失败或状态丢失机空乏复原机制,导致任务半途崩溃的概率大幅升高。框架的各别,骨子上是"责任流操作系统"遐想水平的各别。
极速飞艇pk10官网入口
备案号: