康奈尔大学等机构揭示顶级视觉语言模型的“组装焦虑”
发布时间:2026-06-04 17:06 浏览量:1
这项由康奈尔大学、康奈尔科技学院、穆罕默德·本·扎耶德人工智能大学(MBZUAI)以及加州大学伯克利分校联合开展的研究,于2026年5月发布在预印本平台arXiv上,论文编号为arXiv:2605.21625。研究团队构建了一套名为FLAT-PACK BENCH的全新评测基准,专门用于检验当前最先进的大型视觉语言模型在理解复杂视频时的真实能力。
你有没有这样的经历:拿到一套宜家家具,按照说明书一步一步组装,脑子里要同时记住哪根螺丝对应哪个孔,哪块木板先装,哪两个部件要先接触再固定。对人类来说,这件事虽然费脑子,但基本都能搞定。然而,当研究人员把同样的任务交给目前全球最顶尖的AI视觉语言模型(也就是那种能同时看视频、看图片、理解语言并回答问题的AI系统)时,结果让人大跌眼镜。
这正是这套测试基准想要探究的核心问题:那些在各种AI排行榜上光鲜亮丽的模型,真的理解视频里发生了什么吗?还是说,它们只是在"背答案"、靠猜测蒙混过关?
一、为什么要用家具组装来测试AI
普通人可能觉得,给AI看个视频问个问题,这有什么难的?但研究团队发现,现有的视频理解测试其实存在一个很大的漏洞:大多数测试问的都是"这段视频大概讲了什么"之类的宏观问题,或者问"视频里有没有猫""这个人在做什么"这类凭借单张画面就能回答的问题。这些测试并不能真正检验AI是否真的在"读"视频——有没有追踪每个物件在时间轴上的变化,有没有理解物件之间的互动关系。
家具组装恰好是一个绝佳的测试场景。原因在于:家具的零件是刚性的,形状不会变,全程保持同一个身份,这就排除了食物变形、液体流动这类额外干扰。组装过程是分步骤的,每一步都有清晰的先后顺序。整个过程在一个杂乱的视觉环境中进行,零件长得很像,很容易混淆。而且,组装的核心行为——两个零件从分离到接触——是一种非常具体的物理互动,AI必须真正"看懂"才能回答相关问题。
研究团队选取了来自互联网的真实宜家家具组装视频作为原始素材,这些视频来自IKEA-Manuals-at-Work(简称IMaW)数据集。这个数据集原本提供了家具的3D模型、零件的六自由度姿态以及部分关键帧的分割标注,但研究团队发现原始标注存在明显缺陷:一方面,标注只涵盖正在被操作的零件,其余零件完全没有标记;另一方面,标注的粒度停留在"子组件"层面,而非每一个独立零件。
为了解决这个问题,团队成员手工为50段视频中的343帧画面绘制了精细的零件分割标注,为每一个可见零件都画出了独立的轮廓。这项工作本身就相当耗时耗力,但这是整个测试基准得以成立的基础。
二、测试设计:四道关卡,层层递进
有了高质量的视频和标注之后,研究团队设计了四类测试问题,每一类都针对AI在理解视频时的一种具体能力。
第一类叫做"零件配对"(MATE)。这类问题问的是:在这段组装视频里,某个零件会直接连接到哪个零件上?这考察的是AI对整体装配结构的理解,以及它能否判断哪两个零件最终会物理接触并固定在一起。
第二类叫做"时间定位"(TLOC)。给AI看一张显示当前组装状态的图片,然后问:下一步要连接的是哪个零件?或者刚刚最后连接的是哪个零件?这要求AI不仅看懂图片,还要在视频时间轴上找到对应的位置,判断"刚发生了什么"或"接下来要发生什么"。
第三类叫做"时间排序"(TORD)。给AI一组零件,让它按照视频中这些零件被安装的先后顺序排列出来。这需要AI从头到尾追踪多个零件的状态变化,记录每一个连接事件发生的时刻,然后给出正确的时间顺序。
第四类叫做"跨帧追踪"(TRACK)。这是难度最高的一类。测试会给AI两张来自同一视频不同时刻的图片,两张图片里的零件都做了标注,但标号被打乱了——比如图A里标"4号"的零件,在图B里可能被标成了"2号"。AI需要通过观看视频,判断图A里的某个零件对应图B里的哪一个零件。这本质上是在测试AI的跨时间追踪能力。
为了让问题的指向足够清晰,研究团队采用了一种叫做"视觉提示"的方法。具体来说,每道题除了视频之外,还配有一张或两张参考图片,图片上的零件都用彩色遮罩覆盖,并标有数字编号。问题中提到的零件直接用编号指代,而不是用"左边的腿"或"顶部横梁"这类可能造成歧义的文字描述。这样做既避免了语言描述的模糊性,也防止了AI靠背诵常识来蒙答案。
与此同时,所有问题都经过了人工精心筛选。研究团队发现,如果完全依赖自动生成题目,很容易出现"不看视频也能猜对"的漏洞。比如,某道题的图片里两个零件已经明显靠在一起了,答案不言而喻;或者干扰选项的外形与正确答案差异太大,一眼就能排除。为了确保每道题都真的需要理解视频才能作答,注释员被要求仔细检查,剔除所有存在"走捷径"可能的题目。最终,这套测试基准包含了50段视频、602道多项选择题,覆盖了24种不同类型的宜家家具,每段视频平均涉及7个零件。
三、成绩单出炉:AI与人类的差距惊人
研究团队测试了数十款当前最具代表性的AI模型,包括商业闭源模型(GPT-5、Gemini系列)和开源模型(Qwen系列、InternVL系列、LLaVA系列等),以及一些针对特定能力专门训练的模型。
人类参与者的成绩首先给出了一个基准线:参与测试的计算机科学专业学生(从本科到博士层次)在四类问题上的准确率均超过90%,综合平均准确率高达94.18%,而且其中80%的题目得到了所有参与者的一致回答,说明这些题目本身清晰明了,不存在歧义。
相比之下,AI模型的表现可以用"惨不忍睹"来形容。OpenAI最新的GPT-5模型综合准确率仅为37.71%,谷歌的Gemini 2.5 Pro为33.72%,Gemini 3.1 Pro为32.89%。要知道,如果完全随机猜测,准确率大约是26%左右。也就是说,这些顶级商业模型的表现,只比随机乱猜好了大约10个百分点,与人类94%的水平相差了整整56个百分点以上。
开源模型中表现最好的是InternVL3-78B,综合准确率为41.03%,略微超过了GPT-5,位居所有模型榜首。Qwen2.5-VL-72B以40.37%紧随其后。这一结果说明,在某些细粒度视觉理解任务上,开源模型已经能与顶级商业模型一较高下,甚至略有优势。然而,即便是最好的开源模型,与人类的差距依然悬殊。
那些专门为区域理解或时间敏感性训练的模型,比如PerceptionLM和VideoRefer,表现同样不尽如人意。PerceptionLM的训练数据主要来自场景简单、互动关系清晰的视频,面对家具组装这种多零件、高相似度、密集交互的复杂场景,它明显力不从心。ArrowRL在时间排序任务上略优于其基础版本Qwen2.5-VL-7B,说明针对时间敏感性的专项训练有一定效果,但提升幅度有限。
四、刨根问底:AI到底在哪里栽了跟头
面对如此糟糕的成绩,研究团队并没有满足于公布数字,而是进一步深入探究问题的根源。
第一个值得关注的发现是:AI根本没有好好利用视频。研究团队做了一个对比实验:把视频从输入中完全移除,只给AI看那一两张参考图片,让它仅凭图片回答问题。结果发现,在"跨帧追踪"这类任务上,移除视频后AI的准确率确实明显下降(下降了约24个百分点);但在"零件配对"和"时间定位"这两类任务上,移除视频后AI的准确率反而略微上升了!
这说明一个令人不安的事实:在很多情况下,视频的存在反而给AI造成了干扰,而不是帮助。AI更倾向于依赖对图片的静态理解和自己积累的常识判断——比如"这两个零件的形状和位置关系,看起来像是要连在一起的"——而不是真正去追踪视频中发生了什么。与此形成鲜明对比的是,把视频移除后,人类的准确率从94%骤降到了43%,说明人类确实依赖视频来回答这些问题,而AI很多时候没有。
第二个发现是"零件编号偏见"。在时间排序任务的测试中,有一个奇怪的现象:移除视频后,AI在这类任务上的准确率几乎没有变化。按道理,移除视频应该让时间排序变得更难才对。研究团队怀疑是因为问题中的零件编号顺序暗示了答案——比如"先装0号,再装2号,再装3号"这样的顺序,恰好跟编号从小到大的直觉吻合。为了验证这一猜测,他们重新打乱了所有零件的编号,多次实验后发现,准确率确实下降了,证实了AI确实在利用编号顺序来"猜"答案,而不是真正理解组装流程。
第三个发现来自对AI自我解释的深入分析。研究团队让Gemini 2.5 Pro在回答问题时输出其内部的思考过程,然后让人类注释员分析这些思考记录,找出AI出错的具体原因。他们从200道答错的题目中归纳出了五类错误:第一类是"物体定位错误",占37.28%,AI无法正确识别图片和视频中同一个零件的对应关系;第二类是"时空推理错误",占32.45%,AI在追踪零件时因为镜头切换、视角旋转、场景变化而弄混了零件的身份;第三类是"时间推理错误",占17.98%,AI把多个连接事件的先后顺序搞错了;第四类是"物理交互错误",占7.89%,AI无法判断两个零件是否真的接触在了一起;第五类是"语言与逻辑错误",占4.38%,AI误解了题目要求或从正确的观察中得出了错误的结论。
其中"物体定位错误"和"时空推理错误"合计接近70%,说明AI最核心的弱点就是:在一个杂乱的视觉场景中,跨越时间维度来追踪和识别某个特定零件,这件对人类来说轻而易举的事,对AI来说却极为困难。
五、链式思考帮不了忙,分工合作也难解围
既然普通问答不行,研究团队也尝试了一些常见的"增强策略",结果同样不令人乐观。
一种广泛使用的策略叫做"链式思考提示",也就是要求AI在给出答案之前先一步一步解释自己的推理过程。这个方法在纯语言推理任务(比如数学题、逻辑谜题)上往往能大幅提升准确率。然而在这套测试中,加入链式思考提示后,AI的准确率不升反降。更进一步地,即使采用"自我一致性"方法——让AI在不同随机种子下生成5个不同的回答,然后用多数投票选出最终答案——准确率也没有改善,反而进一步下滑。这说明,纯靠语言层面的推理策略,无法弥补AI在视觉时空理解上的根本性缺陷。
另一种策略是视觉提示的呈现方式。研究团队尝试了三种不同的视觉输入格式。"混合媒体"格式是把参考图片单独作为一张图片提供,与视频分开;"拼贴"格式是把参考图片拼在视频每一帧的左侧,形成横向并排的画面;"拼接"格式是把参考图片直接插入视频的最开始几帧。实验结果显示,对于Qwen2.5-VL-72B来说,"混合媒体"格式效果最好,这可能是因为该模型的训练数据本身就包含大量图片和视频混合的样本,因此对这种输入格式更熟悉;对于InternVL3-78B来说,则是"拼接"格式效果最好,原因类似——该模型的训练数据以纯图片序列和纯视频为主,混合图文视频的格式反而不擅长处理。此外,视频是否经过剪辑(去除无关片段的"剪辑版"与仅保留关键帧的"关键帧版")对整体准确率影响不大。在视觉提示的渲染细节上,标注的颜色是否高对比、字体大小是否更大,影响也相当有限;但如果把零件的颜色遮罩、轮廓边框和数字标签三者都保留,比仅保留其中一两种效果要好得多。
六、分而治之:让专业工具来帮忙,结果更惨
研究团队还想出了一个颇具创意的思路:既然让AI直接理解视频太难,能不能把任务拆解开,用专门的工具分别解决追踪和接触判断两个子问题,然后把结果整合起来?
为此,他们设计了一个叫做"时间视频智能体"(TVA,Temporal Video Agent)的系统。这个系统的工作方式类似于一个拥有两名专家助手的侦探:一名助手(SAM2,Meta开发的视频分割追踪模型)负责在视频中追踪每个零件的位置,另一名助手(Qwen2.5-VL-32B)负责回答"这两个零件在当前帧里接触了吗"之类的视觉问题。智能体的"大脑"是Gemini 2.5 Pro,它接收问题后,会生成一段Python程序来调用这两名助手,最终汇总结果给出答案。
然而这套系统的表现更加糟糕,综合准确率仅为11.79%,而且有高达62.29%的题目直接放弃作答(选择"不确定"选项)。追究原因,研究团队发现两名"专家助手"本身的能力就严重不足。
在追踪方面,SAM2被要求从一帧出发,追踪多个零件到视频的另一帧。评估结果显示,SAM2追踪到的区域与真实标注之间的重叠度(IoU,交并比)平均仅有0.28,也就是说追踪结果有七成以上是错的。家具零件在组装过程中频繁旋转、互相遮挡、被人手遮住,这些都大大超出了SAM2的处理能力。
在接触判断方面,研究团队用1500道独立的二选一问题测试了Qwen2.5-VL-32B的判断能力(750道"这两个零件在最终组装状态下是否接触"的正例,750道负例)。模型的总体准确率为64.33%,但在需要判断"确实接触"的正例上,准确率仅有52.93%,几乎跟随机猜测一样差。这说明AI对物理接触这一概念的视觉理解极为薄弱——明明两个零件已经拼在了一起,AI却常常无法确认这一事实。
这一系列发现共同指向了同一个结论:问题不只出在AI的"顶层推理"上,而是深入到了视觉感知的基础层面。即便是最专业的追踪模型和视觉问答模型,在面对这类杂乱、动态的真实世界场景时,都存在根本性的能力短板。
归根结底,这项研究揭示了一个清醒的现实:当前的AI视觉模型,无论在排行榜上看起来多么耀眼,在处理需要细粒度时空理解的真实复杂场景时,仍然处于相当初级的阶段。
说到底,把组装家具这件日常小事变成一块"照妖镜",是这项研究最聪明的地方。它用一个人人都能理解的场景,精准地戳中了当前AI视觉理解能力的软肋:面对一段杂乱的真实视频,AI既认不清哪个是哪个,又记不住谁先谁后,更看不出哪两个零件碰在了一起。而这些,恰恰是人类在看第一遍视频时就能轻松完成的事。
对于普通读者来说,这项研究的意义在于:下次看到某款AI被宣传为"理解视频"的时候,不妨多一些审慎。它所谓的"理解",很可能只是在回答"这段视频大概讲了什么",而不是真正追踪视频里每一个细节随时间的演变。当你真正需要AI帮你在一段操作视频里找出"第三步之后哪个零件被装上去了"时,目前的AI很可能会让你大失所望。
当然,研究团队并没有在悲观中止步。他们指出,未来可以探索的方向包括:利用合成的3D仿真数据进行针对性的精调训练、开发更好的视觉区域理解提示技术,以及构建能够利用3D几何信息和深度信息的更复杂的多智能体系统。这些方向并非遥不可及,只是需要时间。
Q&A
Q1:FLAT-PACK BENCH测试基准和现有视频理解测试相比,最大的区别是什么?
A:FLAT-PACK BENCH专注于"细粒度时空理解",也就是要求AI真正追踪视频中每个零件在时间轴上的变化、判断零件之间何时发生物理接触,以及恢复零件的跨帧对应关系。现有的视频测试大多只问"视频大概讲了什么"或识别简单动作,不要求AI追踪多个视觉相似的物体在复杂场景中的时间演变,因此难度和考察维度完全不同。
Q2:GPT-5这样的顶级模型为什么在家具组装视频问答上表现这么差?
A:主要原因有三层。首先,家具零件外形高度相似,在杂乱场景中很难区分。其次,AI并没有真正利用视频的时间信息,而是更多依赖单帧图片的静态判断和常识推测。最后,AI对"两个零件是否物理接触"这类具体的空间互动判断能力极弱,即使是专门的视觉模型在这类问题上的准确率也只比随机猜测稍好一点。
Q3:FLAT-PACK BENCH中的"视觉提示"是什么,为什么要用它而不是文字描述零件?
A:视觉提示是从视频中抽取的参考图片,图片上的每个零件都用彩色遮罩覆盖并标注数字编号。用文字描述零件(比如"左边的腿")在对称结构中容易产生歧义,而且可能让AI靠背诵家具常识来猜答案,而不是真正理解视频内容。视觉提示通过直接标注图像的方式明确指定零件,既消除了语言歧义,也强制要求AI结合视觉信息来作答。