清华新研究突破自动驾驶:AI不是“看不全”,是没学会“看重点”

发布时间:2026-02-22 09:00  浏览量:2

开车这事儿,说玄乎点,是手眼心合一;说实在点,就是眼睛一瞟、脑子一转、脚下一动。可现在那些动辄百亿参数的自动驾驶模型,真能像老司机那样“一眼扫过去就心里有数”?最近清华AIR团队在《npj Artificial Intelligence》上发的那篇论文,悄悄把这层窗户纸捅破了——原来AI不是算力不够,是压根没摸到人类“看路”的门道。

人类司机盯住一个刚迈出人行道的行人,0.3秒内就完成了三件事:先扫出他在哪儿(位置),再盯住他有没有低头看手机、脚步快不快(动态意图),最后余光一甩,确认左后方没车冲上来(风险闭环)。这哪是“看”,分明是“读”:读动作、读意图、读环境关系。而当下主流模型呢?它得把整张图拆成几万个像素块,靠海量撞车数据反推“哪个块组合起来≈危险”。所以塑料袋飘起来像鬼影,穿灰衣的老人融进水泥墙里——不是它瞎,是它根本没被教会“什么值得盯”。

有意思的是,研究团队把真人开车时的眼动轨迹切成了三段喂给AI:第一段“扫描”,AI性能反而掉了一截;第二段“审视”,也就是司机真正盯住关键目标那1秒左右的注意力热区,模型在异常检测任务里准确率直接拉升了12.7%;第三段“复核”,效果中等但稳定。这说明什么?Transformer本来就能并行看全图,硬逼它学人眼“从左到右慢慢扫”,纯属削足适履。但人类那毫秒级的“语义锁定”——比如红灯亮起时,视线自动黏在刹车灯上而不是整个车头——这种经验压缩包,AI自己根本蒸不出来。

他们拿DriveLM和TOD³Cap两个大榜测,结果更耐人寻味:宏观推理题上,人类注意力数据几乎没用;可一到TOD³Cap这种要精准指出“雨幕里第三根路灯杆右侧那个撑黑伞的、穿红鞋的、正侧身避让自行车的女人”的任务,注入“审视”数据后,定位误差直接缩小40%。道理很简单——AI能背交通法规,但背不会“红鞋在雨天比蓝衣更抓眼球”这种活生生的经验。

说白了,现在堆算力就像给自行车装火箭发动机,方向错了,推力越猛越容易翻沟里。清华这个研究没推新模型,就干了一件事:把17位职业司机在127公里真实城道路段上的眼动数据,熬成了一勺“注意力浓缩液”。试过才知道,轻量级模型喝一口,比某些大模型干喝十吨数据还解渴。

你发现没?我们一直防着AI犯蠢,却忘了教它怎么“聪明地偷懒”。