两年前,我带着家人去浙江安吉度假。在高速公路上,我们看到了几块写满汉字的标识牌,提示前方即将进入隧道。文本密度很大,当特斯拉的 Autopilot 开启时,系统会发出两次提示音,但没有任何告警文字。我爸爸说:“可能是行车电脑读不懂上面的文字,提醒你要自己注意。”
自那时起,每天上班途中,我都会经过题图中的这个路口。在等待红灯时,我总会思考:“全自动驾驶系统(FSD)能理解这个交通信号灯吗?”在国内,没有车联网技术的自动驾驶是不可能实现的,因为自动驾驶企业基本上没有涉足自然语言处理(NLP)领域。研究 NLP 最多的可能还是智能座舱部门。
然后,GPT-4 出现了。它具备了图像阅读和理解能力,并能根据图片中的信息做出判断。在官方演示中,有一张气球拴在椅子上的图片。当向 GPT-4 提问:“剪断绳子会怎样?”时,它回答:“气球会飞走。”
因此,GPT-4 或许是自动驾驶所缺少的关键拼图之一。遗憾的是,截至目前,我还没有获得 GPT-4 的 API 权限,无法像我原计划的那样,使用一些路口图片让 GPT-4 做出判断。我只能在 ChatGPT 中使用 GPT-4 的文字问答接口进行测试。
以下是针对几个常见交通标志和交通信号灯的描述文本:






从结果来看,答案都是正确的。这意味着,我们可能已经找到了这块缺失的关键拼图。












