1. 赛道开设概要
“最后一公里”指自动驾驶过程中从车辆接近目的地到最终抵达乘客最优接驳位置的驾驶环节,是全自动驾驶技术应用的“第五空间”,它通常涉及拥挤的商业区、封闭的住宅区以及繁忙的停车场,在这里智能汽车将在复杂、甚至是未知的动态环境中响应乘客的终端接驳需求。然而,在当前的自动驾驶应用中,智能汽车高度依赖互联网服务和高精度地图作为理解乘客需求的“中间件”/“服务中台”,不能直接类人地响应乘客以自然语言表达的接驳需求,无法根据乘客指示动态地调整目的地导航策略,甚至不能前往未建图的住宅区和商业地下停车场。因此,本赛道从全自动驾驶技术的需求侧出发,开设了在封闭停车场内虚实结合的自主代客泊车赛项,模拟“最后一公里”内智能汽车从公开道路进入未建图封闭住宅/商业区停车场的常见生活案例,积极探索乘客自然语言指令驱动的自动驾驶新范式,鼓励通过大语言模型、计算机视觉大模型和通用智能体等人工智能创新克服现有技术局限,实现精细化、个性化的无缝自动驾驶服务。
本赛道的目的是开发一种自动驾驶行程终端的需求自适应领航框架,能够实现对乘客自然语言指令的即时理解和执行,在复杂且未建图场景中提供更为直接和灵活的停车及接驳服务。参赛团队将被鼓励积极应用视觉语言大模型的最新研究成果来设计端到端多模态决策智能体,其将依据车载感知图像和乘客需求指令在运动中从当前感知的停车位中做出选择或继续探索合适的停车位。运行流程如图1:
图1. 自动驾驶行程终端的需求自适应领航框架
· 动作1到6(停车行为):选择一个特定位置进行停车并终止当前的探索过程。
o 动作1:选择行进方向左边的第1个停车位。
o 动作2:选择行进方向左边的第2个停车位。
o 动作3:选择行进方向左边的第3个停车位。
o 动作4:选择行进方向右边的第1个停车位。
o 动作5:选择行进方向右边的第2个停车位。
o 动作6:选择行进方向右边的第3个停车位。
智能体策略公式
1. 无图驾驶的跨越式发展:赛道通过引入自然语言理解和多模态融合技术,打破了现有自动驾驶系统依赖高精度地图的限制,推动了自动驾驶技术向更高的自主性和灵活性发展。这不仅拓宽了自动驾驶技术的应用场景,使其能够在更多复杂和动态的环境中安全运行,也为智能交通系统的进一步发展提供了新的思路。
2. 驾驶需求的个性化响应:本赛道的设计强调乘客的个性化需求响应,通过大语言模型和视觉大模型的结合,探索了自然语言驱动的自动驾驶新范式。这样的研究将推动人机交互技术的进步,使智能汽车能够更自然、更准确地理解和执行乘客的指令,提升用户体验和服务质量。
3. 端到端多模态决策:赛道所倡导的端到端多模态决策智能体的研究,不仅在技术层面具有突破意义,也在实际应用中具备广泛的社会影响。通过提高自动驾驶系统在复杂环境中的适应能力和安全性,减少人为驾驶错误和交通事故的发生,有助于构建更安全、高效的交通系统,推动智慧城市的发展。
1. 驾驶需求的自然语言理解挑战:
在这一挑战中,参赛团队需开发能够精确解析自然语言指令的系统,这包括理解模糊指令、地点描述和非直接命令式的请求。此系统应能处理多种语言表达形式,识别关键行动词和目标对象,从而准确理解乘客的具体需求。此外,系统还需要能够处理语言中的局部语境和全局语境,如“停在那个红色的门前”,这里的“那个”和“红色的门”需通过上下文得到正确解释。
2. 无图环境下的多模态语义匹配挑战:
在无高精度地图支持的环境中,自动驾驶系统必须依靠车载传感器(在本赛道中是车载单目摄像头)捕获的实时数据,与乘客的语言指令进行语义匹配。挑战在于如何将视觉、听觉等多模态输入与语言指令相融合,实现准确的空间定位和环境理解。系统需能够识别和分类环境元素(如停车标志、入口、特定店铺),并将这些视觉信息与乘客的指令相匹配,确保精确执行。
3. 多元环境扰动下的鲁棒性策略设计挑战:
自动驾驶车辆在执行任务时,可能会遇到各种环境扰动,如突发天气变化、临时路障、行人未预测行为等。此挑战要求参赛团队设计出高度鲁棒的策略,使得车辆能在这些不确定性因素中维持稳定的性能。解决方案需要包括实时的环境监测、动态的决策调整机制,以及应对未知和变化条件的学习能力。此外,系统还需要能够从过往经验中学习,通过持续的数据积累和分析优化其响应策略,以应对复杂多变的真实世界条件。
一阶段:线上赛V-虚拟场景数据赛。
发布虚拟场景与虚拟场景数据集,如图2、3。
图2. 虚拟场景泊车过程
图3. 虚拟场景数据集样例
二阶段:线上赛R-真实场景数据赛。发布真实场景数据集,进行微调
发布真实场景数据集,如图4。
图4. 真实场景数据集样例
由第一阶段模型进行微调。
经过评估指标综合计算,与第一阶段结果加权得分,根据排名进入线下赛。
3. 线下赛
3.1 实车展示。
待定。
3.2 线下答辩。
一组5-7人,专家来源具身智能,自动驾驶,机器人导航等相关领域。
4. 积分规则
通过五个方面的指标来计算算法的得分,如图5:
图5. 评价指标雷达图
[1] 安全性指标
a) 导航错误率 (NE: Navigation Error Rate)
u 介绍:导航错误是一类无法接受的错误,主要表现在视觉语言导航的决策车位是一个不可用车位,执行决策会导致车辆的损坏。
u 计算公式:
其中:
NE - 平均交通事故发生时长
E – 导航错误的次数
T – 导航总次数
[2] 可靠性指标
a) 成功率(SR: Success Rate)
u 介绍:表示视觉语言导航系统在不同环境下完美完成导航任务的比例。
u 计算公式:
其中:
SR– 成功率
S– 完美完成导航任务的次数
T – 导航总次数
b) 车位匹配度 (PSMD: Parking Space Matching Degree)
u 介绍:当车辆成功停车以后,所停车位的属性与指令指向的车位属性的符合度。
c) 绝对车位误差 (APE: Absolute Parking Error)
u 介绍:当车辆成功停车以后,所停车位与理想车位的绝对距离,越小表示停车的位置距离理想车位越靠近。
[3] 效率性指标
a) 距离加权成功率(DWSR: Distance Weight Success Rate)
u 介绍:表示视觉语言导航系统在完美完成导航任务的情况下,再考虑到运行的距离权值的比例。
[4] 自主性指标
a) 错失率 (MR: error rate)
u 介绍:表示再存在理想停车位时,视觉语言导航系统经过了理想停车位却没有决策停车的比率。该指标越大,则车辆更容易忽略满足用户需求的车位,引发用户的介入。
[5] 主观性指标
a) 停车满意度
u 介绍:表示最终决策的车位与指令发出者的符合情况。
计算公式:根据驾驶员打分获取。
5. 奖项设置
冠军、亚军、季军、殿军:
获奖条件:
l 进入线下赛并取得对应名次的;
l 经专家评定设计方案有效且有意义的;
优胜奖:
获奖条件:
l 进入线下赛而并未取得前四名成绩的;
l 经专家评定设计方案有效且有意义的;
开源贡献奖:
获奖条件:
l 进入线下赛的;
l 经专家评定设计方案有效且有意义的;
l 在专家评定前开源其技术方案和代码的;
6. 赛事组织形式
1. 线上赛
1. 与线上平台进行合作,阿里天池或AI Crowd。
2. 与云平台进行合作建立公开服务器。
3. 建立赛事通讯群。
2. 线下赛
服从2024年(第十四届)中国智能车未来挑战赛的整体安排进行设计[随后发布]。
IVFC大赛已成功举办了十三届,大赛通过设置各类真实场景,测试和考察无人驾驶车辆的动态驾驶能力,通过建立赛道机制促进国内智能车技术的进步