——让机器人听懂你的位置描述
引言
想象一下这个场景:你叫了一辆无人出租车,但 GPS 信号在高楼林立的城市里不太准确。司机(或者说自动驾驶系统)找不到你的确切位置。这时,你只需要告诉它:"我站在一个红色邮筒旁边,对面是一家星巴克,身后有个公交车站"——车辆就能精准定位到你的位置。
这就是这篇 CVPR 2026 论文《VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models》想要解决的问题。来自南开大学、武汉大学、慕尼黑工业大学等机构的研究团队提出了一种新方法,让机器能够理解人类用自然语言描述的空间位置,并在 3D 点云地图中找到对应的位置。

在 VLM-Loc 之前,已经有一些研究尝试做类似的事情,比如 Text2Pos、Text2Loc、CMMLoc 等。但这些方法存在两个主要问题:
处理范围太小:现有方法通常只能在很小的区域内工作(比如 30 米×30 米),这个假设过于简化了真实世界的复杂环境。
缺乏推理能力:现有方法采用端到端的位置预测模式,没有明确的空间推理过程。就像是一个黑盒子,输入文字,输出坐标,但中间发生了什么我们不知道,也限制了在复杂环境中的准确性。
研究人员发现,人类可以自然地感知和描述跨越数十米范围的空间布局。当我们说"我在 A 的左边,B 的前面,C 的附近"时,我们实际上在进行空间推理——理解多个物体之间的相对位置关系,然后确定自己的位置。
这启发了研究团队:为什么不利用大语言模型强大的推理能力来做这件事呢?
VLM-Loc 的核心思想很简单:利用视觉语言模型(VLM)的空间推理能力,把语言描述和空间信息对齐。

视觉语言模型通常是为处理 2D 图像设计的,但点云是 3D 的。怎么办?研究团队想了个巧妙的办法:
鸟瞰图(BEV)渲染:把 3D 点云投影到地面上,生成一张从上往下看的 2D 图像。每个物体用它的平均颜色来表示,这样 VLM 就能像处理普通照片一样处理它。
场景图生成:同时,系统还会构建一个场景图,记录环境中有哪些物体、它们的位置在哪里。场景图中的每个节点代表一个物体,包含语义标签(比如"树"、"汽车"、"建筑物")和位置坐标。
这两个表示互为补充:鸟瞰图提供密集的几何布局信息,场景图提供高级的语义关系。
这是论文的核心创新点。
想象一下,当你描述位置时说:"我在一个红色邮筒旁边,对面是一家星巴克"。但点云地图可能只覆盖了部分区域——也许邮筒在地图里,但星巴克在地图外面。
现有方法会强制把所有提到的物体都匹配到地图上,这显然会出错。VLM-Loc 的 PNA 机制则更聪明:
判断可见性:对于文本描述中的每个物体,系统会判断它是否在地图可见范围内
选择性匹配:只有那些确实在地图内的物体才会被匹配到场景图的节点上
忽略不可见物体:地图外的物体被标记为"不可匹配",不会干扰定位
这个机制让系统能够处理部分可见的场景,更加符合真实情况。
完成物体匹配后,VLM 会以自回归的方式输出目标位置。整个推理过程是端到端的:从理解文本描述,到匹配场景节点,再到预测坐标,全部由一个视觉语言模型完成。
为了系统评估 T2P 定位方法,研究团队还发布了 CityLoc 基准测试数据集。这个数据集有两个特点:
1、多源数据:包含两种类型的点云数据
CityLoc-K:来自车载激光雷达扫描(KITTI-360 数据集)
CityLoc-C:来自无人机航拍摄影测量(SensatUrban 数据集)
2、更复杂的环境:相比之前的基准测试,CityLoc 覆盖范围更广、场景更复杂,更能反映真实世界的挑战。
在 CityLoc-K 测试集上,VLM-Loc 的表现非常出色:
·超越现有最佳方法:比之前最好的方法 CMMLoc 在 Recall@5m 指标上提升了 14.20%
·跨域泛化能力强:在从未见过的 CityLoc-C 数据集上也能取得很好的效果
·节点匹配与定位精度正相关:正确匹配的节点越多,定位误差越小
研究团队还做了详细的消融实验,验证了每个组件的贡献:
·仅用鸟瞰图:效果较差
·仅用场景图:效果明显提升
·加入 PNA 机制:进一步提升
·完整模型(鸟瞰图 + 场景图+PNA):效果最好

·基础模型:Qwen3-VL-8B-Instruct
·微调方式:LoRA 参数高效微调(rank=8, α=16)
·训练配置:8 块 NVIDIA RTX 4090 GPU,2 个 epoch,batch size=4
·输入:BEV 图像(224×224)、场景图、文本查询(包含 6 个线索)
·输出:JSON 格式的匹配结果和 2D 像素坐标
·冻结视觉编码器、视觉适配器和语言主干网络
·只更新 LoRA 参数
·使用标准交叉熵损失函数
论文最后提到了两个有前景的研究方向:
1、增强多步推理能力:让模型能够处理更长、更复杂的组合式文本描述
2、从被动定位到主动智能体:将定位与规划和导航统一起来,让机器人能够在未知环境中主动交互
VLM-Loc 的核心贡献在于:
1、首次将视觉语言模型引入 T2P 定位任务,利用 VLM 固有的空间推理能力
2、提出 BEV+ 场景图的双表示方法,桥接 3D 点云和 2D VLM 之间的模态差距
3、设计部分节点分配机制,显式地对齐文本线索和空间节点,增强可解释性
4、发布 CityLoc 基准测试,推动该领域的系统评估
这项工作为未来的人机交互式定位系统铺平了道路。想象一下,未来的机器人不仅能听懂"去厨房"这样的指令,还能理解"在沙发左边、茶几前面、靠近窗户的位置"这样精细的空间描述——这将是人机交互的一大进步。
Shuhao Kang1 Youqi Liao2 Peijie Wang3 Wenlong Liao4 Qilin Zhang5,6Benjamin Busam5,6 Xieyuanli Chen7† Yun Liu1,8,9†
Donghu Robot Laboratory, 2nd Floor, Baogu Innovation and Entrepreneurship Center,Wuhan City,Hubei Province,China
Tel:027-87522899,027-87522877