【科研案例】用视觉语言模型实现点云地图定位

2026-05-14

VLM-Loc：用视觉语言模型实现点云地图定位

——让机器人听懂你的位置描述

引言

想象一下这个场景：你叫了一辆无人出租车，但 GPS 信号在高楼林立的城市里不太准确。司机（或者说自动驾驶系统）找不到你的确切位置。这时，你只需要告诉它："我站在一个红色邮筒旁边，对面是一家星巴克，身后有个公交车站"——车辆就能精准定位到你的位置。

这就是这篇 CVPR 2026 论文《VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models》想要解决的问题。来自南开大学、武汉大学、慕尼黑工业大学等机构的研究团队提出了一种新方法，让机器能够理解人类用自然语言描述的空间位置，并在 3D 点云地图中找到对应的位置。

为什么这个问题很重要？

现有方法的局限性

在 VLM-Loc 之前，已经有一些研究尝试做类似的事情，比如 Text2Pos、Text2Loc、CMMLoc 等。但这些方法存在两个主要问题：

处理范围太小：现有方法通常只能在很小的区域内工作（比如 30 米×30 米），这个假设过于简化了真实世界的复杂环境。
缺乏推理能力：现有方法采用端到端的位置预测模式，没有明确的空间推理过程。就像是一个黑盒子，输入文字，输出坐标，但中间发生了什么我们不知道，也限制了在复杂环境中的准确性。

人类是如何定位的？

研究人员发现，人类可以自然地感知和描述跨越数十米范围的空间布局。当我们说"我在 A 的左边，B 的前面，C 的附近"时，我们实际上在进行空间推理——理解多个物体之间的相对位置关系，然后确定自己的位置。

这启发了研究团队：为什么不利用大语言模型强大的推理能力来做这件事呢？

VLM-Loc 的核心思路

VLM-Loc 的核心思想很简单：利用视觉语言模型（VLM）的空间推理能力，把语言描述和空间信息对齐。

第一步：把 3D 点云变成 VLM 能理解的形式

视觉语言模型通常是为处理 2D 图像设计的，但点云是 3D 的。怎么办？研究团队想了个巧妙的办法：

鸟瞰图（BEV）渲染：把 3D 点云投影到地面上，生成一张从上往下看的 2D 图像。每个物体用它的平均颜色来表示，这样 VLM 就能像处理普通照片一样处理它。

场景图生成：同时，系统还会构建一个场景图，记录环境中有哪些物体、它们的位置在哪里。场景图中的每个节点代表一个物体，包含语义标签（比如"树"、"汽车"、"建筑物"）和位置坐标。

这两个表示互为补充：鸟瞰图提供密集的几何布局信息，场景图提供高级的语义关系。

第二步：部分节点分配机制（PNA）

这是论文的核心创新点。

想象一下，当你描述位置时说："我在一个红色邮筒旁边，对面是一家星巴克"。但点云地图可能只覆盖了部分区域——也许邮筒在地图里，但星巴克在地图外面。

现有方法会强制把所有提到的物体都匹配到地图上，这显然会出错。VLM-Loc 的 PNA 机制则更聪明：

判断可见性：对于文本描述中的每个物体，系统会判断它是否在地图可见范围内
选择性匹配：只有那些确实在地图内的物体才会被匹配到场景图的节点上
忽略不可见物体：地图外的物体被标记为"不可匹配"，不会干扰定位

这个机制让系统能够处理部分可见的场景，更加符合真实情况。

第三步：位置预测

完成物体匹配后，VLM 会以自回归的方式输出目标位置。整个推理过程是端到端的：从理解文本描述，到匹配场景节点，再到预测坐标，全部由一个视觉语言模型完成。

CityLoc：新的基准测试数据集

为了系统评估 T2P 定位方法，研究团队还发布了 CityLoc 基准测试数据集。这个数据集有两个特点：

1、多源数据：包含两种类型的点云数据

CityLoc-K：来自车载激光雷达扫描（KITTI-360 数据集）
CityLoc-C：来自无人机航拍摄影测量（SensatUrban 数据集）

2、更复杂的环境：相比之前的基准测试，CityLoc 覆盖范围更广、场景更复杂，更能反映真实世界的挑战。

实验结果有多好？

在 CityLoc-K 测试集上，VLM-Loc 的表现非常出色：

·超越现有最佳方法：比之前最好的方法 CMMLoc 在 Recall@5m 指标上提升了 14.20%

·跨域泛化能力强：在从未见过的 CityLoc-C 数据集上也能取得很好的效果

·节点匹配与定位精度正相关：正确匹配的节点越多，定位误差越小

研究团队还做了详细的消融实验，验证了每个组件的贡献：

·仅用鸟瞰图：效果较差

·仅用场景图：效果明显提升

·加入 PNA 机制：进一步提升

·完整模型（鸟瞰图 + 场景图+PNA）：效果最好

技术细节（给想深入了解的你）

模型架构

·基础模型：Qwen3-VL-8B-Instruct

·微调方式：LoRA 参数高效微调（rank=8, α=16）

·训练配置：8 块 NVIDIA RTX 4090 GPU，2 个 epoch，batch size=4

输入输出

·输入：BEV 图像（224×224）、场景图、文本查询（包含 6 个线索）

·输出：JSON 格式的匹配结果和 2D 像素坐标

训练策略

·冻结视觉编码器、视觉适配器和语言主干网络

·只更新 LoRA 参数

·使用标准交叉熵损失函数

未来方向

论文最后提到了两个有前景的研究方向：

1、增强多步推理能力：让模型能够处理更长、更复杂的组合式文本描述

2、从被动定位到主动智能体：将定位与规划和导航统一起来，让机器人能够在未知环境中主动交互

总结

VLM-Loc 的核心贡献在于：

1、首次将视觉语言模型引入 T2P 定位任务，利用 VLM 固有的空间推理能力

2、提出 BEV+ 场景图的双表示方法，桥接 3D 点云和 2D VLM 之间的模态差距

3、设计部分节点分配机制，显式地对齐文本线索和空间节点，增强可解释性

4、发布 CityLoc 基准测试，推动该领域的系统评估

这项工作为未来的人机交互式定位系统铺平了道路。想象一下，未来的机器人不仅能听懂"去厨房"这样的指令，还能理解"在沙发左边、茶几前面、靠近窗户的位置"这样精细的空间描述——这将是人机交互的一大进步。

引用文献：【VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models】

Shuhao Kang1 Youqi Liao2 Peijie Wang3 Wenlong Liao4 Qilin Zhang5,6Benjamin Busam5,6 Xieyuanli Chen7† Yun Liu1,8,9†