基于自监视三维语义体现学习的视觉语言导航

登录 · 发表于 2025-10-20 11:17:02

媒介

现在的视觉语言导航存在的标题：
（1）在VLN使掷中，大多数当火线法重要使用RGB图像，忽略了环境固有的丰富三维语义数据。许多语义无关的纹理细节不可制止地被引入到练习过程中，导致模子出现过拟合标题，练习后的署理将没有充足的本领顺应3D环境感知。
本工作的重要贡献：
（1）提出了一种新的学习和融合框架，为VLN任务引入了三维语义体现；
（2）操持了一个地区查询前置学习任务，以自监视学习的方式资助从未标志的三维语义重修中学习三维语义体现。

一、模子团体框架

1.1 任务形貌

在时间步

：
（1）图片输入：全景RGB-D图像（在实验过程中会将全景图拆分成12个差别角度的图片）；
（2）文本输入：指令；
（3）输出：推测的动作。

1.2 模子先容

模子的团体框架如图所示：

可以看出，重要由以下部分构成：
（1）3D语义编码器：将RGB语义分割信息和D深度信息团结，得到3D重构效果，将3D重构效果作为输入，使用自监视方法练习此编码器。练习完的编码器输入为RGB-D图像，输出为3D语义特性；
（2）视觉编码器：双尺度图Transformer（DUET）模子，输入为RGB特性和3D语义特性，输出为总的视觉特性；
（3）文本编码器：预练习的BERT，输出为文本特性；
（4）细尺度多模态留意力模块 + 局部动作推测模块：整合对齐局部视觉特性和文本特性，并得到局部推测动作；
（5）粗尺度多模态留意力模块 + 全局动作推测模块：整合对齐备局视觉特性和文本特性，并得到全局推测动作；
（6）动态融合模块：融合局部和全局动作推测，得到终极动作推测效果。

二、难点

2.1 3D语义编码器

2.1.1 3D语义重构

此部分的重要功能是将RGB图像团结深度信息，转化为三维语义体现。重要流程如下：
（1）将特定位置署理的多个二维RGB观测图像输入语义分割器（统共150类）中，以得到二维语义分割；
（2）使用深度观测和相机参数将二维语义分割投影到三维空间中，每个RGB-D观测值都被转换为三维语义点云；
（3）通过组合差别视点的三维点云，我们可以得到局部位置特定的全景语义点云；
（4）通过盘算每单位体积中属于特定种别的点云的数量来对三维语义点云举行体素化。假设体素化参数对于X轴和Y轴为0.125 m，对于Z轴为0.25 m。对于署理，相对于中央的最洪流平观测范围为±8 m，对于垂直方向为±4 m。因此，基于体素的三维语义重修的维度为150×128×128×32；
（5）使用三维重修的希罕体现，只记载至少有一个非零语义种别的位置，形成k×4（记载索引和位置）和k×150（记载语义种别）的向量，此中k是具有非零语义种别的位置数量。
如下图所示：

2.1.2 自监视学习方法

此部分的重要功能是练习一个3D语义编码器，将3D重修的希罕体现（体素化、希罕化后的3D语义点云）编码成3D语义特性，纵然用希罕卷积网络将输入的3D重修的希罕体现编码为2048×4×4张量，记为

。
本工作操持了一个地区查询前置学习任务，此中必要三维视觉编码模子答复特定地区中对象的存在标题。重要流程如下：
（1）给定一个界说为元组

的查询；
（2）扣问在满意

，

的地区中是否存在类

的对象，模子应给出 True 或 False 的答案。
2.1.3 怎样练习3D语义编码器？

渴望所提出的3D视觉编码器可以大概通过自监视查询任务，感知差别观察空间范围内的语义信息，每每场景中空间位置与对象语义信息的关联有利于鄙俚导航任务。
下面先容3D语义编码器的练习过程：
（1）使用多层感知（MLP）对查询举行编码，以天生2048-维的向量

：

此中

是类 c 的 one-hot 向量，

，

是

维的可学习参数，

是

维的可学习参数；
（2）使用多头留意力模子的softmax输出来估计答案

的概率：

此中

和

是

维的可学习参数，

是为多头留意力层的输出：

此中

为颠末3D语义编码器编码的3D语义特性。
具体过程如下图所示：

2.2 基于Transformer的视觉语言导航模子

如下图所示：

重要流程如下：
（1）将3D语义特性映射到与RGB特性雷同的维度，即768×16；
（2）将RGB特性与映射后的三维语义特性举行concat毗连，创建扩展特性（扩展特性嵌封装了具体的纹理和颜色特性以及空间语义特性，形成了更全面的上下文嵌入）；
（3）将扩展特性向量通过多层Transformer，使模子可以大概辨别RGB和3-D语义特性之间的相互作用；
（4）Transformer输出向量一方面用于更新拓扑图，另一方面输入到风雅尺度交织模态编码器中举行局部动作推测。
（5）分别举行局部和全局的多模态融合，然后分别得到局部和全局的动作推测；
（6）将局部和全局的动作推测动态融合，得到终极的动作推测效果。
2.2.1 拓扑图映射

访问节点的嵌入体现：
（1）访问过的节点：通过添加匀称池级联特性向量来加强访问过的节点在拓扑图中的嵌入。这种加强通过使用我们提出的3-D语义编码器提取的语义深度信息来促进空间推理。
（2）未访问的节点：由于智能体仅能部分观测未访问节点，这些未访问节点的嵌入体现通过部分池化机制实现——即在对应视图上累积从差别观测位置获取的特性向量。
必要留意的是，768×16维的三维语义嵌入缺乏方向属性，因此接纳简朴的前馈神经网络（FFN）作为分类器。该网络以具有方向属性的RGB嵌入为输入，推测三维语义嵌入中的token索引，将该索引对应的token作为当前视图的代表性三维特性，本质上是从16个token中选取最优表征。

三、总结

本工作重要提出一种将3D语义信息应用到视觉语言导航VLN使掷中的方法。为了实现这一方法，操持了一个地区查询前置学习任务，以自监视学习的方式练习了一个3D语义编码器，将3D语义乐成的编码成为了特性，从而与文本特性一起输入到多模态留意力模块，完成了VLN这一任务。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

基于自监视三维语义体现学习的视觉语言导航

本帖子中包含更多资源

兜兜零元