相关文档

项目链接：https://pku-epic.github.io/NaVid/
代码链接：https://github.com/jzhzhang/NaVid-VLN-CE
论文链接：https://arxiv.org/pdf/2402.15852

Introduction

文章的目标是输入一组人类的指引语言，以及根据相机的画面信息，直接输出导航指令。
如果理解复杂的视觉信息以及理解详细的指令，是一件十分困难的事情。

VLA

#视觉重建 #机器学习 #论文解读 #深度学习 #Transformer #VLN #VLA #BERT

NaVid阅读笔记（Vision-Language-Navigation的端到端导航模型）

https://fansaorz.github.io/2025/01/12/NaVid阅读笔记/

作者

Jiashi Zhang

发布于

2025年1月12日

许可协议

MASt3R阅读笔记（DUSt3R的改进模型）上一篇

ViT阅读笔记（Transformer在计算机视觉领域中的应用）下一篇