NaVid阅读笔记(Vision-Language-Navigation的端到端导航模型)

相关文档

Introduction

  • 文章的目标是输入一组人类的指引语言,以及根据相机的画面信息,直接输出导航指令。
  • 如果理解复杂的视觉信息以及理解详细的指令,是一件十分困难的事情。

NaVid阅读笔记(Vision-Language-Navigation的端到端导航模型)
https://fansaorz.github.io/2025/01/12/NaVid阅读笔记/
作者
Jiashi Zhang
发布于
2025年1月12日
许可协议