一文速览CogACT及其源码剖析:把OpenVLA的动作预测换成DiT,逼近π0(含DiT的实现)
2025.01.12 13:10
Csdn.net
文章浏览阅读232次,点赞5次,收藏6次。近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[
検索
人気記事
コメント一覧
まだコメントはありません。