一文速览CogACT及其源码剖析：把OpenVLA的动作预测换成DiT，逼近π0(含DiT的实现)

2025.01.12 13:10

Csdn.net

文章浏览阅读232次，点赞5次，收藏6次。近年来，配备视觉能力的机器人控制模型引起了广泛的兴趣，比如7-RT-1,8-RT-2-将7D动作分解为离散的token，并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法，对动作进行tokenizing，并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中，大规模视觉-语言-动作（VLA）模型的发展[

記事全文へ