一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也对Transformer发起挑战
2024.07.22 22:42
Csdn.net
文章浏览阅读159次,点赞6次,收藏3次。TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故…
検索
人気記事
コメント一覧
まだコメントはありません。