一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也对Transformer发起挑战

2024.07.22 22:42
Csdn.net

文章浏览阅读159次,点赞6次,收藏3次。TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故…

検索

人気記事

2024.09.12 14:56
2024.09.05 20:10
2024.09.02 9:51
2024.02.16 22:28
2024.07.29 6:00

コメント一覧

まだコメントはありません。

コメント