一文通透TTT:让RNN的隐藏层变成可学习的函数——继mamba之后也对Transformer发起挑战

2024.07.22 22:42
Csdn.net

文章浏览阅读159次,点赞6次,收藏3次。TTT出来有一段时间了,让我确定要写TTT解读的,是源于我司LLM论文100篇课程群里的一学员辰子说,“校长 最近的TTT考不考虑讲一下”故当时想着:解读完mamba2之后,则解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3..如今虽然mamba2的解读还没完全修订完,但“open-television、我司7方面review微调gemma2”都解读的差不多了,故…

検索

人気記事

2023.11.09 11:17
2024.12.17 14:43
2024.12.10 5:18
2024.12.17 15:00
2024.12.19 15:00

コメント一覧

まだコメントはありません。

コメント