Transformerアーキテクチャの変遷 ~Attention is All You Needからgpt-ossまで~

2026.01.25 10:19
Zenn.dev

MoEのパラメータ数は「"トータルパラメータ数"-A"アクティブパラメータ数"」の形式に統一して記載した。 以下、要素を個別に解説。 活性化関数 モデルに非線形性を持たせるために使われる関数。 非線形性が重要な理由として例えば、線形層だけを繰り返しても、結局一つの線形層で記述できるという性質がある。 (直観的...

検索

人気記事

2026.05.05 11:04
2026.07.01 18:39
2026.07.01 20:29
2026.07.01 19:55
2026.07.01 15:58

コメント一覧

まだコメントはありません。

コメント