Transformerアーキテクチャの変遷 ~Attention is All You Needからgpt-ossまで~

2026.01.25 10:19
Zenn.dev

MoEのパラメータ数は「"トータルパラメータ数"-A"アクティブパラメータ数"」の形式に統一して記載した。 以下、要素を個別に解説。 活性化関数 モデルに非線形性を持たせるために使われる関数。 非線形性が重要な理由として例えば、線形層だけを繰り返しても、結局一つの線形層で記述できるという性質がある。 (直観的...

検索

人気記事

2026.04.07 19:05
2026.04.08 0:50
2026.04.07 11:13
2026.04.07 20:05
2026.04.07 16:14

コメント一覧

まだコメントはありません。

コメント