(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ｜Kan Hatakeyama

2024.12.04 14:03

Note.com

はじめに最近は､10bクラスの大規模言語モデル(LLM)が特定のスキルを身につけるのに必要な要素を解明するタスクに取り組んでいます｡このサイズのモデルは､思ったよりも「おバカ」なため､例えば選択肢問題をきちんと解けるようになるためだけに､数百件以上の訓練(ファインチューニング)が必要な事例も出てきました｡
本記事では､LLMに身に着けさせる「タスク」の幅を､もう少し増やしながら､挙動を追っていきます｡背景: LLMの理解力はどの程度なのか? 努力 vs 頭の良さこれまでの検討や経験を踏まえ､筆…

記事全文へ