LLM-as-a-Judge とルーブリック評価

2025.12.20 11:46

Zenn.dev

この記事について本記事は Ubie Tech Advent Calendar 2025 19 日目の記事です！ LLM を活用したプロダクト開発において、「生成結果の品質をどう評価するか」は常に大きな課題です。モデルの更新、プロンプトの改善、RAG の検索精度の向上など、あらゆる改善活動において、信頼できる「評価指標（メトリクス）」がな...

記事全文へ

検索

人気記事

『GTA6』開発の親会社テイクツーCEO「社内のAIチーム、全部解雇したったわｗ」

2026.04.07 0:40

AIコーディングエディタ「Cursor 3」リリース。AIエージェントを中心に新たに構築

2026.04.06 23:41

株式会社Mavericks株式会社Mavericksは、動画生成AI「NoLang」のスライド生成機能に自治体業務特化の「サンプルスライド」を追加。議事録や条例PDFなどのテキストだけの煩雑な文書から説明動画を自動生成。

2026.04.06 20:35

誰が医学系研究倫理指針を救えるのか――ヘルシンキ宣言誤訳と「介入」定義をめぐる20年の迷走

2026.04.06 22:32

2025年11月リリースのAIモデル「GPT-5.1」と「Opus 4.5」がコーディングの転換点、ソフトウェアエンジニアリングを永遠に変えた

2026.04.06 21:00

コメント一覧

まだコメントはありません。

コメント