cuTile Pythonで始めるGPUプログラミング & 倍精度行列積(DGEMM)エミュレーションを実装してみた。 - Insight Edge Tech Blog

2026.02.17 10:05
Insightedge.jp

こんにちは、Insight Edgeでデータサイエンティストをしている新見です。 cuTile Pythonとは 背景 特徴 従来のCUDA(SIMT)との違い 文法 TileGymで行列積ベンチマーク 倍精度行列積エミュレーション Ozaki Schemeについて 分解(Split) 行列積の計算 素朴な実装と初回結果 最適化 Fast Mode(GEMMの削減) Fused Split Kernel(分割の融合) 最適化後の結果 dによる精度/速度トレードオフ まとめ 参考文献 今回はNVIDIAが発表したば…

検索

人気記事

2026.03.28 1:20
2026.03.28 0:00
2026.03.27 23:48
2026.03.27 23:07
2026.03.27 22:47

コメント一覧

まだコメントはありません。

コメント