cuTile Pythonで始めるGPUプログラミング & 倍精度行列積(DGEMM)エミュレーションを実装してみた。 - Insight Edge Tech Blog
2026.02.17 10:05
Insightedge.jp
こんにちは、Insight Edgeでデータサイエンティストをしている新見です。 cuTile Pythonとは 背景 特徴 従来のCUDA(SIMT)との違い 文法 TileGymで行列積ベンチマーク 倍精度行列積エミュレーション Ozaki Schemeについて 分解(Split) 行列積の計算 素朴な実装と初回結果 最適化 Fast Mode(GEMMの削減) Fused Split Kernel(分割の融合) 最適化後の結果 dによる精度/速度トレードオフ まとめ 参考文献 今回はNVIDIAが発表したば…
検索
人気記事
コメント一覧
まだコメントはありません。