書籍のOCRにLLMを組み合わせることで精度を上げるだけでなく文書構造や図も表現した記録
2026.05.11 13:16
Zenn.dev
精度差は一見小さく見えるが、95.84% は 100文字に4.16文字の誤り で、1849文字なら 77文字、書籍全体 (約20万文字) なら 約8,300文字の誤りに相当する。Hybrid の +0.4pt はその誤りを 約800文字分減らしたことを意味する。 NDLOCR-Liteだけでも文字化は困らないレベルだが、LLMを組み合わせることで、文書構造を残して...