OCR 기술 흐름
- 전통 OCR: Tesseract(Google, 2006~)은 LSTM 기반으로 100+ 언어 지원, CPU 실행(수 MB 메모리). 문자 인식에 특화, CER 10-20%(인쇄물), 30-50%(손글씨). 복잡한 레이아웃(표, 다단) 처리 약함.
- 멀티모달 LLM: 2020년대부터 GPT-4V(ChatGPT), Gemini 등 등장. 이미지 전체 분석, 자연어 쿼리(예: "총매출액 추출")로 85-95% 정확도. 표·손글씨 처리 강력, 전통 OCR 대비 20-30% 우수.
- 로컬 트렌드: 2025년, VARCO-VISION, PaddleOCR-VL 등 오픈소스 LLM이 클라우드 대안으로 부상. 한국어 OCR 특화, GPU 필수.
ChatGPT-4o-mini 및 5-mini 성능
- ChatGPT-4o-mini: OpenAI의 경량 모델, OCRBench 800/1000, 한국어 문서 80-85%. 송장·표 처리 우수, API 호출당 비용 $0.00015(2025년 기준). 클라우드 전용, 프라이버시 제한.
- ChatGPT-5-mini: 2025년 출시, OCRBench 830/1000 추정, 한국어 85-90%. 고해상도 이미지와 복잡 문맥 처리 개선. API 비용 미공개, 클라우드 전용.
로컬 설치 멀티모달 LLM
Hugging Face Transformers로 설치(pip install transformers torch). NVIDIA GPU(CUDA) 추천, float16/quantization(int8/4bit)으로 메모리 절감. 한국어 OCR 중심 모델:
- VARCO-VISION (NCSOFT, 14B): 한국어-영어 특화, K-DTCBench 84.58%. OCR·바운딩 박스 지원. GPU: 24-32GB VRAM(float16), 1.7B 변형 4-8GB. 설치: Hugging Face.
- PaddleOCR-VL (Baidu, 0.9B): 다국어(한국어 포함 109언어 강력), OmniDocBench SOTA(olmOCR-Bench 80.0). GPU: 4-6GB VRAM(float16), CPU 가능(느림). vLLM으로 최적화.
- LLaMA 4 Vision (Meta, MAAL-11B): 2025년 업데이트, bilingual, 한국어 OCR 85%+. GPU: 16-24GB VRAM, Ollama 지원. 설치: Hugging Face.
- EXAONE LMM (LG AI, 7.8B): 한국어 고품질, GPU: 12GB VRAM, 2.4B 변형 4-8GB. 설치: Ollama/Docker.
비교 테이블: 로컬 LLM vs. ChatGPT
| 모델 | 파라미터 | 한국어 OCR | GPU 사용량 (float16) | 설치 | 벤치마크 | 클라우드 의존 |
| VARCO-VISION | 14B | 특화 (84.58%) | 24-32GB | Hugging Face | K-DTCBench 84.58% | 없음 |
| PaddleOCR-VL | 0.9B | 강력 (SOTA) | 4-6GB | Hugging Face, vLLM | olmOCR-Bench 80.0 | 없음 |
| LLaMA 4 Vision | 11B | bilingual (85%+) | 16-24GB | Hugging Face, Ollama | 한국어 OCR 85%+ | 없음 |
| EXAONE LMM | 7.8B | 특화 (85%) | 12GB | Ollama, Docker | 한국 LLM 상위 | 없음 |
| ChatGPT-4o-mini | - | 강력 (80-85%) | 클라우드 | API | OCRBench 800/1000 | 필수 |
| ChatGPT-5-mini | - | 강력 (85-90%) | 클라우드 | API | OCRBench 830/1000 | 필수 |
VARCO-VISION은 한국어 최적화로 4o-mini와 비슷, PaddleOCR-VL은 5-mini에 근접(경량화로 효율적).
* PaddleOCR 온라인 데모: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo