Shin & Co.

OCR 기술 흐름

전통 OCR: Tesseract(Google, 2006~)은 LSTM 기반으로 100+ 언어 지원, CPU 실행(수 MB 메모리). 문자 인식에 특화, CER 10-20%(인쇄물), 30-50%(손글씨). 복잡한 레이아웃(표, 다단) 처리 약함.
멀티모달 LLM: 2020년대부터 GPT-4V(ChatGPT), Gemini 등 등장. 이미지 전체 분석, 자연어 쿼리(예: "총매출액 추출")로 85-95% 정확도. 표·손글씨 처리 강력, 전통 OCR 대비 20-30% 우수.
로컬 트렌드: 2025년, VARCO-VISION, PaddleOCR-VL 등 오픈소스 LLM이 클라우드 대안으로 부상. 한국어 OCR 특화, GPU 필수.

ChatGPT-4o-mini: OpenAI의 경량 모델, OCRBench 800/1000, 한국어 문서 80-85%. 송장·표 처리 우수, API 호출당 비용 $0.00015(2025년 기준). 클라우드 전용, 프라이버시 제한.
ChatGPT-5-mini: 2025년 출시, OCRBench 830/1000 추정, 한국어 85-90%. 고해상도 이미지와 복잡 문맥 처리 개선. API 비용 미공개, 클라우드 전용.

Hugging Face Transformers로 설치(pip install transformers torch). NVIDIA GPU(CUDA) 추천, float16/quantization(int8/4bit)으로 메모리 절감. 한국어 OCR 중심 모델:

VARCO-VISION (NCSOFT, 14B): 한국어-영어 특화, K-DTCBench 84.58%. OCR·바운딩 박스 지원. GPU: 24-32GB VRAM(float16), 1.7B 변형 4-8GB. 설치: Hugging Face.
PaddleOCR-VL (Baidu, 0.9B): 다국어(한국어 포함 109언어 강력), OmniDocBench SOTA(olmOCR-Bench 80.0). GPU: 4-6GB VRAM(float16), CPU 가능(느림). vLLM으로 최적화.
LLaMA 4 Vision (Meta, MAAL-11B): 2025년 업데이트, bilingual, 한국어 OCR 85%+. GPU: 16-24GB VRAM, Ollama 지원. 설치: Hugging Face.
EXAONE LMM (LG AI, 7.8B): 한국어 고품질, GPU: 12GB VRAM, 2.4B 변형 4-8GB. 설치: Ollama/Docker.

비교 테이블: 로컬 LLM vs. ChatGPT

모델	파라미터	한국어 OCR	GPU 사용량 (float16)	설치	벤치마크	클라우드 의존
VARCO-VISION	14B	특화 (84.58%)	24-32GB	Hugging Face	K-DTCBench 84.58%	없음
PaddleOCR-VL	0.9B	강력 (SOTA)	4-6GB	Hugging Face, vLLM	olmOCR-Bench 80.0	없음
LLaMA 4 Vision	11B	bilingual (85%+)	16-24GB	Hugging Face, Ollama	한국어 OCR 85%+	없음
EXAONE LMM	7.8B	특화 (85%)	12GB	Ollama, Docker	한국 LLM 상위	없음
ChatGPT-4o-mini	-	강력 (80-85%)	클라우드	API	OCRBench 800/1000	필수
ChatGPT-5-mini	-	강력 (85-90%)	클라우드	API	OCRBench 830/1000	필수

VARCO-VISION은 한국어 최적화로 4o-mini와 비슷, PaddleOCR-VL은 5-mini에 근접(경량화로 효율적).