[Week 8] AI OCR 기술 개요

[email protected]  |  2025-10-22 22:26


OCR 기술 흐름

  1. 전통 OCR: Tesseract(Google, 2006~)은 LSTM 기반으로 100+ 언어 지원, CPU 실행(수 MB 메모리). 문자 인식에 특화, CER 10-20%(인쇄물), 30-50%(손글씨). 복잡한 레이아웃(표, 다단) 처리 약함.
  2. 멀티모달 LLM: 2020년대부터 GPT-4V(ChatGPT), Gemini 등 등장. 이미지 전체 분석, 자연어 쿼리(예: "총매출액 추출")로 85-95% 정확도. 표·손글씨 처리 강력, 전통 OCR 대비 20-30% 우수.
  3. 로컬 트렌드: 2025년, VARCO-VISION, PaddleOCR-VL 등 오픈소스 LLM이 클라우드 대안으로 부상. 한국어 OCR 특화, GPU 필수.

ChatGPT-4o-mini 및 5-mini 성능

  1. ChatGPT-4o-mini: OpenAI의 경량 모델, OCRBench 800/1000, 한국어 문서 80-85%. 송장·표 처리 우수, API 호출당 비용 $0.00015(2025년 기준). 클라우드 전용, 프라이버시 제한.
  2. ChatGPT-5-mini: 2025년 출시, OCRBench 830/1000 추정, 한국어 85-90%. 고해상도 이미지와 복잡 문맥 처리 개선. API 비용 미공개, 클라우드 전용.

로컬 설치 멀티모달 LLM

Hugging Face Transformers로 설치(pip install transformers torch). NVIDIA GPU(CUDA) 추천, float16/quantization(int8/4bit)으로 메모리 절감. 한국어 OCR 중심 모델:

  1. VARCO-VISION (NCSOFT, 14B): 한국어-영어 특화, K-DTCBench 84.58%. OCR·바운딩 박스 지원. GPU: 24-32GB VRAM(float16), 1.7B 변형 4-8GB. 설치: Hugging Face.
  2. PaddleOCR-VL (Baidu, 0.9B): 다국어(한국어 포함 109언어 강력), OmniDocBench SOTA(olmOCR-Bench 80.0). GPU: 4-6GB VRAM(float16), CPU 가능(느림). vLLM으로 최적화.
  3. LLaMA 4 Vision (Meta, MAAL-11B): 2025년 업데이트, bilingual, 한국어 OCR 85%+. GPU: 16-24GB VRAM, Ollama 지원. 설치: Hugging Face.
  4. EXAONE LMM (LG AI, 7.8B): 한국어 고품질, GPU: 12GB VRAM, 2.4B 변형 4-8GB. 설치: Ollama/Docker.

비교 테이블: 로컬 LLM vs. ChatGPT

모델파라미터한국어 OCRGPU 사용량 (float16)설치벤치마크클라우드 의존
VARCO-VISION14B특화 (84.58%)24-32GBHugging FaceK-DTCBench 84.58%없음
PaddleOCR-VL0.9B강력 (SOTA)4-6GBHugging Face, vLLMolmOCR-Bench 80.0없음
LLaMA 4 Vision11Bbilingual (85%+)16-24GBHugging Face, Ollama한국어 OCR 85%+없음
EXAONE LMM7.8B특화 (85%)12GBOllama, Docker한국 LLM 상위없음
ChatGPT-4o-mini-강력 (80-85%)클라우드APIOCRBench 800/1000필수
ChatGPT-5-mini-강력 (85-90%)클라우드APIOCRBench 830/1000필수

VARCO-VISION은 한국어 최적화로 4o-mini와 비슷, PaddleOCR-VL은 5-mini에 근접(경량화로 효율적).


* PaddleOCR 온라인 데모: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo