[Week 5] PDF Loader

[email protected]  |  2025-10-12 21:07


1. PDF Loader 개요

  1. 역할: PDF 파일을 Flowise에 불러와 Document 객체로 변환.
  2. 활용 단계: Loader → Text Splitter → Embedding → Vector Store 업서트

2. 처리 모드 (Processing Modes)

모드설명장점단점활용 추천
Per Page각 PDF 페이지를 개별 문서로 처리페이지 기반 검색 및 페이지 번호 메타데이터 활용 가능페이지 간 문맥 단절규정집, 매뉴얼, 보고서 등 페이지별 검색이 필요한 문서
Per FilePDF 전체를 하나의 문서로 로딩문맥 유지, 단순한 관리긴 문서의 경우 검색 정확도 저하짧은 리포트, 단일 주제 문서

3. Text Splitter & 토큰 개념

PDF Loader는 단순히 텍스트를 추출하므로

검색 정확도는 Splitter 설정과 임베딩 품질에 달려 있습니다.

(1) 주요 Splitter 방식

Splitter기준특징
Character Text Splitter일정 문자 수 기준단순하지만 문장 중간에서 끊길 수 있음
Token Text Splitter모델이 인식하는 토큰 수 기준모델 입력 단위와 일치하여 정밀함
Recursive Character Splitter문단→줄바꿈→공백 순서로 자연스럽게 분할문맥 보존에 가장 유리 (Flowise 기본값)

(2) 토큰(Token) 개념

  1. 토큰: LLM이 처리하는 최소 단위(단어, 부호, 공백 등 포함).
  2. 예시 (text-embedding-3-small 기준 / cl100k_base 토크나이저):
  3. "robot"1토큰
  4. "안전"2토큰
  5. "로봇"2토큰
  6. chunk size: 한 덩어리의 최대 토큰/문자 길이
  7. chunk overlap: 청크 간 겹치는 구간(보통 10–20%) → 문맥 연결 보존용

4. Chunk Size & Overlap 설정 가이드

문서 유형Chunk SizeOverlapSplitter 권장
일반 보고서 / 논문800–1000 tokens150–200 tokensRecursive
코드 / 수식 / 표 많은 문서400–600 tokens80–120 tokensToken
대화형 / QA 문서1000–1200 chars150–200 charsRecursive
Tip: Overlap이 너무 크면 정확도 향상 효과는 미미하고 토큰 비용만 증가하므로 10~15% 선 유지 권장.

5. OpenAI 임베딩 모델 (text-embedding-3-small)

항목내용
차원 수1536
최대 입력 길이8,191 tokens
토크나이저cl100k_base
비용$0.02 / 1M tokens (배치 시 $0.01)
권장 활용RAG, 문서 검색, 벡터 DB 저장용 임베딩

6. 추천 세팅 예시

문서 유형LoaderSplitterChunk Size / Overlap
한국어 매뉴얼 / 규정집 (긴 문서)Per PageRecursive1000 tokens / 150
코드·표 포함 기술 문서Per PageToken500 tokens / 100
짧은 보고서 / 단일 주제 문서Per FileRecursive800 tokens / 120