[Industrial AI] 10-1 AI 모델/서비스 선정
1. 데이터 종류별 알고리즘 분류 다이어그램

2.1 구조화된 데이터 (Structured Data)
- 특징: 숫자/범주형 데이터 (예: 엑셀, CRM 데이터).
- 알고리즘 군:
- 트리 기반:
- 의사결정나무: 단순, 해석 쉬움. 소규모 데이터 적합.
- 예: 소매점 재고 부족 예측(판매량, 계절성).
- 랜덤 포레스트: 다수 트리 결합, 과적합 방지. 중대규모 데이터.
- 예: 은행 대출 연체 예측(소득, 신용점수).
- XGBoost: 고성능, 복잡 패턴 학습. 대규모 데이터.
- 예: 전자상거래 고객 이탈 예측(구매 이력, 행동).
- 공통점: 피처 중요도 분석 가능, 비선형 관계 학습 유리.
- 회귀 기반:
- 선형 회귀: 연속값 예측, 단순 선형 관계.
- 예: 부동산 가격 예측(면적, 위치).
- 로지스틱 회귀: 이진 분류(0/1).
- 예: 고객 구매 여부 예측(광고 클릭, 방문 빈도).
- 공통점: 해석 용이, 소규모 데이터 적합.
- 고려사항: 소규모→의사결정나무/회귀, 대규모→XGBoost. 피처 엔지니어링 필수.
2.2 텍스트 데이터 (Unstructured Text Data)
- 특징: 자유 텍스트 (예: 고객 리뷰, 문서).
- 알고리즘 군:
- 기본 NLP: 경량, 단순 작업 적합.
- TF-IDF: 단어 빈도 기반, 검색/분류.
- 예: 고객 문의 키워드 추출(불만, 환불).
- 시나리오: 데이터 1천건 이하, 빠른 구현.
- Word2Vec: 단어 임베딩, 의미 유사성.
- 예: 리뷰에서 유사 불만 군집화(불량, 배송 지연).
- 시나리오: 중규모 데이터, 클러스터링/추천.
- 공통점: 저비용, 소규모 서버로 실행 가능.
- LLM 기반: 복잡 작업, 고성능.
- BERT: 문맥 이해, 분류/태깅. 소규모 파인튜닝으로 고정밀.
- 예: 고객 리뷰 감정 분석(긍정/부정, 95% 정확도).
- 시나리오: 데이터 1만~10만건, 고정밀 분류.
- 장점: 사전 훈련 모델 활용, 적은 데이터로도 가능.
- LLaMA: 오픈소스, 커스텀 파인튜닝.
- 예: 내부 문서 요약(특허, 기밀 데이터).
- 시나리오: 온프레미스 배포, 고유 데이터셋.
- 장점: 비용 절감, 데이터 보안 강화.
- ChatGPT API(GPT-4): 텍스트 생성, 대화, 다목적. 코딩 불필요.
- 예: 고객 문의 챗봇(실시간 FAQ, 다국어 지원).
- 시나리오: 빠른 구현, API 예산 가능.
- 장점: 즉시 배포, 유지보수 최소화.
- 공통점: 대규모 데이터/복잡 작업(생성, 다중 작업) 유리. GPU/비용↑.
- 고려사항:
- 단순 작업→TF-IDF, 복잡 작업→LLM.
- LLM 선택: BERT(분류), LLaMA(커스텀), ChatGPT API(빠른 배포).
- 텍스트 전처리(토큰화, 불용어 제거) 필수.
2.3 이미지 데이터 (Image Data)
- 특징: 픽셀 데이터 (예: 제품 사진, 의료 영상).
- 알고리즘 군:
- 딥러닝 기반:
- CNN: 이미지 분류, 특징 추출.
- 예: 제조업 결함 탐지(스크래치, 균열).
- YOLO: 실시간 객체 탐지.
- 예: 물류 창고 박스 인식/위치 추적.
- ResNet: 깊은 네트워크, 고해상도 이미지.
- 예: 의료 영상 분석(X-ray 폐렴 진단).
- 공통점: 사전 훈련 모델(ImageNet) 활용, 데이터 적어도 고성능.
- 고려사항: 레이블링 데이터, GPU 필수. 상용 API(Google Vision) 대안 가능.
2.4 시계열 데이터 (Time-Series Data)
- 특징: 시간 순서 데이터 (예: 센서, 주식).
- 알고리즘 군:
- 통계 기반:
- ARIMA: 단기 예측, 안정적 시계열.
- 예: 소매점 일일 매출 예측.
- Prophet: 계절성/트렌드, 결측값 처리.
- 예: 웹사이트 트래픽 예측.
- 딥러닝 기반:
- LSTM: 장기 의존성, 복잡 패턴.
- 예: 공장 센서 이상 탐지(온도, 진동).
- 공통점: 주기성/결측값 처리 중요.
- 고려사항: 전처리(정규화, 보간) 필수. LSTM은 대규모 데이터 적합.
2.5 다중 데이터 (Multi-Type Data)
- 특징: 텍스트+이미지, 구조화+시계열 등 복합 데이터.
- 알고리즘 군:
- 앙상블 기반:
- 랜덤 포레스트: 피처 결합, 분류/예측.
- 예: 고객 360도 분석(구매 이력+리뷰 텍스트).
- Stacking: 서로 다른 모델(트리, 회귀) 결과 결합.
- 예: 마케팅 캠페인 효과 예측(클릭+프로필).
- 공통점: 모델 보완, 과적합 주의.
- 멀티모달 딥러닝:
- CLIP(Vision-Language): 텍스트+이미지 통합.
- 예: 전자상거래 제품 추천(사진+설명).
- Vision-Language Models: LLM 기반, 텍스트/이미지 처리.
- 예: 고객 문의 처리(문의 텍스트+제품 사진).
- 공통점: 사전 훈련, 복합 데이터 강력.
- 고려사항: 데이터 통합(피처 결합, 임베딩) 중요. 상용 멀티모달 API(Google Vertex AI) 추천.