[Industrial AI] 10-1 AI 모델/서비스 선정

[email protected]  |  2025-05-18 15:30


1. 데이터 종류별 알고리즘 분류 다이어그램



2.1 구조화된 데이터 (Structured Data)
  1. 특징: 숫자/범주형 데이터 (예: 엑셀, CRM 데이터).
  2. 알고리즘 군:
  3. 트리 기반:
  4. 의사결정나무: 단순, 해석 쉬움. 소규모 데이터 적합.
  5. 예: 소매점 재고 부족 예측(판매량, 계절성).
  6. 랜덤 포레스트: 다수 트리 결합, 과적합 방지. 중대규모 데이터.
  7. 예: 은행 대출 연체 예측(소득, 신용점수).
  8. XGBoost: 고성능, 복잡 패턴 학습. 대규모 데이터.
  9. 예: 전자상거래 고객 이탈 예측(구매 이력, 행동).
  10. 공통점: 피처 중요도 분석 가능, 비선형 관계 학습 유리.
  11. 회귀 기반:
  12. 선형 회귀: 연속값 예측, 단순 선형 관계.
  13. 예: 부동산 가격 예측(면적, 위치).
  14. 로지스틱 회귀: 이진 분류(0/1).
  15. 예: 고객 구매 여부 예측(광고 클릭, 방문 빈도).
  16. 공통점: 해석 용이, 소규모 데이터 적합.
  17. 고려사항: 소규모→의사결정나무/회귀, 대규모→XGBoost. 피처 엔지니어링 필수.


2.2 텍스트 데이터 (Unstructured Text Data)
  1. 특징: 자유 텍스트 (예: 고객 리뷰, 문서).
  2. 알고리즘 군:
  3. 기본 NLP: 경량, 단순 작업 적합.
  4. TF-IDF: 단어 빈도 기반, 검색/분류.
  5. 예: 고객 문의 키워드 추출(불만, 환불).
  6. 시나리오: 데이터 1천건 이하, 빠른 구현.
  7. Word2Vec: 단어 임베딩, 의미 유사성.
  8. 예: 리뷰에서 유사 불만 군집화(불량, 배송 지연).
  9. 시나리오: 중규모 데이터, 클러스터링/추천.
  10. 공통점: 저비용, 소규모 서버로 실행 가능.
  11. LLM 기반: 복잡 작업, 고성능.
  12. BERT: 문맥 이해, 분류/태깅. 소규모 파인튜닝으로 고정밀.
  13. 예: 고객 리뷰 감정 분석(긍정/부정, 95% 정확도).
  14. 시나리오: 데이터 1만~10만건, 고정밀 분류.
  15. 장점: 사전 훈련 모델 활용, 적은 데이터로도 가능.
  16. LLaMA: 오픈소스, 커스텀 파인튜닝.
  17. 예: 내부 문서 요약(특허, 기밀 데이터).
  18. 시나리오: 온프레미스 배포, 고유 데이터셋.
  19. 장점: 비용 절감, 데이터 보안 강화.
  20. ChatGPT API(GPT-4): 텍스트 생성, 대화, 다목적. 코딩 불필요.
  21. 예: 고객 문의 챗봇(실시간 FAQ, 다국어 지원).
  22. 시나리오: 빠른 구현, API 예산 가능.
  23. 장점: 즉시 배포, 유지보수 최소화.
  24. 공통점: 대규모 데이터/복잡 작업(생성, 다중 작업) 유리. GPU/비용↑.
  25. 고려사항:
  26. 단순 작업→TF-IDF, 복잡 작업→LLM.
  27. LLM 선택: BERT(분류), LLaMA(커스텀), ChatGPT API(빠른 배포).
  28. 텍스트 전처리(토큰화, 불용어 제거) 필수.


2.3 이미지 데이터 (Image Data)
  1. 특징: 픽셀 데이터 (예: 제품 사진, 의료 영상).
  2. 알고리즘 군:
  3. 딥러닝 기반:
  4. CNN: 이미지 분류, 특징 추출.
  5. 예: 제조업 결함 탐지(스크래치, 균열).
  6. YOLO: 실시간 객체 탐지.
  7. 예: 물류 창고 박스 인식/위치 추적.
  8. ResNet: 깊은 네트워크, 고해상도 이미지.
  9. 예: 의료 영상 분석(X-ray 폐렴 진단).
  10. 공통점: 사전 훈련 모델(ImageNet) 활용, 데이터 적어도 고성능.
  11. 고려사항: 레이블링 데이터, GPU 필수. 상용 API(Google Vision) 대안 가능.


2.4 시계열 데이터 (Time-Series Data)
  1. 특징: 시간 순서 데이터 (예: 센서, 주식).
  2. 알고리즘 군:
  3. 통계 기반:
  4. ARIMA: 단기 예측, 안정적 시계열.
  5. 예: 소매점 일일 매출 예측.
  6. Prophet: 계절성/트렌드, 결측값 처리.
  7. 예: 웹사이트 트래픽 예측.
  8. 딥러닝 기반:
  9. LSTM: 장기 의존성, 복잡 패턴.
  10. 예: 공장 센서 이상 탐지(온도, 진동).
  11. 공통점: 주기성/결측값 처리 중요.
  12. 고려사항: 전처리(정규화, 보간) 필수. LSTM은 대규모 데이터 적합.


2.5 다중 데이터 (Multi-Type Data)
  1. 특징: 텍스트+이미지, 구조화+시계열 등 복합 데이터.
  2. 알고리즘 군:
  3. 앙상블 기반:
  4. 랜덤 포레스트: 피처 결합, 분류/예측.
  5. 예: 고객 360도 분석(구매 이력+리뷰 텍스트).
  6. Stacking: 서로 다른 모델(트리, 회귀) 결과 결합.
  7. 예: 마케팅 캠페인 효과 예측(클릭+프로필).
  8. 공통점: 모델 보완, 과적합 주의.
  9. 멀티모달 딥러닝:
  10. CLIP(Vision-Language): 텍스트+이미지 통합.
  11. 예: 전자상거래 제품 추천(사진+설명).
  12. Vision-Language Models: LLM 기반, 텍스트/이미지 처리.
  13. 예: 고객 문의 처리(문의 텍스트+제품 사진).
  14. 공통점: 사전 훈련, 복합 데이터 강력.
  15. 고려사항: 데이터 통합(피처 결합, 임베딩) 중요. 상용 멀티모달 API(Google Vertex AI) 추천.