[Week 2] 주요 AI 알고리즘
ML 기반 알고리즘
- 적용 데이터: 구조화된 데이터 (숫자/범주형, 예: 엑셀, CRM), 시계열 데이터 (시간 순서, 예: 센서, 주식), 다중 데이터 (복합 형태)
- 트리 기반
- 의사결정나무: 단순, 해석 쉬움. 소규모 데이터 적합
- 예: 소매점 재고 부족 예측(판매량, 계절성)
- 최근 기업 사례 (2023-2025): 소매 산업에서 재고 부족 예측을 위해 의사결정나무를 활용한 사례. 대형 소매 기업이 1.6백만 SKU 데이터셋을 이용해 재고 최적화 모델을 개발, 재고 부족 15% 감소
- 랜덤 포레스트: 다수 트리 결합, 과적합 방지. 중대규모 데이터
- 예: 은행 대출 연체 예측(소득, 신용점수); 고객 360도 분석(구매 이력+리뷰 텍스트)
- 최근 기업 사례 (2023-2025): 은행 대출 연체 예측에서 랜덤 포레스트를 사용한 사례. 대출 데이터셋을 기반으로 모델 개발, 정확도 향상 및 조기 연체 예측 성능 개선; 고객 세분화 및 이탈 예측에서 랜덤 포레스트를 사용한 사례. K-means와 결합해 360도 고객 분석, 이탈 예측 정확도 88% 달성
- XGBoost: 고성능, 복잡 패턴 학습. 대규모 데이터
- 예: 전자상거래 고객 이탈 예측(구매 이력, 행동)
- 최근 기업 사례 (2023-2025): 전자상거래 플랫폼 고객 이탈 예측에서 XGBoost를 활용한 사례. SMOTE와 결합해 클래스 불균형 처리, 이탈 확률 예측 정확도 92% 향상
- 공통점: 피처 중요도 분석 가능, 비선형 관계 학습 유리
- 회귀 기반
- 선형 회귀: 연속값 예측, 단순 선형 관계
- 예: 부동산 가격 예측(면적, 위치)
- 최근 기업 사례 (2023-2025): 주택 부동산 가격 예측에서 선형 회귀를 사용한 사례. 적응형 손실 함수와 피처 임베딩 최적화로 모델 개발, 가격 예측 정확도 향상
- 로지스틱 회귀: 이진 분류(0/1)
- 예: 고객 구매 여부 예측(광고 클릭, 방문 빈도)
- 최근 기업 사례 (2023-2025): 전자상거래 사용자 구매 행동 예측에서 로지스틱 회귀를 적용한 사례. 알리바바 그룹 데이터셋(2024년 11월-12월)을 기반으로 구매 의도 예측, 마케팅 자원 할당 최적화
- 공통점: 해석 용이, 소규모 데이터 적합
- 통계 기반
- ARIMA: 단기 예측, 안정적 시계열
- 예: 소매점 일일 매출 예측
- 최근 기업 사례 (2023-2025): 중국 담배 회사 일일 매출 예측에서 잔차 보정 하이브리드 ARIMA 모델을 적용한 사례. 2023년 데이터 기반으로 예측 정확도 향상, MSE 80 이하 달성
- Prophet: 계절성/트렌드, 결측값 처리
- 예: 웹사이트 트래픽 예측
- 최근 기업 사례 (2023-2025): 다국어 웹 트래픽 예측에서 Prophet 모델을 사용한 사례. 계절성 처리로 예측 정확도 90% 이상, 네트워크 관리 최적화
- 공통점: 주기성/결측값 처리 중요
DL/CNN 기반 알고리즘
- 적용 데이터: 이미지 데이터 (픽셀, 예: 제품 사진, 의료 영상), 시계열 데이터 (시간 순서), 다중 데이터 (복합 형태)
- CNN: 이미지 분류, 특징 추출
- 예: 제조업 결함 탐지(스크래치, 균열)
- 최근 기업 사례 (2023-2025): 강철 표면 결함 탐지에서 CNN 모델을 사용한 사례. Lean Six Sigma와 결합해 결함 검출 향상, 생산 효율 20% 증가
- YOLO: 실시간 객체 탐지
- 예: 물류 창고 박스 인식/위치 추적
- 최근 기업 사례 (2023-2025): 식품 냉동 창고에서 YOLOv8-RSS 모델을 적용한 사례. 경량화된 객체 검출로 실시간 박스 인식, 창고 운영 비용 15% 절감
- ResNet: 깊은 네트워크, 고해상도 이미지
- 예: 의료 영상 분석(X-ray 폐렴 진단)
- 최근 기업 사례 (2023-2025): 폐렴 진단에서 향상된 ResNet-50 모델을 사용한 사례. 다중 피처 융합으로 폐렴 검출, 정확도 98% 달성 및 진단 속도 향상
- LSTM: 장기 의존성, 복잡 패턴 (시계열 중심)
- 예: 공장 센서 이상 탐지(온도, 진동)
- 최근 기업 사례 (2023-2025): 온실 센서 데이터에서 LSTM-AE-Bayes 모델을 적용한 사례. 실시간 이상 탐지로 센서 데이터 정확도 향상, 공장 운영 효율 30% 증가
- 공통점: 사전 훈련 모델(ImageNet) 활용 시 데이터 적어도 고성능; 시계열 주기성/결측값 처리 중요
LLM 기반 알고리즘
- 적용 데이터: 텍스트 데이터 (자유 텍스트, 예: 고객 리뷰, 문서)
- LLaMA: 오픈소스, 커스텀 파인튜닝
- 예: 내부 문서 요약(특허, 기밀 데이터)
- 최근 기업 사례 (2023-2025): 기업 문서 요약에서 LLaMA 3.1 모델을 사용한 사례. LlamaIndex를 활용해 연구 논문 분석 및 요약, 정확도와 효율성 향상
- 시나리오: 온프레미스 배포, 고유 데이터셋
- 장점: 비용 절감, 데이터 보안 강화
- ChatGPT API(GPT-4): 텍스트 생성, 대화, 다목적. 코딩 불필요
- 예: 고객 문의 챗봇(실시간 FAQ, 다국어 지원)
- 최근 기업 사례 (2023-2025): 고객 서비스 챗봇에서 ChatGPT API를 활용한 사례. OpenAI API를 통해 다국어 지원 챗봇 구현, 평균 주문 가치 18% 증가 및 고객 만족도 25% 향상
- 시나리오: 빠른 구현, API 예산 가능
- 장점: 즉시 배포, 유지보수 최소화
- 공통점: 대규모 데이터/복잡 작업(생성, 다중 작업) 유리. GPU/비용↑
멀티모달 LLM 기반 알고리즘
- 적용 데이터: 다중 데이터 (텍스트+이미지, 구조화+시계열 등 복합 형태)
- CLIP(Vision-Language): 텍스트+이미지 통합
- 예: 전자상거래 제품 추천(사진+설명)
- 최근 기업 사례 (2023-2025): 전자상거래 제품 발견에서 CLIP 모델을 활용한 사례. AI 기반 추천 엔진으로 판매 30% 증가, 고객 만족도 25% 향상
- Vision-Language Models: LLM 기반, 텍스트/이미지 처리
- 예: 고객 문의 처리(문의 텍스트+제품 사진)
- 최근 기업 사례 (2023-2025): 제품 발견 및 고객 문의 처리에서 VLM을 사용한 사례. 아마존과 같은 기업에서 시각-언어 모델로 고객 경험 향상, 효율 30% 증가
- AI OCR: 이미지에서 텍스트 추출을 위한 멀티모달 접근, 문서 자동화 및 처리에 활용
- 예: 영수증/계약서 스캔에서 텍스트 추출 및 분석(금액, 항목 인식)
- 최근 기업 사례 (2023-2025): B2B 운영에서 AI OCR을 적용한 사례. SnapCall의 AI 이미지 인식 및 OCR 기술로 95-99% 정확도 달성, 운영 효율 8배 ROI 향상; 금융 및 규제 준수에서 Shufti Pro의 OCR 사용으로 240+ 지역에서 99% 정확도, 자동화 강화
- 시나리오: 문서 디지털화, 컴플라이언스 관리
- 장점: 수동 입력 감소, 오류 최소화, 멀티모달 LLM과 결합 시 텍스트-이미지 통합 분석 가능
- 공통점: 사전 훈련, 복합 데이터 강력