[Industrial AI] 3-2 전통적인 머신러닝의 필요성
jooho@hanyang.ac.kr |
2025년 3월 18일 5:07 오전
1. 작은 데이터셋에서의 효율성
- 소규모 데이터에 최적화: 전통 ML은 수백~수천 샘플로도 효과적인 모델을 구축하며, 복잡한 신경망 학습 없이 빠르게 훈련 가능.
- 실무 사례: 희귀 질병 연구에서 환자 데이터가 500건일 때, SVM이나 랜덤 포레스트가 패턴을 잘 포착하고 과적합 위험 낮음.
- 딥러닝의 한계: 딥러닝은 수십만~수백만 샘플이 필요하며, 소규모 데이터에서는 성능 불안정 및 과적합 발생 가능성 높음.
- 현실적 필요성: 모든 프로젝트가 대규모 데이터를 확보하지 못하므로, 전통 ML의 효율성은 필수적.
2. 해석 가능성
- 직관적 모델: 의사결정나무, 로지스틱 회귀 등은 작동 원리가 투명해 결과 해석이 쉬움.
- 실무 사례: 의료 진단에서 의사결정나무가 혈압, 체온 등 변수의 기여도를 분기별로 명확히 설명. 금융에서는 로지스틱 회귀가 변수 가중치 제공.
- 딥러닝의 한계: 복잡한 신경망 구조로 "블랙박스"로 간주되며, 결정 이유 설명 어려움.
- 필요성: 규제 준수나 신뢰가 중요한 분야에서 전통 ML이 더 선호됨.
3. 계산 효율성과 비용
- 저비용 실행: 일반 CPU로도 충분히 작동해 고가의 하드웨어 없이 모델 구축 가능.
- 실무 사례: 소규모 스타트업이 고객 데이터를 몇 시간 안에 분석해 마케팅 전략 수립 가능.
- 딥러닝의 한계: GPU/TPU 같은 고성능 장비와 긴 학습 시간 필요로 자원 소모 큼.
- 현실적 장점: 자원 부족 환경(개인 프로젝트, 초기 기업)에서 전통 ML이 실용적 대안.
4. 특성 공학
- 도메인 지식 활용: 수작업으로 데이터를 변환해 모델 성능 향상(예: 금융 데이터에서 "최근 3개월 평균 거래액" 생성).
- 실무 사례: 연령대별 구매 패턴 추가로 고객 분석 모델의 예측력 개선.
- 데이터 한계 대응: 데이터가 제한적이거나 노이즈 많을 때 인간 통찰로 품질 보완 가능.
- 딥러닝의 한계: 자동 특성 학습은 데이터 품질/양 부족 시 부정확한 결과 초래 가능.
5. 실험 및 배포 속도
- 빠른 학습: 학습 속도 빠르고 하이퍼파라미터 튜닝 간단해 실험 주기 짧음.
- 실무 사례: 소규모 데이터로 하루 안에 선형 회귀, 의사결정나무 등 비교 후 배포 가능.
- 딥러닝의 한계: 모델 설계(레이어, 뉴런 수), 데이터 전처리, 긴 학습 시간으로 배포 지연(며칠 소요 가능).
- 장점: 빠른 의사결정과 프로토타이핑 필요한 환경에서 전통 ML 유리.
6. 클러스터링
- 전통 ML의 강점: K-Means, DBSCAN으로 구조화된 데이터 빠르고 효율적으로 그룹화.
- 실무 사례: 고객 데이터를 연령, 구매 금액 기준으로 K-Means 클러스터링, 직관적이고 계산 비용 낮음.
- 딥러닝의 어려움: 오토인코더, DEC로 비정형 데이터 임베딩 생성 후 K-Means 등 전통 알고리즘 혼합 필요.
- 한계: 딥러닝은 클러스터링 직접 수행 어려우며, 표현 학습에 초점. 설정 복잡성과 자원 소모로 전통 ML이 우세.
딥러닝의 최근 발전으로 단점 보완
- 소규모 데이터 대응:
- Foundation Model(예: BERT, GPT)은 사전 학습된 대규모 데이터로 소규모 데이터셋 성능 개선.
- 전이 학습으로 적은 데이터에도 적응 가능.
- 해석 가능성 개선:
- SHAP은 특성 기여도 정량화, LIME은 국부적 예측 설명 제공으로 "블랙박스" 완화.
- 계산 비용 및 배포 속도:
- 지식 증류로 대규모 모델 경량화, TinyML로 저사양 장치 실행 가능.
- Foundation Model fine-tuning으로 실험 시간 단축.
- 클러스터링 보조:
- 오토인코더, DEC로 비정형 데이터 임베딩 생성해 클러스터링 지원.
- 그러나 전통 클러스터링 알고리즘 의존으로 딥러닝 단독 수행은 여전히 어려움.
- 한계: 초기 설정 복잡성, 자원 요구, 전문성 필요성으로 전통 ML의 단순성/효율성 완전 대체 불가.
딥러닝이 우세한 영역: 영상 및 텍스트 처리
- 영상 처리:
- 딥러닝(예: CNN, Vision Transformer)은 이미지 인식, 객체 탐지, 얼굴 인식 등에서 전통 ML보다 월등한 성능을 보임.
- 전통 ML(예: SVM, Random Forest)은 수작업 특성 추출에 의존해 영상 데이터의 복잡성을 다루기 어려움.
- 현실적으로 딥러닝이 더 적합하며, 전통 ML로는 기대하는 성과를 내기 힘들 수 있음.
- 텍스트 처리:
- 딥러닝(예: BERT, LSTM)은 자연어 처리, 감정 분석, 기계 번역 등에서 전통 ML을 크게 능가하는 결과를 제공.
- 전통 ML(예: Naive Bayes, TF-IDF 기반)은 단순 분류에 유용하나, 문맥 이해나 복잡한 패턴 학습에 한계가 있음.
- 딥러닝이 더 효과적인 선택지로 보이며, 전통 ML로는 원하는 수준의 성능을 확보하기 어려울 수 있음.
- 권장 사항: 영상 및 텍스트 작업에서는 가능하면 딥러닝을 먼저 고려해보는 것이 좋습니다. 전통 ML은 한계가 뚜렷해 실무에서 경쟁력을 발휘하기 어려울 수 있습니다.