1. Tabular Data (표 형식 데이터)
a. 정형화 덜된 데이터 (예: 엑셀, CSV)
- 설명: 엑셀, CSV, 스프레드시트로 관리되는 데이터. 고객 명단, 판매 기록, 설문지 응답 등.
- 특징: 반정형 데이터, 열과 행 구조지만 포맷이 다양. 전처리(정규화, 결측치 처리) 필요.
- AI 접근 방식: Random Forest, XGBoost로 분류/회귀. AutoML(Pycaret 등)로 간편 분석.
- 예시: 고객 세분화, 마케팅 ROI 예측.
b. DB 저장 데이터 (예: ERP, CRM)
- 설명: SQL, NoSQL 데이터베이스에 저장된 정형 데이터. ERP(재무, 재고), CRM(고객 관리)에서 추출. 예: 주문 내역, 직원 데이터.
- 특징: 스키마 기반, 고도로 정형화. 대량 데이터 처리에 최적화.
- AI 접근 방식: LightGBM, SVM으로 예측 모델. SQL 쿼리로 데이터 추출.
- 예시: 재고 최적화, 고객 이탈 예측.
c. 시계열 데이터 (예: 센서, IoT)
- 설명: 시간 순서로 수집된 데이터. IoT 센서(온도, 진동), 주식 가격, 웹 트래픽 등.
- 특징: 시간적 패턴(주기성, 트렌드)과 순서 중요. 결측치나 노이즈 빈번.
- AI 접근 방식: ARIMA, Prophet, LSTM, TCN으로 예측 및 패턴 학습.
- 예시: 설비 고장 예측, 전력 수요 예측.
2. Image/Video Data (영상 데이터)
- 설명: 사진, 비디오, 의료 영상(MRI, CT), CCTV, 제조 라인 이미지 등.
- 특징: 고차원 비정형 데이터, 픽셀 기반.
- AI 접근 방식: CNN, YOLO, Vision Transformers(ViT)로 분석.
- 예시: 불량품 검출, 얼굴 인식.
3. Text Data (텍스트 데이터)
- 설명: 이메일, 고객 리뷰, 문서, 소셜 미디어 게시글 등.
- 특징: 자연어 기반 비정형 데이터, 문맥 이해 필요.
- AI 접근 방식: BERT, GPT 등 LLM으로 분석. TF-IDF, Word2Vec으로 간단한 작업.
- 예시: 리뷰 기반 감정 분석, 문서 요약.
4. 기타 데이터 타입
- Graph Data (그래프 데이터): 소셜 네트워크, 공급망 데이터. GNN으로 추천 시스템, 사기 탐지.
- Audio Data (오디오 데이터): 음성, 기계 소음. WaveNet, 음성 인식으로 감정 분석, 고장 진단.
- Geospatial Data (지리공간 데이터): 위경도, GIS 데이터. CNN, GNN으로 물류 최적화, 입지 분석.
* Grok을 활용하여 작성하였음