1. Tabular Data (표 형식 데이터)

a. 정형화 덜된 데이터 (예: 엑셀, CSV)

  1. 설명: 엑셀, CSV, 스프레드시트로 관리되는 데이터. 고객 명단, 판매 기록, 설문지 응답 등.
  2. 특징: 반정형 데이터, 열과 행 구조지만 포맷이 다양. 전처리(정규화, 결측치 처리) 필요.
  3. AI 접근 방식: Random Forest, XGBoost로 분류/회귀. AutoML(Pycaret 등)로 간편 분석.
  4. 예시: 고객 세분화, 마케팅 ROI 예측.

b. DB 저장 데이터 (예: ERP, CRM)

  1. 설명: SQL, NoSQL 데이터베이스에 저장된 정형 데이터. ERP(재무, 재고), CRM(고객 관리)에서 추출. 예: 주문 내역, 직원 데이터.
  2. 특징: 스키마 기반, 고도로 정형화. 대량 데이터 처리에 최적화.
  3. AI 접근 방식: LightGBM, SVM으로 예측 모델. SQL 쿼리로 데이터 추출.
  4. 예시: 재고 최적화, 고객 이탈 예측.

c. 시계열 데이터 (예: 센서, IoT)

  1. 설명: 시간 순서로 수집된 데이터. IoT 센서(온도, 진동), 주식 가격, 웹 트래픽 등.
  2. 특징: 시간적 패턴(주기성, 트렌드)과 순서 중요. 결측치나 노이즈 빈번.
  3. AI 접근 방식: ARIMA, Prophet, LSTM, TCN으로 예측 및 패턴 학습.
  4. 예시: 설비 고장 예측, 전력 수요 예측.


2. Image/Video Data (영상 데이터)

  1. 설명: 사진, 비디오, 의료 영상(MRI, CT), CCTV, 제조 라인 이미지 등.
  2. 특징: 고차원 비정형 데이터, 픽셀 기반.
  3. AI 접근 방식: CNN, YOLO, Vision Transformers(ViT)로 분석.
  4. 예시: 불량품 검출, 얼굴 인식.


3. Text Data (텍스트 데이터)

  1. 설명: 이메일, 고객 리뷰, 문서, 소셜 미디어 게시글 등.
  2. 특징: 자연어 기반 비정형 데이터, 문맥 이해 필요.
  3. AI 접근 방식: BERT, GPT 등 LLM으로 분석. TF-IDF, Word2Vec으로 간단한 작업.
  4. 예시: 리뷰 기반 감정 분석, 문서 요약.


4. 기타 데이터 타입

  1. Graph Data (그래프 데이터): 소셜 네트워크, 공급망 데이터. GNN으로 추천 시스템, 사기 탐지.
  2. Audio Data (오디오 데이터): 음성, 기계 소음. WaveNet, 음성 인식으로 감정 분석, 고장 진단.
  3. Geospatial Data (지리공간 데이터): 위경도, GIS 데이터. CNN, GNN으로 물류 최적화, 입지 분석.


* Grok을 활용하여 작성하였음