[Week 1] 1. 생성형 AI 발전 동향

[email protected]  |  2025-09-03 10:17


주요 사건 및 서비스 출시

2022

  1. LangChain (2022.10): LLM 애플리케이션 개발을 위한 오픈소스 프레임워크.
  2. 기술적 특징: LLM 체인, 에이전트, 메모리 등 모듈 제공으로 복잡한 AI 워크플로우 구축 가능.
  3. Perplexity AI (2022.8): AI 기반 검색 엔진으로, 질문에 대한 자연어 답변과 출처 제공.
  4. 기술적 특징: 검색 결과 요약과 인용으로 정확한 정보 제공.
  5. ChatGPT (2022.11): OpenAI의 대화형 AI 챗봇.
  6. 기술적 특징: RLHF 적용으로 인간다운 대화 생성.

2023

  1. ChatGPT API (2023.3): ChatGPT 모델을 애플리케이션에 통합할 수 있는 API.
  2. 기술적 특징: 개발자들이 LLM을 쉽게 호출하고 응답 처리 가능.
  3. GPT-4 (2023.3): OpenAI의 고급 LLM 모델.
  4. 기술적 특징: 멀티모달 처리(텍스트+이미지)와 CoT 추론 강화.
  5. Gamma (2023.3): AI 기반 프레젠테이션 생성 도구.
  6. 기술적 특징: 텍스트 입력으로 슬라이드 자동 생성 및 디자인.
  7. Replit AI (2023.10): Replit 플랫폼 내 AI 코드 지원 기능.
  8. 기술적 특징: 코드 자동 완성 및 디버깅 지원.
  9. Grok-1 (2023.11): xAI의 첫 LLM 모델.
  10. 기술적 특징: 유머러스한 응답과 실시간 지식 통합.
  11. Gemini 1.0 (2023.12): Google의 멀티모달 AI 모델.
  12. 기술적 특징: 텍스트, 이미지, 오디오, 비디오 통합 처리.
  13. Cursor (2023): AI 지원 코드 에디터.
  14. 기술적 특징: 코드 작성 보조와 자동 수정 기능.

2024

  1. 소라(Sora) (2024.2): OpenAI의 텍스트-비디오 생성 모델.
  2. 기술적 특징: 텍스트 설명으로 고품질 비디오 생성.
  3. Genspark (2024.6): AI 기반 맞춤 검색 페이지 생성 서비스.
  4. 기술적 특징: 검색 쿼리에 대한 맞춤형 페이지 자동 생성.

2025

  1. Grok-3 (2025.2): xAI의 고급 AI 모델.
  2. 기술적 특징: 고급 추론 및 월드 모델 통합
  3. Gemini 2.5 (2025.3): Google의 업그레이드된 멀티모달 모델.
  4. 기술적 특징: 향상된 추론 및 코딩 능력.
  5. Grok-4 (2025.7): xAI의 세계 최강 AI 모델.
  6. 기술적 특징: 포괄적 지식과 고급 문제 해결.
  7. GPT-5 (2025.8): OpenAI의 차세대 LLM.
  8. 기술적 특징: 고급 코딩, 수학, 쓰기 능력 강화.

상세 기술 발전 및 인간 기능 모방

AI 기술은 점차 인간의 사고, 기억, 행동 방식을 모방하며 발전해 왔습니다. 아래는 주요 기술적 특징과 그에 따른 인간 기능 모방의 상세 내용입니다.

1. 자료참고: RAG (Retrieval-Augmented Generation)

  1. 특징: 외부 데이터(PDF, DB)를 벡터 DB(예: FAISS)로 검색해 LLM 답변 생성, 환각 감소, 도메인 특화 가능.
  2. 인간 기능 모방: 인간의 기억 검색과 유사. 과거 정보(문서, 기록)를 검색해 상황에 맞는 답변 생성.

2. 학습: LoRA (Low-Rank Adaptation) 파인튜닝

  1. 특징: 전체 모델 대신 저차원 행렬(A·B) 학습, 메모리/컴퓨팅 비용 절감(5,000~20,000 데이터로 학습 가능).
  2. 인간 기능 모방: 인간이 특정 도메인 지식을 효율적으로 학습하는 과정과 유사. 빠르고 자원 효율적인 학습.

3. 추론: Chain of Thought (CoT)

  1. 특징: 복잡한 문제를 단계별로 분해해 추론, 투명한 사고 과정 제공.
  2. 인간 기능 모방: 인간의 논리적 사고와 문제 해결 과정 닮음. 예: 수학 문제 풀이, 의사결정 과정.

4. 감각: 멀티모달 AI 및 비디오 생성

  1. 특징: 텍스트, 이미지, 오디오, 비디오 통합 처리, 텍스트-비디오 생성.
  2. 인간 기능 모방: 인간의 다중 감각 처리(시각, 청각)와 창의적 표현(예: 비디오 콘텐츠 제작).

5. 행동: AI Agent 및 피지컬 AI

  1. 특징:
  2. AI Agent: AutoGPT, BabyAGI 등으로 작업 분해, 도구 활용(웹 검색, DB 접근), 자율 워크플로우 실행. 디지털 세상과의 인터랙션 강조.
  3. 피지컬 AI: xAI Grok 3 등에서 3D 환경 이해, 센서 데이터 처리, 로봇 제어. 현실 세계와의 상호작용.
  4. 인간 기능 모방: 인간의 자율적 행동과 환경 상호작용. AI Agent는 작업 계획 및 실행, 피지컬 AI는 물리적 환경 이해와 조작.

6. 경험: Memp (Procedural Memory)

  1. 특징: AI 에이전트에 동적 절차적 기억 제공, 과거 경험(작업 궤적)을 단계별 지침 또는 상위 수준 스크립트로 저장, 지속적 업데이트(추가, 검증, 반성, 폐기)로 적응력 강화. 2025년 8월 Zhejiang University와 Alibaba Group의 공동 연구로 발표.
  2. 인간 기능 모방: 인간의 절차적 기억(예: 자전거 타기, 타이핑)을 모방, 반복적 연습으로 작업을 자동화하고 환경 변화에 적응.
  3. 구체적 성과: TravelPlanner와 ALFWorld 테스트에서 성공률과 효율성 향상, GPT-4o의 절차적 기억을 Qwen2.5로 전이해 성능 개선.