1. CNN의 기초와 발전 (2012년 ~)

  1. 2012: AlexNet - 딥러닝의 부흥
  2. 주요 특징: 5개의 컨볼루션 레이어와 3개의 완전 연결 레이어로 구성된 최초의 대규모 CNN. ReLU 활성화 함수, Dropout, GPU 활용으로 혁신.
  3. 성과: ImageNet 대회(ILSVRC)에서 오류율을 26%에서 15%로 대폭 낮춤.
  4. 의의: 컴퓨터 비전에서 딥러닝의 가능성을 증명하며 CNN의 시대를 열었음.
  5. 2014: VGGNet - 깊이의 중요성
  6. 주요 특징: 3x3 작은 필터를 여러 층으로 쌓아 16~19개 레이어로 깊이를 확장.
  7. 성과: ILSVRC 2014에서 2위, 단순하면서도 깊은 구조로 성능 향상.
  8. 의의: 네트워크 깊이가 성능에 미치는 영향을 입증.
  9. 2015: ResNet - 잔차 학습의 도입
  10. 주요 특징: 잔차 연결(Residual Connection)을 통해 152층까지 깊이를 확장 가능하게 함.
  11. 성과: ILSVRC 2015 우승, 오류율 3.57%로 인간 수준에 근접.
  12. 의의: 깊은 네트워크의 학습 문제를 해결하며 CNN의 한계를 돌파.
  13. 2017: EfficientNet - 효율성의 극대화
  14. 주요 특징: 네트워크의 깊이, 너비, 해상도를 균형 있게 스케일링하는 Compound Scaling.
  15. 성과: 적은 파라미터로도 높은 성능을 달성하며 효율적인 모델 설계의 표준 제시.
  16. 의의: 실시간 처리와 모바일 환경에서의 활용 가능성 확대.


2. GAN과 생성 모델의 초기 진화 (2014년 ~ 2018년)

  1. 2014: GAN (Generative Adversarial Networks)
  2. 주요 특징: 생성자(Generator)와 판별자(Discriminator)가 경쟁하며 학습, 사실적인 이미지 생성 가능.
  3. 성과: 최초로 생성 모델의 새로운 패러다임을 제시.
  4. 의의: 영상 생성 분야에서 혁신을 일으키며 후속 연구의 기반 마련.
  5. 2016: DCGAN - CNN과 GAN의 결합
  6. 주요 특징: CNN을 GAN에 통합하여 안정적인 학습과 고품질 이미지 생성.
  7. 성과: 생성 이미지의 품질이 크게 향상됨.
  8. 의의: GAN의 실용성을 높이며 다양한 응용 분야로 확장.
  9. 2018: StyleGAN - 스타일 기반 생성
  10. 주요 특징: 스타일 전이를 통해 세부적인 이미지 속성 제어 가능.
  11. 성과: 사실적인 얼굴 이미지 생성으로 주목받음.
  12. 의의: 창의적 콘텐츠 제작과 데이터 증강에 기여, GAN의 초기 발전 정점.


3. 최근 동향 (2020년대 ~)

  1. 2021: Vision Transformer (ViT) - 트랜스포머의 비전 적용
  2. 주요 특징: 이미지 패치를 시퀀스로 처리하며 트랜스포머 구조를 비전 태스크에 도입.
  3. 성과: CNN 대비 경쟁력 있는 성능으로 ImageNet에서 주목받음.
  4. 의의: 비전 분야에서 트랜스포머의 가능성을 열어 멀티모달 연구의 기반 제공.
  5. 2021: CLIP - 이미지와 텍스트의 통합
  6. 주요 특징: ViT 기반 이미지 인코더와 텍스트 인코더를 공동 학습하여 시각-언어 이해 능력 제공.
  7. 성과: Zero-shot 학습으로 다양한 태스크 수행 가능.
  8. 의의: 텍스트-이미지 멀티모달의 기초를 닦으며 범용성 확대.
  9. 2021~2022: 디퓨전 모델의 부상 - Stable Diffusion
  10. 주요 특징: Denoising Diffusion Probabilistic Models(DDPM)과 Latent Diffusion으로 GAN의 한계를 넘어선 고품질 이미지 생성. 2022년 Stable Diffusion이 오픈소스로 공개.
  11. 성과: 안정적 학습과 효율성으로 생성 AI의 주류로 전환, 커뮤니티 주도 발전 가속화.
  12. 의의: 텍스트-이미지 생성의 핵심 기술로 멀티모달 기술 민주화.
  13. 2022: DALL-E 2 - 텍스트-이미지 생성의 정점
  14. 주요 특징: 디퓨전 모델 기반으로 텍스트 설명을 통해 고해상도 이미지 생성.
  15. 성과: 창의적이고 사실적인 이미지 생성으로 상업적 활용 가능성 증대.
  16. 의의: 멀티모달 생성 모델의 대중화와 디퓨전 모델의 성공 입증.
  17. 2023: Sora - 텍스트-비디오 생성
  18. 주요 특징: 디퓨전 기반 텍스트-비디오 생성 모델, 텍스트 입력으로 고품질 비디오 생성.
  19. 성과: 최대 1분 길이의 일관된 비디오 생성 가능.
  20. 의의: 영상 AI의 경계를 비디오로 확장하며 멀티모달 연구 가속화.
  21. 2024-2025: 멀티모달 AI의 융합
  22. 동향: 텍스트, 이미지, 비디오, 음성 등 다양한 모달리티를 통합한 모델 등장 (예: GPT-4o, Grok 등).
  23. 주요 특징: 단일 모델로 여러 태스크를 수행하며 상호작용성 강화.
  24. 의의: 인간 수준의 종합적 이해와 생성 능력을 목표로 발전 중.



* Grok을 활용하여 작성하였습니다.