주요논문 추천

  1. ImageNet Classification with Deep Convolutional Neural Networks (2012)이 논문은 AlexNet을 소개하며, CNN의 대성공을 입증했습니다. ImageNet 대회에서 압도적인 성능을 보여주며 딥러닝의 현대적 부흥을 이끌었습니다. 그러나 arXiv에 직접 업로드된 버전은 없으며, NIPS 2012 회의 논문으로 제공됩니다. 링크는 NIPS 2012 논문에서 확인 가능합니다.
  2. Generative Adversarial Nets (2014)Goodfellow 등에 의해 제안된 GAN은 생성 모델의 새로운 패러다임을 제시했습니다. 이 논문은 arXiv에 업로드되어 있으며, 링크는 arXiv:1406.2661에서 확인할 수 있습니다. 생성 모델의 발전에 큰 영향을 미쳤습니다.
  3. Deep Residual Learning for Image Recognition (2015)ResNet을 소개하며 깊은 네트워크 학습의 문제를 해결했습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:1512.03385입니다. 컴퓨터 비전 분야에서 여전히 표준으로 사용됩니다.
  4. attention is all you need (2017)Transformer 아키텍처를 제안하며 RNN을 대체했습니다. 이는 NLP와 시퀀스 모델링에 혁신을 가져왔으며, 링크는 arXiv:1706.03762에서 확인 가능합니다.
  5. bert: pre training of deep bidirectional transformers for language understanding (2018)BERT를 통해 사전 학습된 모델로 NLP 성능을 향상시켰습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:1810.04805입니다. 이후 LLM 발전에 큰 영향을 미쳤습니다.
  6. language models are few shot learners (2020)GPT-3로 퓨샷 학습의 가능성을 입증하며 LLM의 스케일링을 확대했습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:2005.14165입니다. 대규모 언어 모델의 활용성을 보여준 중요한 논문입니다.
  7. an image is worth 16x16 words: transformers for image recognition at scale (2020)Vision Transformer(ViT)를 통해 트랜스포머를 컴퓨터 비전에 적용했습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:2010.11929입니다. 비전 분야의 새로운 패러다임을 제시했습니다.
  8. clip: learning transferable visual models from natural language supervision (2021)텍스트와 이미지의 공동 학습으로 멀티모달 모델의 가능성을 열었습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:2103.00020입니다. 생성 모델과 LLM에 큰 영향을 미쳤습니다.
  9. deepseek-v2: a strong, economical, and efficient mixture-of-experts language model (2024)DeepSeek AI의 논문으로, MoE와 Multi-head Latent Attention(MLA)을 활용해 메모리 효율성을 극대화하고, 236B 파라미터 모델로 강력한 성능을 입증했습니다. 이는 LLM의 경제성과 추론 속도를 높이는 데 기여하며, 링크는 arXiv:2405.04434입니다. 사용자의 요청에 따라 Mixture of Experts 관련 논문으로 포함되었습니다.
  10. titans: learning to memorize at test time (2025)신경 장기 메모리 모듈을 제안하며 긴 컨텍스트 처리의 한계를 극복했습니다. Attention의 단기 메모리 문제를 보완하고, 빠른 병렬 훈련과 효율적인 추론을 가능하게 합니다. 특히 언어 모델링, 상식 추론, 시계열 예측 등 다양한 태스크에서 성능을 입증했습니다. 이 논문은 arXiv에 있으며, 링크는 arXiv:2501.00663입니다.


추천도서

  1. 핸즈온머신러닝(딥러닝 포함되어 있음): https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=324278819