- 중국 딥시크 (R1: 2025-01-20)
- MoE 아키텍처 채택으로 학습 비용 절감,
- 여러개의 전문가 모델과 질문을 분류해주는 게이트 모델로 구성.
- 각각의 전문가 모델은 기존의 통합 모델보다 적은 연산 필요
- 구글 타이탄 (논문: 24-12-31)
- Neural Memory를 도입하였음.
- 장기기억과 Permenant 메모리를 도입하여 정확한 답변 가능성 및 긴문장에 대해 기억하며 처리 가능
- 기존에는 기억단위를 늘이기 위해 많은 리소스 추가가 필요했으나, 이 구조 도입으로 효율적으로 긴 입력 처리 가능
--> 최근에는 학습 및 추론에 리소스 사용 최소화하는 방법들이 지속적으로 도입되고 있음
- 딥시크 홈페이지: https://www.deepseek.com/
- 구글 타이탄 논문: https://arxiv.org/abs/2501.00663
- 구글 타이탄 기사: https://www.dt.co.kr/contents.html?article_no=2025011702101131081001
* 빠르게 살펴보고 하는 요약으로 일부 내용이 틀릴 수 있습니다. 정확한 내용은 아래의 출처를 참고 하세요.