1. BERT와 GPT 상세 비교

BERT와 GPT는 모두 Transformer 아키텍처를 기반으로 하지만, 설계 철학, 구조, 학습 방식, 출력 및 활용 면에서 명확한 차이를 보입니다. 아래는 이를 항목별로 정리한 내용입니다.

1.1 구조적 차이

항목BERTGPT
Transformer 구성인코더만 사용디코더만 사용
입력 처리 방식전체 문장을 입력받아 양방향으로 모든 토큰의 문맥을 동시에 분석이전까지의 단어만 입력으로 사용, 다음 단어를 순차적으로 예측
방향성양방향 (Bidirectional)단방향 (Unidirectional, 왼→오)
레이어 수BERT-Base: 12층BERT-Large: 24층GPT-3: 96층
히든 사이즈Base: 768Large: 1024GPT-3: 12288
어텐션 헤드Base: 12Large: 16GPT-3: 96


BERT는 Transformer 인코더만 사용하며, 입력은 **문장 전체 또는 문장 쌍(A, B)**입니다. 이 입력은 다음과 같은 구성으로 변환됩니다:

  1. [CLS] 문장 A [SEP] 문장 B [SEP] 형태로 토큰화
  2. 이 입력 전체를 동시에 인코더에 투입하여, 각 토큰에 대해 양방향 문맥 정보를 고려한 임베딩 벡터를 생성합니다.

즉, BERT는 인코더 구조를 통해 문장 내 모든 단어를 동시에 바라보며 문맥을 이해하는 것이 핵심입니다.

1.2 학습 방식

항목BERTGPT
사전 학습 목표Masked LM (15% 토큰 마스킹)+ Next Sentence Prediction (NSP)Autoregressive LM (다음 토큰 예측)
학습 데이터약 40GB (BooksCorpus, Wikipedia)약 570GB (Common Crawl 등 인터넷 텍스트)
파라미터 수Base: 1.1억, Large: 3.4억GPT-3: 1750억
훈련 방식사전 학습 + 작업별 Fine-tuning사전 학습 + 프롬프트 기반 추론 (GPT-3 이후 RLHF 도입)
  1. BERT는 일부 단어를 [MASK]로 가려놓고 이를 예측하는 방식(Masked LM)으로 학습하며, 두 문장이 연결된 문장인지 아닌지 판단하는 NSP도 병행합니다. 이후 문서 분류, 개체명 인식(NER) 등 **다운스트림 작업에 맞게 미세 조정(Fine-tuning)**합니다.
  2. GPT는 왼쪽에서 오른쪽으로 순차적으로 다음 단어를 예측하는 방식으로 학습합니다. GPT-3는 이에 더해 **인간 피드백 기반 강화 학습(RLHF)**을 통해 대화 품질을 향상시켰습니다.

1.3 출력과 활용

항목BERTGPT
출력 형태문맥 임베딩 벡터 (각 토큰별, [CLS] 토큰 포함)다음 단어를 포함하는 텍스트 시퀀스
주요 활용분류, 문장 관계 판단, 질문 응답, NER텍스트 생성, 대화 시스템, 코드 작성
예시 작업"이 문장은 긍정인가?""동화를 이어 써 주세요."
  1. BERT는 이해 중심: 입력 문장에 대해 토큰별 또는 전체 문장의 의미 벡터를 출력. 주로 분류나 분석 작업에 활용되며 텍스트 생성은 불가능합니다.
  2. GPT는 생성 중심: 주어진 문장을 기반으로 자연스러운 후속 문장 또는 단어 시퀀스를 생성할 수 있어, 대화나 창작 등에 활용됩니다.

1.4 성능과 한계

항목BERTGPT
강점깊이 있는 문맥 이해양방향 정보 처리자연스러운 텍스트 생성프롬프트 기반 범용성
한계텍스트 생성 불가작업별 별도 학습 필요양방향 문맥 부족사실 왜곡(hallucination) 가능
  1. BERT는 분류·이해 성능은 우수하지만 생성에는 부적합합니다.
  2. GPT는 다양한 작업에 활용 가능하나, 문맥 왜곡이나 사실과 다른 정보(hallucination)를 생성할 수 있습니다.

2. Transformer 이후 주요 모델 발전 히스토리

Transformer 기반의 모델 발전은 다음과 같이 이어집니다:

연도모델특징파라미터
2017Transformer“Attention is All You Need”, 인코더-디코더 구조, 셀프 어텐션 도입수백만
2018GPT-1 (OpenAI)디코더 기반, 단방향 생성 시작1.17억
2018BERT (Google)인코더 기반, 양방향 문맥 이해Base: 1.1억, Large: 3.4억
2019GPT-2 (OpenAI)더 큰 파라미터, 자연스러운 생성 가능15억
2020GPT-3 (OpenAI)초대규모, RLHF 도입으로 대화 능력 강화1750억
2021~T5 (Google)인코더-디코더 통합, "Text-to-Text" 프레임워크최대 110억

LaMDA (Google)대화 특화 모델, 인간다운 대화 지향수십~수백억 (비공개)


ChatGPT 이후 주요 모델 비교 요약

모델 (출시)파라미터 수 (추정)특징HumanEval(코딩 정확률)
GPT-3.5 (2022)약 1750억 개GPT-3 기반. RLHF 적용된 대화형 모델. 텍스트 전용. ChatGPT 초기 버전.46%
GPT-4 (2023)약 1.8조 개 (MoE 구조)이미지 입력 가능. 최대 32K 토큰 컨텍스트. 응답 정확도 높지만 속도는 느림.68%
GPT-4o (2024)약 2000억 개실시간 반응(0.3초). 텍스트·이미지·음성·비디오까지 입력 가능한 멀티모달 모델. 비용은 GPT-4 대비 절반.67%
GPT-4o Mini (2024)약 80억 개경량 고성능 모델. 이미지 입력 가능. GPT-4 수준의 코딩 성능. ChatGPT 무료 사용자용 기본 모델.87%
GPT-4.5 (2025)약 5~7조 개 (추정)텍스트 전용. 대규모 지식 기반. 환각 줄고, 정확도·EQ 향상. GPT-4 대비 응답 품질 개선.비공개 (GPT-4와 유사 또는 향상 추정)

HumanEval은 OpenAI가 만든 코딩 능력 평가 벤치마크로, 자연어 문제를 받고 정확한 Python 코드를 작성하는 능력을 측정합니다. 문제 해결률(%)은 테스트 케이스를 한 번에 통과한 비율입니다.


* Grok을 활용하여 작성하였습니다.