1. BERT와 GPT 상세 비교
BERT와 GPT는 모두 Transformer 아키텍처를 기반으로 하지만, 설계 철학, 구조, 학습 방식, 출력 및 활용 면에서 명확한 차이를 보입니다. 아래는 이를 항목별로 정리한 내용입니다.
1.1 구조적 차이
항목BERTGPT | |||
Transformer 구성 | 인코더만 사용 | 디코더만 사용 | |
입력 처리 방식 | 전체 문장을 입력받아 양방향으로 모든 토큰의 문맥을 동시에 분석 | 이전까지의 단어만 입력으로 사용, 다음 단어를 순차적으로 예측 | |
방향성 | 양방향 (Bidirectional) | 단방향 (Unidirectional, 왼→오) | |
레이어 수 | BERT-Base: 12층 | BERT-Large: 24층 | GPT-3: 96층 |
히든 사이즈 | Base: 768 | Large: 1024 | GPT-3: 12288 |
어텐션 헤드 | Base: 12 | Large: 16 | GPT-3: 96 |
BERT는 Transformer 인코더만 사용하며, 입력은 **문장 전체 또는 문장 쌍(A, B)**입니다. 이 입력은 다음과 같은 구성으로 변환됩니다:
- [CLS] 문장 A [SEP] 문장 B [SEP] 형태로 토큰화
- 이 입력 전체를 동시에 인코더에 투입하여, 각 토큰에 대해 양방향 문맥 정보를 고려한 임베딩 벡터를 생성합니다.
즉, BERT는 인코더 구조를 통해 문장 내 모든 단어를 동시에 바라보며 문맥을 이해하는 것이 핵심입니다.
1.2 학습 방식
항목BERTGPT | |||
사전 학습 목표 | Masked LM (15% 토큰 마스킹) | + Next Sentence Prediction (NSP) | Autoregressive LM (다음 토큰 예측) |
학습 데이터 | 약 40GB (BooksCorpus, Wikipedia) | 약 570GB (Common Crawl 등 인터넷 텍스트) | |
파라미터 수 | Base: 1.1억, Large: 3.4억 | GPT-3: 1750억 | |
훈련 방식 | 사전 학습 + 작업별 Fine-tuning | 사전 학습 + 프롬프트 기반 추론 (GPT-3 이후 RLHF 도입) |
- BERT는 일부 단어를 [MASK]로 가려놓고 이를 예측하는 방식(Masked LM)으로 학습하며, 두 문장이 연결된 문장인지 아닌지 판단하는 NSP도 병행합니다. 이후 문서 분류, 개체명 인식(NER) 등 **다운스트림 작업에 맞게 미세 조정(Fine-tuning)**합니다.
- GPT는 왼쪽에서 오른쪽으로 순차적으로 다음 단어를 예측하는 방식으로 학습합니다. GPT-3는 이에 더해 **인간 피드백 기반 강화 학습(RLHF)**을 통해 대화 품질을 향상시켰습니다.
1.3 출력과 활용
항목BERTGPT | ||
출력 형태 | 문맥 임베딩 벡터 (각 토큰별, [CLS] 토큰 포함) | 다음 단어를 포함하는 텍스트 시퀀스 |
주요 활용 | 분류, 문장 관계 판단, 질문 응답, NER | 텍스트 생성, 대화 시스템, 코드 작성 |
예시 작업 | "이 문장은 긍정인가?" | "동화를 이어 써 주세요." |
- BERT는 이해 중심: 입력 문장에 대해 토큰별 또는 전체 문장의 의미 벡터를 출력. 주로 분류나 분석 작업에 활용되며 텍스트 생성은 불가능합니다.
- GPT는 생성 중심: 주어진 문장을 기반으로 자연스러운 후속 문장 또는 단어 시퀀스를 생성할 수 있어, 대화나 창작 등에 활용됩니다.
1.4 성능과 한계
항목BERTGPT | ||||
강점 | 깊이 있는 문맥 이해 | 양방향 정보 처리 | 자연스러운 텍스트 생성 | 프롬프트 기반 범용성 |
한계 | 텍스트 생성 불가 | 작업별 별도 학습 필요 | 양방향 문맥 부족 | 사실 왜곡(hallucination) 가능 |
- BERT는 분류·이해 성능은 우수하지만 생성에는 부적합합니다.
- GPT는 다양한 작업에 활용 가능하나, 문맥 왜곡이나 사실과 다른 정보(hallucination)를 생성할 수 있습니다.
2. Transformer 이후 주요 모델 발전 히스토리
Transformer 기반의 모델 발전은 다음과 같이 이어집니다:
연도모델특징파라미터 | |||
2017 | Transformer | “Attention is All You Need”, 인코더-디코더 구조, 셀프 어텐션 도입 | 수백만 |
2018 | GPT-1 (OpenAI) | 디코더 기반, 단방향 생성 시작 | 1.17억 |
2018 | BERT (Google) | 인코더 기반, 양방향 문맥 이해 | Base: 1.1억, Large: 3.4억 |
2019 | GPT-2 (OpenAI) | 더 큰 파라미터, 자연스러운 생성 가능 | 15억 |
2020 | GPT-3 (OpenAI) | 초대규모, RLHF 도입으로 대화 능력 강화 | 1750억 |
2021~ | T5 (Google) | 인코더-디코더 통합, "Text-to-Text" 프레임워크 | 최대 110억 |
LaMDA (Google) | 대화 특화 모델, 인간다운 대화 지향 | 수십~수백억 (비공개) |
ChatGPT 이후 주요 모델 비교 요약
모델 (출시)파라미터 수 (추정)특징HumanEval(코딩 정확률) | |||
GPT-3.5 (2022) | 약 1750억 개 | GPT-3 기반. RLHF 적용된 대화형 모델. 텍스트 전용. ChatGPT 초기 버전. | 약 46% |
GPT-4 (2023) | 약 1.8조 개 (MoE 구조) | 이미지 입력 가능. 최대 32K 토큰 컨텍스트. 응답 정확도 높지만 속도는 느림. | 약 68% |
GPT-4o (2024) | 약 2000억 개 | 실시간 반응(0.3초). 텍스트·이미지·음성·비디오까지 입력 가능한 멀티모달 모델. 비용은 GPT-4 대비 절반. | 약 67% |
GPT-4o Mini (2024) | 약 80억 개 | 경량 고성능 모델. 이미지 입력 가능. GPT-4 수준의 코딩 성능. ChatGPT 무료 사용자용 기본 모델. | 약 87% |
GPT-4.5 (2025) | 약 5~7조 개 (추정) | 텍스트 전용. 대규모 지식 기반. 환각 줄고, 정확도·EQ 향상. GPT-4 대비 응답 품질 개선. | 비공개 (GPT-4와 유사 또는 향상 추정) |
※ HumanEval은 OpenAI가 만든 코딩 능력 평가 벤치마크로, 자연어 문제를 받고 정확한 Python 코드를 작성하는 능력을 측정합니다. 문제 해결률(%)은 테스트 케이스를 한 번에 통과한 비율입니다.
* Grok을 활용하여 작성하였습니다.