Shin & Co.

1. BERT와 GPT 상세 비교

BERT와 GPT는 모두 Transformer 아키텍처를 기반으로 하지만, 설계 철학, 구조, 학습 방식, 출력 및 활용 면에서 명확한 차이를 보입니다. 아래는 이를 항목별로 정리한 내용입니다.

항목BERTGPT
Transformer 구성	인코더만 사용	디코더만 사용
입력 처리 방식	전체 문장을 입력받아 양방향으로 모든 토큰의 문맥을 동시에 분석	이전까지의 단어만 입력으로 사용, 다음 단어를 순차적으로 예측
방향성	양방향 (Bidirectional)	단방향 (Unidirectional, 왼→오)
레이어 수	BERT-Base: 12층	BERT-Large: 24층	GPT-3: 96층
히든 사이즈	Base: 768	Large: 1024	GPT-3: 12288
어텐션 헤드	Base: 12	Large: 16	GPT-3: 96

BERT는 Transformer 인코더만 사용하며, 입력은 **문장 전체 또는 문장 쌍(A, B)**입니다. 이 입력은 다음과 같은 구성으로 변환됩니다:

즉, BERT는 인코더 구조를 통해 문장 내 모든 단어를 동시에 바라보며 문맥을 이해하는 것이 핵심입니다.

항목BERTGPT
사전 학습 목표	Masked LM (15% 토큰 마스킹)	+ Next Sentence Prediction (NSP)	Autoregressive LM (다음 토큰 예측)
학습 데이터	약 40GB (BooksCorpus, Wikipedia)	약 570GB (Common Crawl 등 인터넷 텍스트)
파라미터 수	Base: 1.1억, Large: 3.4억	GPT-3: 1750억
훈련 방식	사전 학습 + 작업별 Fine-tuning	사전 학습 + 프롬프트 기반 추론 (GPT-3 이후 RLHF 도입)

BERT는 일부 단어를 [MASK]로 가려놓고 이를 예측하는 방식(Masked LM)으로 학습하며, 두 문장이 연결된 문장인지 아닌지 판단하는 NSP도 병행합니다. 이후 문서 분류, 개체명 인식(NER) 등 **다운스트림 작업에 맞게 미세 조정(Fine-tuning)**합니다.
GPT는 왼쪽에서 오른쪽으로 순차적으로 다음 단어를 예측하는 방식으로 학습합니다. GPT-3는 이에 더해 **인간 피드백 기반 강화 학습(RLHF)**을 통해 대화 품질을 향상시켰습니다.

BERT는 이해 중심: 입력 문장에 대해 토큰별 또는 전체 문장의 의미 벡터를 출력. 주로 분류나 분석 작업에 활용되며 텍스트 생성은 불가능합니다.
GPT는 생성 중심: 주어진 문장을 기반으로 자연스러운 후속 문장 또는 단어 시퀀스를 생성할 수 있어, 대화나 창작 등에 활용됩니다.

Transformer 기반의 모델 발전은 다음과 같이 이어집니다:

연도모델특징파라미터
2017	Transformer	“Attention is All You Need”, 인코더-디코더 구조, 셀프 어텐션 도입	수백만
2018	GPT-1 (OpenAI)	디코더 기반, 단방향 생성 시작	1.17억
2018	BERT (Google)	인코더 기반, 양방향 문맥 이해	Base: 1.1억, Large: 3.4억
2019	GPT-2 (OpenAI)	더 큰 파라미터, 자연스러운 생성 가능	15억
2020	GPT-3 (OpenAI)	초대규모, RLHF 도입으로 대화 능력 강화	1750억
2021~	T5 (Google)	인코더-디코더 통합, "Text-to-Text" 프레임워크	최대 110억
	LaMDA (Google)	대화 특화 모델, 인간다운 대화 지향	수십~수백억 (비공개)

모델 (출시)파라미터 수 (추정)특징HumanEval(코딩 정확률)
GPT-3.5 (2022)	약 1750억 개	GPT-3 기반. RLHF 적용된 대화형 모델. 텍스트 전용. ChatGPT 초기 버전.	약 46%
GPT-4 (2023)	약 1.8조 개 (MoE 구조)	이미지 입력 가능. 최대 32K 토큰 컨텍스트. 응답 정확도 높지만 속도는 느림.	약 68%
GPT-4o (2024)	약 2000억 개	실시간 반응(0.3초). 텍스트·이미지·음성·비디오까지 입력 가능한 멀티모달 모델. 비용은 GPT-4 대비 절반.	약 67%
GPT-4o Mini (2024)	약 80억 개	경량 고성능 모델. 이미지 입력 가능. GPT-4 수준의 코딩 성능. ChatGPT 무료 사용자용 기본 모델.	약 87%
GPT-4.5 (2025)	약 5~7조 개 (추정)	텍스트 전용. 대규모 지식 기반. 환각 줄고, 정확도·EQ 향상. GPT-4 대비 응답 품질 개선.	비공개 (GPT-4와 유사 또는 향상 추정)

※ HumanEval은 OpenAI가 만든 코딩 능력 평가 벤치마크로, 자연어 문제를 받고 정확한 Python 코드를 작성하는 능력을 측정합니다. 문제 해결률(%)은 테스트 케이스를 한 번에 통과한 비율입니다.