최근에 LLM이 발전하면서 벤치마크도 다양해지고 있습니다. 이제는 추론, 멀티모달, Long Text 등 다양한 성능을 측정하고 있습니다.
또한, 벤치마크에 특화해서 성능 점수를 높일 수 있는 부분은 어쩔수 없이 많은 벤치마크에서 나타납니다. 그래서 일부 벤치마크들은 성능이 과대평가될 수 있습니다.
이제는 ChatGPT, Grok 등의 LLM이 사람 수준의 대화가 가능하다보니 이제는 실제 사람들이 선호도를 평가하는 식으로 비교하는 벤치마크도 있습니다.
1. Image Reasoning
- MMMU (Massive Multi-discipline Multimodal Understanding):
- 설명: 과학, 수학, 인문 등 다중 학문 분야의 이미지와 텍스트를 결합한 추론 문제로, 모델의 시각적 이해와 논리적 사고를 평가. 2024년 기준 약 10,000개 문제 포함.
- 예시 문제: "이 그래프에서 2023년 매출은 2022년보다 얼마나 증가했나?" (이미지: 연도별 막대 그래프 제공).
- 특징: 이미지 해석 후 수학적/논리적 계산 필요. 데이터 오염(학습 데이터에 문제 포함 가능성)으로 과대평가 위험.
- MathVista:
- 설명: 수학적 시각 추론에 초점, 그래프, 도형, 기하학적 이미지 기반 문제로 모델의 시각적 분석 및 수학적 능력 테스트. 약 6,000개 문제 포함.
- 예시 문제: "이 삼각형의 밑변과 높이를 이용해 면적을 계산하시오." (이미지: 삼각형 도형 제공).
- 특징: 복잡한 시각 데이터에서 정량적 답변 도출. 멀티모달 능력 평가에 적합.
2. Image Understanding
- ChartQA:
- 설명: 차트(막대, 원형, 선 그래프 등) 이미지에서 질의응답을 수행하는 능력을 평가. 약 15,000개 차트와 질문으로 구성, 실생활 데이터 시각화 이해에 초점.
- 예시 문제: "이 원형 차트에서 사과의 비율은 얼마인가?" (이미지: 과일 판매 비율 차트 제공).
- 특징: 시각적 데이터에서 정보나 패턴 추출 필요. 오염 데이터로 과도한 점수 가능성.
- DocVQA (test):
- 설명: 문서 이미지(계약서, 표, 스캔된 텍스트)에서 특정 정보 추출 및 질의응답 평가. 약 12,000개 문서와 질문 포함, 실무 적용성 강조.
- 예시 문제: "이 계약서에서 계약 기간은 언제까지인가?" (이미지: 스캔된 계약서 제공).
- 특징: OCR(광학 문자 인식)과 문맥 이해 필요. 테스트 버전은 제한된 데이터셋으로 평가.
3. Coding
- LiveCodeBench (10/01/2024-02/01/2025):
- 설명: 실시간 코딩 문제 해결 능력을 평가하는 동적 벤치마크. 2024년 10월 1일부터 2025년 2월 1일까지 업데이트되며, Python, Java 등 다양한 언어 지원. 약 1,000개 문제 포함.
- 예시 문제: "리스트 [1, 2, 3, 4]의 합을 계산하는 Python 코드를 작성하시오."
- 특징: 코드 실행 가능성과 효율성 평가. 실시간 업데이트로 데이터 오염 최소화 시도.
4. Reasoning & Knowledge
- MMLU Pro:
- 설명: MMLU(57개 주제 객관식 문제)의 고난도 버전. 추론 중심 문제로, 선택지 10개 제공, 약 15,000개 문제 포함. 2024년 기준 GPT-4o, Claude 3.7 약 90% 정확도.
- 예시 문제: "다음 수열 2, 4, 8, 16의 다음 수는? A) 24 B) 32 C) 48 D) 64" (정답: 32).
- 특징: 고급 지식과 논리적 사고 요구. 데이터 오염으로 암기 기반 성능 과대평가 가능.
- GPQA Diamond:
- 설명: 고급 지식과 추론을 테스트하는 벤치마크. 학문적 깊이 있는 문제(물리, 생물학 등) 약 1,500개 포함, 전문가 수준 성능 평가.
- 예시 문제: "광합성에서 ATP가 생성되는 과정은 무엇인가?" (선택지 포함).
- 특징: 전문 분야 지식과 복잡한 추론 결합. 오염 데이터로 성능 왜곡 가능.
5. Long Context
- MTOB (half book) eng → kgv/kgv → eng:
- 설명: 반권 분량(약 50,000 단어) 텍스트의 번역 및 이해 능력을 평가. 영어(eng)에서 가상의 언어(kgv)로, 다시 영어로 변환하며 맥락 유지 테스트.
- 예시 문제: "이 텍스트의 주요 주제를 500단어 내로 요약하시오." (텍스트: 소설 반권 제공).
- 특징: 장문 맥락 이해 및 번역 정확도 중점. 데이터 오염 위험 있음.
- MTOB (full book) eng → kgv/kgv → eng:
- 설명: 전체 책 분량(약 100,000 단어) 처리 능력 평가. 장문 텍스트의 일관된 이해와 번역 테스트.
- 예시 문제: "이 책의 결말을 예측하고 근거를 설명하시오." (텍스트: 소설 전체 제공).
- 특징: 극단적인 장문 처리와 맥락 유지 능력 평가. 오염 데이터로 과대평가 가능성.
6. 사람 중심 평가
- Human Evaluation:
- 설명: 사람이 직접 모델의 출력을 평가하는 방식으로, 답변의 자연스러움, 관련성, 유용성을 점수화. Chatbot Arena 같은 플랫폼에서 사용자가 두 모델 답변을 비교해 선호도 투표(ELO 점수로 순위화). 약 10,000건 이상의 사용자 피드백 데이터 사용.
- 예시 문제: "이 질문에 대한 답변은 자연스러운가? 질문: '오늘 날씨 어때?' 답변: '현재 날씨는 맑음입니다, 즐거운 하루 되세요!'"
- 특징: 실제 사용자 경험 반영, 주관적 편향 및 평가 비용(시간, 인력)이 단점. 데이터 오염 영향 적음.
- LLM-as-a-Judge:
- 설명: 고성능 LLM(예: GPT-4o)이 다른 모델의 출력을 평가. MT-Bench(80개 다중 턴 질문)로 대화 품질, 관련성, 정확성을 점수화. 인간 평가와 약 80% 일치.
- 예시 문제: "이 답변은 질문을 잘 반영했나? 질문: '파리 여행 추천' 답변: '파리 에펠탑 방문 추천!'"
- 특징: 비용 효율적, 설명 가능성(평가 근거 제공) 장점. 평가 LLM의 편향 가능성 존재.
출처
- MMMU: https://mmmu-benchmark.github.io/, https://github.com/MMMU-Benchmark/MMMU, https://arxiv.org/abs/2311.16502
- MathVista: https://mathvista.github.io/, https://github.com/lupantech/MathVista, https://arxiv.org/abs/2310.02255
- ChartQA: https://www.docvqa.org/, https://github.com/vis-nlp/ChartQA, https://arxiv.org/abs/2203.10244
- DocVQA: https://www.docvqa.org/, https://rrc.cvc.uab.es/?ch=17, https://arxiv.org/abs/2007.00398
- LiveCodeBench: https://livecodebench.github.io/, https://github.com/LiveCodeBench/LiveCodeBench, https://arxiv.org/abs/2403.07974
- MMLU Pro: https://github.com/TIGER-AI-Lab/MMLU-Pro, https://arxiv.org/abs/2406.01574
- GPQA Diamond: https://arxiv.org/abs/2311.12022, https://github.com/idavidrein/gpqa
- MTOB: https://lukemelas.github.io/mtob/, https://github.com/lukemelas/mtob, https://arxiv.org/abs/2309.16575
- Human Evaluation (Chatbot Arena): https://lmsys.org/blog/2023-05-03-arena/
- LLM-as-a-Judge (MT-Bench): https://github.com/lm-sys/MT-Bench