AI Benchmark Leaderboard

State-of-the-art results across key evaluation benchmarks.

Updated 2026-05-03

Results reflect published evaluations and may use different prompting strategies or few-shot settings — direct comparison across rows should be made cautiously. Scores auto-update weekly via the Papers With Code API.

Massive Multitask Language Understanding

57 diverse subjects spanning STEM, humanities, social sciences, and professional domains. Tests breadth of knowledge and reasoning.

reasoning Full leaderboard ↗

Metric: Accuracy (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	GPT-4o	OpenAI	88.7%	2024-05	paper
2	Llama 3.1 405B	Meta	88.6%	2024-07	paper
3	Claude 3 Opus	Anthropic	86.8%	2024-03	paper
4	Gemini 1.5 Pro	Google	85.9%	2024-02	paper
5	Mistral Large 2	Mistral	84.0%	2024-07	paper

#1 GPT-4o

OpenAI

88.7%

2024-05

paper

#2 Llama 3.1 405B

Meta

88.6%

2024-07

paper

#3 Claude 3 Opus

Anthropic

86.8%

2024-03

paper

#4 Gemini 1.5 Pro

Google

85.9%

2024-02

paper

#5 Mistral Large 2

Mistral

84.0%

2024-07

paper

HumanEval (pass@1)

164 handwritten Python programming problems. Tests ability to generate correct code from a docstring. pass@1 = fraction solved in one attempt.

coding Full leaderboard ↗

Metric: pass@1 (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	Claude 3.5 Sonnet	Anthropic	92.0%	2024-06	paper
2	DeepSeek-Coder-V2	DeepSeek	90.2%	2024-06	paper
3	GPT-4o	OpenAI	90.2%	2024-05	paper
4	Llama 3.1 405B	Meta	89.0%	2024-07	paper
5	Gemini 1.5 Pro	Google	84.1%	2024-02	paper

#1 Claude 3.5 Sonnet

Anthropic

92.0%

2024-06

paper

#2 DeepSeek-Coder-V2

DeepSeek

90.2%

2024-06

paper

#3 GPT-4o

OpenAI

90.2%

2024-05

paper

#4 Llama 3.1 405B

Meta

89.0%

2024-07

paper

#5 Gemini 1.5 Pro

Google

84.1%

2024-02

paper

MATH Benchmark

12,500 competition-level mathematics problems across algebra, geometry, number theory, and calculus. Difficulty ranges from AMC to AIME level.

math Full leaderboard ↗

Metric: Accuracy (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	o1	OpenAI	96.4%	2024-09	paper
2	Gemini 1.5 Pro	Google	91.5%	2024-02	paper
3	GPT-4o	OpenAI	76.6%	2024-05	paper
4	Llama 3.1 405B	Meta	73.8%	2024-07	paper
5	Claude 3.5 Sonnet	Anthropic	71.1%	2024-06	paper

#1 o1

OpenAI

96.4%

2024-09

paper

#2 Gemini 1.5 Pro

Google

91.5%

2024-02

paper

#3 GPT-4o

OpenAI

76.6%

2024-05

paper

#4 Llama 3.1 405B

Meta

73.8%

2024-07

paper

#5 Claude 3.5 Sonnet

Anthropic

71.1%

2024-06

paper

Grade School Math 8K

8,500 grade-school math word problems requiring multi-step reasoning. A standard measure of arithmetic reasoning capability.

math Full leaderboard ↗

Metric: Accuracy (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	o1	OpenAI	97.5%	2024-09	paper
2	GPT-4o	OpenAI	97.0%	2024-05	paper
3	Claude 3.5 Sonnet	Anthropic	96.4%	2024-06	paper
4	Llama 3.1 70B	Meta	95.1%	2024-07	paper
5	Gemini 1.5 Pro	Google	90.8%	2024-02	paper

#1 o1

OpenAI

97.5%

2024-09

paper

#2 GPT-4o

OpenAI

97.0%

2024-05

paper

#3 Claude 3.5 Sonnet

Anthropic

96.4%

2024-06

paper

#4 Llama 3.1 70B

Meta

95.1%

2024-07

paper

#5 Gemini 1.5 Pro

Google

90.8%

2024-02

paper

Graduate-Level Google-Proof Q&A (Diamond)

448 expert-crafted multiple-choice questions in biology, chemistry, and physics. Designed to be unsolvable by googling — requires genuine domain expertise.

reasoning Full leaderboard ↗

Metric: Accuracy (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	o1	OpenAI	77.3%	2024-09	paper
2	Claude 3.5 Sonnet	Anthropic	65.0%	2024-06	paper
3	GPT-4o	OpenAI	53.6%	2024-05	paper
4	Llama 3.1 405B	Meta	50.7%	2024-07	paper
5	Gemini 1.5 Pro	Google	49.9%	2024-02	paper

#1 o1

OpenAI

77.3%

2024-09

paper

#2 Claude 3.5 Sonnet

Anthropic

65.0%

2024-06

paper

#3 GPT-4o

OpenAI

53.6%

2024-05

paper

#4 Llama 3.1 405B

Meta

50.7%

2024-07

paper

#5 Gemini 1.5 Pro

Google

49.9%

2024-02

paper

SWE-bench Verified

500 real GitHub issues from popular Python repositories. Measures the ability of AI agents to autonomously resolve software engineering tasks end-to-end.

coding Full leaderboard ↗

Metric: % Resolved (%)

Higher is better: Yes

Rank	Model	Provider	Score	Date	Paper
1	Claude 3.5 Sonnet (SWE-agent)	Anthropic	50.8%	2024-10	paper
2	GPT-4o (Moatless Tools)	OpenAI	40.0%	2024-09	paper
3	Llama 3.1 70B (SWE-agent)	Meta	27.0%	2024-09	paper
4	GPT-4o mini	OpenAI	22.0%	2024-08	—
5	Gemini 1.5 Pro	Google	15.0%	2024-06	—

#1 Claude 3.5 Sonnet (SWE-agent)

Anthropic

50.8%

2024-10

paper

#2 GPT-4o (Moatless Tools)

OpenAI

40.0%

2024-09

paper

#3 Llama 3.1 70B (SWE-agent)

Meta

27.0%

2024-09

paper

#4 GPT-4o mini

OpenAI

22.0%

2024-08

#5 Gemini 1.5 Pro

Google

15.0%

2024-06