Data extraction

Extract key details from a given block of text.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3 Flash (Preview, Reasoning)	99%
Gemma 4 26B (Reasoning)	98%
Gemma 4 31B (Reasoning)	98%
Gemma 4 31B	97%
Claude Opus 4.7	96%
Z.AI GLM 4.6	96%
Claude Sonnet 4	96%
GPT-4o Mini (temp=0)	96%
Gemma 4 26B	95%
Z.AI GLM 5.1	94%
Gemini 2.5 Pro	94%
Gemini 2.5 Flash Lite (Reasoning)	94%
ByteDance Seed 2.0 Lite	94%
GPT-4o Mini (temp=1)	94%
Qwen3.6 Max Preview	93%
Gemini 3.1 Pro (Preview)	93%
Z.AI GLM 5	93%
MoonshotAI: Kimi K2.5	93%
Gemini 2.5 Flash (Reasoning)	93%
GPT-5.4 Mini	93%

	Score	Cost	Time
Gemma 3 4B	92%	$0.0000	303ms
Mistral Small Creative	93%	$0.0000	362ms
Ministral 3B	73%	$0.0000	308ms
Ministral 8B	75%	$0.0000	331ms
Gemini 2.5 Flash Lite	92%	$0.0000	357ms
Ministral 3 3B	78%	$0.0000	416ms
Llama 3.1 8B	85%	$0.0000	441ms
Inception Mercury	91%	$0.0000	528ms
Ministral 3 14B	88%	$0.0000	448ms
Gemma 3 12B	92%	$0.0000	542ms
Ministral 3 8B	71%	$0.0000	382ms
Mistral Small 3.2 24B	83%	$0.0000	691ms
Mistral Small 4	88%	$0.0000	539ms
Gemini 2.5 Flash	83%	$0.0000	473ms
Gemma 3 27B	92%	$0.0000	780ms
LFM2 24B	79%	$0.0000	1.4s
Stealth: Aurora Alpha	92%	—	1.6s
GPT-5.4 Nano	93%	$0.0000	768ms
Mistral Medium 3.1	88%	$0.0000	655ms
Arcee AI: Trinity Large (Preview)	81%	$0.0000	1.1s

	Score	Consistency	Stability
Gemini 3 Flash (Preview, Reasoning)	99%	82%	82%
Gemma 4 26B (Reasoning)	98%	74%	74%
Claude Sonnet 4	96%	72%	72%
GPT-4o Mini (temp=0)	96%	72%	72%
Gemma 4 31B (Reasoning)	98%	69%	69%
Gemma 4 31B	97%	64%	64%
GPT-4o Mini (temp=1)	94%	63%	63%
Claude Opus 4.7	96%	60%	60%
Z.AI GLM 4.6	96%	60%	60%
Mistral Small Creative	93%	59%	59%
Gemma 4 26B	95%	56%	56%
DeepSeek V3 (2025-03-24)	91%	55%	55%
GPT-5.4 Nano	93%	55%	55%
Z.AI GLM 5.1	94%	53%	53%
Gemini 2.5 Pro	94%	53%	53%
Gemini 2.5 Flash Lite (Reasoning)	94%	53%	53%
ByteDance Seed 2.0 Lite	94%	53%	53%
Claude Opus 4	92%	53%	53%
Qwen3.6 Max Preview	93%	50%	50%
Gemini 3.1 Pro (Preview)	93%	50%	50%

	Score	Cost	Speed	Stability
Gemini 3 Flash (Preview, Reasoning)	99%	$0.0026	7.0s	82%
Claude Sonnet 4	96%	$0.0004	1.6s	72%
GPT-4o Mini (temp=0)	96%	$0.0000	8.1s	72%
Gemma 4 31B	97%	$0.0000	5.1s	64%
Claude Opus 4.7	96%	$0.0008	1.0s	60%
Mistral Small Creative	93%	$0.0000	362ms	59%
Gemma 4 26B	95%	$0.0000	1.8s	56%
GPT-5.4 Nano	93%	$0.0000	768ms	55%
Gemini 2.5 Flash Lite (Reasoning)	94%	$0.0004	3.8s	53%
GPT-5.4 Mini	93%	$0.0001	658ms	50%
Gemma 4 26B (Reasoning)	98%	$0.0003	33.2s	74%
DeepSeek V3 (2025-03-24)	91%	$0.0000	2.4s	55%
GPT-4o Mini (temp=1)	94%	$0.0000	16.4s	63%
ByteDance Seed 2.0 Lite	94%	$0.0008	10.2s	53%
Gemma 3 4B	92%	$0.0000	303ms	45%
Gemini 2.5 Flash Lite	92%	$0.0000	357ms	45%
Gemma 3 12B	92%	$0.0000	542ms	45%
Gemma 3 27B	92%	$0.0000	780ms	45%
Gemini 3.1 Flash Lite	92%	$0.0000	757ms	45%
Inception Mercury 2	92%	$0.0002	471ms	45%

Model	Total ▼	Who's the tallest?	What's the color of the car?	What instrument does Lucy play?	Guess the pet	What's the correct time?	Who's the sister?	Contextual pronoun	Indirect birth year	Fruits excluding citrus	Future event time	Highest-rated movie	All valid emails
Gemini 3 Flash (Preview, Reasoning)	99%	100%	100%	100%	100%	90%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 26B (Reasoning)	98%	100%	100%	100%	100%	80%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 31B (Reasoning)	98%	100%	100%	100%	100%	70%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 31B	97%	100%	100%	100%	100%	60%	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.7	96%	100%	100%	100%	100%	50%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 4.6	96%	100%	100%	100%	100%	50%	100%	100%	100%	100%	100%	100%	100%
Claude Sonnet 4	96%	100%	100%	100%	100%	100%	100%	100%	100%	100%	50%	100%	100%
GPT-4o Mini (temp=0)	96%	100%	100%	100%	100%	100%	100%	100%	100%	100%	50%	100%	100%
Gemma 4 26B	95%	100%	100%	100%	100%	40%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5.1	94%	100%	100%	100%	100%	30%	100%	100%	100%	100%	100%	100%	100%
Gemini 2.5 Pro	94%	100%	100%	100%	100%	40%	100%	100%	100%	90%	100%	100%	100%
Gemini 2.5 Flash Lite (Reasoning)	94%	100%	100%	100%	100%	30%	100%	100%	100%	100%	100%	100%	100%
ByteDance Seed 2.0 Lite	94%	100%	100%	100%	100%	30%	100%	100%	100%	100%	100%	100%	100%
GPT-4o Mini (temp=1)	94%	100%	100%	100%	100%	80%	100%	100%	100%	100%	50%	100%	100%
Qwen3.6 Max Preview	93%	100%	100%	100%	100%	20%	100%	100%	100%	100%	100%	100%	100%

Who's the tallest?

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	217ms
Ministral 3B	100%	$0.0000	269ms
Gemma 3 12B	100%	$0.0000	322ms
Ministral 8B	90%	$0.0000	261ms
Ministral 3 3B	100%	$0.0000	272ms
Mistral Small Creative	100%	$0.0000	276ms
LFM2 24B	100%	$0.0000	374ms
Ministral 3 8B	100%	$0.0000	368ms
Mistral Small 3.2 24B	100%	$0.0000	363ms
Gemini 2.5 Flash Lite	100%	$0.0000	389ms
Ministral 3 14B	100%	$0.0000	392ms
Llama 3.1 8B	100%	$0.0000	382ms
Mistral NeMO	80%	$0.0000	318ms
Inception Mercury	100%	$0.0000	402ms
Gemma 3 27B	100%	$0.0000	467ms
Mistral Small 4	100%	$0.0000	463ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	574ms
DeepSeek V3 (2024-12-26)	100%	$0.0000	594ms
Gemma 4 26B	100%	$0.0000	1.8s
Gemini 2.5 Flash	100%	$0.0000	399ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	217ms	100%
Ministral 3B	100%	$0.0000	269ms	100%
Ministral 3 3B	100%	$0.0000	272ms	100%
Mistral Small Creative	100%	$0.0000	276ms	100%
Gemma 3 12B	100%	$0.0000	322ms	100%
LFM2 24B	100%	$0.0000	374ms	100%
Mistral Small 3.2 24B	100%	$0.0000	363ms	100%
Ministral 3 8B	100%	$0.0000	368ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	389ms	100%
Llama 3.1 8B	100%	$0.0000	382ms	100%
Ministral 3 14B	100%	$0.0000	392ms	100%
Inception Mercury	100%	$0.0000	402ms	100%
Gemini 2.5 Flash	100%	$0.0000	399ms	100%
Gemma 3 27B	100%	$0.0000	467ms	100%
Mistral Small 4	100%	$0.0000	463ms	100%
Llama 3.1 Nemotron 70B	100%	$0.0000	481ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	574ms	100%
Llama 3.1 70B	100%	$0.0000	419ms	100%
GPT-5.4 Nano	100%	$0.0000	579ms	100%
DeepSeek V3 (2024-12-26)	100%	$0.0000	594ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
114	Claude Opus 4.6 (Reasoning)	$0.0017	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Qwen3.6 Max Preview	$0.0032	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Gemini 3.1 Pro (Preview)	$0.0032	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Z.AI GLM 5.1	$0.0010	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Z.AI GLM 5 Turbo	$0.0007	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Claude Sonnet 4.6 (Reasoning)	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Grok 4.3 (Reasoning)	$0.0010	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	GPT-5.4 (Reasoning)	$0.0009	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Claude Opus 4.7 (Reasoning)	$0.0006	976ms	100%	100	100	100	100	100	100	100	100	100	100	100%
121	GPT-5.5 (Reasoning)	$0.0020	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-5 Mini	$0.0004	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	GPT-5.5 (Reasoning, Low)	$0.0015	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	GPT-5.1	$0.0007	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Claude Opus 4.6	$0.0004	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	MoonshotAI: Kimi K2.6	$0.0007	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	GPT-5	$0.0018	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Qwen 3.5 397B A17B	$0.0014	12.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Gemma 4 31B (Reasoning)	$0.0001	20.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Qwen 3.5 122B	$0.0012	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen 3.5 Plus (2026-04-20)	$0.0010	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Gemma 4 26B (Reasoning)	$0.0001	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-5.4 (Reasoning, Low)	$0.0006	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Z.AI GLM 5	$0.0013	19.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Claude Sonnet 4.6	$0.0002	916ms	100%	100	100	100	100	100	100	100	100	100	100	100%
109	MoonshotAI: Kimi K2.5	$0.0006	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Qwen 3.5 27B	$0.0010	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	ByteDance Seed 1.6	$0.0002	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen 3.6 Flash	$0.0008	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-5.4 Mini (Reasoning)	$0.0003	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Gemini 3 Flash (Preview, Reasoning)	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	o4 Mini High	$0.0008	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	GPT-5.2	$0.0009	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	DeepSeek V4 Pro (Reasoning)	$0.0003	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Claude Opus 4.7	$0.0006	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.6 27B	$0.0014	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Claude Opus 4.5	$0.0004	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Grok 4.1 Fast	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Aion 2.0	$0.0005	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Z.AI GLM 4.6	$0.0011	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	MiniMax M2.7	$0.0003	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	GPT-5.5	$0.0004	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Qwen 3.6 35B	$0.0006	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	DeepSeek V4 Flash (Reasoning)	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Gemini 3 Pro (Preview)	$0.0037	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Claude Sonnet 4	$0.0002	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	MiniMax M2.5	$0.0005	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Z.AI GLM 4.7	$0.0008	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-4.1	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Gemini 2.5 Pro	$0.0047	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	o4 Mini	$0.0006	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
143	Grok 4	$0.0055	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Sonnet 4.5	$0.0002	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen 3.5 35B	$0.0008	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Claude Opus 4	$0.0012	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Xiaomi MIMO v2.5 Pro	$0.0008	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Stealth: Hunter Alpha	$0.0000	20.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	ByteDance Seed 2.0 Mini	$0.0000	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Gemma 4 31B	$0.0000	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Gemini 2.5 Flash (Reasoning)	$0.0008	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-OSS 120B	$0.0000	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Qwen 3.5 Flash	$0.0002	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Z.AI GLM 4.5	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Grok 4 Fast	$0.0001	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Qwen 3.5 9B	$0.0001	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Qwen 3.5 Plus (2026-02-15)	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Stealth: Healer Alpha	$0.0000	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Gemini 3.1 Flash Lite (Preview)	$0.0000	746ms	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Gemma 4 26B	$0.0000	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemini 3.1 Flash Lite	$0.0000	742ms	100%	100	100	100	100	100	100	100	100	100	100	100%
70	GPT-5.4 Mini (Reasoning, Low)	$0.0002	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Gemini 2.5 Flash Lite (Reasoning)	$0.0001	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Mistral Large 3	$0.0000	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	GPT-4o, May 13th (temp=0)	$0.0003	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 3 Flash (Preview)	$0.0000	750ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Claude Haiku 4.5	$0.0001	984ms	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Xiaomi MIMO v2.5	$0.0008	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	DeepSeek-V2 Chat	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Z.AI GLM 4.7 Flash	$0.0001	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	ByteDance Seed 2.0 Lite	$0.0003	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Nemotron 3 Super	$0.0000	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-5.4	$0.0002	569ms	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Claude 3.5 Sonnet	$0.0002	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Grok 4.20 (Beta)	$0.0001	521ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Inception Mercury 2	$0.0001	367ms	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-4o, May 13th (temp=1)	$0.0003	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Stealth: Aurora Alpha	—	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	DeepSeek V3 (2024-12-26)	$0.0000	594ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude 3.7 Sonnet	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-4.1 Mini	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Hermes 3 405B	$0.0000	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	DeepSeek V4 Pro	$0.0000	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-4o, Aug. 6th (temp=1)	$0.0001	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	GPT-5 Nano	$0.0002	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-4o, Aug. 6th (temp=0)	$0.0001	878ms	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5.4 Mini	$0.0001	549ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Mistral Large 2	$0.0001	314ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Mistral Small 4 (Reasoning)	$0.0002	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	DeepSeek V3.1	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	DeepSeek V3.2	$0.0000	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Qwen 3 32B	$0.0001	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V4 Flash	$0.0000	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	DeepSeek V3 (2025-03-24)	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4.20	$0.0001	532ms	100%	100	100	100	100	100	100	100	100	100	100	100%
59	GPT-5.4 Nano (Reasoning)	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 2.5 Flash Lite	$0.0000	389ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash	$0.0000	399ms	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Qwen3 235B A22B Instruct 2507	$0.0000	658ms	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Writer: Palmyra X5	$0.0002	13.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Inception Mercury	$0.0000	402ms	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-5.4 Nano (Reasoning, Low)	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	GPT-4o Mini (temp=1)	$0.0000	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Mistral Small 3.2 24B	$0.0000	363ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemma 3 12B	$0.0000	322ms	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Llama 3.1 70B	$0.0000	419ms	100%	100	100	100	100	100	100	100	100	100	100	100%
82	GPT-4o Mini (temp=0)	$0.0000	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 3 27B	$0.0000	467ms	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Mistral Medium 3.1	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Nemotron 3 Nano	$0.0001	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Mistral Small 4	$0.0000	463ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Qwen 2.5 72B	$0.0000	596ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Llama 3.1 Nemotron 70B	$0.0000	481ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.4 Nano	$0.0000	579ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Arcee AI: Trinity Large (Preview)	$0.0000	574ms	100%	100	100	100	100	100	100	100	100	100	100	100%
44	ByteDance Seed 1.6 Flash	$0.0001	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Mistral Small Creative	$0.0000	276ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Ministral 3 14B	$0.0000	392ms	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-4.1 Nano	$0.0000	957ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Ministral 3 8B	$0.0000	368ms	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Claude 3 Haiku	$0.0000	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	WizardLM 2 8x22b	$0.0001	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Arcee AI: Trinity Mini	$0.0000	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	217ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 3 3B	$0.0000	272ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Llama 3.1 8B	$0.0000	382ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3B	$0.0000	269ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	LFM2 24B	$0.0000	374ms	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Mistral Large	$0.0005	6.1s	70%	100	100	100	100	100	100	100	100	100	50	95%
122	Hermes 3 70B	$0.0000	1.0s	70%	100	100	100	100	100	100	100	100	100	50	95%
125	Rocinante 12B	$0.0000	2.4s	70%	100	100	100	100	100	100	100	100	100	50	95%
145	Z.AI GLM 4.5 Air	$0.0007	15.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
138	Grok 4.3	$0.0001	637ms	40%	100	100	100	100	100	100	100	100	100	0	90%
136	Ministral 8B	$0.0000	261ms	40%	100	100	100	100	100	100	100	100	100	0	90%
135	Cohere Command R+ (Aug. 2024)	$0.0001	420ms	54%	100	100	100	100	100	100	100	50	50	50	85%
144	Mistral NeMO	$0.0000	318ms	20%	100	100	100	100	100	100	100	100	0	0	80%
146	Grok 4.20 (Beta, Reasoning)	$0.0027	2.1s	27%	100	100	100	50	50	50	50	50	50	50	65%
147	Grok 4.20 (Reasoning)	$0.0013	5.8s	30%	100	100	50	50	50	50	50	50	50	50	60%
98.95%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Qwen 3 32B 100GPT-4o Mini (temp=0) 100Llama 3.1 8B	80Mistral NeMO 90Ministral 8B 90Z.AI GLM 4.5 Air
100.0%	Matches text	100GPT-4o Mini (temp=1) 100Claude 3 Haiku 100ByteDance Seed 1.6 Flash	20Grok 4.20 (Reasoning) 30Grok 4.20 (Beta, Reasoning) 70Cohere Command R+ (Aug. 2024)

What's the color of the car?

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	221ms
Ministral 3B	100%	$0.0000	273ms
Ministral 8B	100%	$0.0000	256ms
LFM2 24B	100%	$0.0000	733ms
Mistral NeMO	100%	$0.0000	536ms
Ministral 3 3B	100%	$0.0000	293ms
Mistral Small Creative	100%	$0.0000	412ms
Qwen3 235B A22B Instruct 2507	100%	$0.0000	758ms
Ministral 3 8B	100%	$0.0000	361ms
Mistral Small 3.2 24B	100%	$0.0000	406ms
Gemini 2.5 Flash Lite	100%	$0.0000	375ms
Llama 3.1 8B	100%	$0.0000	308ms
Gemma 4 26B	100%	$0.0000	1.5s
Ministral 3 14B	100%	$0.0000	362ms
Gemma 3 12B	100%	$0.0000	403ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	554ms
Gemma 3 27B	100%	$0.0000	518ms
Gemma 4 31B	100%	$0.0000	2.0s
Mistral Small 4	100%	$0.0000	488ms
Inception Mercury	100%	$0.0000	508ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	221ms	100%
Ministral 3B	100%	$0.0000	273ms	100%
Ministral 8B	100%	$0.0000	256ms	100%
Ministral 3 3B	100%	$0.0000	293ms	100%
Llama 3.1 8B	100%	$0.0000	308ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	375ms	100%
Ministral 3 8B	100%	$0.0000	361ms	100%
Ministral 3 14B	100%	$0.0000	362ms	100%
Gemma 3 12B	100%	$0.0000	403ms	100%
Mistral Small 3.2 24B	100%	$0.0000	406ms	100%
Mistral Small Creative	100%	$0.0000	412ms	100%
Mistral Small 4	100%	$0.0000	488ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	554ms	100%
Gemma 3 27B	100%	$0.0000	518ms	100%
Inception Mercury	100%	$0.0000	508ms	100%
Mistral NeMO	100%	$0.0000	536ms	100%
Mistral Medium 3.1	100%	$0.0000	441ms	100%
Stealth: Aurora Alpha	100%	—	533ms	100%
Gemini 2.5 Flash	100%	$0.0000	549ms	100%
GPT-5.4 Nano	100%	$0.0000	578ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
111	Claude Opus 4.6 (Reasoning)	$0.0016	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Qwen3.6 Max Preview	$0.0045	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemini 3.1 Pro (Preview)	$0.0032	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Z.AI GLM 5.1	$0.0013	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Z.AI GLM 5 Turbo	$0.0008	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Claude Sonnet 4.6 (Reasoning)	$0.0009	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Grok 4.3 (Reasoning)	$0.0019	18.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	GPT-5.4 (Reasoning)	$0.0006	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Claude Opus 4.7 (Reasoning)	$0.0006	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	GPT-5.5 (Reasoning)	$0.0011	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-5 Mini	$0.0003	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	GPT-5.5 (Reasoning, Low)	$0.0010	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5.1	$0.0003	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Opus 4.6	$0.0004	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	MoonshotAI: Kimi K2.6	$0.0010	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	GPT-5	$0.0013	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Qwen 3.5 397B A17B	$0.0017	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Gemma 4 31B (Reasoning)	$0.0001	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Qwen 3.5 122B	$0.0018	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen 3.5 Plus (2026-04-20)	$0.0015	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Gemma 4 26B (Reasoning)	$0.0001	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.4 (Reasoning, Low)	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Z.AI GLM 5	$0.0016	17.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Claude Sonnet 4.6	$0.0003	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	MoonshotAI: Kimi K2.5	$0.0008	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Qwen 3.5 27B	$0.0021	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	ByteDance Seed 1.6	$0.0002	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Qwen 3.6 Flash	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	GPT-5.4 Mini (Reasoning)	$0.0002	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Gemini 3 Flash (Preview, Reasoning)	$0.0006	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	o4 Mini High	$0.0006	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	GPT-5.2	$0.0004	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	DeepSeek V4 Pro (Reasoning)	$0.0004	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Claude Opus 4.7	$0.0006	798ms	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Qwen 3.6 27B	$0.0019	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Claude Opus 4.5	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Grok 4.1 Fast	$0.0001	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Aion 2.0	$0.0006	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Z.AI GLM 4.6	$0.0014	24.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	MiniMax M2.7	$0.0003	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	GPT-5.5	$0.0005	977ms	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Qwen 3.6 35B	$0.0007	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	DeepSeek V4 Flash (Reasoning)	$0.0000	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Gemini 3 Pro (Preview)	$0.0035	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Sonnet 4	$0.0003	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	MiniMax M2.5	$0.0003	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Z.AI GLM 4.7	$0.0009	15.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-4.1	$0.0001	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Gemini 2.5 Pro	$0.0036	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	o4 Mini	$0.0006	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Grok 4	$0.0037	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Claude Sonnet 4.5	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Qwen 3.5 35B	$0.0015	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Claude Opus 4	$0.0013	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Xiaomi MIMO v2.5 Pro	$0.0023	12.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Stealth: Hunter Alpha	$0.0000	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	ByteDance Seed 2.0 Mini	$0.0000	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Gemma 4 31B	$0.0000	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	GPT-OSS 120B	$0.0001	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	610ms	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Qwen 3.5 Flash	$0.0003	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 4.5	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Grok 4 Fast	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Qwen 3.5 9B	$0.0002	24.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Qwen 3.5 Plus (2026-02-15)	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Stealth: Healer Alpha	$0.0000	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3.1 Flash Lite (Preview)	$0.0000	638ms	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Gemma 4 26B	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 3.1 Flash Lite	$0.0000	762ms	100%	100	100	100	100	100	100	100	100	100	100	100%
64	GPT-5.4 Mini (Reasoning, Low)	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Gemini 2.5 Flash Lite (Reasoning)	$0.0001	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Mistral Large 3	$0.0000	617ms	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-4o, May 13th (temp=0)	$0.0003	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemini 3 Flash (Preview)	$0.0000	693ms	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Claude Haiku 4.5	$0.0001	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Xiaomi MIMO v2.5	$0.0010	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	DeepSeek-V2 Chat	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Z.AI GLM 4.7 Flash	$0.0003	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	ByteDance Seed 2.0 Lite	$0.0001	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Nemotron 3 Super	$0.0000	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	GPT-5.4	$0.0002	550ms	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Claude 3.5 Sonnet	$0.0003	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Grok 4.20 (Beta)	$0.0001	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Inception Mercury 2	$0.0001	379ms	100%	100	100	100	100	100	100	100	100	100	100	100%
104	GPT-4o, May 13th (temp=1)	$0.0003	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Stealth: Aurora Alpha	—	533ms	100%	100	100	100	100	100	100	100	100	100	100	100%
32	DeepSeek V3 (2024-12-26)	$0.0000	891ms	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Claude 3.7 Sonnet	$0.0003	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-4.1 Mini	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Z.AI GLM 4.5 Air	$0.0011	20.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Hermes 3 405B	$0.0000	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	DeepSeek V4 Pro	$0.0000	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-4o, Aug. 6th (temp=1)	$0.0002	848ms	100%	100	100	100	100	100	100	100	100	100	100	100%
73	GPT-5 Nano	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-4o, Aug. 6th (temp=0)	$0.0002	824ms	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.4 Mini	$0.0001	553ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Mistral Large 2	$0.0001	309ms	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Mistral Small 4 (Reasoning)	$0.0002	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V3.1	$0.0000	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	DeepSeek V3.2	$0.0000	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Qwen 3 32B	$0.0001	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	DeepSeek V4 Flash	$0.0000	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	DeepSeek V3 (2025-03-24)	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Grok 4.20	$0.0001	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	GPT-5.4 Nano (Reasoning)	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash Lite	$0.0000	375ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Gemini 2.5 Flash	$0.0000	549ms	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Qwen3 235B A22B Instruct 2507	$0.0000	758ms	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Writer: Palmyra X5	$0.0002	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Inception Mercury	$0.0000	508ms	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-5.4 Nano (Reasoning, Low)	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	GPT-4o Mini (temp=1)	$0.0000	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Grok 4.3	$0.0001	786ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Mistral Small 3.2 24B	$0.0000	406ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemma 3 12B	$0.0000	403ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Llama 3.1 70B	$0.0001	413ms	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-4o Mini (temp=0)	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 3 27B	$0.0000	518ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Mistral Medium 3.1	$0.0000	441ms	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Nemotron 3 Nano	$0.0000	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Mistral Small 4	$0.0000	488ms	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Qwen 2.5 72B	$0.0000	625ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Nano	$0.0000	578ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Arcee AI: Trinity Large (Preview)	$0.0000	554ms	100%	100	100	100	100	100	100	100	100	100	100	100%
52	ByteDance Seed 1.6 Flash	$0.0001	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral Small Creative	$0.0000	412ms	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Hermes 3 70B	$0.0000	884ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Ministral 3 14B	$0.0000	362ms	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-4.1 Nano	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3 8B	$0.0000	361ms	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Claude 3 Haiku	$0.0000	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Arcee AI: Trinity Mini	$0.0001	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	221ms	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Ministral 3 3B	$0.0000	293ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral NeMO	$0.0000	536ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 8B	$0.0000	256ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Llama 3.1 8B	$0.0000	308ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3B	$0.0000	273ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	LFM2 24B	$0.0000	733ms	100%	100	100	100	100	100	100	100	100	100	100	100%
146	Grok 4.20 (Beta, Reasoning)	$0.0031	14.4s	54%	100	100	100	100	100	100	100	50	50	50	85%
133	Llama 3.1 Nemotron 70B	$0.0000	554ms	54%	100	100	100	100	100	100	100	50	50	50	85%
134	Cohere Command R+ (Aug. 2024)	$0.0002	329ms	54%	100	100	100	100	100	100	100	50	50	50	85%
139	Rocinante 12B	$0.0000	3.0s	54%	100	100	100	100	100	100	100	50	50	50	85%
144	Gemini 2.5 Flash (Reasoning)	$0.0019	4.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
145	Grok 4.20 (Reasoning)	$0.0012	5.3s	26%	100	100	100	100	50	50	50	50	50	50	70%
143	WizardLM 2 8x22b	$0.0001	7.1s	26%	100	100	100	100	50	50	50	50	50	50	70%
147	Mistral Large	$0.0012	6.2s	27%	100	100	100	50	50	50	50	50	50	50	65%
98.81%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100MoonshotAI: Kimi K2.6 100Grok 4.20 (Reasoning) 100GPT-5.5 (Reasoning, Low)	80Gemini 2.5 Flash (Reasoning)
100.0%	Matches text	100GPT-4o Mini (temp=1) 100Xiaomi MIMO v2.5 100Claude Sonnet 4.6 (Reasoning)	30Mistral Large 40Grok 4.20 (Reasoning) 40WizardLM 2 8x22b

What instrument does Lucy play?

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%

	Score	Cost	Time
Arcee AI: Trinity Large (Preview)	100%	$0.0000	430ms
Gemma 3 4B	100%	$0.0000	217ms
Mistral Small Creative	100%	$0.0000	269ms
Mistral NeMO	100%	$0.0000	577ms
Mistral Small 3.2 24B	100%	$0.0000	335ms
Gemini 2.5 Flash Lite	100%	$0.0000	335ms
Gemma 3 12B	100%	$0.0000	362ms
Ministral 3 14B	100%	$0.0000	515ms
Llama 3.1 8B	90%	$0.0000	382ms
Mistral Small 4	100%	$0.0000	543ms
Gemma 4 26B	100%	$0.0000	566ms
Gemma 4 31B	100%	$0.0000	12.3s
Gemma 3 27B	100%	$0.0000	621ms
Inception Mercury	100%	$0.0000	523ms
Stealth: Aurora Alpha	100%	—	809ms
Mistral Medium 3.1	100%	$0.0000	350ms
DeepSeek V3 (2024-12-26)	100%	$0.0000	547ms
Gemini 2.5 Flash	100%	$0.0000	499ms
Llama 3.1 Nemotron 70B	95%	$0.0000	465ms
GPT-5.4 Nano	90%	$0.0000	550ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	217ms	100%
Mistral Small Creative	100%	$0.0000	269ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	335ms	100%
Mistral Small 3.2 24B	100%	$0.0000	335ms	100%
Gemma 3 12B	100%	$0.0000	362ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	430ms	100%
Mistral Medium 3.1	100%	$0.0000	350ms	100%
Inception Mercury	100%	$0.0000	523ms	100%
Ministral 3 14B	100%	$0.0000	515ms	100%
Gemini 2.5 Flash	100%	$0.0000	499ms	100%
Mistral Small 4	100%	$0.0000	543ms	100%
Gemma 4 26B	100%	$0.0000	566ms	100%
Mistral NeMO	100%	$0.0000	577ms	100%
Hermes 3 70B	100%	$0.0000	507ms	100%
DeepSeek V3 (2024-12-26)	100%	$0.0000	547ms	100%
Gemma 3 27B	100%	$0.0000	621ms	100%
Mistral Large 3	100%	$0.0000	547ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0000	680ms	100%
Gemini 3.1 Flash Lite	100%	$0.0000	709ms	100%
Inception Mercury 2	100%	$0.0001	390ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
97	Claude Opus 4.6 (Reasoning)	$0.0018	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Qwen3.6 Max Preview	$0.0039	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Gemini 3.1 Pro (Preview)	$0.0033	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Z.AI GLM 5.1	$0.0012	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Z.AI GLM 5 Turbo	$0.0009	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Claude Sonnet 4.6 (Reasoning)	$0.0015	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Grok 4.3 (Reasoning)	$0.0012	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	GPT-5.4 (Reasoning)	$0.0012	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Opus 4.7 (Reasoning)	$0.0007	906ms	100%	100	100	100	100	100	100	100	100	100	100	100%
102	GPT-5.5 (Reasoning)	$0.0020	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	GPT-5 Mini	$0.0003	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-5.5 (Reasoning, Low)	$0.0021	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	GPT-5.1	$0.0007	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	MoonshotAI: Kimi K2.6	$0.0011	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	GPT-5	$0.0023	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Qwen 3.5 397B A17B	$0.0016	12.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Gemma 4 31B (Reasoning)	$0.0001	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Qwen 3.5 122B	$0.0020	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Qwen 3.5 Plus (2026-04-20)	$0.0016	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemma 4 26B (Reasoning)	$0.0001	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-5.4 (Reasoning, Low)	$0.0004	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Z.AI GLM 5	$0.0015	13.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Claude Sonnet 4.6	$0.0003	928ms	100%	100	100	100	100	100	100	100	100	100	100	100%
103	MoonshotAI: Kimi K2.5	$0.0010	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Qwen 3.5 27B	$0.0014	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	ByteDance Seed 1.6	$0.0002	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Qwen 3.6 Flash	$0.0008	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-5.4 Mini (Reasoning)	$0.0004	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Gemini 3 Flash (Preview, Reasoning)	$0.0008	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	o4 Mini High	$0.0008	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	GPT-5.2	$0.0009	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	DeepSeek V4 Pro (Reasoning)	$0.0004	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Claude Opus 4.7	$0.0007	900ms	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Qwen 3.6 27B	$0.0018	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude Opus 4.5	$0.0005	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Grok 4.1 Fast	$0.0001	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Aion 2.0	$0.0006	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Z.AI GLM 4.6	$0.0011	19.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	MiniMax M2.7	$0.0004	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	GPT-5.5	$0.0005	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Qwen 3.6 35B	$0.0006	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V4 Flash (Reasoning)	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Gemini 3 Pro (Preview)	$0.0063	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Claude Sonnet 4	$0.0003	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	MiniMax M2.5	$0.0004	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Z.AI GLM 4.7	$0.0010	26.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-4.1	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Gemini 2.5 Pro	$0.0050	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	o4 Mini	$0.0009	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Grok 4	$0.0046	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Claude Sonnet 4.5	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Qwen 3.5 35B	$0.0011	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Claude Opus 4	$0.0014	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Xiaomi MIMO v2.5 Pro	$0.0014	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Stealth: Hunter Alpha	$0.0000	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	ByteDance Seed 2.0 Mini	$0.0001	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Gemma 4 31B	$0.0000	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Gemini 2.5 Flash (Reasoning)	$0.0007	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-OSS 120B	$0.0000	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Qwen 3.5 Flash	$0.0002	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Z.AI GLM 4.5	$0.0000	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Grok 4 Fast	$0.0001	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Qwen 3.5 9B	$0.0002	23.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Qwen 3.5 Plus (2026-02-15)	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Stealth: Healer Alpha	$0.0000	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Gemini 3.1 Flash Lite (Preview)	$0.0000	680ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemma 4 26B	$0.0000	566ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Gemini 3.1 Flash Lite	$0.0000	709ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	GPT-5.4 Mini (Reasoning, Low)	$0.0002	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Mistral Large 3	$0.0000	547ms	100%	100	100	100	100	100	100	100	100	100	100	100%
89	GPT-4o, May 13th (temp=0)	$0.0004	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemini 3 Flash (Preview)	$0.0000	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Claude Haiku 4.5	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Xiaomi MIMO v2.5	$0.0011	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	DeepSeek-V2 Chat	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Z.AI GLM 4.7 Flash	$0.0002	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	ByteDance Seed 2.0 Lite	$0.0004	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Nemotron 3 Super	$0.0000	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	GPT-5.4	$0.0002	609ms	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Claude 3.5 Sonnet	$0.0003	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Inception Mercury 2	$0.0001	390ms	100%	100	100	100	100	100	100	100	100	100	100	100%
86	GPT-4o, May 13th (temp=1)	$0.0004	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Stealth: Aurora Alpha	—	809ms	100%	100	100	100	100	100	100	100	100	100	100	100%
15	DeepSeek V3 (2024-12-26)	$0.0000	547ms	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Claude 3.7 Sonnet	$0.0003	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-4.1 Mini	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Z.AI GLM 4.5 Air	$0.0009	20.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Hermes 3 405B	$0.0000	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	DeepSeek V4 Pro	$0.0001	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-4o, Aug. 6th (temp=1)	$0.0002	871ms	100%	100	100	100	100	100	100	100	100	100	100	100%
83	GPT-5 Nano	$0.0002	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-4o, Aug. 6th (temp=0)	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini	$0.0001	621ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Mistral Large 2	$0.0001	321ms	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Mistral Small 4 (Reasoning)	$0.0002	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	DeepSeek V3.2	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Qwen 3 32B	$0.0001	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	DeepSeek V3 (2025-03-24)	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	GPT-5.4 Nano (Reasoning)	$0.0001	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0000	335ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 2.5 Flash	$0.0000	499ms	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Qwen3 235B A22B Instruct 2507	$0.0000	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Writer: Palmyra X5	$0.0002	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Inception Mercury	$0.0000	523ms	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-5.4 Nano (Reasoning, Low)	$0.0001	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	GPT-4o Mini (temp=1)	$0.0000	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Mistral Small 3.2 24B	$0.0000	335ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemma 3 12B	$0.0000	362ms	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-4o Mini (temp=0)	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Gemma 3 27B	$0.0000	621ms	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Mistral Medium 3.1	$0.0000	350ms	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Nemotron 3 Nano	$0.0001	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral Small 4	$0.0000	543ms	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Qwen 2.5 72B	$0.0000	729ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Arcee AI: Trinity Large (Preview)	$0.0000	430ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Mistral Small Creative	$0.0000	269ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Hermes 3 70B	$0.0000	507ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Ministral 3 14B	$0.0000	515ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-4.1 Nano	$0.0000	928ms	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Claude 3 Haiku	$0.0000	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Arcee AI: Trinity Mini	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	217ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Mistral NeMO	$0.0000	577ms	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Claude Opus 4.6	$0.0005	2.0s	70%	100	100	100	100	100	100	100	100	100	50	95%
96	Llama 3.1 70B	$0.0001	394ms	70%	100	100	100	100	100	100	100	100	100	50	95%
94	Llama 3.1 Nemotron 70B	$0.0000	465ms	70%	100	100	100	100	100	100	100	100	100	50	95%
120	GPT-5.4 Nano	$0.0000	550ms	40%	100	100	100	100	100	100	100	100	100	0	90%
114	ByteDance Seed 1.6 Flash	$0.0001	2.4s	60%	100	100	100	100	100	100	100	100	50	50	90%
119	Llama 3.1 8B	$0.0000	382ms	40%	100	100	100	100	100	100	100	100	100	0	90%
124	Grok 4.20 (Beta)	$0.0002	464ms	36%	100	100	100	100	100	100	100	100	50	0	85%
125	DeepSeek V3.1	$0.0000	3.0s	36%	100	100	100	100	100	100	100	100	50	0	85%
126	Cohere Command R+ (Aug. 2024)	$0.0002	332ms	38%	100	100	100	100	100	50	50	50	50	50	75%
136	Grok 4.3	$0.0002	654ms	8%	100	100	100	100	100	100	100	0	0	0	70%
138	Mistral Large	$0.0008	6.6s	27%	100	100	100	50	50	50	50	50	50	50	65%
137	WizardLM 2 8x22b	$0.0001	6.6s	27%	100	100	100	50	50	50	50	50	50	50	65%
133	Rocinante 12B	$0.0000	3.3s	27%	100	100	100	50	50	50	50	50	50	50	65%
142	Grok 4.20 (Beta, Reasoning)	$0.0040	3.0s	30%	100	100	50	50	50	50	50	50	50	50	60%
140	Grok 4.20 (Reasoning)	$0.0016	6.3s	30%	100	100	50	50	50	50	50	50	50	50	60%
139	Ministral 8B	$0.0000	279ms	0%	100	100	100	100	100	0	0	0	0	0	50%
141	Grok 4.20	$0.0002	581ms	0%	100	100	100	0	0	0	0	0	0	0	30%
143	Ministral 3B	$0.0000	252ms	0%	100	50	0	0	0	0	0	0	0	0	15%
147	DeepSeek V4 Flash	$0.0000	2.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Ministral 3 8B	$0.0000	338ms	0%	0	0	0	0	0	0	0	0	0	0	0%
144	Ministral 3 3B	$0.0000	327ms	0%	0	0	0	0	0	0	0	0	0	0	0%
146	LFM2 24B	$0.0000	436ms	0%	0	0	0	0	0	0	0	0	0	0	0%
93.74%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Hermes 3 405B 100Gemma 4 31B (Reasoning) 100GPT-5.4 Nano (Reasoning, Low)	0LFM2 24B 0DeepSeek V4 Flash 0Ministral 3 8B
100.0%	Matches text	100DeepSeek V3 (2025-03-24) 100GPT-5.1 100Gemma 3 27B	0Ministral 3 8B 0Ministral 3 3B 0LFM2 24B

Guess the pet

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	261ms
Ministral 3B	100%	$0.0000	267ms
Ministral 8B	100%	$0.0000	282ms
Ministral 3 3B	100%	$0.0000	656ms
Mistral NeMO	100%	$0.0000	647ms
Mistral Small Creative	100%	$0.0000	601ms
LFM2 24B	100%	$0.0000	1.6s
Gemma 3 12B	100%	$0.0000	327ms
Mistral Small 3.2 24B	100%	$0.0000	361ms
Gemini 2.5 Flash Lite	100%	$0.0000	345ms
Ministral 3 8B	100%	$0.0000	377ms
Stealth: Aurora Alpha	100%	—	445ms
Inception Mercury	100%	$0.0000	342ms
Ministral 3 14B	100%	$0.0000	438ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	686ms
Gemma 3 27B	100%	$0.0000	467ms
Llama 3.1 8B	100%	$0.0000	332ms
Mistral Small 4	100%	$0.0000	441ms
Gemma 4 31B	100%	$0.0000	1.2s
DeepSeek V4 Flash	100%	$0.0000	3.7s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	261ms	100%
Ministral 3B	100%	$0.0000	267ms	100%
Ministral 8B	100%	$0.0000	282ms	100%
Gemma 3 12B	100%	$0.0000	327ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	345ms	100%
Mistral Small 3.2 24B	100%	$0.0000	361ms	100%
Inception Mercury	100%	$0.0000	342ms	100%
Llama 3.1 8B	100%	$0.0000	332ms	100%
Ministral 3 8B	100%	$0.0000	377ms	100%
Mistral Small 4	100%	$0.0000	441ms	100%
Ministral 3 14B	100%	$0.0000	438ms	100%
Gemma 3 27B	100%	$0.0000	467ms	100%
Stealth: Aurora Alpha	100%	—	445ms	100%
Gemini 2.5 Flash	100%	$0.0000	466ms	100%
Mistral Small Creative	100%	$0.0000	601ms	100%
Mistral Large 3	100%	$0.0000	480ms	100%
GPT-5.4 Nano	100%	$0.0000	548ms	100%
Ministral 3 3B	100%	$0.0000	656ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	686ms	100%
Mistral NeMO	100%	$0.0000	647ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
114	Claude Opus 4.6 (Reasoning)	$0.0012	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Qwen3.6 Max Preview	$0.0037	15.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Gemini 3.1 Pro (Preview)	$0.0025	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Z.AI GLM 5.1	$0.0010	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Z.AI GLM 5 Turbo	$0.0007	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Claude Sonnet 4.6 (Reasoning)	$0.0007	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Grok 4.3 (Reasoning)	$0.0010	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	GPT-5.4 (Reasoning)	$0.0006	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Claude Opus 4.7 (Reasoning)	$0.0006	916ms	100%	100	100	100	100	100	100	100	100	100	100	100%
112	GPT-5.5 (Reasoning)	$0.0012	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5 Mini	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	GPT-5.5 (Reasoning, Low)	$0.0010	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	GPT-5.1	$0.0003	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Opus 4.6	$0.0004	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	MoonshotAI: Kimi K2.6	$0.0005	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	GPT-5	$0.0012	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Qwen 3.5 397B A17B	$0.0017	14.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Gemma 4 31B (Reasoning)	$0.0001	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Qwen 3.5 122B	$0.0015	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Qwen 3.5 Plus (2026-04-20)	$0.0009	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Gemma 4 26B (Reasoning)	$0.0001	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	GPT-5.4 (Reasoning, Low)	$0.0004	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Z.AI GLM 5	$0.0012	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Claude Sonnet 4.6	$0.0002	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	MoonshotAI: Kimi K2.5	$0.0008	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Qwen 3.5 27B	$0.0018	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	ByteDance Seed 1.6	$0.0002	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen 3.6 Flash	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	GPT-5.4 Mini (Reasoning)	$0.0002	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Gemini 3 Flash (Preview, Reasoning)	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	o4 Mini High	$0.0005	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.2	$0.0005	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	DeepSeek V4 Pro (Reasoning)	$0.0002	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Claude Opus 4.7	$0.0006	983ms	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Qwen 3.6 27B	$0.0015	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Claude Opus 4.5	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Grok 4.1 Fast	$0.0001	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Aion 2.0	$0.0005	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Z.AI GLM 4.6	$0.0009	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	MiniMax M2.7	$0.0002	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	GPT-5.5	$0.0004	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Qwen 3.6 35B	$0.0006	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	DeepSeek V4 Flash (Reasoning)	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.0031	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude Sonnet 4	$0.0002	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	MiniMax M2.5	$0.0003	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Z.AI GLM 4.7	$0.0005	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	GPT-4.1	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Gemini 2.5 Pro	$0.0035	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	o4 Mini	$0.0004	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Grok 4	$0.0034	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Claude Sonnet 4.5	$0.0002	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Qwen 3.5 35B	$0.0013	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Claude Opus 4	$0.0011	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Xiaomi MIMO v2.5 Pro	$0.0005	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	ByteDance Seed 2.0 Mini	$0.0000	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Gemma 4 31B	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Gemini 2.5 Flash (Reasoning)	$0.0005	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	GPT-OSS 120B	$0.0000	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	661ms	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Qwen 3.5 Flash	$0.0002	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Z.AI GLM 4.5	$0.0000	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Grok 4 Fast	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Qwen 3.5 9B	$0.0001	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Qwen 3.5 Plus (2026-02-15)	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Stealth: Healer Alpha	$0.0000	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemini 3.1 Flash Lite (Preview)	$0.0000	703ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Gemma 4 26B	$0.0000	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemini 3.1 Flash Lite	$0.0000	717ms	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-5.4 Mini (Reasoning, Low)	$0.0001	945ms	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Gemini 2.5 Flash Lite (Reasoning)	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral Large 3	$0.0000	480ms	100%	100	100	100	100	100	100	100	100	100	100	100%
113	GPT-4o, May 13th (temp=0)	$0.0003	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Gemini 3 Flash (Preview)	$0.0000	771ms	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Claude Haiku 4.5	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Xiaomi MIMO v2.5	$0.0007	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	DeepSeek-V2 Chat	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Z.AI GLM 4.7 Flash	$0.0001	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	ByteDance Seed 2.0 Lite	$0.0001	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Nemotron 3 Super	$0.0000	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5.4	$0.0002	526ms	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Claude 3.5 Sonnet	$0.0002	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Grok 4.20 (Beta)	$0.0001	396ms	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Inception Mercury 2	$0.0001	350ms	100%	100	100	100	100	100	100	100	100	100	100	100%
115	GPT-4o, May 13th (temp=1)	$0.0003	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Stealth: Aurora Alpha	—	445ms	100%	100	100	100	100	100	100	100	100	100	100	100%
32	DeepSeek V3 (2024-12-26)	$0.0000	975ms	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Claude 3.7 Sonnet	$0.0002	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-4.1 Mini	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Z.AI GLM 4.5 Air	$0.0003	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Hermes 3 405B	$0.0000	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	DeepSeek V4 Pro	$0.0001	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-4o, Aug. 6th (temp=1)	$0.0001	946ms	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-5 Nano	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	GPT-4o, Aug. 6th (temp=0)	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.4 Mini	$0.0001	582ms	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Mistral Large 2	$0.0001	283ms	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Mistral Small 4 (Reasoning)	$0.0001	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	DeepSeek V3.1	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	DeepSeek V3.2	$0.0000	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Qwen 3 32B	$0.0001	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	DeepSeek V4 Flash	$0.0000	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4.20	$0.0001	499ms	100%	100	100	100	100	100	100	100	100	100	100	100%
52	GPT-5.4 Nano (Reasoning)	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 2.5 Flash Lite	$0.0000	345ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 2.5 Flash	$0.0000	466ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Qwen3 235B A22B Instruct 2507	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Writer: Palmyra X5	$0.0002	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Inception Mercury	$0.0000	342ms	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-5.4 Nano (Reasoning, Low)	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-4o Mini (temp=1)	$0.0000	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Grok 4.3	$0.0001	969ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Mistral Small 3.2 24B	$0.0000	361ms	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemma 3 12B	$0.0000	327ms	100%	100	100	100	100	100	100	100	100	100	100	100%
132	GPT-4o Mini (temp=0)	$0.0000	20.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemma 3 27B	$0.0000	467ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Mistral Medium 3.1	$0.0000	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Nemotron 3 Nano	$0.0000	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Mistral Small 4	$0.0000	441ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Qwen 2.5 72B	$0.0000	595ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Llama 3.1 Nemotron 70B	$0.0000	666ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Nano	$0.0000	548ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Arcee AI: Trinity Large (Preview)	$0.0000	686ms	100%	100	100	100	100	100	100	100	100	100	100	100%
54	ByteDance Seed 1.6 Flash	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Mistral Small Creative	$0.0000	601ms	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Hermes 3 70B	$0.0000	701ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Ministral 3 14B	$0.0000	438ms	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-4.1 Nano	$0.0000	846ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Ministral 3 8B	$0.0000	377ms	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Claude 3 Haiku	$0.0000	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Arcee AI: Trinity Mini	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	261ms	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Ministral 3 3B	$0.0000	656ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Mistral NeMO	$0.0000	647ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 8B	$0.0000	282ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Llama 3.1 8B	$0.0000	332ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3B	$0.0000	267ms	100%	100	100	100	100	100	100	100	100	100	100	100%
45	LFM2 24B	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Stealth: Hunter Alpha	$0.0000	20.1s	70%	100	100	100	100	100	100	100	100	100	50	95%
124	DeepSeek V3 (2025-03-24)	$0.0000	1.7s	70%	100	100	100	100	100	100	100	100	100	50	95%
139	Rocinante 12B	$0.0000	3.7s	51%	100	100	100	100	100	100	50	50	50	50	80%
145	Grok 4.20 (Beta, Reasoning)	$0.0025	1.8s	38%	100	100	100	100	100	50	50	50	50	50	75%
144	WizardLM 2 8x22b	$0.0001	7.1s	27%	100	100	100	50	50	50	50	50	50	50	65%
142	Cohere Command R+ (Aug. 2024)	$0.0001	332ms	27%	100	100	100	50	50	50	50	50	50	50	65%
147	Grok 4.20 (Reasoning)	$0.0014	5.8s	30%	100	100	50	50	50	50	50	50	50	50	60%
143	Llama 3.1 70B	$0.0001	411ms	35%	100	50	50	50	50	50	50	50	50	50	55%
146	Mistral Large	$0.0008	6.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
98.23%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Ministral 8B 100GPT-4.1 Mini 100Cohere Command R+ (Aug. 2024)	—
100.0%	Matches text	100GPT-5.5 (Reasoning, Low) 100Gemini 2.5 Flash Lite (Reasoning) 100DeepSeek V3 (2024-12-26)	0Mistral Large 10Llama 3.1 70B 20Grok 4.20 (Reasoning)

What's the correct time?

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Sonnet 4	100%
GPT-4o Mini (temp=0)	100%
Gemini 3 Flash (Preview, Reasoning)	90%
Gemma 4 26B (Reasoning)	80%
GPT-4o Mini (temp=1)	80%
Gemma 4 31B (Reasoning)	70%
DeepSeek V3 (2025-03-24)	70%
Mistral Small Creative	70%
Gemma 4 31B	60%
Gemini 2.5 Flash (Reasoning)	60%
GPT-5.4 Nano	60%
Claude Opus 4.7	50%
Z.AI GLM 4.6	50%
Claude Opus 4	50%
Rocinante 12B	50%
Gemini 2.5 Pro	40%
Gemma 4 26B	40%
Mistral Small 4 (Reasoning)	40%
Z.AI GLM 5.1	30%
Gemini 2.5 Flash Lite (Reasoning)	30%

	Score	Cost	Time
Mistral Small Creative	70%	$0.0000	307ms
GPT-5.4 Nano	60%	$0.0000	809ms
Claude Sonnet 4	100%	$0.0003	1.4s
GPT-4o Mini (temp=0)	100%	$0.0000	3.1s
Gemma 4 31B	60%	$0.0000	968ms
GPT-4o Mini (temp=1)	80%	$0.0000	13.7s
DeepSeek V3 (2025-03-24)	70%	$0.0002	7.8s
Gemini 3 Flash (Preview, Reasoning)	90%	$0.024	45.0s
Gemini 2.5 Flash (Reasoning)	60%	$0.028	47.6s
Gemma 4 26B (Reasoning)	80%	$0.0028	4.9m
Claude Opus 4.7	50%	$0.0006	1.5s
Rocinante 12B	50%	$0.0000	4.0s
Claude Opus 4	50%	$0.0014	4.6s
Gemma 4 31B (Reasoning)	70%	$0.0034	7.6m
Z.AI GLM 4.6	50%	$0.0076	2.5m
Gemma 3 4B	0%	$0.0000	321ms
Ministral 3B	20%	$0.0000	293ms
Mistral NeMO	0%	$0.0000	7.2s
Ministral 8B	10%	$0.0000	284ms
Ministral 3 3B	0%	$0.0000	319ms

	Score	Consistency	Stability
Claude Sonnet 4	100%	100%	100%
GPT-4o Mini (temp=0)	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	90%	40%	40%
Gemma 4 26B (Reasoning)	80%	20%	20%
GPT-4o Mini (temp=1)	80%	20%	20%
Gemma 4 31B (Reasoning)	70%	8%	8%
DeepSeek V3 (2025-03-24)	70%	8%	8%
Mistral Small Creative	70%	8%	8%
Gemma 4 31B	60%	2%	2%
Gemini 2.5 Flash (Reasoning)	60%	2%	2%
GPT-5.4 Nano	60%	2%	2%
Claude Opus 4.6 (Reasoning)	0%	100%	0%
Qwen3.6 Max Preview	20%	20%	0%
Gemini 3.1 Pro (Preview)	20%	20%	0%
Z.AI GLM 5.1	30%	8%	0%
Z.AI GLM 5 Turbo	0%	100%	0%
Claude Sonnet 4.6 (Reasoning)	0%	100%	0%
Grok 4.3 (Reasoning)	0%	100%	0%
GPT-5.4 (Reasoning)	0%	100%	0%
Claude Opus 4.7 (Reasoning)	0%	100%	0%

	Score	Cost	Speed	Stability
Claude Sonnet 4	100%	$0.0003	1.4s	100%
GPT-4o Mini (temp=0)	100%	$0.0000	3.1s	100%
Gemini 3 Flash (Preview, Reasoning)	90%	$0.024	45.0s	40%
GPT-4o Mini (temp=1)	80%	$0.0000	13.7s	20%
Mistral Small Creative	70%	$0.0000	307ms	8%
DeepSeek V3 (2025-03-24)	70%	$0.0002	7.8s	8%
GPT-5.4 Nano	60%	$0.0000	809ms	2%
Gemma 4 31B	60%	$0.0000	968ms	2%
Gemma 4 26B (Reasoning)	80%	$0.0028	4.9m	20%
Claude Opus 4.7	50%	$0.0006	1.5s	0%
Rocinante 12B	50%	$0.0000	4.0s	0%
Claude Opus 4	50%	$0.0014	4.6s	0%
Gemma 4 26B	40%	$0.0000	2.3s	0%
Gemini 2.5 Flash (Reasoning)	60%	$0.028	47.6s	2%
Mistral Small 4 (Reasoning)	40%	$0.0027	25.0s	0%
DeepSeek V3 (2024-12-26)	30%	$0.0002	4.8s	0%
Hermes 3 405B	30%	$0.0000	7.8s	0%
Gemini 2.5 Flash Lite (Reasoning)	30%	$0.0033	24.9s	0%
Z.AI GLM 4.6	50%	$0.0076	2.5m	0%
Ministral 3B	20%	$0.0000	293ms	0%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
1	Claude Sonnet 4	$0.0003	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	GPT-4o Mini (temp=0)	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3 Flash (Preview, Reasoning)	$0.024	45.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
9	Gemma 4 26B (Reasoning)	$0.0028	4.9m	20%	100	100	100	100	100	100	100	100	0	0	80%
4	GPT-4o Mini (temp=1)	$0.0000	13.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
30	Gemma 4 31B (Reasoning)	$0.0034	7.6m	8%	100	100	100	100	100	100	100	0	0	0	70%
6	DeepSeek V3 (2025-03-24)	$0.0002	7.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
5	Mistral Small Creative	$0.0000	307ms	8%	100	100	100	100	100	100	100	0	0	0	70%
8	Gemma 4 31B	$0.0000	968ms	2%	100	100	100	100	100	100	0	0	0	0	60%
14	Gemini 2.5 Flash (Reasoning)	$0.028	47.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
7	GPT-5.4 Nano	$0.0000	809ms	2%	100	100	100	100	100	100	0	0	0	0	60%
10	Claude Opus 4.7	$0.0006	1.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
19	Z.AI GLM 4.6	$0.0076	2.5m	0%	100	100	100	100	100	0	0	0	0	0	50%
12	Claude Opus 4	$0.0014	4.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
11	Rocinante 12B	$0.0000	4.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
35	Gemini 2.5 Pro	$0.057	46.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
13	Gemma 4 26B	$0.0000	2.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
15	Mistral Small 4 (Reasoning)	$0.0027	25.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
140	Z.AI GLM 5.1	$0.053	5.4m	0%	100	100	100	0	0	0	0	0	0	0	30%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	24.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
24	ByteDance Seed 2.0 Lite	$0.0063	1.2m	0%	100	100	100	0	0	0	0	0	0	0	30%
16	DeepSeek V3 (2024-12-26)	$0.0002	4.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
17	Hermes 3 405B	$0.0000	7.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
108	Qwen3.6 Max Preview	$0.024	1.5m	0%	100	100	0	0	0	0	0	0	0	0	20%
145	Gemini 3.1 Pro (Preview)	$0.182	2.9m	0%	100	100	0	0	0	0	0	0	0	0	20%
139	Z.AI GLM 5	$0.033	5.4m	0%	100	100	0	0	0	0	0	0	0	0	20%
131	MoonshotAI: Kimi K2.5	$0.025	3.3m	0%	100	100	0	0	0	0	0	0	0	0	20%
31	Z.AI GLM 4.5 Air	$0.0034	1.1m	0%	100	100	0	0	0	0	0	0	0	0	20%
21	GPT-5.4 Mini	$0.0001	542ms	0%	100	100	0	0	0	0	0	0	0	0	20%
22	DeepSeek V3.1	$0.0005	9.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
23	Arcee AI: Trinity Mini	$0.0007	26.6s	0%	100	100	0	0	0	0	0	0	0	0	20%
20	Ministral 3B	$0.0000	293ms	0%	100	100	0	0	0	0	0	0	0	0	20%
34	GPT-5 Mini	$0.0050	29.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
36	GPT-5.2	$0.011	17.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
122	MiniMax M2.7	$0.011	1.9m	0%	100	0	0	0	0	0	0	0	0	0	10%
119	MiniMax M2.5	$0.0061	1.9m	0%	100	0	0	0	0	0	0	0	0	0	10%
28	GPT-4.1	$0.0001	1.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
97	o4 Mini	$0.015	35.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
33	Stealth: Hunter Alpha	$0.0000	32.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
92	DeepSeek V3.2	$0.0016	1.2m	0%	100	0	0	0	0	0	0	0	0	0	10%
32	Mistral Large	$0.0015	7.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
26	Hermes 3 70B	$0.0000	922ms	0%	100	0	0	0	0	0	0	0	0	0	10%
29	WizardLM 2 8x22b	$0.0001	7.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
27	Cohere Command R+ (Aug. 2024)	$0.0002	454ms	0%	100	0	0	0	0	0	0	0	0	0	10%
25	Ministral 8B	$0.0000	284ms	0%	100	0	0	0	0	0	0	0	0	0	10%
125	Claude Opus 4.6 (Reasoning)	$0.026	24.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
118	Z.AI GLM 5 Turbo	$0.0097	30.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
120	Claude Sonnet 4.6 (Reasoning)	$0.016	19.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
130	Grok 4.3 (Reasoning)	$0.015	1.5m	0%	0	0	0	0	0	0	0	0	0	0	0%
107	GPT-5.4 (Reasoning)	$0.0087	14.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
78	Claude Opus 4.7 (Reasoning)	$0.0006	900ms	0%	0	0	0	0	0	0	0	0	0	0	0%
117	GPT-5.5 (Reasoning)	$0.015	11.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
106	GPT-5.5 (Reasoning, Low)	$0.0098	8.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
109	GPT-5.1	$0.0079	19.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
79	Claude Opus 4.6	$0.0005	2.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
144	MoonshotAI: Kimi K2.6	$0.044	5.9m	0%	0	0	0	0	0	0	0	0	0	0	0%
128	GPT-5	$0.025	46.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
138	Qwen 3.5 397B A17B	$0.029	3.4m	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Qwen 3.5 122B	$0.028	1.2m	0%	0	0	0	0	0	0	0	0	0	0	0%
134	Qwen 3.5 Plus (2026-04-20)	$0.022	2.3m	0%	0	0	0	0	0	0	0	0	0	0	0%
124	Grok 4.20 (Beta, Reasoning)	$0.024	18.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
96	GPT-5.4 (Reasoning, Low)	$0.0037	6.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
121	Grok 4.20 (Reasoning)	$0.0097	47.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
73	Claude Sonnet 4.6	$0.0003	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
129	Qwen 3.5 27B	$0.017	1.3m	0%	0	0	0	0	0	0	0	0	0	0	0%
110	ByteDance Seed 1.6	$0.0032	37.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
98	Qwen 3.6 Flash	$0.0041	13.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
94	GPT-5.4 Mini (Reasoning)	$0.0025	9.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
135	o4 Mini High	$0.040	1.6m	0%	0	0	0	0	0	0	0	0	0	0	0%
146	DeepSeek V4 Pro (Reasoning)	$0.021	11.2m	0%	0	0	0	0	0	0	0	0	0	0	0%
115	Qwen 3.6 27B	$0.0073	32.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
80	Claude Opus 4.5	$0.0005	2.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
114	Grok 4.1 Fast	$0.0030	46.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	Aion 2.0	$0.0095	2.3m	0%	0	0	0	0	0	0	0	0	0	0	0%
77	GPT-5.5	$0.0005	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
105	Qwen 3.6 35B	$0.0045	27.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	DeepSeek V4 Flash (Reasoning)	$0.0029	4.9m	0%	0	0	0	0	0	0	0	0	0	0	0%
143	Gemini 3 Pro (Preview)	$0.111	1.4m	0%	0	0	0	0	0	0	0	0	0	0	0%
141	Z.AI GLM 4.7	$0.014	4.5m	0%	0	0	0	0	0	0	0	0	0	0	0%
147	Grok 4	$0.157	4.1m	0%	0	0	0	0	0	0	0	0	0	0	0%
76	Claude Sonnet 4.5	$0.0003	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
123	Qwen 3.5 35B	$0.014	45.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	Xiaomi MIMO v2.5 Pro	$0.014	1.1m	0%	0	0	0	0	0	0	0	0	0	0	0%
136	ByteDance Seed 2.0 Mini	$0.0035	3.9m	0%	0	0	0	0	0	0	0	0	0	0	0%
101	GPT-OSS 120B	$0.0004	32.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
56	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	916ms	0%	0	0	0	0	0	0	0	0	0	0	0%
113	Qwen 3.5 Flash	$0.0028	42.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
74	Z.AI GLM 4.5	$0.0000	2.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
100	Grok 4 Fast	$0.0022	25.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
126	Qwen 3.5 9B	$0.0012	1.9m	0%	0	0	0	0	0	0	0	0	0	0	0%
85	Qwen 3.5 Plus (2026-02-15)	$0.0000	6.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
99	Stealth: Healer Alpha	$0.0000	30.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
53	Gemini 3.1 Flash Lite (Preview)	$0.0000	765ms	0%	0	0	0	0	0	0	0	0	0	0	0%
62	Gemini 3.1 Flash Lite	$0.0000	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
83	GPT-5.4 Mini (Reasoning, Low)	$0.0007	3.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
48	Mistral Large 3	$0.0000	560ms	0%	0	0	0	0	0	0	0	0	0	0	0%
90	GPT-4o, May 13th (temp=0)	$0.0003	6.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
55	Gemini 3 Flash (Preview)	$0.0000	783ms	0%	0	0	0	0	0	0	0	0	0	0	0%
63	Claude Haiku 4.5	$0.0001	971ms	0%	0	0	0	0	0	0	0	0	0	0	0%
116	Xiaomi MIMO v2.5	$0.0080	34.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
69	DeepSeek-V2 Chat	$0.0000	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
112	Z.AI GLM 4.7 Flash	$0.0011	47.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
111	Nemotron 3 Super	$0.0000	49.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
70	GPT-5.4	$0.0002	730ms	0%	0	0	0	0	0	0	0	0	0	0	0%
86	Claude 3.5 Sonnet	$0.0003	5.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
54	Grok 4.20 (Beta)	$0.0001	362ms	0%	0	0	0	0	0	0	0	0	0	0	0%
81	Inception Mercury 2	$0.0008	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
91	GPT-4o, May 13th (temp=1)	$0.0003	6.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	Stealth: Aurora Alpha	—	1.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
75	Claude 3.7 Sonnet	$0.0003	1.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
64	GPT-4.1 Mini	$0.0000	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
95	DeepSeek V4 Pro	$0.0001	20.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
66	GPT-4o, Aug. 6th (temp=1)	$0.0002	885ms	0%	0	0	0	0	0	0	0	0	0	0	0%
102	GPT-5 Nano	$0.0011	29.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
68	GPT-4o, Aug. 6th (temp=0)	$0.0002	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
57	Mistral Large 2	$0.0002	448ms	0%	0	0	0	0	0	0	0	0	0	0	0%
104	Qwen 3 32B	$0.0010	40.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
72	DeepSeek V4 Flash	$0.0000	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
58	Grok 4.20	$0.0001	546ms	0%	0	0	0	0	0	0	0	0	0	0	0%
93	GPT-5.4 Nano (Reasoning)	$0.0009	11.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
39	Gemini 2.5 Flash Lite	$0.0000	327ms	0%	0	0	0	0	0	0	0	0	0	0	0%
46	Gemini 2.5 Flash	$0.0000	555ms	0%	0	0	0	0	0	0	0	0	0	0	0%
59	Qwen3 235B A22B Instruct 2507	$0.0000	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
84	Writer: Palmyra X5	$0.0002	5.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
71	Inception Mercury	$0.0000	1.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
89	GPT-5.4 Nano (Reasoning, Low)	$0.0005	5.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
67	Grok 4.3	$0.0002	906ms	0%	0	0	0	0	0	0	0	0	0	0	0%
60	Mistral Small 3.2 24B	$0.0000	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
49	Gemma 3 12B	$0.0000	698ms	0%	0	0	0	0	0	0	0	0	0	0	0%
45	Llama 3.1 70B	$0.0001	424ms	0%	0	0	0	0	0	0	0	0	0	0	0%
42	Gemma 3 27B	$0.0000	557ms	0%	0	0	0	0	0	0	0	0	0	0	0%
43	Mistral Medium 3.1	$0.0000	487ms	0%	0	0	0	0	0	0	0	0	0	0	0%
103	Nemotron 3 Nano	$0.0004	34.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
50	Mistral Small 4	$0.0000	685ms	0%	0	0	0	0	0	0	0	0	0	0	0%
51	Qwen 2.5 72B	$0.0000	622ms	0%	0	0	0	0	0	0	0	0	0	0	0%
52	Llama 3.1 Nemotron 70B	$0.0000	747ms	0%	0	0	0	0	0	0	0	0	0	0	0%
44	Arcee AI: Trinity Large (Preview)	$0.0000	630ms	0%	0	0	0	0	0	0	0	0	0	0	0%
87	ByteDance Seed 1.6 Flash	$0.0003	5.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
41	Ministral 3 14B	$0.0000	347ms	0%	0	0	0	0	0	0	0	0	0	0	0%
65	GPT-4.1 Nano	$0.0000	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
40	Ministral 3 8B	$0.0000	324ms	0%	0	0	0	0	0	0	0	0	0	0	0%
82	Claude 3 Haiku	$0.0000	5.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
37	Gemma 3 4B	$0.0000	321ms	0%	0	0	0	0	0	0	0	0	0	0	0%
38	Ministral 3 3B	$0.0000	319ms	0%	0	0	0	0	0	0	0	0	0	0	0%
88	Mistral NeMO	$0.0000	7.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
47	Llama 3.1 8B	$0.0000	633ms	0%	0	0	0	0	0	0	0	0	0	0	0%
61	LFM2 24B	$0.0000	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
11.02%

Median	Evaluator	Top 3	Flop 3
0.0%	Matches Regex	100Claude Sonnet 4 100GPT-4o Mini (temp=0) 90Gemini 3 Flash (Preview, Reasoning)	0Xiaomi MIMO v2.5 0Claude 3 Haiku 0ByteDance Seed 1.6 Flash

Who's the sister?

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	4.2s
Arcee AI: Trinity Large (Preview)	100%	$0.0000	625ms
Ministral 3B	100%	$0.0000	289ms
LFM2 24B	100%	$0.0000	401ms
Nemotron 3 Super	100%	$0.0000	1.4s
Gemma 3 4B	100%	$0.0000	252ms
Gemma 3 12B	100%	$0.0000	392ms
Stealth: Healer Alpha	100%	$0.0000	1.8s
Ministral 8B	100%	$0.0000	276ms
Ministral 3 3B	100%	$0.0000	363ms
Mistral Small Creative	100%	$0.0000	306ms
Inception Mercury	100%	$0.0000	337ms
Gemini 2.5 Flash Lite	100%	$0.0000	375ms
Mistral Small 3.2 24B	100%	$0.0000	461ms
Gemma 3 27B	100%	$0.0000	533ms
Gemma 4 26B	100%	$0.0000	701ms
Mistral NeMO	100%	$0.0000	13.7s
Ministral 3 8B	100%	$0.0000	333ms
GPT-4.1 Nano	100%	$0.0000	1.2s
Qwen3 235B A22B Instruct 2507	90%	$0.0000	1.5s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	252ms	100%
Ministral 3B	100%	$0.0000	289ms	100%
LFM2 24B	100%	$0.0000	401ms	100%
Ministral 8B	100%	$0.0000	276ms	100%
Mistral Small Creative	100%	$0.0000	306ms	100%
Gemma 3 12B	100%	$0.0000	392ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	625ms	100%
Ministral 3 3B	100%	$0.0000	363ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	375ms	100%
Ministral 3 8B	100%	$0.0000	333ms	100%
Mistral Small 3.2 24B	100%	$0.0000	461ms	100%
Inception Mercury	100%	$0.0000	337ms	100%
Gemma 3 27B	100%	$0.0000	533ms	100%
Ministral 3 14B	100%	$0.0000	360ms	100%
Llama 3.1 8B	100%	$0.0000	315ms	100%
Mistral Small 4	100%	$0.0000	451ms	100%
Gemma 4 26B	100%	$0.0000	701ms	100%
Gemini 2.5 Flash	100%	$0.0000	410ms	100%
Nemotron 3 Super	100%	$0.0000	1.4s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0000	714ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
114	Claude Opus 4.6 (Reasoning)	$0.0006	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Qwen3.6 Max Preview	$0.0023	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Gemini 3.1 Pro (Preview)	$0.0024	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Z.AI GLM 5.1	$0.0010	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Z.AI GLM 5 Turbo	$0.0007	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Claude Sonnet 4.6 (Reasoning)	$0.0003	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Grok 4.3 (Reasoning)	$0.0006	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	GPT-5.4 (Reasoning)	$0.0008	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Claude Opus 4.7 (Reasoning)	$0.0006	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	GPT-5.5 (Reasoning)	$0.0010	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	GPT-5 Mini	$0.0002	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	GPT-5.5 (Reasoning, Low)	$0.0008	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	GPT-5.1	$0.0003	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Claude Opus 4.6	$0.0005	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	MoonshotAI: Kimi K2.6	$0.0004	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	GPT-5	$0.0010	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Qwen 3.5 397B A17B	$0.0011	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Gemma 4 31B (Reasoning)	$0.0001	14.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Qwen 3.5 122B	$0.0011	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Qwen 3.5 Plus (2026-04-20)	$0.0007	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemma 4 26B (Reasoning)	$0.0001	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	GPT-5.4 (Reasoning, Low)	$0.0004	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Z.AI GLM 5	$0.0009	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Claude Sonnet 4.6	$0.0003	936ms	100%	100	100	100	100	100	100	100	100	100	100	100%
111	MoonshotAI: Kimi K2.5	$0.0004	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Qwen 3.5 27B	$0.0008	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	ByteDance Seed 1.6	$0.0002	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Qwen 3.6 Flash	$0.0004	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	GPT-5.4 Mini (Reasoning)	$0.0001	933ms	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Gemini 3 Flash (Preview, Reasoning)	$0.0005	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	o4 Mini High	$0.0004	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5.2	$0.0002	712ms	100%	100	100	100	100	100	100	100	100	100	100	100%
107	DeepSeek V4 Pro (Reasoning)	$0.0003	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Claude Opus 4.7	$0.0006	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Qwen 3.6 27B	$0.0008	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Claude Opus 4.5	$0.0005	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Grok 4.1 Fast	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Aion 2.0	$0.0004	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Z.AI GLM 4.6	$0.0009	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	MiniMax M2.7	$0.0003	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	GPT-5.5	$0.0005	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Qwen 3.6 35B	$0.0003	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	DeepSeek V4 Flash (Reasoning)	$0.0000	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Gemini 3 Pro (Preview)	$0.0028	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Claude Sonnet 4	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	MiniMax M2.5	$0.0002	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Z.AI GLM 4.7	$0.0006	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-4.1	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Gemini 2.5 Pro	$0.0021	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
143	o4 Mini	$0.0004	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Grok 4	$0.0030	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Claude Sonnet 4.5	$0.0003	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen 3.5 35B	$0.0008	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Claude Opus 4	$0.0015	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Xiaomi MIMO v2.5 Pro	$0.0006	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Stealth: Hunter Alpha	$0.0000	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	ByteDance Seed 2.0 Mini	$0.0000	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Gemma 4 31B	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Gemini 2.5 Flash (Reasoning)	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	GPT-OSS 120B	$0.0000	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Qwen 3.5 Flash	$0.0002	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Z.AI GLM 4.5	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Grok 4 Fast	$0.0001	915ms	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Qwen 3.5 9B	$0.0001	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Qwen 3.5 Plus (2026-02-15)	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Stealth: Healer Alpha	$0.0000	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Gemini 3.1 Flash Lite (Preview)	$0.0000	714ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemma 4 26B	$0.0000	701ms	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 3.1 Flash Lite	$0.0000	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	GPT-5.4 Mini (Reasoning, Low)	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Gemini 2.5 Flash Lite (Reasoning)	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Mistral Large 3	$0.0000	465ms	100%	100	100	100	100	100	100	100	100	100	100	100%
101	GPT-4o, May 13th (temp=0)	$0.0003	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Gemini 3 Flash (Preview)	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Claude Haiku 4.5	$0.0001	955ms	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Xiaomi MIMO v2.5	$0.0004	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	DeepSeek-V2 Chat	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Z.AI GLM 4.7 Flash	$0.0001	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	ByteDance Seed 2.0 Lite	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Nemotron 3 Super	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	GPT-5.4	$0.0002	772ms	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Claude 3.5 Sonnet	$0.0003	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Grok 4.20 (Beta)	$0.0001	406ms	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Inception Mercury 2	$0.0001	304ms	100%	100	100	100	100	100	100	100	100	100	100	100%
102	GPT-4o, May 13th (temp=1)	$0.0003	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Stealth: Aurora Alpha	—	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	DeepSeek V3 (2024-12-26)	$0.0000	683ms	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Claude 3.7 Sonnet	$0.0003	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-4.1 Mini	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Z.AI GLM 4.5 Air	$0.0001	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Hermes 3 405B	$0.0000	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	DeepSeek V4 Pro	$0.0001	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-4o, Aug. 6th (temp=1)	$0.0002	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5 Nano	$0.0001	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-4o, Aug. 6th (temp=0)	$0.0002	952ms	100%	100	100	100	100	100	100	100	100	100	100	100%
50	GPT-5.4 Mini	$0.0001	739ms	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Mistral Large 2	$0.0001	799ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Mistral Small 4 (Reasoning)	$0.0001	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	DeepSeek V3.1	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	DeepSeek V3.2	$0.0000	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Qwen 3 32B	$0.0001	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	DeepSeek V4 Flash	$0.0000	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	DeepSeek V3 (2025-03-24)	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Grok 4.20	$0.0001	465ms	100%	100	100	100	100	100	100	100	100	100	100	100%
33	GPT-5.4 Nano (Reasoning)	$0.0000	910ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 2.5 Flash Lite	$0.0000	375ms	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Gemini 2.5 Flash	$0.0000	410ms	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Mistral Large	$0.0006	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Writer: Palmyra X5	$0.0002	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Inception Mercury	$0.0000	337ms	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Nano (Reasoning, Low)	$0.0000	671ms	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-4o Mini (temp=1)	$0.0000	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Grok 4.3	$0.0002	643ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral Small 3.2 24B	$0.0000	461ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemma 3 12B	$0.0000	392ms	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Llama 3.1 70B	$0.0001	431ms	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-4o Mini (temp=0)	$0.0000	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemma 3 27B	$0.0000	533ms	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Mistral Medium 3.1	$0.0000	545ms	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Nemotron 3 Nano	$0.0000	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral Small 4	$0.0000	451ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Qwen 2.5 72B	$0.0000	670ms	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Llama 3.1 Nemotron 70B	$0.0000	705ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-5.4 Nano	$0.0000	805ms	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Arcee AI: Trinity Large (Preview)	$0.0000	625ms	100%	100	100	100	100	100	100	100	100	100	100	100%
44	ByteDance Seed 1.6 Flash	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Mistral Small Creative	$0.0000	306ms	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Hermes 3 70B	$0.0000	568ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Ministral 3 14B	$0.0000	360ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-4.1 Nano	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Ministral 3 8B	$0.0000	333ms	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude 3 Haiku	$0.0000	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Arcee AI: Trinity Mini	$0.0000	952ms	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	252ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Ministral 3 3B	$0.0000	363ms	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Mistral NeMO	$0.0000	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Ministral 8B	$0.0000	276ms	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Llama 3.1 8B	$0.0000	315ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3B	$0.0000	289ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	LFM2 24B	$0.0000	401ms	100%	100	100	100	100	100	100	100	100	100	100	100%
137	WizardLM 2 8x22b	$0.0001	5.5s	70%	100	100	100	100	100	100	100	100	100	50	95%
144	Qwen3 235B A22B Instruct 2507	$0.0000	1.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
142	Rocinante 12B	$0.0000	1.5s	60%	100	100	100	100	100	100	100	100	50	50	90%
147	Grok 4.20 (Beta, Reasoning)	$0.0023	1.8s	54%	100	100	100	100	100	100	100	50	50	50	85%
146	Grok 4.20 (Reasoning)	$0.0014	5.6s	51%	100	100	100	100	100	100	50	50	50	50	80%
145	Cohere Command R+ (Aug. 2024)	$0.0002	350ms	38%	100	100	100	100	100	50	50	50	50	50	75%
99.42%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Ministral 8B 100DeepSeek V4 Flash 100GPT-5 Nano	90Qwen3 235B A22B Instruct 2507
100.0%	Matches text	100GPT-5 Nano 100Ministral 8B 100DeepSeek V4 Flash	50Cohere Command R+ (Aug. 2024) 60Grok 4.20 (Reasoning) 70Grok 4.20 (Beta, Reasoning)

Contextual pronoun

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Gemma 4 26B (Reasoning)	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	238ms
Ministral 3B	80%	$0.0000	262ms
LFM2 24B	100%	$0.0000	537ms
Ministral 3 3B	100%	$0.0000	277ms
Ministral 8B	90%	$0.0000	276ms
Mistral NeMO	100%	$0.0000	3.9s
Mistral Small Creative	100%	$0.0000	276ms
Gemini 2.5 Flash Lite	100%	$0.0000	328ms
Inception Mercury	100%	$0.0000	327ms
Ministral 3 8B	100%	$0.0000	393ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	558ms
Gemma 3 12B	100%	$0.0000	509ms
Ministral 3 14B	100%	$0.0000	414ms
Mistral Small 3.2 24B	100%	$0.0000	634ms
Llama 3.1 8B	95%	$0.0000	398ms
Mistral Small 4	100%	$0.0000	413ms
Stealth: Aurora Alpha	100%	—	2.4s
Gemma 4 26B	100%	$0.0000	920ms
Gemma 3 27B	100%	$0.0000	1.5s
Gemini 2.5 Flash	100%	$0.0000	430ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0000	238ms	100%
Ministral 3 3B	100%	$0.0000	277ms	100%
Mistral Small Creative	100%	$0.0000	276ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	328ms	100%
Inception Mercury	100%	$0.0000	327ms	100%
Ministral 3 8B	100%	$0.0000	393ms	100%
Ministral 3 14B	100%	$0.0000	414ms	100%
Mistral Small 4	100%	$0.0000	413ms	100%
Gemma 3 12B	100%	$0.0000	509ms	100%
LFM2 24B	100%	$0.0000	537ms	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	558ms	100%
Gemini 2.5 Flash	100%	$0.0000	430ms	100%
Mistral Small 3.2 24B	100%	$0.0000	634ms	100%
Gemini 3.1 Flash Lite	100%	$0.0000	631ms	100%
Mistral Large 3	100%	$0.0000	499ms	100%
Mistral Medium 3.1	100%	$0.0000	551ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0000	682ms	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0000	691ms	100%
Hermes 3 70B	100%	$0.0000	590ms	100%
Llama 3.1 70B	100%	$0.0001	413ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
78	Claude Opus 4.6 (Reasoning)	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Qwen3.6 Max Preview	$0.0026	10.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Gemini 3.1 Pro (Preview)	$0.0033	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Z.AI GLM 5.1	$0.0011	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Z.AI GLM 5 Turbo	$0.0007	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Claude Sonnet 4.6 (Reasoning)	$0.0007	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Grok 4.3 (Reasoning)	$0.0010	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-5.4 (Reasoning)	$0.0011	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Claude Opus 4.7 (Reasoning)	$0.0006	919ms	100%	100	100	100	100	100	100	100	100	100	100	100%
108	GPT-5.5 (Reasoning)	$0.0012	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	GPT-5 Mini	$0.0003	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	GPT-5.5 (Reasoning, Low)	$0.0011	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	GPT-5.1	$0.0005	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Claude Opus 4.6	$0.0004	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	MoonshotAI: Kimi K2.6	$0.0009	12.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	GPT-5	$0.0019	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Qwen 3.5 397B A17B	$0.0015	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Gemma 4 31B (Reasoning)	$0.0001	22.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Qwen 3.5 122B	$0.0012	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Gemma 4 26B (Reasoning)	$0.0001	11.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	GPT-5.4 (Reasoning, Low)	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Z.AI GLM 5	$0.0011	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Claude Sonnet 4.6	$0.0002	954ms	100%	100	100	100	100	100	100	100	100	100	100	100%
103	MoonshotAI: Kimi K2.5	$0.0007	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Qwen 3.5 27B	$0.0010	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	ByteDance Seed 1.6	$0.0003	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Qwen 3.6 Flash	$0.0004	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	GPT-5.4 Mini (Reasoning)	$0.0002	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Gemini 3 Flash (Preview, Reasoning)	$0.0007	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	o4 Mini High	$0.0005	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	GPT-5.2	$0.0007	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	DeepSeek V4 Pro (Reasoning)	$0.0004	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Claude Opus 4.7	$0.0006	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Qwen 3.6 27B	$0.0011	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Claude Opus 4.5	$0.0004	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Grok 4.1 Fast	$0.0001	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Aion 2.0	$0.0005	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Z.AI GLM 4.6	$0.0011	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	MiniMax M2.7	$0.0002	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-5.5	$0.0004	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen 3.6 35B	$0.0005	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	DeepSeek V4 Flash (Reasoning)	$0.0000	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Gemini 3 Pro (Preview)	$0.0037	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Claude Sonnet 4	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	MiniMax M2.5	$0.0003	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Z.AI GLM 4.7	$0.0007	21.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-4.1	$0.0001	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Gemini 2.5 Pro	$0.0043	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	o4 Mini	$0.0005	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Grok 4	$0.0041	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Claude Sonnet 4.5	$0.0002	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Qwen 3.5 35B	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Claude Opus 4	$0.0012	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Xiaomi MIMO v2.5 Pro	$0.0008	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Stealth: Hunter Alpha	$0.0000	40.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	ByteDance Seed 2.0 Mini	$0.0002	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Gemma 4 31B	$0.0000	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Gemini 2.5 Flash (Reasoning)	$0.0008	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	GPT-OSS 120B	$0.0000	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	691ms	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Qwen 3.5 Flash	$0.0002	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Z.AI GLM 4.5	$0.0002	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Grok 4 Fast	$0.0001	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen 3.5 9B	$0.0001	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Stealth: Healer Alpha	$0.0000	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemini 3.1 Flash Lite (Preview)	$0.0000	682ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Gemma 4 26B	$0.0000	920ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 3.1 Flash Lite	$0.0000	631ms	100%	100	100	100	100	100	100	100	100	100	100	100%
44	GPT-5.4 Mini (Reasoning, Low)	$0.0002	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Gemini 2.5 Flash Lite (Reasoning)	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Mistral Large 3	$0.0000	499ms	100%	100	100	100	100	100	100	100	100	100	100	100%
88	GPT-4o, May 13th (temp=0)	$0.0003	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemini 3 Flash (Preview)	$0.0000	728ms	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Claude Haiku 4.5	$0.0001	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Xiaomi MIMO v2.5	$0.0005	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	DeepSeek-V2 Chat	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Z.AI GLM 4.7 Flash	$0.0001	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	ByteDance Seed 2.0 Lite	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Nemotron 3 Super	$0.0000	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-5.4	$0.0002	735ms	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Claude 3.5 Sonnet	$0.0002	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4.20 (Beta)	$0.0001	455ms	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Inception Mercury 2	$0.0001	335ms	100%	100	100	100	100	100	100	100	100	100	100	100%
91	GPT-4o, May 13th (temp=1)	$0.0003	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Stealth: Aurora Alpha	—	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude 3.7 Sonnet	$0.0003	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-4.1 Mini	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Z.AI GLM 4.5 Air	$0.0003	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Hermes 3 405B	$0.0000	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	DeepSeek V4 Pro	$0.0001	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-4o, Aug. 6th (temp=1)	$0.0001	849ms	100%	100	100	100	100	100	100	100	100	100	100	100%
61	GPT-5 Nano	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	GPT-4o, Aug. 6th (temp=0)	$0.0001	853ms	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5.4 Mini	$0.0001	590ms	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Mistral Large 2	$0.0001	296ms	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Mistral Small 4 (Reasoning)	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	DeepSeek V3.1	$0.0000	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	DeepSeek V3.2	$0.0000	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Grok 4.20	$0.0001	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-5.4 Nano (Reasoning)	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 2.5 Flash Lite	$0.0000	328ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 2.5 Flash	$0.0000	430ms	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Qwen3 235B A22B Instruct 2507	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Writer: Palmyra X5	$0.0002	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury	$0.0000	327ms	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.4 Nano (Reasoning, Low)	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	GPT-4o Mini (temp=1)	$0.0000	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Grok 4.3	$0.0001	676ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Mistral Small 3.2 24B	$0.0000	634ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemma 3 12B	$0.0000	509ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Llama 3.1 70B	$0.0001	413ms	100%	100	100	100	100	100	100	100	100	100	100	100%
121	GPT-4o Mini (temp=0)	$0.0000	20.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemma 3 27B	$0.0000	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral Medium 3.1	$0.0000	551ms	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Nemotron 3 Nano	$0.0001	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Mistral Small 4	$0.0000	413ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Qwen 2.5 72B	$0.0000	680ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Llama 3.1 Nemotron 70B	$0.0000	754ms	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Nano	$0.0000	774ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Arcee AI: Trinity Large (Preview)	$0.0000	558ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Mistral Small Creative	$0.0000	276ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Hermes 3 70B	$0.0000	590ms	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3 14B	$0.0000	414ms	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-4.1 Nano	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Ministral 3 8B	$0.0000	393ms	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Claude 3 Haiku	$0.0000	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	WizardLM 2 8x22b	$0.0001	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	238ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0000	277ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Mistral NeMO	$0.0000	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	LFM2 24B	$0.0000	537ms	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Qwen 3.5 Plus (2026-04-20)	$0.0011	8.2s	70%	100	100	100	100	100	100	100	100	100	50	95%
119	DeepSeek V3 (2024-12-26)	$0.0000	1.4s	70%	100	100	100	100	100	100	100	100	100	50	95%
127	Qwen 3 32B	$0.0001	6.3s	70%	100	100	100	100	100	100	100	100	100	50	95%
118	DeepSeek V3 (2025-03-24)	$0.0000	1.2s	70%	100	100	100	100	100	100	100	100	100	50	95%
123	ByteDance Seed 1.6 Flash	$0.0001	1.8s	70%	100	100	100	100	100	100	100	100	100	50	95%
117	Llama 3.1 8B	$0.0000	398ms	70%	100	100	100	100	100	100	100	100	100	50	95%
141	Qwen 3.5 Plus (2026-02-15)	$0.0000	11.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
138	DeepSeek V4 Flash	$0.0000	2.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
135	Ministral 8B	$0.0000	276ms	40%	100	100	100	100	100	100	100	100	100	0	90%
134	Rocinante 12B	$0.0000	3.1s	54%	100	100	100	100	100	100	100	50	50	50	85%
142	Ministral 3B	$0.0000	262ms	20%	100	100	100	100	100	100	100	100	0	0	80%
143	Mistral Large	$0.0008	5.4s	38%	100	100	100	100	100	50	50	50	50	50	75%
145	Arcee AI: Trinity Mini	$0.0001	2.3s	30%	100	100	50	50	50	50	50	50	50	50	60%
144	Cohere Command R+ (Aug. 2024)	$0.0001	780ms	30%	100	100	50	50	50	50	50	50	50	50	60%
147	Grok 4.20 (Beta, Reasoning)	$0.0032	2.2s	50%	50	50	50	50	50	50	50	50	50	50	50%
146	Grok 4.20 (Reasoning)	$0.0014	9.4s	50%	50	50	50	50	50	50	50	50	50	50	50%
97.96%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Claude Opus 4.7 100Arcee AI: Trinity Mini 100GPT-5.4 (Reasoning, Low)	80Ministral 3B 90Ministral 8B 90DeepSeek V4 Flash
100.0%	Matches text	100GPT-5.5 100GPT-4.1 Nano 100Qwen 3.6 35B	0Grok 4.20 (Beta, Reasoning) 0Grok 4.20 (Reasoning) 20Cohere Command R+ (Aug. 2024)

Indirect birth year

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	309ms
LFM2 24B	100%	$0.0000	1.5s
Mistral Small Creative	100%	$0.0000	329ms
Gemma 3 12B	100%	$0.0000	427ms
Ministral 3 3B	90%	$0.0000	361ms
Gemini 2.5 Flash Lite	100%	$0.0000	350ms
Llama 3.1 8B	100%	$0.0000	582ms
Stealth: Aurora Alpha	100%	—	871ms
Ministral 3 14B	100%	$0.0000	434ms
Inception Mercury	100%	$0.0000	335ms
Mistral Small 4	90%	$0.0000	749ms
DeepSeek V3 (2024-12-26)	100%	$0.0000	640ms
Llama 3.1 Nemotron 70B	100%	$0.0000	467ms
Gemma 3 27B	100%	$0.0000	790ms
GPT-4.1 Nano	100%	$0.0000	937ms
GPT-5.4 Nano	100%	$0.0000	704ms
Qwen3 235B A22B Instruct 2507	100%	$0.0000	1.9s
Gemini 3.1 Flash Lite	100%	$0.0000	595ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0000	702ms
Hermes 3 70B	100%	$0.0000	447ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

Fruits excluding citrus

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%

Future event time

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%

Highest-rated movie

Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

All valid emails

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Gemma 4 26B 100GPT-5 100o4 Mini	0Cohere Command R+ (Aug. 2024) 0DeepSeek V4 Flash 0Ministral 3 8B
100.0%	Matches text	100Claude Haiku 4.5 100Gemini 3 Flash (Preview) 100GPT-5.4	0Ministral 3 8B 0Grok 4.20 (Beta) 0Mistral Small 3.2 24B

	Score	Cost	Time
Ministral 3B	90%	$0.0000	344ms
Gemma 3 4B	100%	$0.0000	419ms
Ministral 3 3B	100%	$0.0000	387ms
Ministral 8B	90%	$0.0000	404ms
Gemini 2.5 Flash Lite	100%	$0.0000	368ms
Mistral Small Creative	100%	$0.0000	419ms
Mistral NeMO	100%	$0.0000	1.7s
Ministral 3 8B	100%	$0.0000	436ms
Ministral 3 14B	100%	$0.0000	608ms
Llama 3.1 8B	90%	$0.0000	575ms
Mistral Small 3.2 24B	100%	$0.0000	712ms
Inception Mercury	90%	$0.0000	542ms
Mistral Small 4	100%	$0.0000	532ms
LFM2 24B	100%	$0.0000	2.0s
Gemma 3 27B	100%	$0.0000	1.1s
Stealth: Aurora Alpha	100%	—	3.4s
Gemma 4 31B	100%	$0.0000	3.5s
Gemma 3 12B	100%	$0.0000	987ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0000	1.4s
Gemini 3.1 Flash Lite	100%	$0.0000	647ms

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
118	Claude Opus 4.6 (Reasoning)	$0.0044	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Qwen3.6 Max Preview	$0.0066	23.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Gemini 3.1 Pro (Preview)	$0.0061	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Z.AI GLM 5.1	$0.0023	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Claude Sonnet 4.6 (Reasoning)	$0.0020	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Grok 4.3 (Reasoning)	$0.0023	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	GPT-5.4 (Reasoning)	$0.0017	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Claude Opus 4.7 (Reasoning)	$0.0015	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	GPT-5.5 (Reasoning)	$0.0034	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5 Mini	$0.0007	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-5.5 (Reasoning, Low)	$0.0029	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.1	$0.0011	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Claude Opus 4.6	$0.0011	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	MoonshotAI: Kimi K2.6	$0.0018	13.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Qwen 3.5 397B A17B	$0.0028	21.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Gemma 4 31B (Reasoning)	$0.0002	20.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Qwen 3.5 122B	$0.0031	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Qwen 3.5 Plus (2026-04-20)	$0.0033	21.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Gemma 4 26B (Reasoning)	$0.0001	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Grok 4.20 (Beta, Reasoning)	$0.0042	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5.4 (Reasoning, Low)	$0.0012	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Grok 4.20 (Reasoning)	$0.0020	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Z.AI GLM 5	$0.0019	13.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Claude Sonnet 4.6	$0.0008	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	MoonshotAI: Kimi K2.5	$0.0015	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Qwen 3.5 27B	$0.0019	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	ByteDance Seed 1.6	$0.0006	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Qwen 3.6 Flash	$0.0018	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	GPT-5.4 Mini (Reasoning)	$0.0008	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Gemini 3 Flash (Preview, Reasoning)	$0.0011	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	o4 Mini High	$0.0013	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	GPT-5.2	$0.0013	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	DeepSeek V4 Pro (Reasoning)	$0.0054	52.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Claude Opus 4.7	$0.0015	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Opus 4.5	$0.0015	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Grok 4.1 Fast	$0.0002	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Aion 2.0	$0.0008	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Z.AI GLM 4.6	$0.0014	20.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	MiniMax M2.7	$0.0009	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	GPT-5.5	$0.0010	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen 3.6 35B	$0.0019	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	DeepSeek V4 Flash (Reasoning)	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Gemini 3 Pro (Preview)	$0.0067	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Claude Sonnet 4	$0.0006	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	MiniMax M2.5	$0.0011	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Z.AI GLM 4.7	$0.0012	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	GPT-4.1	$0.0003	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	o4 Mini	$0.0013	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Grok 4	$0.0068	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Claude Sonnet 4.5	$0.0006	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Qwen 3.5 35B	$0.0026	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Claude Opus 4	$0.0085	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Xiaomi MIMO v2.5 Pro	$0.0013	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Stealth: Hunter Alpha	$0.0000	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	ByteDance Seed 2.0 Mini	$0.0002	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Gemma 4 31B	$0.0000	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	GPT-OSS 120B	$0.0001	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen 3.5 Flash	$0.0006	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Z.AI GLM 4.5	$0.0001	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Grok 4 Fast	$0.0002	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Qwen 3.5 9B	$0.0002	16.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Qwen 3.5 Plus (2026-02-15)	$0.0001	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Preview)	$0.0000	742ms	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemma 4 26B	$0.0000	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0000	647ms	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-5.4 Mini (Reasoning, Low)	$0.0004	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Gemini 2.5 Flash Lite (Reasoning)	$0.0001	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Mistral Large 3	$0.0001	643ms	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-4o, May 13th (temp=0)	$0.0007	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Gemini 3 Flash (Preview)	$0.0001	832ms	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Claude Haiku 4.5	$0.0002	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Xiaomi MIMO v2.5	$0.0012	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	DeepSeek-V2 Chat	$0.0000	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	ByteDance Seed 2.0 Lite	$0.0006	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Nemotron 3 Super	$0.0000	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-5.4	$0.0005	885ms	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Claude 3.5 Sonnet	$0.0011	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Inception Mercury 2	$0.0002	489ms	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-4o, May 13th (temp=1)	$0.0007	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Stealth: Aurora Alpha	—	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	DeepSeek V3 (2024-12-26)	$0.0001	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude 3.7 Sonnet	$0.0006	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-4.1 Mini	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Z.AI GLM 4.5 Air	$0.0005	15.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	DeepSeek V4 Pro	$0.0001	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-4o, Aug. 6th (temp=1)	$0.0004	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	GPT-5 Nano	$0.0004	14.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-4o, Aug. 6th (temp=0)	$0.0004	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini	$0.0002	743ms	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Mistral Large 2	$0.0003	824ms	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Mistral Small 4 (Reasoning)	$0.0002	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	DeepSeek V3.1	$0.0000	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	DeepSeek V3.2	$0.0001	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Qwen 3 32B	$0.0002	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	DeepSeek V4 Flash	$0.0000	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	DeepSeek V3 (2025-03-24)	$0.0001	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Grok 4.20	$0.0002	586ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0000	368ms	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Mistral Large	$0.0013	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Qwen3 235B A22B Instruct 2507	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Writer: Palmyra X5	$0.0003	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5.4 Nano (Reasoning, Low)	$0.0001	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	GPT-4o Mini (temp=1)	$0.0000	50.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Mistral Small 3.2 24B	$0.0000	712ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemma 3 12B	$0.0000	987ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Llama 3.1 70B	$0.0001	683ms	100%	100	100	100	100	100	100	100	100	100	100	100%
107	GPT-4o Mini (temp=0)	$0.0000	22.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 3 27B	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral Medium 3.1	$0.0001	559ms	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Nemotron 3 Nano	$0.0001	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Mistral Small 4	$0.0000	532ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Qwen 2.5 72B	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Llama 3.1 Nemotron 70B	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 Nano	$0.0000	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	ByteDance Seed 1.6 Flash	$0.0001	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Mistral Small Creative	$0.0000	419ms	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Hermes 3 70B	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3 14B	$0.0000	608ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Ministral 3 8B	$0.0000	436ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Claude 3 Haiku	$0.0001	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	WizardLM 2 8x22b	$0.0001	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Arcee AI: Trinity Mini	$0.0001	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	419ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0000	387ms	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Mistral NeMO	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	LFM2 24B	$0.0000	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	GPT-5	$0.0052	11.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
143	Qwen 3.6 27B	$0.0044	20.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
142	Gemini 2.5 Pro	$0.0062	5.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
128	Stealth: Healer Alpha	$0.0000	5.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
130	Z.AI GLM 4.7 Flash	$0.0002	8.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
123	Grok 4.20 (Beta)	$0.0002	525ms	40%	100	100	100	100	100	100	100	100	100	0	90%
127	GPT-5.4 Nano (Reasoning)	$0.0001	3.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
121	Inception Mercury	$0.0000	542ms	40%	100	100	100	100	100	100	100	100	100	0	90%
124	Grok 4.3	$0.0002	775ms	40%	100	100	100	100	100	100	100	100	100	0	90%
120	Ministral 8B	$0.0000	404ms	40%	100	100	100	100	100	100	100	100	100	0	90%
122	Llama 3.1 8B	$0.0000	575ms	40%	100	100	100	100	100	100	100	100	100	0	90%
119	Ministral 3B	$0.0000	344ms	40%	100	100	100	100	100	100	100	100	100	0	90%
126	Rocinante 12B	$0.0000	3.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
140	Z.AI GLM 5 Turbo	$0.0015	5.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
135	Gemini 2.5 Flash (Reasoning)	$0.0005	1.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
136	Hermes 3 405B	$0.0000	7.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
139	Arcee AI: Trinity Large (Preview)	$0.0000	1.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
145	Cohere Command R+ (Aug. 2024)	$0.0004	816ms	0%	100	100	100	100	0	0	0	0	0	0	40%
146	Gemini 2.5 Flash	$0.0001	553ms	0%	0	0	0	0	0	0	0	0	0	0	0%
147	GPT-4.1 Nano	$0.0000	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
96.73%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
80	Qwen3.6 Max Preview	$0.0048	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Gemini 3.1 Pro (Preview)	$0.0040	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Z.AI GLM 5.1	$0.0016	21.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Z.AI GLM 5 Turbo	$0.0010	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Grok 4.3 (Reasoning)	$0.0015	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-5.4 (Reasoning)	$0.0011	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Claude Opus 4.7 (Reasoning)	$0.0009	861ms	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-5.5 (Reasoning)	$0.0018	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5 Mini	$0.0004	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-5.5 (Reasoning, Low)	$0.0018	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.1	$0.0007	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	MoonshotAI: Kimi K2.6	$0.0020	15.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-5	$0.0028	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Qwen 3.5 397B A17B	$0.0034	24.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Gemma 4 31B (Reasoning)	$0.0001	24.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Qwen 3.5 122B	$0.0042	10.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen 3.5 Plus (2026-04-20)	$0.0017	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Gemma 4 26B (Reasoning)	$0.0001	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5.4 (Reasoning, Low)	$0.0007	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Z.AI GLM 5	$0.0034	41.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	MoonshotAI: Kimi K2.5	$0.0015	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Qwen 3.5 27B	$0.0023	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	ByteDance Seed 1.6	$0.0009	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Qwen 3.6 Flash	$0.0010	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0005	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemini 3 Flash (Preview, Reasoning)	$0.0008	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	o4 Mini High	$0.0012	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.2	$0.0004	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Claude Opus 4.7	$0.0009	844ms	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Qwen 3.6 27B	$0.0030	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Z.AI GLM 4.6	$0.0015	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-5.5	$0.0007	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Qwen 3.6 35B	$0.0007	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Gemini 3 Pro (Preview)	$0.0061	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	MiniMax M2.5	$0.0005	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Z.AI GLM 4.7	$0.0013	22.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Gemini 2.5 Pro	$0.0045	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	o4 Mini	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Grok 4	$0.0057	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen 3.5 35B	$0.0023	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	ByteDance Seed 2.0 Mini	$0.0003	16.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 4 31B	$0.0000	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemini 2.5 Flash (Reasoning)	$0.0009	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-OSS 120B	$0.0000	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Qwen 3.5 Flash	$0.0005	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Grok 4 Fast	$0.0002	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Qwen 3.5 9B	$0.0003	29.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Qwen 3.5 Plus (2026-02-15)	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemma 4 26B	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemini 3.1 Flash Lite	$0.0000	670ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini (Reasoning, Low)	$0.0003	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemini 2.5 Flash Lite (Reasoning)	$0.0001	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3 Flash (Preview)	$0.0001	789ms	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Z.AI GLM 4.7 Flash	$0.0003	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	ByteDance Seed 2.0 Lite	$0.0009	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Nemotron 3 Super	$0.0000	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4	$0.0003	681ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Inception Mercury 2	$0.0001	337ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Stealth: Aurora Alpha	—	630ms	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5 Nano	$0.0001	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 Mini	$0.0001	653ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0000	350ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 2.5 Flash	$0.0000	380ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury	$0.0000	389ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Nano (Reasoning, Low)	$0.0001	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemma 3 12B	$0.0000	503ms	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Gemma 3 27B	$0.0000	696ms	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Nemotron 3 Nano	$0.0000	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0000	257ms	100%	100	100	100	100	100	100	100	100	100	100	100%
69	DeepSeek V4 Pro (Reasoning)	$0.0004	9.3s	70%	100	100	100	100	100	100	100	100	100	50	95%
64	MiniMax M2.7	$0.0005	6.4s	70%	100	100	100	100	100	100	100	100	100	50	95%
56	DeepSeek V4 Flash (Reasoning)	$0.0000	2.6s	70%	100	100	100	100	100	100	100	100	100	50	95%
50	Gemini 3.1 Flash Lite (Reasoning)	$0.0000	608ms	70%	100	100	100	100	100	100	100	100	100	50	95%
51	Gemini 3.1 Flash Lite (Preview)	$0.0000	728ms	70%	100	100	100	100	100	100	100	100	100	50	95%
55	Grok 4.20	$0.0002	618ms	70%	100	100	100	100	100	100	100	100	100	50	95%
52	GPT-4.1 Nano	$0.0000	958ms	70%	100	100	100	100	100	100	100	100	100	50	95%
67	Grok 4.20 (Beta)	$0.0002	419ms	60%	100	100	100	100	100	100	100	100	50	50	90%
72	GPT-5.4 Nano (Reasoning)	$0.0001	3.1s	60%	100	100	100	100	100	100	100	100	50	50	90%
70	ByteDance Seed 1.6 Flash	$0.0001	2.1s	60%	100	100	100	100	100	100	100	100	50	50	90%
76	Grok 4.1 Fast	$0.0002	3.8s	54%	100	100	100	100	100	100	100	50	50	50	85%
75	Grok 4.3	$0.0002	883ms	54%	100	100	100	100	100	100	100	50	50	50	85%
82	Aion 2.0	$0.0007	10.4s	51%	100	100	100	100	100	100	50	50	50	50	80%
84	Z.AI GLM 4.5	$0.0003	7.0s	38%	100	100	100	100	100	50	50	50	50	50	75%
83	DeepSeek V4 Pro	$0.0001	8.1s	38%	100	100	100	100	100	50	50	50	50	50	75%
81	Cohere Command R+ (Aug. 2024)	$0.0004	681ms	38%	100	100	100	100	100	50	50	50	50	50	75%
96	DeepSeek V3.2	$0.0001	3.9s	26%	100	100	100	100	50	50	50	50	50	50	70%
109	DeepSeek V4 Flash	$0.0000	2.8s	27%	100	100	100	50	50	50	50	50	50	50	65%
98	GPT-5.4 Nano	$0.0000	975ms	27%	100	100	100	50	50	50	50	50	50	50	65%
134	Xiaomi MIMO v2.5	$0.0005	4.0s	30%	100	100	50	50	50	50	50	50	50	50	60%
142	Z.AI GLM 4.5 Air	$0.0005	14.1s	30%	100	100	50	50	50	50	50	50	50	50	60%
129	Mistral Small 4 (Reasoning)	$0.0002	4.3s	30%	100	100	50	50	50	50	50	50	50	50	60%
116	Llama 3.1 70B	$0.0001	756ms	30%	100	100	50	50	50	50	50	50	50	50	60%
112	Mistral Small 4	$0.0000	509ms	30%	100	100	50	50	50	50	50	50	50	50	60%
144	Stealth: Hunter Alpha	$0.0000	24.0s	35%	100	50	50	50	50	50	50	50	50	50	55%
128	Stealth: Healer Alpha	$0.0000	4.0s	35%	100	50	50	50	50	50	50	50	50	50	55%
120	Mistral NeMO	$0.0000	1.2s	35%	100	50	50	50	50	50	50	50	50	50	55%
125	Rocinante 12B	$0.0000	2.8s	35%	100	50	50	50	50	50	50	50	50	50	55%
147	Claude Opus 4.6 (Reasoning)	$0.0052	4.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
140	Claude Sonnet 4.6 (Reasoning)	$0.0022	2.5s	50%	50	50	50	50	50	50	50	50	50	50	50%
133	Claude Opus 4.6	$0.0012	2.4s	50%	50	50	50	50	50	50	50	50	50	50	50%
143	Grok 4.20 (Beta, Reasoning)	$0.0037	2.7s	50%	50	50	50	50	50	50	50	50	50	50	50%
141	Grok 4.20 (Reasoning)	$0.0017	8.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
136	Claude Sonnet 4.6	$0.0013	2.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
145	Claude Opus 4.5	$0.0037	3.8s	50%	50	50	50	50	50	50	50	50	50	50	50%
124	Claude Sonnet 4	$0.0008	1.9s	50%	50	50	50	50	50	50	50	50	50	50	50%
111	GPT-4.1	$0.0003	1.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
121	Claude Sonnet 4.5	$0.0005	2.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
146	Claude Opus 4	$0.0034	7.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
138	Xiaomi MIMO v2.5 Pro	$0.0012	7.4s	50%	50	50	50	50	50	50	50	50	50	50	50%
99	Mistral Large 3	$0.0001	1.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
132	GPT-4o, May 13th (temp=0)	$0.0007	5.7s	50%	50	50	50	50	50	50	50	50	50	50	50%
108	Claude Haiku 4.5	$0.0003	1.4s	50%	50	50	50	50	50	50	50	50	50	50	50%
104	DeepSeek-V2 Chat	$0.0000	2.7s	50%	50	50	50	50	50	50	50	50	50	50	50%
135	Claude 3.5 Sonnet	$0.0008	5.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
131	GPT-4o, May 13th (temp=1)	$0.0007	5.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
100	DeepSeek V3 (2024-12-26)	$0.0001	1.4s	50%	50	50	50	50	50	50	50	50	50	50	50%
122	Claude 3.7 Sonnet	$0.0006	1.5s	50%	50	50	50	50	50	50	50	50	50	50	50%
101	GPT-4.1 Mini	$0.0001	1.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
127	Hermes 3 405B	$0.0000	8.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
114	GPT-4o, Aug. 6th (temp=1)	$0.0004	1.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
113	GPT-4o, Aug. 6th (temp=0)	$0.0004	1.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
103	Mistral Large 2	$0.0003	638ms	50%	50	50	50	50	50	50	50	50	50	50	50%
117	DeepSeek V3.1	$0.0001	4.0s	50%	50	50	50	50	50	50	50	50	50	50	50%
130	Qwen 3 32B	$0.0002	7.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
106	DeepSeek V3 (2025-03-24)	$0.0001	2.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
137	Mistral Large	$0.0012	5.5s	50%	50	50	50	50	50	50	50	50	50	50	50%
102	Qwen3 235B A22B Instruct 2507	$0.0000	1.9s	50%	50	50	50	50	50	50	50	50	50	50	50%
126	Writer: Palmyra X5	$0.0003	5.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
139	GPT-4o Mini (temp=1)	$0.0000	15.7s	50%	50	50	50	50	50	50	50	50	50	50	50%
92	Mistral Small 3.2 24B	$0.0000	643ms	50%	50	50	50	50	50	50	50	50	50	50	50%
110	GPT-4o Mini (temp=0)	$0.0000	3.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
94	Mistral Medium 3.1	$0.0001	705ms	50%	50	50	50	50	50	50	50	50	50	50	50%
95	Qwen 2.5 72B	$0.0001	983ms	50%	50	50	50	50	50	50	50	50	50	50	50%
105	Llama 3.1 Nemotron 70B	$0.0001	2.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
107	Arcee AI: Trinity Large (Preview)	$0.0000	3.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
89	Mistral Small Creative	$0.0000	373ms	50%	50	50	50	50	50	50	50	50	50	50	50%
97	Hermes 3 70B	$0.0000	1.2s	50%	50	50	50	50	50	50	50	50	50	50	50%
91	Ministral 3 14B	$0.0000	551ms	50%	50	50	50	50	50	50	50	50	50	50	50%
90	Ministral 3 8B	$0.0000	373ms	50%	50	50	50	50	50	50	50	50	50	50	50%
119	Claude 3 Haiku	$0.0000	5.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
123	WizardLM 2 8x22b	$0.0001	5.8s	50%	50	50	50	50	50	50	50	50	50	50	50%
115	Arcee AI: Trinity Mini	$0.0001	3.1s	50%	50	50	50	50	50	50	50	50	50	50	50%
87	Ministral 3 3B	$0.0000	345ms	50%	50	50	50	50	50	50	50	50	50	50	50%
88	Ministral 8B	$0.0000	382ms	50%	50	50	50	50	50	50	50	50	50	50	50%
93	Llama 3.1 8B	$0.0000	572ms	50%	50	50	50	50	50	50	50	50	50	50	50%
86	Ministral 3B	$0.0000	390ms	50%	50	50	50	50	50	50	50	50	50	50	50%
118	LFM2 24B	$0.0000	4.6s	50%	50	50	50	50	50	50	50	50	50	50	50%
78.44%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Writer: Palmyra X5 100Qwen 3.5 9B 100Llama 3.1 Nemotron 70B	—
90.0%	Matches text	100Gemini 2.5 Flash (Reasoning) 100ByteDance Seed 2.0 Mini 100Qwen3.6 Max Preview	0Claude Sonnet 4.6 0Hermes 3 70B 0Grok 4.20 (Reasoning)

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100GPT-5.4 Mini (Reasoning, Low) 100MoonshotAI: Kimi K2.6 100Grok 4.3	70Arcee AI: Trinity Mini 80Rocinante 12B 80Mistral Small 4 (Reasoning)
100.0%	Matches text	100GPT-5.4 Mini 100Mistral Small 4 100Claude 3 Haiku	10ByteDance Seed 1.6 30ByteDance Seed 2.0 Mini 50WizardLM 2 8x22b

Data extraction

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)