Codex Violation Detection

Detects factual inconsistencies between a story bible and prose passages. The model must output structured XML identifying each violation with paragraph number and substring.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.5	99%
Gemini 3.1 Pro (Preview)	99%
Claude Opus 4.6 (Reasoning)	99%
Gemini 2.5 Pro	99%
Claude Opus 4.6	99%
Grok 4.20 (Beta, Reasoning)	98%
Qwen3.6 Max Preview	98%
Grok 4.20 (Reasoning)	98%
Z.AI GLM 5.1	98%
GPT-5.5	98%
Qwen 3.5 27B	98%
Grok 4.3 (Reasoning)	97%
GPT-5.5 (Reasoning)	97%
Z.AI GLM 5 Turbo	97%
Gemma 4 31B (Reasoning)	97%
Qwen 3.5 Plus (2026-04-20)	97%
Grok 4.1 Fast	97%
GPT-5.5 (Reasoning, Low)	97%
GPT-5.4	97%
Grok 4	97%

	Score	Cost	Time
Grok 4 Fast	96%	$0.0018	12.8s
Grok 4.1 Fast	97%	$0.0021	21.1s
Z.AI GLM 5 Turbo	97%	$0.0072	17.1s
Gemini 2.5 Flash (Reasoning)	97%	$0.0079	12.5s
Stealth: Healer Alpha	95%	$0.0000	21.8s
Gemma 4 31B	97%	$0.0009	37.9s
GPT-5.4	97%	$0.013	8.8s
Gemini 3 Flash (Preview, Reasoning)	97%	$0.011	18.0s
DeepSeek V4 Flash (Reasoning)	97%	$0.0010	40.3s
Qwen 3.5 Flash	96%	$0.0038	1.0m
Qwen 3.6 Flash	96%	$0.011	29.9s
Xiaomi MIMO v2.5	95%	$0.0058	21.8s
Gemma 4 31B (Reasoning)	97%	$0.0017	2.8m
Xiaomi MIMO v2.5 Pro	96%	$0.0091	37.0s
Stealth: Hunter Alpha	95%	$0.0000	44.0s
ByteDance Seed 2.0 Lite	96%	$0.0067	1.1m
ByteDance Seed 1.6	96%	$0.0067	1.0m
Gemma 4 26B (Reasoning)	95%	$0.0022	2.0m
Qwen 3.6 35B	96%	$0.013	51.0s
Z.AI GLM 4.7	96%	$0.0091	1.0m

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	99%	97%	97%
Claude Opus 4.5	99%	97%	97%
Claude Opus 4.6 (Reasoning)	99%	96%	96%
Gemini 2.5 Pro	99%	95%	95%
Grok 4.20 (Reasoning)	98%	95%	95%
Grok 4.20 (Beta, Reasoning)	98%	95%	95%
Qwen3.6 Max Preview	98%	95%	95%
Claude Opus 4.6	99%	94%	94%
Qwen 3.5 27B	98%	94%	94%
Z.AI GLM 5.1	98%	94%	94%
GPT-5.5	98%	93%	93%
GPT-5.5 (Reasoning)	97%	93%	93%
Qwen 3.5 Plus (2026-04-20)	97%	93%	93%
GPT-5.5 (Reasoning, Low)	97%	93%	93%
Gemma 4 31B (Reasoning)	97%	93%	93%
Gemini 2.5 Flash (Reasoning)	97%	92%	92%
Gemini 3 Flash (Preview, Reasoning)	97%	92%	92%
Z.AI GLM 5 Turbo	97%	92%	92%
Grok 4.1 Fast	97%	92%	92%
Claude Opus 4.7 (Reasoning)	97%	92%	92%

	Score	Cost	Speed	Stability
Grok 4.1 Fast	97%	$0.0021	21.1s	92%
Gemini 2.5 Flash (Reasoning)	97%	$0.0079	12.5s	92%
Z.AI GLM 5 Turbo	97%	$0.0072	17.1s	92%
GPT-5.4	97%	$0.013	8.8s	91%
Gemini 3 Flash (Preview, Reasoning)	97%	$0.011	18.0s	92%
Stealth: Healer Alpha	95%	$0.0000	21.8s	86%
Gemini 3 Flash (Preview)	94%	$0.0031	4.5s	83%
Gemma 4 31B	97%	$0.0009	37.9s	90%
Inception Mercury 2	92%	$0.0030	4.6s	83%
DeepSeek V4 Flash (Reasoning)	97%	$0.0010	40.3s	90%
Gemini 2.5 Flash	91%	$0.0025	2.8s	82%
Gemini 2.5 Flash Lite (Reasoning)	93%	$0.0020	17.6s	84%
GPT-5.4 Mini (Reasoning, Low)	93%	$0.0055	6.7s	82%
Grok 4 Fast	96%	$0.0018	12.8s	77%
Grok 4.20 (Beta, Reasoning)	98%	$0.026	16.8s	95%
Stealth: Hunter Alpha	95%	$0.0000	44.0s	86%
GPT-5.5	98%	$0.030	7.7s	93%
Xiaomi MIMO v2.5 Pro	96%	$0.0091	37.0s	89%
Grok 4.20 (Reasoning)	98%	$0.015	45.4s	95%
Claude Sonnet 4.5	97%	$0.024	8.9s	89%

		matrix	tiers
Claude Opus 4.5	99%	100%	100%	100%	96%	100%	100%	100%	98%
Gemini 3.1 Pro (Preview)	99%	100%	99%	99%	96%	100%	100%	99%	100%
Claude Opus 4.6 (Reasoning)	99%	100%	97%	98%	96%	100%	100%	100%	100%
Gemini 2.5 Pro	99%	99%	100%	99%	96%	100%	99%	97%	99%
Claude Opus 4.6	99%	100%	98%	99%	91%	100%	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	98%	100%	97%	100%	96%	100%	98%	96%	100%
Qwen3.6 Max Preview	98%	100%	97%	98%	98%	100%	100%	94%	100%
Grok 4.20 (Reasoning)	98%	100%	97%	97%	98%	100%	97%	96%	100%
Z.AI GLM 5.1	98%	100%	98%	96%	96%	100%	99%	93%	99%
GPT-5.5	98%	100%	100%	94%	95%	100%	99%	92%	100%
Qwen 3.5 27B	98%	100%	94%	98%	96%	99%	100%	94%	100%
Grok 4.3 (Reasoning)	97%	100%	97%	97%	96%	100%	96%	95%	99%
GPT-5.5 (Reasoning)	97%	100%	97%	92%	97%	100%	100%	93%	100%
Z.AI GLM 5 Turbo	97%	100%	98%	94%	94%	99%	100%	95%	100%
Gemma 4 31B (Reasoning)	97%	99%	96%	96%	93%	100%	100%	95%	99%

Small codex (7 entries), short passage (165 words)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.1	100%
Claude Opus 4.6	100%
GPT-5	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%
Qwen 3.6 Flash	100%
GPT-5.4 Mini (Reasoning)	100%

	Score	Cost	Time
Stealth: Healer Alpha	100%	$0.0000	18.6s
Gemini 3.1 Flash Lite	100%	$0.0012	2.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0012	1.9s
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0011	6.5s
DeepSeek V3.2	98%	$0.0006	16.2s
Grok 4 Fast	99%	$0.0012	9.5s
Stealth: Hunter Alpha	100%	$0.0000	28.3s
DeepSeek V3 (2024-12-26)	100%	$0.0011	14.8s
Mistral Medium 3.1	97%	$0.0018	5.6s
DeepSeek-V2 Chat	99%	$0.0011	12.7s
Grok 4.1 Fast	99%	$0.0011	13.4s
Gemini 3 Flash (Preview)	100%	$0.0025	3.6s
DeepSeek V4 Flash	96%	$0.0002	6.6s
Inception Mercury	95%	$0.0004	5.9s
GPT-5.4 Nano (Reasoning)	89%	$0.0022	9.4s
Stealth: Aurora Alpha	87%	—	5.8s
Xiaomi MIMO v2.5	99%	$0.0031	11.9s
Gemini 2.5 Flash Lite (Reasoning)	95%	$0.0012	6.9s
Llama 3.1 70B	97%	$0.0009	14.9s
Gemma 4 26B	97%	$0.0003	24.6s

	Score	Consistency	Stability
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
Qwen 3.6 Flash	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Preview)	100%	$0.0012	1.9s	100%
Gemini 3 Flash (Preview)	100%	$0.0025	3.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0012	2.0s	97%
Stealth: Healer Alpha	100%	$0.0000	18.6s	100%
Grok 4 Fast	99%	$0.0012	9.5s	97%
DeepSeek V3 (2024-12-26)	100%	$0.0011	14.8s	98%
Gemini 2.5 Flash	97%	$0.0017	2.1s	97%
Grok 4.1 Fast	99%	$0.0011	13.4s	97%
Inception Mercury 2	97%	$0.0018	2.6s	97%
Gemini 2.5 Flash (Reasoning)	100%	$0.0052	7.8s	100%
Stealth: Hunter Alpha	100%	$0.0000	28.3s	100%
GPT-5.4 Mini (Reasoning, Low)	99%	$0.0041	4.4s	97%
Xiaomi MIMO v2.5	99%	$0.0031	11.9s	97%
DeepSeek-V2 Chat	99%	$0.0011	12.7s	95%
Z.AI GLM 5 Turbo	100%	$0.0047	10.5s	98%
DeepSeek V4 Flash	96%	$0.0002	6.6s	93%
DeepSeek V3.2	98%	$0.0006	16.2s	94%
Z.AI GLM 4.5	98%	$0.0019	15.2s	95%
Llama 3.1 70B	97%	$0.0009	14.9s	95%
Xiaomi MIMO v2.5 Pro	100%	$0.0051	20.3s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
139	Qwen3.6 Max Preview	$0.038	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Gemini 3.1 Pro (Preview)	$0.040	30.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Z.AI GLM 5.1	$0.0068	37.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Claude Sonnet 4.6 (Reasoning)	$0.026	16.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	GPT-5.4 (Reasoning)	$0.022	19.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Claude Opus 4.7 (Reasoning)	$0.037	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	GPT-5.5 (Reasoning)	$0.040	14.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-5 Mini	$0.0063	29.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	GPT-5.1	$0.019	24.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Opus 4.6	$0.024	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	GPT-5	$0.039	53.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Qwen 3.5 122B	$0.018	45.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen 3.5 Plus (2026-04-20)	$0.011	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Grok 4.20 (Beta, Reasoning)	$0.019	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	GPT-5.4 (Reasoning, Low)	$0.015	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Z.AI GLM 5	$0.0062	29.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Qwen 3.5 27B	$0.015	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
32	ByteDance Seed 1.6	$0.0036	36.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Qwen 3.6 Flash	$0.0073	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.4 Mini (Reasoning)	$0.0091	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemini 3 Flash (Preview, Reasoning)	$0.0098	15.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	GPT-5.2	$0.015	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Claude Opus 4.5	$0.023	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-5.5	$0.023	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen 3.6 35B	$0.0095	36.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Claude Sonnet 4	$0.013	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Claude Sonnet 4.5	$0.013	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Xiaomi MIMO v2.5 Pro	$0.0051	20.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Stealth: Hunter Alpha	$0.0000	28.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 2.5 Flash (Reasoning)	$0.0052	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Stealth: Healer Alpha	$0.0000	18.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 3.1 Flash Lite (Preview)	$0.0012	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 3 Flash (Preview)	$0.0025	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Nemotron 3 Super	$0.0000	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5.4	$0.010	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude 3.7 Sonnet	$0.015	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Claude Opus 4.6 (Reasoning)	$0.040	19.2s	98%	100	100	100	100	100	100	100	100	100	97	100%
15	Z.AI GLM 5 Turbo	$0.0047	10.5s	98%	100	100	100	100	100	100	100	100	100	97	100%
87	Grok 4.3 (Reasoning)	$0.012	52.1s	98%	100	100	100	100	100	100	100	100	100	97	100%
99	GPT-5.5 (Reasoning, Low)	$0.028	10.1s	98%	100	100	100	100	100	100	100	100	100	97	100%
134	MoonshotAI: Kimi K2.6	$0.026	2.3m	98%	100	100	100	100	100	100	100	100	100	97	100%
138	Qwen 3.5 397B A17B	$0.023	2.8m	98%	100	100	100	100	100	100	100	100	100	97	100%
61	Grok 4.20 (Reasoning)	$0.0094	30.9s	98%	100	100	100	100	100	100	100	100	100	97	100%
44	Z.AI GLM 4.7	$0.0061	29.6s	98%	100	100	100	100	100	100	100	100	100	97	100%
102	ByteDance Seed 2.0 Mini	$0.0021	2.0m	98%	100	100	100	100	100	100	100	100	100	97	100%
47	Qwen 3.5 Flash	$0.0027	45.4s	98%	100	100	100	100	100	100	100	100	100	97	100%
6	DeepSeek V3 (2024-12-26)	$0.0011	14.8s	98%	100	100	100	100	100	100	100	100	100	97	100%
21	GPT-4.1	$0.0065	7.7s	97%	100	100	100	100	100	100	100	100	100	95	100%
3	Gemini 3.1 Flash Lite	$0.0012	2.0s	97%	100	100	100	100	100	100	100	100	100	95	100%
140	Gemma 4 31B (Reasoning)	$0.0011	4.2m	97%	100	100	100	100	100	100	100	100	97	97	99%
8	Grok 4.1 Fast	$0.0011	13.4s	97%	100	100	100	100	100	100	100	100	97	97	99%
5	Grok 4 Fast	$0.0012	9.5s	97%	100	100	100	100	100	100	100	100	97	97	99%
13	Xiaomi MIMO v2.5	$0.0031	11.9s	97%	100	100	100	100	100	100	100	100	97	97	99%
23	GPT-4o, Aug. 6th (temp=0)	$0.0080	3.4s	97%	100	100	100	100	100	100	100	100	97	97	99%
34	DeepSeek V3 (2025-03-24)	$0.0007	36.3s	96%	100	100	100	100	100	100	100	100	100	93	99%
78	MoonshotAI: Kimi K2.5	$0.010	46.2s	97%	100	100	100	100	100	100	100	100	97	95	99%
112	Gemini 2.5 Pro	$0.031	21.3s	97%	100	100	100	100	100	100	100	100	97	95	99%
75	Gemma 4 26B (Reasoning)	$0.0018	1.2m	97%	100	100	100	100	100	100	100	97	97	97	99%
133	DeepSeek V4 Pro (Reasoning)	$0.0090	3.2m	97%	100	100	100	100	100	100	100	97	97	97	99%
131	Gemini 3 Pro (Preview)	$0.042	49.1s	97%	100	100	100	100	100	100	100	97	97	97	99%
93	Qwen 3.5 35B	$0.014	47.7s	97%	100	100	100	100	100	100	100	97	97	97	99%
103	Qwen 3.5 9B	$0.0015	1.9m	97%	100	100	100	100	100	100	100	97	97	97	99%
12	GPT-5.4 Mini (Reasoning, Low)	$0.0041	4.4s	97%	100	100	100	100	100	100	100	97	97	97	99%
73	Z.AI GLM 4.6	$0.0037	1.0m	96%	100	100	100	100	100	100	97	97	97	95	99%
14	DeepSeek-V2 Chat	$0.0011	12.7s	95%	100	100	100	100	100	100	100	97	97	92	99%
120	o4 Mini High	$0.028	46.6s	95%	100	100	100	100	100	97	97	97	97	97	98%
18	Z.AI GLM 4.5	$0.0019	15.2s	95%	100	100	100	100	100	97	97	97	97	97	98%
70	GPT-4o, May 13th (temp=0)	$0.016	3.7s	93%	100	100	100	100	100	100	100	100	92	92	98%
105	Claude 3.5 Sonnet	$0.027	10.5s	93%	100	100	100	100	100	100	100	100	92	92	98%
17	DeepSeek V3.2	$0.0006	16.2s	94%	100	100	100	100	100	100	100	97	93	92	98%
83	o4 Mini	$0.015	20.9s	94%	100	100	100	97	97	97	97	97	97	97	98%
37	DeepSeek V4 Flash (Reasoning)	$0.0006	27.3s	93%	100	100	100	100	100	95	95	95	95	95	98%
127	Grok 4	$0.032	47.5s	94%	100	100	97	97	97	97	97	97	97	97	97%
28	Gemma 4 31B	$0.0004	23.8s	95%	100	97	97	97	97	97	97	97	97	97	97%
63	GPT-OSS 120B	$0.0012	45.6s	93%	100	100	97	97	97	97	97	97	97	93	97%
19	Llama 3.1 70B	$0.0009	14.9s	95%	100	97	97	97	97	97	97	97	97	97	97%
26	Llama 3.1 Nemotron 70B	$0.0027	15.3s	95%	100	97	97	97	97	97	97	97	97	97	97%
45	Qwen 3.5 Plus (2026-02-15)	$0.0022	21.4s	91%	100	100	100	95	95	95	95	95	95	95	97%
84	ByteDance Seed 2.0 Lite	$0.0050	52.7s	93%	100	100	97	97	97	97	97	97	93	93	97%
24	Gemma 4 26B	$0.0003	24.6s	97%	97	97	97	97	97	97	97	97	97	97	97%
9	Inception Mercury 2	$0.0018	2.6s	97%	97	97	97	97	97	97	97	97	97	97	97%
7	Gemini 2.5 Flash	$0.0017	2.1s	97%	97	97	97	97	97	97	97	97	97	97	97%
22	Mistral Medium 3.1	$0.0018	5.6s	92%	100	100	100	100	100	100	92	92	92	92	97%
62	Z.AI GLM 4.5 Air	$0.0018	32.1s	90%	100	100	97	97	97	97	97	97	93	88	96%
57	GPT-4o, Aug. 6th (temp=1)	$0.0081	3.7s	89%	100	100	100	100	97	97	92	92	92	92	96%
50	DeepSeek V3.1	$0.0009	23.3s	89%	100	100	100	100	97	97	92	92	92	92	96%
43	Grok 4.20 (Beta)	$0.0040	1.9s	88%	100	100	100	100	100	92	92	92	92	92	96%
55	Hermes 3 405B	$0.0022	21.4s	89%	100	100	100	97	97	97	97	93	92	87	96%
40	Grok 4.20	$0.0026	4.0s	88%	100	100	100	100	100	92	92	92	92	92	96%
46	Mistral Large 2	$0.0065	7.1s	93%	97	97	97	97	97	97	97	97	92	92	96%
16	DeepSeek V4 Flash	$0.0002	6.6s	93%	97	97	97	97	97	97	97	97	92	92	96%
110	Claude Opus 4.7	$0.028	4.9s	89%	100	100	97	97	97	97	97	97	88	88	96%
53	Mistral Large	$0.0066	7.4s	91%	100	97	97	97	97	97	97	92	92	92	96%
117	Nemotron 3 Nano	$0.0015	2.0m	91%	100	97	97	97	97	93	93	93	93	93	95%
27	Inception Mercury	$0.0004	5.9s	89%	100	97	97	97	97	97	97	97	88	88	95%
33	Gemini 2.5 Flash Lite (Reasoning)	$0.0012	6.9s	89%	97	97	97	97	97	97	97	97	93	84	95%
125	Qwen 3.6 27B	$0.016	1.1m	80%	100	100	100	100	97	97	97	97	93	70	95%
144	Claude Opus 4	$0.067	12.3s	84%	100	100	100	100	92	92	92	92	92	92	95%
31	Gemma 3 12B	$0.0001	14.1s	91%	97	97	97	97	97	97	93	93	93	88	95%
41	Mistral Large 3	$0.0017	8.7s	89%	97	97	97	97	97	92	92	92	92	92	94%
67	MiniMax M2.7	$0.0015	20.7s	85%	100	100	97	97	97	92	92	88	88	88	94%
65	MiniMax M2.5	$0.0014	17.0s	85%	100	100	97	97	97	92	90	88	88	88	94%
52	ByteDance Seed 1.6 Flash	$0.0006	9.0s	86%	97	97	97	97	93	93	93	93	88	84	93%
100	GPT-4o, May 13th (temp=1)	$0.015	3.7s	81%	100	100	100	97	92	92	92	92	84	84	93%
64	Qwen 3 32B	$0.0006	21.5s	87%	97	97	97	97	97	93	93	90	88	83	93%
48	GPT-4.1 Mini	$0.0014	5.1s	87%	97	97	97	97	93	93	92	88	88	88	93%
115	GPT-5 Nano	$0.0036	1.6m	89%	97	97	93	93	93	93	90	90	90	90	93%
69	Grok 4.3	$0.0033	4.9s	83%	100	97	97	95	92	91	88	88	87	84	92%
88	Claude Sonnet 4.6	$0.014	7.3s	92%	92	92	92	92	92	92	92	92	92	92	92%
79	Qwen 2.5 72B	$0.0005	13.6s	77%	97	97	97	93	93	93	93	93	90	66	91%
66	Mistral Small 3.2 24B	$0.0003	7.0s	81%	97	97	97	93	88	88	88	88	88	88	91%
72	Mistral Small 4 (Reasoning)	$0.0015	13.2s	82%	97	97	93	93	93	88	88	88	84	83	90%
104	Z.AI GLM 4.7 Flash	$0.0011	46.8s	78%	100	97	97	93	88	88	88	87	84	80	90%
123	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	6.5s	42%	100	100	100	100	100	100	100	100	95	3	90%
135	Aion 2.0	$0.0048	49.3s	40%	100	100	100	100	100	100	100	100	97	0	90%
128	GPT-5.4 Nano (Reasoning)	$0.0022	9.4s	40%	100	100	100	100	100	100	100	97	97	0	89%
74	Qwen3 235B A22B Instruct 2507	$0.0005	17.6s	84%	92	92	92	92	88	88	88	88	87	84	89%
98	Cohere Command R+ (Aug. 2024)	$0.0082	9.5s	80%	97	97	93	90	90	90	87	84	80	79	89%
86	Writer: Palmyra X5	$0.0041	10.6s	82%	92	92	92	92	88	88	84	84	84	83	88%
59	Gemini 2.5 Flash Lite	$0.0004	1.6s	86%	88	88	88	88	88	88	88	88	88	83	88%
89	GPT-5.4 Mini	$0.0028	2.0s	76%	97	93	92	88	88	88	88	84	84	70	87%
130	DeepSeek V4 Pro	$0.0025	18.3s	42%	100	100	97	97	97	95	95	95	92	3	87%
137	Stealth: Aurora Alpha	—	5.8s	41%	97	97	97	97	97	97	97	97	97	0	87%
96	Arcee AI: Trinity Large (Preview)	$0.0000	16.2s	76%	92	92	91	87	83	83	83	83	80	79	85%
92	Claude Haiku 4.5	$0.0046	4.5s	81%	88	88	88	88	88	88	88	79	79	79	85%
71	GPT-4o Mini (temp=0)	$0.0004	7.3s	84%	87	87	87	87	87	87	83	83	83	83	85%
91	Gemma 3 27B	$0.0003	11.6s	79%	90	88	88	84	84	84	84	80	80	80	84%
80	Mistral Small Creative	$0.0003	3.3s	80%	87	87	83	83	83	83	83	83	83	79	84%
94	GPT-4o Mini (temp=1)	$0.0004	6.7s	76%	87	87	87	83	83	83	83	83	83	72	83%
106	Ministral 3 3B	$0.0002	2.0s	69%	84	84	84	84	80	80	79	76	70	62	78%
118	Arcee AI: Trinity Mini	$0.0003	33.1s	69%	87	87	83	80	80	76	76	72	72	72	78%
114	Ministral 3 14B	$0.0004	5.1s	63%	92	88	84	79	79	79	79	75	71	52	78%
101	Mistral NeMO	$0.0003	2.9s	72%	84	80	80	76	76	76	76	76	76	76	78%
111	Ministral 3 8B	$0.0003	3.6s	67%	84	83	83	79	76	76	75	75	73	63	77%
113	Ministral 8B	$0.0002	3.3s	64%	88	88	84	79	79	76	75	75	63	60	77%
116	Llama 3.1 8B	$0.0001	7.0s	63%	88	87	84	83	80	79	70	66	62	57	76%
132	Hermes 3 70B	$0.0006	15.0s	41%	93	88	87	87	87	84	83	76	70	0	76%
109	Ministral 3B	$0.0001	1.9s	68%	84	80	79	76	75	75	75	71	70	66	75%
126	Mistral Small 4	$0.0004	3.4s	55%	84	83	79	79	75	75	75	71	62	37	72%
122	Claude 3 Haiku	$0.0009	3.0s	62%	76	76	76	72	72	72	72	70	60	55	70%
141	GPT-5.4 Nano	$0.0008	2.6s	25%	97	93	90	88	88	80	79	67	0	0	68%
136	Rocinante 12B	$0.0004	4.9s	44%	80	80	72	61	61	55	52	52	52	42	60%
142	GPT-4.1 Nano	$0.0002	2.0s	35%	73	70	65	61	53	53	53	37	28	17	51%
145	GPT-5.4 Nano (Reasoning, Low)	$0.0010	4.4s	2%	100	97	93	93	88	0	0	0	0	0	47%
143	Gemma 3 4B	$0.0001	3.6s	38%	48	44	40	40	40	40	39	39	39	38	41%
146	WizardLM 2 8x22b	$0.0019	16.8s	2%	70	53	22	17	3	3	3	3	0	0	18%
147	LFM2 24B	$0.0001	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
92.28%

Median	Evaluator	Top 3	Flop 3
93.0%	Accuracy (recall)	100Gemini 3.1 Flash Lite (Preview) 100Claude Opus 4.7 (Reasoning) 100Stealth: Healer Alpha	0LFM2 24B 0Gemma 3 4B 2WizardLM 2 8x22b
100.0%	Precision	100Z.AI GLM 5 Turbo 100Gemini 2.5 Flash 100Gemini 3 Pro (Preview)	0LFM2 24B 22WizardLM 2 8x22b 22Gemma 3 4B
100.0%	Structural validity	100Gemini 2.5 Flash Lite (Reasoning) 100GPT-4.1 100Grok 4 Fast	0LFM2 24B 29WizardLM 2 8x22b 50GPT-5.4 Nano (Reasoning, Low)

Large codex (40 entries), short passage (165 words)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.5	100%
GPT-5.5	100%
Claude Sonnet 4.5	100%
Gemini 2.5 Pro	100%
Gemini 3.1 Pro (Preview)	99%
Grok 4	99%
GPT-5.5 (Reasoning, Low)	99%
Z.AI GLM 5.1	98%
Claude Opus 4.6	98%
Claude Sonnet 4.6	98%
GPT-5.4	98%
Z.AI GLM 5 Turbo	98%
MoonshotAI: Kimi K2.6	98%
Qwen 3.6 35B	98%
MoonshotAI: Kimi K2.5	98%
Grok 4.3 (Reasoning)	97%
GPT-5.5 (Reasoning)	97%
DeepSeek V4 Pro (Reasoning)	97%
Qwen3.6 Max Preview	97%
Grok 4.20 (Beta, Reasoning)	97%

	Score	Cost	Time
Grok 4 Fast	97%	$0.0024	15.1s
Stealth: Healer Alpha	95%	$0.0000	25.4s
Z.AI GLM 5 Turbo	98%	$0.0097	19.4s
Grok 4.1 Fast	96%	$0.0032	24.9s
Grok 4.20	94%	$0.0081	8.6s
Grok 4.20 (Beta)	95%	$0.0090	3.5s
Gemini 3 Flash (Preview)	93%	$0.0039	6.2s
DeepSeek V4 Flash	92%	$0.0005	12.9s
Inception Mercury 2	92%	$0.0040	5.5s
Gemma 4 31B	94%	$0.0013	1.2m
Stealth: Hunter Alpha	95%	$0.0000	44.1s
DeepSeek V4 Flash (Reasoning)	96%	$0.0015	58.3s
Gemini 2.5 Flash	90%	$0.0038	4.0s
GPT-5.4	98%	$0.018	11.4s
Xiaomi MIMO v2.5	94%	$0.0071	25.0s
GPT-5.4 Mini (Reasoning, Low)	92%	$0.0070	6.8s
Xiaomi MIMO v2.5 Pro	96%	$0.0093	35.3s
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0027	3.2s
Qwen 3.6 Flash	97%	$0.012	33.9s
GPT-4.1	94%	$0.011	15.1s

	Score	Consistency	Stability
Claude Opus 4.5	100%	100%	100%
GPT-5.5	100%	100%	100%
Claude Sonnet 4.5	100%	100%	100%
Gemini 3.1 Pro (Preview)	99%	98%	98%
Gemini 2.5 Pro	100%	97%	97%
Grok 4	99%	98%	97%
GPT-5.5 (Reasoning, Low)	99%	97%	96%
Z.AI GLM 5.1	98%	97%	96%
GPT-5.5 (Reasoning)	97%	98%	96%
Grok 4.20 (Beta, Reasoning)	97%	98%	95%
Claude Sonnet 4.6 (Reasoning)	97%	97%	95%
Claude Opus 4.6	98%	97%	95%
MoonshotAI: Kimi K2.6	98%	97%	95%
Qwen3.6 Max Preview	97%	97%	94%
DeepSeek V4 Pro (Reasoning)	97%	96%	94%
Claude Sonnet 4.6	98%	96%	94%
Grok 4.20 (Reasoning)	97%	98%	94%
Z.AI GLM 5 Turbo	98%	96%	94%
Qwen 3.6 Flash	97%	96%	94%
GPT-5.4 Mini (Reasoning)	96%	97%	94%

	Score	Cost	Speed	Stability
Grok 4 Fast	97%	$0.0024	15.1s	94%
Z.AI GLM 5 Turbo	98%	$0.0097	19.4s	94%
Grok 4.1 Fast	96%	$0.0032	24.9s	93%
Grok 4.20 (Beta)	95%	$0.0090	3.5s	90%
Stealth: Healer Alpha	95%	$0.0000	25.4s	91%
GPT-5.4	98%	$0.018	11.4s	93%
Gemini 3 Flash (Preview)	93%	$0.0039	6.2s	88%
Claude Sonnet 4.5	100%	$0.036	11.3s	100%
Inception Mercury 2	92%	$0.0040	5.5s	88%
Gemini 2.5 Flash (Reasoning)	95%	$0.0098	14.4s	90%
Grok 4.20	94%	$0.0081	8.6s	87%
GPT-5.5	100%	$0.042	10.0s	100%
Qwen 3.6 Flash	97%	$0.012	33.9s	94%
Gemini 3 Flash (Preview, Reasoning)	96%	$0.012	19.4s	91%
GPT-5.4 Mini (Reasoning, Low)	92%	$0.0070	6.8s	86%
DeepSeek V4 Flash	92%	$0.0005	12.9s	84%
Xiaomi MIMO v2.5	94%	$0.0071	25.0s	89%
Gemini 3.1 Flash Lite (Preview)	90%	$0.0031	3.0s	84%
Xiaomi MIMO v2.5 Pro	96%	$0.0093	35.3s	90%
Grok 4.20 (Beta, Reasoning)	97%	$0.031	17.2s	95%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
44	Claude Opus 4.5	$0.064	13.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.5	$0.042	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Claude Sonnet 4.5	$0.036	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemini 2.5 Pro	$0.038	23.8s	97%	100	100	100	100	100	100	100	100	100	96	100%
99	Gemini 3.1 Pro (Preview)	$0.088	1.1m	98%	100	100	100	100	100	100	97	97	97	97	99%
92	Grok 4	$0.064	1.4m	97%	100	100	100	100	98	98	98	98	98	98	99%
42	GPT-5.5 (Reasoning, Low)	$0.052	17.1s	96%	100	100	100	100	100	98	98	98	98	96	99%
76	Z.AI GLM 5.1	$0.019	2.1m	96%	100	100	100	98	98	98	98	98	97	96	98%
63	Claude Opus 4.6	$0.065	15.3s	95%	100	100	100	100	97	97	97	97	97	96	98%
27	Claude Sonnet 4.6	$0.038	13.8s	94%	100	100	100	100	98	98	98	98	96	94	98%
6	GPT-5.4	$0.018	11.4s	93%	100	100	100	100	97	97	97	97	97	93	98%
2	Z.AI GLM 5 Turbo	$0.0097	19.4s	94%	100	100	100	100	100	97	97	96	96	94	98%
132	MoonshotAI: Kimi K2.6	$0.041	5.1m	95%	100	100	98	98	97	97	97	97	96	95	98%
28	Qwen 3.6 35B	$0.014	54.4s	93%	100	100	100	98	98	98	98	96	96	90	98%
75	MoonshotAI: Kimi K2.5	$0.017	2.0m	94%	100	100	100	98	97	97	96	96	96	95	98%
57	Grok 4.3 (Reasoning)	$0.023	1.3m	94%	100	98	98	98	98	98	98	96	96	91	97%
111	GPT-5.5 (Reasoning)	$0.108	47.1s	96%	98	98	98	98	98	97	97	96	96	96	97%
109	DeepSeek V4 Pro (Reasoning)	$0.019	3.4m	94%	100	98	98	98	98	97	97	96	95	94	97%
123	Qwen3.6 Max Preview	$0.062	2.9m	94%	100	98	98	98	98	96	96	96	96	96	97%
20	Grok 4.20 (Beta, Reasoning)	$0.031	17.2s	95%	98	98	98	98	98	96	96	96	96	95	97%
122	Claude Sonnet 4.6 (Reasoning)	$0.115	1.3m	95%	100	97	97	97	97	97	97	96	96	96	97%
50	ByteDance Seed 1.6	$0.0098	1.5m	94%	100	98	98	98	96	96	96	96	96	95	97%
32	Grok 4.20 (Reasoning)	$0.019	54.9s	94%	98	98	98	98	96	96	96	96	96	95	97%
36	Claude Sonnet 4	$0.036	13.3s	90%	100	100	100	100	96	96	96	96	94	91	97%
1	Grok 4 Fast	$0.0024	15.1s	94%	98	98	98	96	96	96	96	96	96	93	97%
13	Qwen 3.6 Flash	$0.012	33.9s	94%	98	98	98	98	98	98	96	94	94	93	97%
104	Claude Opus 4.6 (Reasoning)	$0.097	33.1s	92%	100	100	98	98	98	96	94	94	94	94	97%
46	Qwen 3.5 35B	$0.020	1.1m	93%	100	98	97	97	96	96	96	96	94	94	96%
25	DeepSeek V4 Flash (Reasoning)	$0.0015	58.3s	91%	100	100	100	97	97	96	96	95	91	91	96%
68	Qwen 3.5 Plus (2026-04-20)	$0.019	1.7m	93%	100	98	96	96	96	96	96	95	94	94	96%
40	GPT-5.4 Mini (Reasoning)	$0.025	46.1s	94%	98	98	96	96	96	96	95	95	95	95	96%
102	Claude Opus 4.7 (Reasoning)	$0.104	16.5s	92%	98	98	98	96	96	96	96	96	92	92	96%
3	Grok 4.1 Fast	$0.0032	24.9s	93%	98	98	98	96	96	96	96	95	94	93	96%
19	Xiaomi MIMO v2.5 Pro	$0.0093	35.3s	90%	100	100	98	96	96	96	96	96	92	91	96%
35	Qwen 3.5 Flash	$0.0045	1.3m	92%	100	98	96	96	96	96	96	94	94	93	96%
97	GPT-5.4 (Reasoning)	$0.067	1.2m	92%	98	98	98	96	96	96	96	94	94	93	96%
14	Gemini 3 Flash (Preview, Reasoning)	$0.012	19.4s	91%	100	98	98	97	96	96	94	94	93	91	96%
113	GPT-5	$0.075	1.9m	93%	98	98	96	96	96	96	96	94	93	92	96%
117	Gemma 4 31B (Reasoning)	$0.0024	4.2m	91%	100	98	98	98	98	97	96	91	90	89	96%
55	Aion 2.0	$0.011	1.4m	92%	98	98	96	96	96	96	95	94	93	90	95%
5	Stealth: Healer Alpha	$0.0000	25.4s	91%	100	96	96	96	96	95	95	94	93	92	95%
86	Qwen 3.6 27B	$0.026	1.6m	86%	100	98	98	98	96	96	96	96	91	80	95%
10	Gemini 2.5 Flash (Reasoning)	$0.0098	14.4s	90%	100	98	96	96	96	94	93	93	93	91	95%
89	Claude Opus 4.7	$0.084	11.4s	92%	96	96	96	96	96	96	96	96	96	89	95%
4	Grok 4.20 (Beta)	$0.0090	3.5s	90%	97	97	97	97	97	96	94	93	93	87	95%
21	Stealth: Hunter Alpha	$0.0000	44.1s	88%	100	98	98	96	96	95	94	94	92	86	95%
71	Nemotron 3 Super	$0.0000	2.2m	92%	96	96	96	95	95	95	95	95	93	92	95%
62	Z.AI GLM 5	$0.017	1.1m	87%	100	100	98	96	93	93	93	93	92	89	95%
56	ByteDance Seed 2.0 Lite	$0.0091	1.4m	91%	98	96	96	96	96	95	92	92	92	92	95%
54	GPT-5.2	$0.036	35.1s	91%	97	97	96	95	95	95	93	93	93	91	95%
83	Qwen 3.5 122B	$0.029	1.3m	89%	100	98	96	96	96	93	93	92	91	91	95%
82	o4 Mini High	$0.040	1.0m	90%	98	98	95	95	94	94	94	94	92	92	94%
106	Qwen 3.5 397B A17B	$0.027	2.8m	92%	96	96	96	96	96	96	96	91	91	91	94%
33	Gemma 4 31B	$0.0013	1.2m	92%	96	96	96	96	96	96	96	91	91	91	94%
59	Z.AI GLM 4.7	$0.012	1.2m	89%	100	96	96	96	95	95	94	93	91	87	94%
38	GPT-5.4 (Reasoning, Low)	$0.026	18.2s	89%	98	98	96	93	93	93	93	93	91	91	94%
11	Grok 4.20	$0.0081	8.6s	87%	97	97	97	97	97	93	93	93	89	85	94%
91	GPT-5.1	$0.050	1.2m	91%	96	96	96	96	96	93	92	92	92	91	94%
17	Xiaomi MIMO v2.5	$0.0071	25.0s	89%	98	98	96	95	95	93	93	92	91	89	94%
22	GPT-4.1	$0.011	15.1s	86%	100	100	98	96	96	95	91	90	88	86	94%
93	Qwen 3.5 9B	$0.0023	2.6m	88%	98	98	96	96	95	95	92	91	90	87	94%
121	Qwen 3.5 27B	$0.039	3.1m	90%	96	96	96	96	93	93	93	93	93	91	94%
94	Gemini 3 Pro (Preview)	$0.068	39.7s	87%	100	98	96	96	96	96	89	89	87	87	93%
53	o4 Mini	$0.023	41.0s	88%	98	96	96	94	94	94	92	92	89	87	93%
108	ByteDance Seed 2.0 Mini	$0.0036	3.1m	86%	98	98	96	95	93	92	92	92	90	85	93%
84	Gemma 4 26B (Reasoning)	$0.0029	2.0m	88%	98	96	95	95	94	93	91	90	89	89	93%
7	Gemini 3 Flash (Preview)	$0.0039	6.2s	88%	96	96	96	96	96	91	91	91	91	87	93%
67	Z.AI GLM 4.6	$0.0054	1.5m	86%	97	96	96	96	94	93	93	91	87	85	93%
9	Inception Mercury 2	$0.0040	5.5s	88%	95	95	95	93	93	93	93	92	90	85	92%
15	GPT-5.4 Mini (Reasoning, Low)	$0.0070	6.8s	86%	96	96	95	94	93	92	91	89	87	87	92%
16	DeepSeek V4 Flash	$0.0005	12.9s	84%	98	96	96	96	94	91	89	89	87	83	92%
81	GPT-OSS 120B	$0.0026	1.9m	89%	95	93	93	93	93	92	90	90	89	89	92%
39	Stealth: Aurora Alpha	—	7.5s	83%	96	96	95	90	90	90	90	90	90	83	91%
31	MiniMax M2.5	$0.0023	30.1s	84%	96	96	93	92	92	91	90	88	85	84	91%
70	GPT-5 Mini	$0.010	1.1m	83%	96	94	94	94	94	93	91	89	83	78	91%
43	DeepSeek V4 Pro	$0.0047	34.0s	84%	100	91	91	91	91	89	89	87	87	87	90%
136	Claude Opus 4	$0.181	21.6s	81%	98	96	94	91	89	89	89	89	85	82	90%
34	Gemini 2.5 Flash Lite (Reasoning)	$0.0030	31.0s	84%	95	95	92	92	90	90	89	89	87	83	90%
23	Gemini 3.1 Flash Lite (Reasoning)	$0.0027	3.2s	82%	100	96	91	91	91	89	87	87	85	85	90%
30	GPT-5.4 Nano (Reasoning)	$0.0045	18.9s	84%	95	95	93	92	90	90	88	88	87	83	90%
24	Gemini 2.5 Flash	$0.0038	4.0s	83%	96	96	94	93	93	89	89	85	85	82	90%
64	GPT-4o, May 13th (temp=0)	$0.043	5.5s	86%	93	93	91	91	91	89	89	89	88	84	90%
18	Gemini 3.1 Flash Lite (Preview)	$0.0031	3.0s	84%	97	93	89	89	89	89	89	89	89	87	90%
51	Qwen 3.5 Plus (2026-02-15)	$0.0054	38.7s	83%	96	96	91	91	91	91	89	89	82	80	90%
37	Z.AI GLM 4.5	$0.0043	29.1s	84%	94	94	92	92	92	90	89	87	83	83	90%
52	MiniMax M2.7	$0.0028	33.9s	80%	96	96	95	93	90	88	86	85	84	81	89%
45	Writer: Palmyra X5	$0.010	16.4s	81%	96	93	91	91	89	89	88	85	83	82	89%
66	Z.AI GLM 4.7 Flash	$0.0022	1.0m	81%	93	91	91	89	88	88	88	85	84	78	88%
100	Claude 3.5 Sonnet	$0.067	15.2s	80%	92	92	92	92	87	87	87	83	83	81	88%
29	Gemini 3.1 Flash Lite	$0.0026	7.0s	82%	93	91	89	89	89	87	85	85	85	82	87%
49	Grok 4.3	$0.0096	7.4s	80%	92	91	90	89	89	86	85	83	81	78	87%
47	Mistral Small 4 (Reasoning)	$0.0025	16.2s	79%	93	91	90	89	88	88	88	81	79	78	87%
78	Claude 3.7 Sonnet	$0.038	15.8s	84%	90	87	87	87	87	87	85	85	85	85	87%
58	DeepSeek-V2 Chat	$0.0033	20.2s	76%	96	91	90	90	85	85	83	83	81	78	86%
61	DeepSeek V3 (2024-12-26)	$0.0031	26.1s	77%	95	93	92	85	85	85	83	83	81	80	86%
41	Mistral Medium 3.1	$0.0046	11.2s	82%	90	87	87	87	87	87	87	83	82	80	86%
69	Mistral Large	$0.020	14.0s	78%	94	91	89	85	85	85	83	83	81	81	86%
137	Nemotron 3 Nano	$0.0054	5.6m	78%	93	91	88	88	86	86	84	82	79	78	86%
73	Mistral Large 2	$0.020	13.7s	77%	92	89	89	85	83	83	83	83	83	80	85%
48	Mistral Large 3	$0.0049	13.6s	82%	87	85	85	85	85	85	83	83	83	81	84%
79	DeepSeek V3.2	$0.0020	19.2s	68%	98	92	91	87	87	85	85	81	80	56	84%
72	Qwen3 235B A22B Instruct 2507	$0.0010	26.4s	73%	92	91	89	87	85	83	83	82	78	68	84%
60	ByteDance Seed 1.6 Flash	$0.0012	14.8s	75%	91	89	88	86	84	84	82	81	80	72	84%
65	GPT-4o, Aug. 6th (temp=0)	$0.016	4.2s	77%	91	84	84	82	82	82	81	81	81	79	83%
80	Qwen 3 32B	$0.0012	25.7s	71%	91	90	86	84	84	84	82	80	69	67	82%
107	GPT-4o, May 13th (temp=1)	$0.042	5.3s	67%	91	89	88	79	79	79	78	74	70	66	79%
77	GPT-4.1 Mini	$0.0025	11.0s	71%	85	85	85	82	80	80	80	78	72	66	79%
74	Mistral Small 3.2 24B	$0.0009	12.4s	73%	85	81	80	80	78	78	76	74	74	74	78%
125	Z.AI GLM 4.5 Air	$0.0030	45.8s	41%	94	93	93	92	87	86	86	79	66	3	78%
120	DeepSeek V3 (2025-03-24)	$0.0025	31.1s	41%	96	96	87	87	85	83	83	78	72	3	77%
90	Inception Mercury	$0.0008	9.7s	62%	95	86	83	80	76	76	71	71	69	62	77%
119	GPT-4o, Aug. 6th (temp=1)	$0.016	4.5s	42%	89	89	88	86	84	82	82	81	78	3	76%
85	Mistral Small Creative	$0.0009	4.0s	68%	88	80	79	79	77	77	74	71	71	64	76%
87	Gemini 2.5 Flash Lite	$0.0008	3.2s	66%	85	82	78	76	76	74	71	68	68	66	74%
88	Gemma 3 27B	$0.0007	14.1s	69%	78	77	76	75	72	72	72	72	72	71	74%
101	Hermes 3 405B	$0.0070	24.4s	64%	82	80	78	76	75	74	69	66	66	60	73%
112	Arcee AI: Trinity Large (Preview)	$0.0000	27.9s	54%	90	78	76	76	75	74	74	72	70	34	72%
140	GPT-5 Nano	$0.0063	2.6m	27%	92	92	90	89	88	87	86	84	3	0	71%
95	Arcee AI: Trinity Mini	$0.0005	7.9s	62%	79	79	79	79	75	74	69	61	58	57	71%
118	GPT-5.4 Mini	$0.0040	2.8s	42%	94	89	89	87	85	83	80	33	33	33	71%
126	Claude Haiku 4.5	$0.013	7.9s	28%	94	89	89	89	85	85	83	81	3	3	70%
96	Ministral 8B	$0.0008	6.3s	63%	76	74	71	69	69	66	66	66	66	64	69%
98	GPT-4o Mini (temp=0)	$0.0008	11.1s	64%	70	70	70	70	70	70	70	70	70	57	68%
105	Ministral 3B	$0.0003	2.2s	55%	80	79	78	76	71	69	67	60	52	50	68%
129	DeepSeek V3.1	$0.0024	37.1s	28%	92	92	89	89	85	85	76	69	3	3	68%
103	Ministral 3 14B	$0.0015	8.7s	62%	74	71	71	70	69	66	66	64	62	59	67%
124	Ministral 3 8B	$0.0011	4.2s	41%	79	74	74	74	74	74	71	71	71	0	66%
110	Gemma 3 12B	$0.0006	15.5s	59%	72	69	69	67	66	66	64	63	63	52	65%
114	Qwen 2.5 72B	$0.0011	13.4s	53%	81	76	74	72	70	69	64	53	47	44	65%
115	Ministral 3 3B	$0.0008	3.3s	50%	80	77	76	76	72	67	57	54	48	35	64%
116	Mistral Small 4	$0.0015	6.4s	50%	81	74	71	64	63	62	61	59	57	42	63%
131	Llama 3.1 Nemotron 70B	$0.0091	34.0s	37%	76	72	70	67	61	61	58	57	55	3	58%
133	Cohere Command R+ (Aug. 2024)	$0.021	11.9s	38%	74	70	69	68	66	63	52	49	44	0	56%
130	Llama 3.1 70B	$0.0035	13.2s	34%	76	74	70	67	58	57	54	52	47	0	56%
135	Hermes 3 70B	$0.0021	57.3s	35%	75	69	69	67	61	57	54	50	46	0	55%
128	GPT-4o Mini (temp=1)	$0.0009	9.8s	37%	69	64	60	57	57	57	54	49	43	3	51%
127	Claude 3 Haiku	$0.0025	5.2s	40%	67	60	54	51	49	49	49	47	39	33	50%
134	Mistral NeMO	$0.0011	7.4s	35%	58	54	44	43	41	39	39	38	38	36	43%
143	GPT-5.4 Nano (Reasoning, Low)	$0.0016	7.1s	0%	95	93	93	88	0	0	0	0	0	0	37%
138	Gemma 3 4B	$0.0004	20.8s	29%	40	38	37	36	35	33	33	33	20	17	32%
139	Llama 3.1 8B	$0.0002	19.9s	25%	48	44	38	36	36	35	33	33	3	3	31%
142	GPT-5.4 Nano	$0.0009	3.2s	9%	79	74	56	53	43	3	0	0	0	0	31%
146	LFM2 24B	$0.0015	3.5m	25%	38	35	34	34	34	33	33	33	3	3	28%
145	Gemma 4 26B	$0.0009	58.0s	0%	89	89	89	0	0	0	0	0	0	0	27%
141	Rocinante 12B	$0.0014	6.6s	22%	51	44	35	33	33	33	33	3	0	0	27%
144	GPT-4.1 Nano	$0.0006	6.9s	12%	51	22	20	19	17	17	13	3	3	0	17%
147	WizardLM 2 8x22b	$0.0060	28.7s	0%	3	3	3	3	0	0	0	0	0	0	1%
83.32%

Median	Evaluator	Top 3	Flop 3
81.3%	Accuracy (recall)	100Claude Opus 4.5 100Claude Sonnet 4.5 100GPT-5.5	0WizardLM 2 8x22b 0LFM2 24B 0Gemma 3 4B
93.0%	Precision	100Claude Sonnet 4.5 100Grok 4 Fast 100Claude Opus 4.5	0WizardLM 2 8x22b 3LFM2 24B 7Gemma 3 4B
100.0%	Structural validity	100Mistral NeMO 100o4 Mini 100Claude Opus 4.7 (Reasoning)	4WizardLM 2 8x22b 30Gemma 4 26B 36GPT-5.4 Nano

Small codex (7 entries), long passage (734 words)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Grok 4.20 (Beta, Reasoning)	100%
Claude Opus 4.5	100%
Gemini 3.1 Pro (Preview)	99%
Claude Opus 4.6	99%
Gemini 2.5 Pro	99%
Qwen 3.5 27B	98%
Claude Opus 4.6 (Reasoning)	98%
Qwen 3.5 397B A17B	98%
Qwen3.6 Max Preview	98%
Qwen 3.5 Flash	98%
Gemini 3 Flash (Preview, Reasoning)	97%
Grok 4.20 (Reasoning)	97%
Gemma 4 31B	97%
Claude Opus 4.7 (Reasoning)	97%
Qwen 3.5 122B	97%
Grok 4.3 (Reasoning)	97%
Claude Opus 4.7	97%
Z.AI GLM 5.1	96%
Gemma 4 31B (Reasoning)	96%
Aion 2.0	96%

	Score	Cost	Time
Gemma 4 31B	97%	$0.0005	44.4s
Grok 4 Fast	93%	$0.0019	16.5s
Claude Haiku 4.5	93%	$0.0051	4.6s
GPT-4.1 Mini	87%	$0.0011	4.4s
Stealth: Healer Alpha	90%	$0.0000	25.0s
Gemma 4 26B	90%	$0.0005	15.6s
DeepSeek V4 Flash	89%	$0.0002	8.0s
MiniMax M2.7	91%	$0.0021	28.0s
Qwen 3.5 Plus (2026-02-15)	95%	$0.0025	21.6s
Grok 4.1 Fast	93%	$0.0025	31.2s
DeepSeek V4 Flash (Reasoning)	94%	$0.0010	45.3s
Z.AI GLM 4.5 Air	92%	$0.0026	39.2s
DeepSeek-V2 Chat	85%	$0.0013	9.8s
Z.AI GLM 5 Turbo	94%	$0.0077	19.5s
Gemini 3 Flash (Preview)	88%	$0.0022	3.6s
Gemini 2.5 Flash	87%	$0.0020	2.4s
Mistral Medium 3.1	79%	$0.0021	5.0s
Stealth: Hunter Alpha	95%	$0.0000	1.2m
Xiaomi MIMO v2.5	93%	$0.0057	22.2s
Gemini 2.5 Flash (Reasoning)	95%	$0.0094	16.9s

	Score	Consistency	Stability
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Gemini 3.1 Pro (Preview)	99%	97%	97%
Claude Opus 4.7	97%	100%	97%
Gemini 2.5 Pro	99%	96%	96%
Qwen 3.5 27B	98%	97%	95%
Claude Opus 4.6	99%	95%	95%
Qwen 3.5 397B A17B	98%	95%	95%
Qwen3.6 Max Preview	98%	97%	94%
Claude Opus 4.6 (Reasoning)	98%	93%	93%
Claude Haiku 4.5	93%	100%	93%
Gemma 4 31B	97%	96%	93%
GPT-5.2	96%	97%	93%
Qwen 3.5 Flash	98%	96%	93%
o4 Mini	95%	95%	92%
Gemini 3 Flash (Preview, Reasoning)	97%	94%	92%
Qwen 3.6 27B	95%	94%	91%
Qwen 3.5 Plus (2026-04-20)	96%	94%	91%
Grok 4.20 (Reasoning)	97%	95%	91%
GPT-5 Mini	96%	95%	91%

	Score	Cost	Speed	Stability
Claude Haiku 4.5	93%	$0.0051	4.6s	93%
Gemma 4 31B	97%	$0.0005	44.4s	93%
Gemini 3 Flash (Preview, Reasoning)	97%	$0.012	20.1s	92%
Qwen 3.5 Plus (2026-02-15)	95%	$0.0025	21.6s	84%
Grok 4 Fast	93%	$0.0019	16.5s	83%
DeepSeek V4 Flash (Reasoning)	94%	$0.0010	45.3s	88%
Gemma 4 26B	90%	$0.0005	15.6s	83%
Xiaomi MIMO v2.5	93%	$0.0057	22.2s	87%
Inception Mercury 2	88%	$0.0032	4.9s	86%
Claude Opus 4.5	100%	$0.030	9.1s	100%
Gemini 2.5 Flash (Reasoning)	95%	$0.0094	16.9s	87%
Qwen 3.5 Flash	98%	$0.0044	1.3m	93%
Gemini 3 Flash (Preview)	88%	$0.0022	3.6s	83%
MiniMax M2.7	91%	$0.0021	28.0s	85%
Z.AI GLM 5 Turbo	94%	$0.0077	19.5s	85%
GPT-4.1 Mini	87%	$0.0011	4.4s	82%
DeepSeek V4 Flash	89%	$0.0002	8.0s	80%
Grok 4.1 Fast	93%	$0.0025	31.2s	82%
Qwen 3.6 Flash	95%	$0.012	33.6s	89%
Z.AI GLM 4.5 Air	92%	$0.0026	39.2s	85%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
24	Grok 4.20 (Beta, Reasoning)	$0.032	17.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Claude Opus 4.5	$0.030	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Gemini 3.1 Pro (Preview)	$0.099	1.4m	97%	100	100	100	100	100	100	100	100	97	95	99%
33	Claude Opus 4.6	$0.030	10.2s	95%	100	100	100	100	100	100	100	100	97	92	99%
69	Gemini 2.5 Pro	$0.039	26.5s	96%	100	100	100	100	100	100	100	97	97	93	99%
74	Qwen 3.5 27B	$0.020	1.9m	95%	100	100	100	100	100	97	97	97	97	97	98%
120	Claude Opus 4.6 (Reasoning)	$0.074	37.2s	93%	100	100	100	100	100	100	100	100	92	92	98%
118	Qwen 3.5 397B A17B	$0.030	3.8m	95%	100	100	100	100	100	100	97	97	97	92	98%
130	Qwen3.6 Max Preview	$0.056	3.0m	94%	100	100	100	100	97	97	97	97	97	97	98%
12	Qwen 3.5 Flash	$0.0044	1.3m	93%	100	100	100	100	97	97	97	97	97	93	98%
3	Gemini 3 Flash (Preview, Reasoning)	$0.012	20.1s	92%	100	100	100	100	100	97	97	95	92	92	97%
36	Grok 4.20 (Reasoning)	$0.016	52.2s	91%	100	100	100	100	95	95	95	95	95	95	97%
2	Gemma 4 31B	$0.0005	44.4s	93%	100	100	97	97	97	97	97	97	97	93	97%
91	Claude Opus 4.7 (Reasoning)	$0.047	9.1s	91%	100	100	100	100	97	97	97	97	92	92	97%
101	Qwen 3.5 122B	$0.033	1.5m	89%	100	100	100	100	100	97	97	97	93	84	97%
88	Grok 4.3 (Reasoning)	$0.021	1.8m	89%	100	100	100	100	100	97	97	95	95	83	97%
39	Claude Opus 4.7	$0.034	5.6s	97%	97	97	97	97	97	97	97	97	97	97	97%
46	Z.AI GLM 5.1	$0.014	1.3m	90%	100	100	100	100	100	97	97	92	92	88	96%
27	Gemma 4 31B (Reasoning)	$0.0013	1.6m	90%	100	100	100	100	100	97	97	92	92	87	96%
45	Aion 2.0	$0.0089	1.6m	90%	100	100	100	97	97	97	97	97	92	88	96%
107	GPT-5.1	$0.044	1.0m	87%	100	100	100	100	97	97	97	97	92	83	96%
79	Qwen 3.5 Plus (2026-04-20)	$0.018	1.8m	91%	100	97	97	97	97	97	97	97	97	88	96%
25	GPT-5 Mini	$0.011	52.1s	91%	100	100	95	95	95	95	95	95	95	92	96%
109	DeepSeek V4 Pro (Reasoning)	$0.020	3.2m	88%	100	100	97	97	97	97	97	97	95	83	96%
37	GPT-5.2	$0.024	24.2s	93%	100	95	95	95	95	95	95	95	95	95	96%
96	Gemini 3 Pro (Preview)	$0.045	29.8s	91%	100	97	97	97	97	97	97	93	93	88	95%
19	Qwen 3.6 Flash	$0.012	33.6s	89%	100	97	97	97	97	97	97	97	88	88	95%
61	Z.AI GLM 5	$0.014	1.2m	87%	100	100	97	97	97	97	97	97	88	83	95%
21	Stealth: Hunter Alpha	$0.0000	1.2m	86%	100	100	100	100	97	92	92	92	91	88	95%
4	Qwen 3.5 Plus (2026-02-15)	$0.0025	21.6s	84%	100	100	100	100	92	92	92	92	92	92	95%
97	Qwen 3.6 27B	$0.027	1.9m	91%	97	97	97	97	97	97	97	93	92	88	95%
42	o4 Mini	$0.023	33.7s	92%	97	97	97	97	97	97	93	92	92	92	95%
124	Claude Sonnet 4.6 (Reasoning)	$0.067	43.4s	85%	100	100	100	100	100	100	97	83	83	83	95%
11	Gemini 2.5 Flash (Reasoning)	$0.0094	16.9s	87%	100	100	100	97	97	95	91	91	87	87	95%
6	DeepSeek V4 Flash (Reasoning)	$0.0010	45.3s	88%	100	100	97	97	97	95	92	92	88	87	94%
84	ByteDance Seed 2.0 Mini	$0.0028	2.7m	88%	100	97	97	97	97	97	93	93	88	84	94%
55	GPT-5.5	$0.025	6.5s	85%	100	100	100	92	92	92	92	92	92	92	94%
26	ByteDance Seed 1.6	$0.0058	57.6s	89%	97	97	97	97	97	97	97	88	88	88	94%
135	GPT-5	$0.072	1.8m	84%	100	100	97	97	95	95	92	92	91	79	94%
15	Z.AI GLM 5 Turbo	$0.0077	19.5s	85%	100	100	100	97	97	97	88	88	88	83	94%
95	o4 Mini High	$0.034	52.9s	87%	97	97	97	97	95	93	93	92	92	83	94%
1	Claude Haiku 4.5	$0.0051	4.6s	93%	93	93	93	93	93	93	93	93	93	93	93%
43	Qwen 3.6 35B	$0.013	52.6s	88%	97	97	97	97	97	97	93	88	88	83	93%
8	Xiaomi MIMO v2.5	$0.0057	22.2s	87%	97	97	97	97	97	92	92	88	88	88	93%
77	Qwen 3.5 35B	$0.019	59.9s	85%	100	100	97	97	97	97	88	88	84	83	93%
35	Claude Sonnet 4.6	$0.018	7.7s	87%	100	97	92	92	92	92	92	92	92	92	93%
5	Grok 4 Fast	$0.0019	16.5s	83%	100	100	95	95	93	92	92	92	87	83	93%
18	Grok 4.1 Fast	$0.0025	31.2s	82%	100	100	97	95	95	92	92	88	87	79	93%
123	GPT-5.5 (Reasoning)	$0.070	31.6s	88%	95	95	95	95	95	95	91	87	87	87	92%
72	Xiaomi MIMO v2.5 Pro	$0.014	56.5s	82%	100	100	95	95	92	92	91	91	83	83	92%
94	GPT-5.5 (Reasoning, Low)	$0.040	16.5s	87%	95	95	95	95	95	95	91	88	87	83	92%
146	MoonshotAI: Kimi K2.6	$0.051	7.1m	82%	100	100	97	95	95	92	92	83	83	83	92%
20	Z.AI GLM 4.5 Air	$0.0026	39.2s	85%	97	93	93	93	93	93	93	93	88	79	92%
44	ByteDance Seed 2.0 Lite	$0.0063	1.1m	85%	97	97	97	93	93	92	88	88	88	84	92%
48	GPT-OSS 120B	$0.0023	1.4m	84%	97	97	97	93	93	90	88	88	88	84	91%
52	GPT-5.4	$0.010	7.1s	74%	100	100	100	100	92	83	83	83	83	83	91%
14	MiniMax M2.7	$0.0021	28.0s	85%	97	93	93	93	93	93	88	88	88	80	91%
89	Z.AI GLM 4.7	$0.0096	1.6m	81%	100	97	93	93	92	88	88	88	83	83	91%
111	MoonshotAI: Kimi K2.5	$0.019	2.4m	81%	97	97	97	97	97	92	87	84	79	79	90%
22	Stealth: Healer Alpha	$0.0000	25.0s	79%	97	97	97	97	92	92	88	84	84	76	90%
137	Grok 4	$0.065	1.7m	78%	100	97	97	97	95	92	92	79	79	75	90%
7	Gemma 4 26B	$0.0005	15.6s	83%	93	93	93	93	88	88	88	88	88	88	90%
58	Claude Sonnet 4.5	$0.017	7.4s	80%	100	97	92	92	92	88	88	83	83	83	90%
93	Z.AI GLM 4.6	$0.0059	1.9m	80%	97	97	92	92	92	88	88	88	87	76	90%
62	Claude 3.7 Sonnet	$0.017	9.8s	80%	97	97	93	88	88	88	88	88	84	84	89%
17	DeepSeek V4 Flash	$0.0002	8.0s	80%	97	97	92	88	88	88	87	83	83	83	89%
23	MiniMax M2.5	$0.0018	23.0s	83%	93	93	90	90	88	88	87	87	84	84	88%
85	Claude 3.5 Sonnet	$0.030	10.0s	85%	93	90	90	90	90	90	88	84	84	84	88%
13	Gemini 3 Flash (Preview)	$0.0022	3.6s	83%	97	88	88	88	88	88	88	88	88	83	88%
9	Inception Mercury 2	$0.0032	4.9s	86%	88	88	88	88	88	88	88	88	88	83	88%
80	Claude Sonnet 4	$0.016	7.3s	74%	100	92	92	92	83	83	83	83	83	83	87%
32	Gemini 2.5 Flash	$0.0020	2.4s	76%	97	97	93	88	88	87	83	83	83	75	87%
129	Gemma 4 26B (Reasoning)	$0.0025	2.1m	41%	100	97	97	97	97	97	97	97	92	0	87%
16	GPT-4.1 Mini	$0.0011	4.4s	82%	90	90	90	90	90	90	84	84	84	75	87%
54	Mistral Large	$0.0082	7.4s	76%	97	93	88	88	88	84	84	79	79	79	86%
31	Gemini 2.5 Flash Lite (Reasoning)	$0.0021	16.2s	81%	90	90	88	88	88	87	84	84	80	80	86%
41	ByteDance Seed 1.6 Flash	$0.0009	13.8s	75%	97	93	90	88	84	84	83	80	80	79	86%
136	Claude Opus 4	$0.079	13.6s	77%	97	88	88	88	88	84	84	79	79	79	85%
78	Z.AI GLM 4.7 Flash	$0.0020	1.2m	77%	90	90	90	90	87	84	84	80	80	76	85%
34	Z.AI GLM 4.5	$0.0018	13.7s	80%	90	88	88	88	88	88	84	83	79	75	85%
83	GPT-4o, May 13th (temp=0)	$0.018	3.3s	77%	90	90	90	84	84	84	84	84	84	75	85%
38	DeepSeek-V2 Chat	$0.0013	9.8s	76%	93	90	90	90	90	87	80	76	76	75	85%
75	Stealth: Aurora Alpha	—	5.0s	75%	92	88	88	88	88	88	88	87	70	70	85%
98	GPT-5.4 Mini (Reasoning)	$0.022	31.3s	77%	90	88	88	88	84	83	83	83	83	75	85%
40	GPT-4o, Aug. 6th (temp=0)	$0.0081	2.7s	81%	87	87	84	84	84	84	84	84	84	80	84%
127	Qwen 3.5 9B	$0.0023	3.0m	58%	97	93	93	93	90	88	88	84	79	33	84%
60	GPT-5.4 Mini (Reasoning, Low)	$0.0054	10.2s	75%	93	88	88	88	84	84	83	80	75	75	84%
28	Gemini 3.1 Flash Lite (Preview)	$0.0014	1.9s	81%	88	83	83	83	83	83	83	83	83	83	84%
29	Gemini 3.1 Flash Lite	$0.0014	2.1s	81%	88	83	83	83	83	83	83	83	83	83	84%
99	GPT-5.4 (Reasoning, Low)	$0.020	14.4s	71%	100	88	83	83	83	79	79	79	79	79	83%
53	Writer: Palmyra X5	$0.0039	8.6s	75%	90	90	87	87	87	80	80	80	76	76	83%
68	Mistral Large 2	$0.0080	7.0s	75%	93	88	84	84	84	84	84	79	75	75	83%
65	GPT-4o, Aug. 6th (temp=1)	$0.0078	3.0s	75%	90	90	87	84	84	80	80	80	80	75	83%
86	GPT-4o, May 13th (temp=1)	$0.017	3.2s	76%	90	87	87	87	87	84	83	80	75	70	83%
125	GPT-5.4 (Reasoning)	$0.042	42.1s	71%	92	92	87	83	79	79	79	79	79	79	83%
30	Gemini 3.1 Flash Lite (Reasoning)	$0.0014	3.2s	81%	83	83	83	83	83	83	83	83	83	79	83%
50	Mistral Large 3	$0.0021	7.9s	75%	92	88	84	84	84	79	79	79	79	79	83%
51	GPT-4.1	$0.0062	7.7s	78%	88	84	84	84	84	84	84	80	79	75	83%
47	Qwen 2.5 72B	$0.0006	10.1s	75%	90	87	87	87	83	83	80	80	76	72	82%
66	Grok 4.3	$0.0041	3.7s	72%	93	90	90	84	84	83	80	75	73	71	82%
67	Mistral Small 4 (Reasoning)	$0.0024	21.0s	74%	93	88	84	84	84	83	80	80	75	71	82%
49	Mistral Small 3.2 24B	$0.0004	7.7s	74%	88	88	88	84	83	80	80	79	75	75	82%
59	Llama 3.1 Nemotron 70B	$0.0037	18.2s	77%	88	84	84	84	84	79	79	79	79	79	82%
126	Nemotron 3 Super	$0.0000	3.3m	66%	100	95	91	83	83	83	76	72	68	68	82%
76	Qwen 3 32B	$0.0008	24.8s	69%	93	93	84	84	84	80	80	76	76	66	82%
134	Nemotron 3 Nano	$0.0047	5.0m	74%	87	87	87	84	80	80	80	80	76	76	82%
57	Grok 4.20	$0.0036	6.8s	75%	87	87	83	83	83	81	80	79	76	76	82%
56	Qwen3 235B A22B Instruct 2507	$0.0005	16.6s	75%	87	87	84	84	84	83	80	76	75	70	81%
73	DeepSeek V3 (2025-03-24)	$0.0009	20.7s	71%	90	90	87	80	80	80	76	76	76	75	81%
64	DeepSeek V3 (2024-12-26)	$0.0012	12.3s	73%	90	87	84	80	80	80	80	76	76	76	81%
63	Llama 3.1 70B	$0.0013	21.0s	76%	84	83	80	80	80	80	80	80	77	75	80%
112	GPT-5 Nano	$0.0051	2.0m	71%	88	87	84	84	80	80	79	76	71	71	80%
71	Grok 4.20 (Beta)	$0.0048	2.3s	73%	87	87	83	83	83	83	80	72	72	68	80%
92	Ministral 3 14B	$0.0006	4.7s	60%	93	93	88	88	84	84	84	79	52	52	80%
70	Gemini 2.5 Flash Lite	$0.0003	1.7s	70%	88	87	80	80	80	80	79	75	70	66	79%
110	Mistral Medium 3.1	$0.0021	5.0s	44%	88	88	88	88	88	88	88	83	83	3	79%
117	GPT-5.4 Nano (Reasoning)	$0.0036	22.3s	41%	93	92	88	88	88	84	84	83	79	0	78%
82	Gemma 3 27B	$0.0003	15.1s	69%	84	83	83	80	80	75	75	71	71	71	77%
81	DeepSeek V3.2	$0.0007	9.8s	69%	84	84	84	80	80	80	76	70	66	66	77%
87	Inception Mercury	$0.0004	8.5s	66%	84	84	80	80	79	77	75	75	75	55	76%
90	Mistral Small Creative	$0.0005	3.8s	65%	88	83	83	76	75	75	72	71	68	65	76%
119	DeepSeek V4 Pro	$0.0020	19.4s	42%	92	92	83	83	83	80	76	75	72	3	74%
102	Hermes 3 405B	$0.0029	19.0s	64%	84	80	76	75	71	71	71	70	70	70	74%
105	GPT-5.4 Mini	$0.0030	2.2s	59%	84	79	76	76	75	75	75	75	68	43	73%
103	Arcee AI: Trinity Large (Preview)	$0.0000	15.1s	62%	83	75	75	75	75	72	71	71	63	54	71%
100	Claude 3 Haiku	$0.0009	2.3s	62%	77	77	73	73	73	73	73	73	61	52	71%
122	DeepSeek V3.1	$0.0007	23.3s	41%	90	80	80	80	76	75	70	70	70	3	70%
104	GPT-4o Mini (temp=0)	$0.0004	5.4s	65%	72	67	67	67	67	67	67	67	67	67	67%
106	Ministral 3 3B	$0.0003	3.0s	61%	75	71	71	67	67	67	66	62	62	61	67%
108	GPT-4o Mini (temp=1)	$0.0004	6.7s	59%	72	72	72	72	72	67	67	60	53	53	66%
113	Arcee AI: Trinity Mini	$0.0004	8.3s	53%	77	76	73	72	66	61	60	60	60	53	66%
114	Ministral 3 8B	$0.0005	5.6s	53%	72	71	68	68	65	62	59	57	53	47	62%
115	Gemma 3 12B	$0.0003	11.0s	53%	75	66	66	66	61	61	61	57	57	53	62%
116	Ministral 3B	$0.0001	3.1s	51%	80	65	62	62	62	62	60	53	52	48	61%
131	Hermes 3 70B	$0.0008	18.6s	38%	76	73	72	70	67	66	66	62	47	0	60%
121	Mistral Small 4	$0.0006	4.1s	50%	70	66	66	62	60	58	55	55	53	43	59%
128	Ministral 8B	$0.0004	6.4s	41%	79	68	66	66	62	60	59	57	40	17	57%
133	Llama 3.1 8B	$0.0001	12.1s	37%	66	66	62	62	60	57	53	53	33	3	51%
132	Gemma 3 4B	$0.0002	10.3s	42%	61	59	54	49	49	47	44	43	42	42	49%
139	Mistral NeMO	$0.0005	5.6s	29%	75	65	65	63	58	58	44	44	0	0	47%
141	Cohere Command R+ (Aug. 2024)	$0.0083	5.7s	19%	80	76	75	72	70	66	0	0	0	0	44%
140	GPT-5.4 Nano	$0.0008	2.8s	26%	63	57	54	53	53	52	33	0	0	0	37%
142	Rocinante 12B	$0.0007	6.9s	19%	70	65	44	38	33	33	33	30	0	0	35%
144	GPT-5.4 Nano (Reasoning, Low)	$0.0013	8.0s	0%	88	88	84	79	0	0	0	0	0	0	34%
143	WizardLM 2 8x22b	$0.0023	12.7s	17%	33	33	33	33	23	21	17	17	3	3	22%
145	GPT-4.1 Nano	$0.0003	4.0s	15%	33	33	25	24	23	20	0	0	0	0	16%
147	LFM2 24B	$0.0001	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
82.93%

Median	Evaluator	Top 3	Flop 3
70.5%	Accuracy (recall)	100Claude Opus 4.5 100Grok 4.20 (Beta, Reasoning) 99Gemini 3.1 Pro (Preview)	0GPT-4.1 Nano 0WizardLM 2 8x22b 0LFM2 24B
89.3%	Precision	100Qwen 3.5 27B 100Claude Opus 4.5 100Claude Opus 4.7	0LFM2 24B 2WizardLM 2 8x22b 8GPT-4.1 Nano
100.0%	Structural validity	100Mistral Small Creative 100GPT-4o, May 13th (temp=1) 100Gemma 4 26B	0LFM2 24B 40GPT-4.1 Nano 40GPT-5.4 Nano (Reasoning, Low)

Large codex (40 entries), long passage (1,019 words)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	98%
Grok 4	98%
Grok 4.20 (Reasoning)	98%
Claude Sonnet 4.6 (Reasoning)	97%
GPT-5.5 (Reasoning)	97%
Qwen 3.5 397B A17B	97%
GPT-5	97%
Gemini 3.1 Pro (Preview)	96%
GPT-5.2	96%
Claude Opus 4.6 (Reasoning)	96%
GPT-5.5 (Reasoning, Low)	96%
Gemini 2.5 Pro	96%
Grok 4.3 (Reasoning)	96%
Grok 4.20 (Beta, Reasoning)	96%
Claude Opus 4.5	96%
DeepSeek V4 Flash (Reasoning)	96%
Claude Opus 4.7 (Reasoning)	96%
Grok 4 Fast	96%
Qwen 3.5 27B	96%
Z.AI GLM 5.1	96%

	Score	Cost	Time
Grok 4 Fast	96%	$0.0032	21.1s
Grok 4.1 Fast	95%	$0.0040	40.0s
Gemini 2.5 Flash (Reasoning)	95%	$0.016	24.6s
DeepSeek V4 Flash (Reasoning)	96%	$0.0022	1.5m
Stealth: Healer Alpha	91%	$0.0000	33.9s
Gemma 4 31B	92%	$0.0018	55.9s
Inception Mercury 2	89%	$0.0066	10.4s
Gemini 3 Flash (Preview)	90%	$0.0068	9.3s
Stealth: Hunter Alpha	91%	$0.0000	1.1m
Z.AI GLM 5 Turbo	94%	$0.016	36.7s
Gemini 2.5 Flash	87%	$0.0051	5.7s
Gemini 2.5 Flash Lite (Reasoning)	89%	$0.0041	42.5s
GPT-5.4	95%	$0.028	20.6s
Qwen 3.5 Flash	93%	$0.0058	1.4m
GPT-5 Mini	95%	$0.017	1.3m
Qwen 3.6 Flash	94%	$0.020	54.5s
GPT-5.4 Mini (Reasoning, Low)	87%	$0.010	9.6s
Xiaomi MIMO v2.5	86%	$0.014	51.9s
Gemini 3 Flash (Preview, Reasoning)	92%	$0.021	33.3s
Z.AI GLM 4.7	93%	$0.018	2.3m

	Score	Consistency	Stability
Qwen3.6 Max Preview	98%	99%	97%
Grok 4	98%	97%	95%
Claude Sonnet 4.6 (Reasoning)	97%	97%	95%
GPT-5	97%	98%	95%
GPT-5.5 (Reasoning)	97%	97%	95%
Claude Opus 4.6 (Reasoning)	96%	97%	94%
Grok 4.20 (Reasoning)	98%	97%	94%
Gemini 3.1 Pro (Preview)	96%	98%	94%
Qwen 3.5 27B	96%	99%	94%
Claude Opus 4.5	96%	98%	94%
Claude Opus 4.7 (Reasoning)	96%	98%	94%
GPT-5.5	95%	98%	94%
GPT-5.5 (Reasoning, Low)	96%	96%	93%
GPT-5.4	95%	98%	93%
GPT-5.2	96%	96%	93%
DeepSeek V4 Flash (Reasoning)	96%	96%	93%
GPT-5 Mini	95%	97%	93%
Gemini 2.5 Pro	96%	96%	93%
Grok 4.3 (Reasoning)	96%	96%	93%
GPT-5.4 (Reasoning)	95%	96%	92%

	Score	Cost	Speed	Stability
Grok 4 Fast	96%	$0.0032	21.1s	89%
Grok 4.1 Fast	95%	$0.0040	40.0s	90%
Gemini 2.5 Flash (Reasoning)	95%	$0.016	24.6s	92%
DeepSeek V4 Flash (Reasoning)	96%	$0.0022	1.5m	93%
Z.AI GLM 5 Turbo	94%	$0.016	36.7s	92%
GPT-5.4	95%	$0.028	20.6s	93%
Gemma 4 31B	92%	$0.0018	55.9s	90%
GPT-5 Mini	95%	$0.017	1.3m	93%
Grok 4.20 (Reasoning)	98%	$0.030	1.4m	94%
Gemini 3 Flash (Preview)	90%	$0.0068	9.3s	87%
Qwen 3.6 Flash	94%	$0.020	54.5s	91%
Stealth: Hunter Alpha	91%	$0.0000	1.1m	86%
Inception Mercury 2	89%	$0.0066	10.4s	85%
Gemini 3 Flash (Preview, Reasoning)	92%	$0.021	33.3s	88%
GPT-5.4 (Reasoning, Low)	95%	$0.042	30.5s	92%
Qwen 3.5 Flash	93%	$0.0058	1.4m	86%
Gemini 2.5 Flash Lite (Reasoning)	89%	$0.0041	42.5s	85%
Stealth: Healer Alpha	91%	$0.0000	33.9s	81%
Grok 4.20 (Beta, Reasoning)	96%	$0.049	27.1s	92%
Qwen 3.5 27B	96%	$0.027	2.2m	94%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
80	Qwen3.6 Max Preview	$0.087	4.4m	97%	99	99	99	98	98	98	98	98	97	97	98%
60	Grok 4	$0.095	2.0m	95%	100	99	99	99	99	98	97	97	96	95	98%
9	Grok 4.20 (Reasoning)	$0.030	1.4m	94%	100	99	99	98	98	97	97	96	96	94	98%
117	Claude Sonnet 4.6 (Reasoning)	$0.229	2.9m	95%	99	98	98	98	98	97	97	96	96	94	97%
96	GPT-5.5 (Reasoning)	$0.173	1.3m	95%	99	99	98	98	98	96	96	95	95	95	97%
68	Qwen 3.5 397B A17B	$0.044	4.6m	92%	100	100	99	97	96	96	96	95	95	93	97%
88	GPT-5	$0.115	3.2m	95%	98	98	97	97	96	96	96	96	96	96	97%
92	Gemini 3.1 Pro (Preview)	$0.153	2.0m	94%	98	98	97	97	97	96	96	96	95	94	96%
24	GPT-5.2	$0.052	55.4s	93%	99	99	98	97	96	96	96	95	94	93	96%
101	Claude Opus 4.6 (Reasoning)	$0.189	1.4m	94%	98	97	97	97	97	97	96	95	94	94	96%
43	GPT-5.5 (Reasoning, Low)	$0.083	26.4s	93%	97	97	97	97	96	96	96	96	95	91	96%
41	Gemini 2.5 Pro	$0.073	49.3s	93%	100	97	96	96	96	96	96	95	94	92	96%
29	Grok 4.3 (Reasoning)	$0.032	2.6m	93%	100	97	96	96	96	96	96	96	95	92	96%
19	Grok 4.20 (Beta, Reasoning)	$0.049	27.1s	92%	99	99	98	96	95	95	94	94	94	94	96%
42	Claude Opus 4.5	$0.085	20.6s	94%	97	97	96	96	96	96	95	95	95	93	96%
4	DeepSeek V4 Flash (Reasoning)	$0.0022	1.5m	93%	98	97	97	96	96	96	95	95	93	92	96%
83	Claude Opus 4.7 (Reasoning)	$0.144	26.3s	94%	97	97	97	96	96	96	95	95	94	93	96%
1	Grok 4 Fast	$0.0032	21.1s	89%	100	100	99	97	96	95	94	92	91	90	96%
20	Qwen 3.5 27B	$0.027	2.2m	94%	96	96	96	96	96	95	95	95	95	94	96%
77	Z.AI GLM 5.1	$0.050	5.0m	92%	97	97	97	96	95	95	95	95	95	92	96%
65	GPT-5.4 (Reasoning)	$0.095	1.5m	92%	98	98	97	97	97	96	94	93	93	92	95%
2	Grok 4.1 Fast	$0.0040	40.0s	90%	100	99	98	97	97	95	95	94	90	90	95%
26	GPT-5.5	$0.068	17.5s	94%	97	97	96	96	96	96	95	95	94	94	95%
45	o4 Mini High	$0.059	1.5m	91%	98	97	97	96	95	94	94	94	93	93	95%
104	MoonshotAI: Kimi K2.6	$0.075	7.1m	89%	100	99	97	96	96	94	94	94	92	89	95%
8	GPT-5 Mini	$0.017	1.3m	93%	97	97	96	95	95	95	94	94	94	93	95%
6	GPT-5.4	$0.028	20.6s	93%	97	96	95	95	95	95	95	95	94	93	95%
49	Nemotron 3 Super	$0.0000	5.1m	92%	98	96	95	95	95	95	94	93	93	92	95%
3	Gemini 2.5 Flash (Reasoning)	$0.016	24.6s	92%	97	96	95	95	95	95	95	95	93	91	95%
15	GPT-5.4 (Reasoning, Low)	$0.042	30.5s	92%	96	96	96	96	96	95	94	94	92	91	95%
73	GPT-5.1	$0.088	2.0m	90%	98	97	96	95	95	94	94	93	92	90	94%
31	Qwen 3.5 Plus (2026-04-20)	$0.025	2.3m	90%	99	97	96	95	95	95	93	92	91	90	94%
28	Qwen 3.6 35B	$0.027	1.6m	88%	99	99	97	97	95	95	94	91	90	86	94%
5	Z.AI GLM 5 Turbo	$0.016	36.7s	92%	96	96	95	95	95	94	93	93	92	91	94%
11	Qwen 3.6 Flash	$0.020	54.5s	91%	96	96	96	96	95	93	93	93	92	92	94%
34	Z.AI GLM 5	$0.030	2.1m	90%	99	95	95	94	94	94	93	93	93	91	94%
32	Z.AI GLM 4.6	$0.012	3.0m	90%	96	96	96	96	94	93	92	92	91	91	94%
50	Qwen 3.6 27B	$0.038	2.4m	90%	97	95	95	95	95	93	92	91	91	90	93%
35	Z.AI GLM 4.7	$0.018	2.3m	88%	98	96	96	93	93	93	93	92	90	88	93%
27	Qwen 3.5 35B	$0.027	1.4m	88%	97	96	95	95	95	93	92	91	91	87	93%
70	Gemma 4 31B (Reasoning)	$0.0034	5.9m	88%	96	96	95	95	95	94	93	91	90	86	93%
30	ByteDance Seed 1.6	$0.015	2.4m	88%	97	96	95	94	94	93	93	92	89	89	93%
21	Xiaomi MIMO v2.5 Pro	$0.021	1.4m	90%	96	95	94	94	93	93	92	91	91	90	93%
16	Qwen 3.5 Flash	$0.0058	1.4m	86%	98	97	95	94	94	93	92	92	91	83	93%
44	Qwen 3.5 122B	$0.039	1.9m	90%	95	94	94	94	93	92	92	92	91	91	93%
23	o4 Mini	$0.031	42.1s	89%	96	94	94	94	93	92	92	91	90	89	92%
7	Gemma 4 31B	$0.0018	55.9s	90%	94	94	93	93	92	92	92	92	91	91	92%
48	Gemma 4 26B (Reasoning)	$0.0035	3.9m	89%	96	95	93	93	92	92	91	90	90	90	92%
14	Gemini 3 Flash (Preview, Reasoning)	$0.021	33.3s	88%	95	94	93	93	92	92	92	91	90	88	92%
57	Claude Opus 4.6	$0.082	21.5s	89%	93	93	93	93	91	91	90	90	90	90	91%
84	Claude Opus 4.7	$0.105	15.7s	83%	97	96	95	95	92	91	89	86	85	84	91%
40	Claude Sonnet 4.6	$0.051	24.9s	88%	94	94	92	92	91	91	90	90	90	88	91%
12	Stealth: Hunter Alpha	$0.0000	1.1m	86%	96	94	93	93	92	91	91	90	86	85	91%
38	ByteDance Seed 2.0 Lite	$0.013	2.1m	86%	95	95	93	92	92	91	91	88	87	86	91%
56	MoonshotAI: Kimi K2.5	$0.028	2.4m	84%	97	94	94	92	92	92	90	90	86	81	91%
18	Stealth: Healer Alpha	$0.0000	33.9s	81%	98	97	97	94	92	91	90	86	83	81	91%
37	Claude Sonnet 4	$0.047	20.4s	88%	93	92	92	92	92	91	91	89	88	87	91%
67	ByteDance Seed 2.0 Mini	$0.0051	4.9m	87%	94	93	92	91	90	90	90	90	88	88	91%
10	Gemini 3 Flash (Preview)	$0.0068	9.3s	87%	93	92	92	91	90	90	90	88	88	88	90%
126	Claude Opus 4	$0.248	37.7s	83%	96	94	92	91	90	90	87	87	86	84	90%
64	GPT-5.4 Mini (Reasoning)	$0.056	1.2m	84%	94	93	92	92	90	88	88	87	86	85	90%
55	Qwen 3.5 9B	$0.0031	3.4m	84%	95	93	92	91	91	90	87	87	86	83	89%
17	Gemini 2.5 Flash Lite (Reasoning)	$0.0041	42.5s	85%	93	92	91	91	91	89	88	86	86	85	89%
53	Claude Sonnet 4.5	$0.051	20.8s	84%	93	92	91	90	89	89	87	87	85	85	89%
13	Inception Mercury 2	$0.0066	10.4s	85%	93	91	90	90	90	90	89	89	84	83	89%
106	Aion 2.0	$0.015	2.3m	42%	100	99	98	97	96	96	96	95	94	3	87%
22	GPT-5.4 Mini (Reasoning, Low)	$0.010	9.6s	84%	91	90	89	89	88	87	86	85	85	84	87%
94	Gemini 3 Pro (Preview)	$0.096	1.0m	77%	93	92	92	90	90	90	88	86	84	68	87%
66	GPT-OSS 120B	$0.0040	3.3m	81%	92	91	90	90	89	87	86	84	81	80	87%
25	Gemini 2.5 Flash	$0.0051	5.7s	81%	91	91	90	88	88	88	85	83	82	80	87%
79	Xiaomi MIMO v2.5	$0.014	51.9s	63%	95	95	94	93	91	91	90	87	87	41	86%
46	MiniMax M2.7	$0.0048	1.2m	80%	91	89	88	86	85	85	85	85	84	79	86%
54	Mistral Large	$0.024	19.0s	78%	93	89	89	85	85	85	83	82	82	81	85%
33	Mistral Large 3	$0.0060	25.8s	81%	88	87	87	86	86	85	85	84	82	81	85%
52	GPT-4.1	$0.017	22.4s	78%	89	88	87	87	86	85	84	84	83	73	85%
63	Stealth: Aurora Alpha	—	12.5s	77%	89	88	87	87	83	83	83	82	82	77	84%
39	Gemma 4 26B	$0.0012	54.3s	81%	86	86	85	85	85	85	85	81	81	80	84%
36	Gemini 3.1 Flash Lite (Preview)	$0.0038	3.7s	80%	86	85	85	84	83	83	82	82	81	79	83%
58	Mistral Large 2	$0.024	17.4s	77%	89	86	85	84	84	83	81	81	81	75	83%
59	DeepSeek V4 Pro	$0.0061	1.1m	76%	88	86	86	84	84	83	82	81	79	73	82%
47	Gemini 3.1 Flash Lite	$0.0037	4.2s	76%	87	86	83	83	81	81	81	81	79	77	82%
61	MiniMax M2.5	$0.0039	52.7s	74%	90	89	87	83	83	81	79	77	76	75	82%
51	Gemini 3.1 Flash Lite (Reasoning)	$0.0035	4.1s	76%	87	85	83	82	82	82	82	80	76	74	81%
89	GPT-5 Nano	$0.0079	3.0m	73%	86	84	84	83	83	79	78	76	72	72	80%
90	Z.AI GLM 4.5 Air	$0.0047	1.5m	61%	92	89	89	86	86	84	84	74	59	47	79%
75	DeepSeek V3 (2024-12-26)	$0.0038	27.4s	67%	89	88	86	85	84	83	79	72	65	58	79%
69	DeepSeek-V2 Chat	$0.0038	24.8s	71%	87	84	83	81	79	79	77	74	73	70	79%
62	Mistral Small 4 (Reasoning)	$0.0038	30.0s	75%	81	81	80	80	79	79	78	76	75	73	78%
81	DeepSeek V3.2	$0.0028	41.9s	65%	98	83	80	80	77	75	75	73	72	71	78%
71	DeepSeek V4 Flash	$0.0009	22.8s	69%	87	85	81	81	79	77	76	75	73	66	78%
111	Qwen 3.5 Plus (2026-02-15)	$0.011	1.9m	41%	96	93	92	91	89	87	86	76	62	3	77%
82	Z.AI GLM 4.5	$0.0053	35.0s	66%	92	82	81	78	76	75	75	73	72	66	77%
74	Claude Haiku 4.5	$0.016	12.8s	72%	84	79	79	77	76	76	75	75	75	72	77%
86	Z.AI GLM 4.7 Flash	$0.0030	1.7m	71%	83	82	80	78	77	77	74	73	73	69	77%
72	Mistral Medium 3.1	$0.0057	16.6s	71%	81	81	79	78	78	77	76	75	73	67	77%
134	DeepSeek V4 Pro (Reasoning)	$0.028	4.9m	24%	99	97	96	96	96	94	93	88	3	0	76%
78	Grok 4.20	$0.010	14.4s	69%	84	81	80	77	77	75	75	75	69	66	76%
85	Qwen3 235B A22B Instruct 2507	$0.0014	43.6s	66%	83	82	82	79	76	74	74	72	68	65	75%
95	Claude 3.7 Sonnet	$0.043	18.3s	66%	84	82	79	79	76	73	73	73	68	66	75%
100	Claude 3.5 Sonnet	$0.071	15.9s	71%	79	78	78	77	76	74	74	74	72	68	75%
76	ByteDance Seed 1.6 Flash	$0.0016	22.7s	69%	82	80	76	76	75	74	73	71	71	69	75%
87	Grok 4.20 (Beta)	$0.011	5.2s	66%	82	81	77	77	77	72	69	68	66	65	73%
114	Nemotron 3 Nano	$0.0056	5.7m	66%	80	77	77	76	74	74	73	68	65	60	72%
91	Writer: Palmyra X5	$0.013	20.0s	62%	81	78	77	77	76	72	71	71	69	51	72%
109	DeepSeek V3.1	$0.0023	1.2m	42%	85	84	83	83	79	77	76	75	65	3	71%
98	Qwen 3 32B	$0.0019	1.2m	61%	79	78	77	76	74	71	68	65	62	53	70%
121	GPT-5.4 Nano (Reasoning)	$0.0096	40.4s	26%	92	92	90	88	88	85	85	82	0	0	70%
93	GPT-4.1 Mini	$0.0024	9.0s	58%	83	79	77	70	69	68	65	64	63	57	70%
110	DeepSeek V3 (2025-03-24)	$0.0030	35.9s	41%	88	86	77	77	75	73	71	66	66	3	68%
107	GPT-4o, May 13th (temp=1)	$0.047	5.3s	59%	79	77	72	69	69	69	66	65	59	52	68%
97	Mistral Small Creative	$0.0012	8.2s	60%	72	72	71	68	66	66	65	64	61	57	66%
103	GPT-4o, Aug. 6th (temp=1)	$0.019	5.8s	59%	73	72	71	70	67	65	64	63	57	56	66%
105	Inception Mercury	$0.0010	19.8s	52%	81	73	72	70	66	62	61	61	57	46	65%
102	Qwen 2.5 72B	$0.0015	12.7s	56%	76	72	67	64	63	63	63	61	59	53	64%
99	GPT-5.4 Mini	$0.0060	3.8s	59%	71	66	66	66	66	64	63	58	57	57	64%
120	GPT-4o, Aug. 6th (temp=0)	$0.052	18.5s	49%	76	76	69	69	69	69	67	66	34	34	63%
125	Grok 4.3	$0.013	14.3s	30%	85	82	80	77	76	71	71	56	3	3	60%
112	Mistral Small 3.2 24B	$0.0013	31.5s	49%	70	66	65	65	62	58	57	54	49	40	59%
108	Ministral 3 8B	$0.0014	10.2s	51%	66	64	62	58	58	57	57	56	52	46	58%
116	Hermes 3 405B	$0.0079	17.3s	46%	73	70	64	58	55	55	55	51	50	47	58%
115	Gemma 3 27B	$0.0009	24.2s	47%	71	68	63	57	56	55	53	53	52	44	57%
113	Ministral 8B	$0.0010	15.3s	49%	65	63	60	57	56	53	51	51	51	51	56%
118	Arcee AI: Trinity Mini	$0.0006	10.2s	41%	72	70	69	55	52	51	51	51	43	43	56%
119	Mistral Small 4	$0.0017	7.8s	43%	73	58	57	54	52	52	50	46	44	44	53%
123	Ministral 3 14B	$0.0019	14.1s	39%	63	63	60	60	60	57	53	48	42	3	51%
128	Hermes 3 70B	$0.0024	23.5s	34%	64	64	61	60	55	53	51	50	38	0	49%
122	Claude 3 Haiku	$0.0026	4.0s	42%	61	58	51	49	47	46	44	44	44	44	49%
124	Gemma 3 12B	$0.0007	23.4s	40%	61	59	55	52	48	44	44	43	40	40	49%
132	Llama 3.1 Nemotron 70B	$0.010	26.3s	36%	68	58	57	55	55	52	50	44	44	3	49%
141	GPT-4o, May 13th (temp=0)	$0.074	20.0s	20%	78	76	76	74	68	39	38	3	3	3	46%
130	GPT-4o Mini (temp=1)	$0.0010	10.0s	35%	57	55	55	52	46	44	44	43	40	17	45%
129	WizardLM 2 8x22b	$0.0069	30.7s	40%	55	49	48	46	46	43	43	42	39	39	45%
135	GPT-5.4 Nano (Reasoning, Low)	$0.0030	13.8s	18%	82	77	75	75	73	64	0	0	0	0	45%
127	Ministral 3B	$0.0004	8.2s	41%	46	44	44	43	43	43	42	41	40	39	43%
131	Ministral 3 3B	$0.0011	10.1s	39%	47	46	44	42	41	41	41	40	38	38	42%
136	Cohere Command R+ (Aug. 2024)	$0.027	18.8s	30%	55	55	54	51	49	49	42	42	3	3	40%
133	Mistral NeMO	$0.0014	1.3m	33%	55	42	41	39	38	37	36	36	35	35	39%
140	Llama 3.1 70B	$0.0044	1.5m	26%	55	52	52	46	46	43	34	3	3	0	33%
137	Llama 3.1 8B	$0.0004	30.0s	23%	57	51	42	38	36	33	33	32	3	3	33%
138	Gemini 2.5 Flash Lite	$0.0011	4.7s	21%	61	61	56	49	48	42	0	0	0	0	32%
139	Rocinante 12B	$0.0018	7.3s	23%	44	44	42	33	33	33	33	33	3	0	30%
147	Arcee AI: Trinity Large (Preview)	$0.0000	14.1m	25%	39	38	37	34	34	34	34	34	3	3	29%
146	LFM2 24B	$0.0019	4.9m	24%	36	35	34	33	33	33	33	3	3	3	25%
142	Gemma 3 4B	$0.0005	29.8s	18%	43	40	38	37	29	23	21	3	3	3	24%
145	GPT-4o Mini (temp=0)	$0.0015	2.5m	12%	53	44	41	40	35	3	3	3	3	3	23%
143	GPT-4.1 Nano	$0.0008	9.4s	11%	51	35	33	17	17	16	3	3	0	0	18%
144	GPT-5.4 Nano	$0.0015	5.5s	10%	41	36	34	30	26	3	0	0	0	0	17%
77.16%

Median	Evaluator	Top 3	Flop 3
65.2%	Accuracy (recall)	96Grok 4 94Qwen3.6 Max Preview 94Claude Sonnet 4.6 (Reasoning)	0Rocinante 12B 0LFM2 24B 0Arcee AI: Trinity Large (Preview)
90.6%	Precision	100Qwen3.6 Max Preview 100o4 Mini 100o4 Mini High	2LFM2 24B 5Arcee AI: Trinity Large (Preview) 9Rocinante 12B
100.0%	Structural validity	100Mistral Large 2 100Gemma 4 31B (Reasoning) 100Z.AI GLM 4.5 Air	26GPT-5.4 Nano 39GPT-4.1 Nano 55GPT-4o Mini (temp=0)

5 codex entries

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%

	Score	Cost	Time
DeepSeek V4 Flash	98%	$0.0001	3.4s
Gemini 3.1 Flash Lite (Reasoning)	96%	$0.0008	1.4s
Gemini 3.1 Flash Lite (Preview)	97%	$0.0008	1.3s
Gemma 4 26B	100%	$0.0002	8.4s
Grok 4 Fast	99%	$0.0008	6.9s
Gemini 2.5 Flash Lite (Reasoning)	98%	$0.0008	5.2s
Gemini 3 Flash (Preview)	100%	$0.0015	2.3s
DeepSeek-V2 Chat	96%	$0.0007	6.2s
DeepSeek V3 (2024-12-26)	96%	$0.0007	7.3s
Stealth: Healer Alpha	100%	$0.0000	12.7s
DeepSeek V4 Flash (Reasoning)	99%	$0.0003	12.7s
Qwen 3 32B	100%	$0.0005	13.1s
Grok 4.1 Fast	100%	$0.0009	9.2s
Gemma 4 31B	100%	$0.0003	23.4s
GPT-5.4 Nano (Reasoning)	89%	$0.0014	6.3s
Qwen 3.5 Plus (2026-02-15)	97%	$0.0014	12.5s
DeepSeek V4 Pro	97%	$0.0010	8.1s
DeepSeek V3 (2025-03-24)	99%	$0.0006	9.6s
Stealth: Aurora Alpha	94%	—	2.7s
Llama 3.1 Nemotron 70B	96%	$0.0020	8.2s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 3 Flash (Preview)	100%	$0.0015	2.3s	100%
Gemma 4 26B	100%	$0.0002	8.4s	100%
Grok 4.1 Fast	100%	$0.0009	9.2s	100%
Stealth: Healer Alpha	100%	$0.0000	12.7s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0032	3.8s	100%
DeepSeek V4 Flash	98%	$0.0001	3.4s	94%
GPT-4.1	100%	$0.0035	3.2s	100%
Qwen 3 32B	100%	$0.0005	13.1s	100%
Hermes 3 405B	100%	$0.0016	10.8s	100%
Gemini 3.1 Flash Lite (Preview)	97%	$0.0008	1.3s	92%
Grok 4 Fast	99%	$0.0008	6.9s	95%
Gemini 2.5 Flash (Reasoning)	100%	$0.0037	5.9s	100%
Gemini 2.5 Flash Lite (Reasoning)	98%	$0.0008	5.2s	94%
Gemini 3.1 Flash Lite (Reasoning)	96%	$0.0008	1.4s	91%
GPT-5.4	100%	$0.0051	3.7s	100%
DeepSeek V3 (2025-03-24)	99%	$0.0006	9.6s	95%
DeepSeek V4 Flash (Reasoning)	99%	$0.0003	12.7s	95%
Z.AI GLM 4.5	99%	$0.0013	11.9s	95%
GPT-5.4 Mini (Reasoning)	100%	$0.0055	7.3s	100%
Gemma 4 31B	100%	$0.0003	23.4s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
122	Claude Opus 4.6 (Reasoning)	$0.028	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Qwen3.6 Max Preview	$0.026	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Gemini 3.1 Pro (Preview)	$0.024	20.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Z.AI GLM 5.1	$0.0049	39.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Sonnet 4.6 (Reasoning)	$0.018	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Grok 4.3 (Reasoning)	$0.0095	46.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	GPT-5.4 (Reasoning)	$0.013	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Claude Opus 4.7 (Reasoning)	$0.023	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	GPT-5.5 (Reasoning)	$0.027	10.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5 Mini	$0.0051	25.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.1	$0.014	21.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Opus 4.6	$0.014	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	MoonshotAI: Kimi K2.6	$0.013	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Gemma 4 31B (Reasoning)	$0.0007	49.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Qwen 3.5 122B	$0.014	42.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen 3.5 Plus (2026-04-20)	$0.0079	47.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Gemma 4 26B (Reasoning)	$0.0006	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Grok 4.20 (Beta, Reasoning)	$0.015	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	GPT-5.4 (Reasoning, Low)	$0.0085	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Grok 4.20 (Reasoning)	$0.0074	24.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Z.AI GLM 5	$0.0047	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	MoonshotAI: Kimi K2.5	$0.0078	45.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	ByteDance Seed 1.6	$0.0026	25.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Qwen 3.6 Flash	$0.0058	19.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.4 Mini (Reasoning)	$0.0055	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3 Flash (Preview, Reasoning)	$0.0055	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	o4 Mini High	$0.016	29.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-5.2	$0.0090	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	DeepSeek V4 Pro (Reasoning)	$0.0062	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Claude Opus 4.5	$0.014	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Grok 4.1 Fast	$0.0009	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Aion 2.0	$0.0041	42.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	GPT-5.5	$0.015	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Qwen 3.6 35B	$0.0074	29.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Gemini 3 Pro (Preview)	$0.023	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Claude Sonnet 4	$0.0081	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Z.AI GLM 4.7	$0.0053	39.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-4.1	$0.0035	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Gemini 2.5 Pro	$0.018	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	o4 Mini	$0.010	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Qwen 3.5 35B	$0.0094	32.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Xiaomi MIMO v2.5 Pro	$0.0034	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	ByteDance Seed 2.0 Mini	$0.0013	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Gemma 4 31B	$0.0003	23.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 2.5 Flash (Reasoning)	$0.0037	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Qwen 3.5 Flash	$0.0022	34.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Stealth: Healer Alpha	$0.0000	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemma 4 26B	$0.0002	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-5.4 Mini (Reasoning, Low)	$0.0032	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 3 Flash (Preview)	$0.0015	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	ByteDance Seed 2.0 Lite	$0.0032	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Nemotron 3 Super	$0.0000	41.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4	$0.0051	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Claude 3.5 Sonnet	$0.017	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Claude 3.7 Sonnet	$0.0087	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Hermes 3 405B	$0.0016	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Qwen 3 32B	$0.0005	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Z.AI GLM 5 Turbo	$0.0031	7.6s	95%	100	100	100	100	100	100	100	100	100	91	99%
142	Qwen 3.5 397B A17B	$0.017	2.0m	95%	100	100	100	100	100	100	100	100	100	91	99%
131	Qwen 3.5 27B	$0.015	1.4m	95%	100	100	100	100	100	100	100	100	100	91	99%
112	Qwen 3.6 27B	$0.011	50.6s	95%	100	100	100	100	100	100	100	100	100	91	99%
17	DeepSeek V4 Flash (Reasoning)	$0.0003	12.7s	95%	100	100	100	100	100	100	100	100	100	91	99%
18	Z.AI GLM 4.5	$0.0013	11.9s	95%	100	100	100	100	100	100	100	100	100	91	99%
11	Grok 4 Fast	$0.0008	6.9s	95%	100	100	100	100	100	100	100	100	100	91	99%
38	Xiaomi MIMO v2.5	$0.0037	15.0s	95%	100	100	100	100	100	100	100	100	100	91	99%
16	DeepSeek V3 (2025-03-24)	$0.0006	9.6s	95%	100	100	100	100	100	100	100	100	93	93	99%
117	Qwen 3.5 9B	$0.0011	1.4m	94%	100	100	100	100	100	100	100	100	93	91	98%
48	Claude Sonnet 4.5	$0.0081	4.2s	90%	100	100	100	100	100	100	100	100	100	83	98%
109	GPT-5.5 (Reasoning, Low)	$0.022	8.3s	93%	100	100	100	100	100	100	100	100	91	91	98%
13	Gemini 2.5 Flash Lite (Reasoning)	$0.0008	5.2s	94%	100	100	100	100	100	100	100	93	93	93	98%
6	DeepSeek V4 Flash	$0.0001	3.4s	94%	100	100	100	100	100	100	100	93	93	93	98%
53	Z.AI GLM 4.6	$0.0014	23.7s	89%	100	100	100	100	100	100	100	100	91	83	97%
132	Grok 4	$0.029	41.0s	92%	100	100	100	100	100	100	100	91	91	91	97%
74	GPT-OSS 120B	$0.0009	47.0s	93%	100	100	100	100	100	100	93	93	93	93	97%
10	Gemini 3.1 Flash Lite (Preview)	$0.0008	1.3s	92%	100	100	100	100	100	100	100	91	91	91	97%
76	Nemotron 3 Nano	$0.0009	46.3s	91%	100	100	100	100	100	100	93	93	93	87	97%
95	Claude Opus 4.7	$0.019	3.3s	89%	100	100	100	100	100	100	100	91	91	84	97%
28	DeepSeek V4 Pro	$0.0010	8.1s	89%	100	100	100	100	100	100	100	91	91	83	97%
56	Qwen 3.5 Plus (2026-02-15)	$0.0014	12.5s	79%	100	100	100	100	100	100	100	100	100	66	97%
145	GPT-5	$0.040	1.1m	91%	100	100	100	100	100	100	91	91	91	91	96%
50	Stealth: Hunter Alpha	$0.0000	28.6s	91%	100	100	100	100	100	100	91	91	91	91	96%
14	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.4s	91%	100	100	100	100	100	100	91	91	91	91	96%
25	DeepSeek-V2 Chat	$0.0007	6.2s	89%	100	100	100	100	100	100	93	93	91	83	96%
54	Llama 3.1 Nemotron 70B	$0.0020	8.2s	79%	100	100	100	100	100	100	100	100	91	66	96%
26	Gemini 3.1 Flash Lite	$0.0008	3.6s	87%	100	100	100	100	100	91	91	91	91	91	96%
37	DeepSeek V3 (2024-12-26)	$0.0007	7.3s	85%	100	100	100	100	100	100	93	93	93	76	96%
29	DeepSeek V3.2	$0.0004	7.6s	87%	100	100	100	100	100	91	91	91	91	91	96%
24	Inception Mercury 2	$0.0011	1.8s	88%	100	100	100	93	93	93	93	93	93	93	95%
49	Z.AI GLM 4.5 Air	$0.0011	13.4s	83%	100	100	100	100	100	100	100	93	83	75	95%
40	Llama 3.1 70B	$0.0008	10.8s	87%	100	100	100	100	100	100	93	90	83	83	95%
62	Stealth: Aurora Alpha	—	2.7s	77%	100	100	100	100	100	93	93	93	93	66	94%
55	Mistral Large	$0.0046	4.7s	84%	100	100	100	91	91	91	91	91	91	91	94%
61	MiniMax M2.7	$0.0011	16.4s	83%	100	100	100	93	93	93	93	93	83	83	93%
43	Mistral Small 4 (Reasoning)	$0.0010	9.0s	85%	100	100	93	93	93	93	91	91	91	83	93%
34	ByteDance Seed 1.6 Flash	$0.0004	5.7s	86%	100	93	93	93	93	93	93	93	93	83	93%
110	Z.AI GLM 4.7 Flash	$0.0010	52.6s	80%	100	100	100	100	100	93	93	83	83	75	93%
32	Inception Mercury	$0.0002	5.9s	87%	100	93	93	93	93	93	93	93	87	87	93%
36	Gemini 2.5 Flash	$0.0009	1.2s	84%	100	93	93	93	93	93	93	93	83	83	92%
139	Claude Opus 4	$0.040	6.7s	76%	100	100	100	100	100	83	83	83	83	83	92%
30	Mistral Large 3	$0.0012	5.7s	91%	91	91	91	91	91	91	91	91	91	91	91%
45	Mistral Large 2	$0.0047	5.1s	91%	91	91	91	91	91	91	91	91	91	91	91%
97	GPT-4o, May 13th (temp=0)	$0.011	2.0s	72%	100	100	100	100	91	91	83	76	76	76	89%
115	GPT-5.4 Nano (Reasoning)	$0.0014	6.3s	41%	100	100	100	100	100	100	100	97	93	0	89%
120	DeepSeek V3.1	$0.0005	14.7s	43%	100	100	100	100	100	100	91	84	83	3	86%
65	Qwen 2.5 72B	$0.0002	5.8s	77%	93	93	93	93	93	93	75	75	75	75	86%
91	MiniMax M2.5	$0.0012	16.1s	68%	100	100	93	91	83	83	83	75	75	75	86%
73	Mistral Medium 3.1	$0.0011	3.8s	73%	100	83	83	83	83	83	83	83	76	76	83%
80	Arcee AI: Trinity Mini	$0.0002	4.6s	66%	100	93	93	93	87	87	75	75	66	66	83%
83	Claude Sonnet 4.6	$0.0087	4.1s	83%	83	83	83	83	83	83	83	83	83	83	83%
63	Gemma 3 27B	$0.0002	8.7s	83%	83	83	83	83	83	83	83	83	83	83	83%
77	GPT-4.1 Mini	$0.0010	3.2s	69%	93	93	83	83	83	83	83	83	83	60	83%
143	GPT-5 Nano	$0.0033	1.3m	41%	100	100	100	93	93	93	93	75	75	3	83%
96	GPT-4o Mini (temp=1)	$0.0003	5.4s	59%	93	93	93	93	75	75	75	75	67	67	81%
119	GPT-4o, May 13th (temp=1)	$0.011	2.7s	66%	91	91	83	83	76	76	76	76	76	76	80%
104	GPT-4o, Aug. 6th (temp=0)	$0.0054	2.2s	65%	91	91	91	76	76	76	76	76	76	76	80%
101	GPT-4o, Aug. 6th (temp=1)	$0.0052	2.4s	66%	91	91	83	76	76	76	76	76	76	76	79%
90	GPT-4o Mini (temp=0)	$0.0003	5.0s	64%	93	93	75	75	75	75	75	75	75	75	79%
102	Grok 4.20	$0.0022	3.0s	60%	100	91	84	83	76	76	76	69	69	63	79%
85	Grok 4.3	$0.0021	2.6s	69%	83	83	83	83	83	83	76	76	67	58	78%
86	Grok 4.20 (Beta)	$0.0024	1.3s	69%	84	83	83	76	76	76	76	76	76	69	77%
107	Writer: Palmyra X5	$0.0028	7.2s	64%	83	83	83	83	83	83	76	76	76	44	77%
87	Gemma 3 12B	$0.0001	5.5s	67%	93	75	75	75	75	75	75	75	75	75	77%
108	Qwen3 235B A22B Instruct 2507	$0.0002	10.9s	62%	83	83	83	83	83	76	76	76	76	44	76%
100	Claude Haiku 4.5	$0.0029	3.1s	65%	83	83	83	83	76	76	75	67	67	67	76%
98	Arcee AI: Trinity Large (Preview)	$0.0000	8.1s	64%	83	83	83	83	76	76	69	69	67	63	75%
111	GPT-5.4 Mini	$0.0023	1.9s	59%	91	83	83	76	76	76	76	67	67	50	74%
93	Mistral Small Creative	$0.0002	2.1s	67%	76	76	76	76	76	76	69	69	63	60	71%
127	Cohere Command R+ (Aug. 2024)	$0.0057	5.8s	49%	93	87	87	76	75	67	57	57	57	44	70%
106	Gemini 2.5 Flash Lite	$0.0002	947ms	62%	75	75	67	67	67	67	67	67	67	67	68%
121	Mistral NeMO	$0.0002	2.0s	51%	83	75	75	75	67	67	60	60	50	44	66%
126	Llama 3.1 8B	$0.0001	4.6s	45%	83	83	78	78	63	60	60	57	54	39	65%
123	Ministral 3 3B	$0.0002	1.6s	49%	83	83	76	69	67	67	63	60	44	42	65%
118	Mistral Small 3.2 24B	$0.0002	4.5s	58%	76	69	69	67	67	67	60	60	60	50	64%
124	Claude 3 Haiku	$0.0007	3.3s	52%	76	76	67	67	67	60	57	57	50	50	62%
128	Ministral 3B	$0.0001	1.2s	40%	83	78	76	67	57	54	50	50	44	42	60%
125	Ministral 3 14B	$0.0004	4.1s	52%	69	69	63	63	63	54	54	54	54	53	60%
130	Mistral Small 4	$0.0003	2.2s	37%	75	75	67	67	67	60	60	54	44	0	57%
136	Hermes 3 70B	$0.0005	13.2s	34%	76	75	75	66	60	57	57	50	44	0	56%
140	GPT-5.4 Nano (Reasoning, Low)	$0.0009	3.0s	7%	100	100	100	93	60	54	0	0	0	0	51%
133	Ministral 8B	$0.0002	3.6s	37%	69	49	49	44	44	43	43	43	43	42	47%
138	GPT-5.4 Nano	$0.0005	1.7s	23%	76	76	75	69	67	60	43	0	0	0	47%
134	Gemma 3 4B	$0.0001	2.6s	36%	57	57	57	44	42	42	42	42	42	42	46%
135	Ministral 3 8B	$0.0003	3.8s	40%	49	44	44	44	43	42	40	40	40	39	43%
144	Rocinante 12B	$0.0004	5.1s	21%	67	57	53	40	38	37	33	3	3	3	34%
141	GPT-4.1 Nano	$0.0001	951ms	20%	57	57	57	57	44	33	17	0	0	0	32%
147	WizardLM 2 8x22b	$0.0016	14.5s	3%	3	3	3	3	3	3	0	0	0	0	2%
146	LFM2 24B	$0.0000	2.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
88.58%

Median	Evaluator	Top 3	Flop 3
96.0%	Accuracy (recall)	100Claude 3.5 Sonnet 100GPT-5 Mini 100GPT-5.4 Mini (Reasoning, Low)	0LFM2 24B 0WizardLM 2 8x22b 1Ministral 3 8B
98.0%	Precision	100Gemini 2.5 Flash (Reasoning) 100Stealth: Healer Alpha 100Grok 4.1 Fast	0WizardLM 2 8x22b 0LFM2 24B 21Rocinante 12B
100.0%	Structural validity	100Qwen3.6 Max Preview 100DeepSeek V3.2 100Nemotron 3 Super	0LFM2 24B 6WizardLM 2 8x22b 45GPT-4.1 Nano

10 codex entries

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
Gemini 3 Flash (Preview, Reasoning)	100%
DeepSeek V4 Pro (Reasoning)	100%
Qwen 3.6 27B	100%
Claude Opus 4.5	100%
Grok 4.1 Fast	100%
Gemini 3 Pro (Preview)	100%
Claude Sonnet 4	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	4.5s
Gemini 3.1 Flash Lite (Preview)	94%	$0.0011	1.5s
Gemma 4 26B	100%	$0.0003	10.1s
Gemini 3 Flash (Preview)	100%	$0.0015	2.7s
Mistral Medium 3.1	99%	$0.0015	3.7s
Grok 4 Fast	97%	$0.0010	7.8s
DeepSeek V4 Pro	98%	$0.0027	11.8s
Inception Mercury 2	98%	$0.0020	3.2s
Stealth: Healer Alpha	97%	$0.0000	19.0s
Gemma 4 31B	100%	$0.0005	32.7s
Qwen3 235B A22B Instruct 2507	96%	$0.0004	10.3s
Qwen 3.5 Plus (2026-02-15)	94%	$0.0018	12.4s
Mistral Small Creative	93%	$0.0003	2.3s
DeepSeek V4 Flash (Reasoning)	98%	$0.0005	17.7s
Grok 4.1 Fast	100%	$0.0013	18.5s
Mistral Small 4 (Reasoning)	93%	$0.0014	11.4s
MiniMax M2.5	97%	$0.0014	17.9s
Z.AI GLM 5 Turbo	100%	$0.0035	9.0s
Gemini 3.1 Flash Lite (Reasoning)	89%	$0.0010	2.2s
Writer: Palmyra X5	94%	$0.0034	6.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%
DeepSeek V4 Pro (Reasoning)	100%	100%	100%
Qwen 3.6 27B	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Grok 4.1 Fast	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%
Claude Sonnet 4	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	4.5s	100%
Gemini 3 Flash (Preview)	100%	$0.0015	2.7s	100%
Gemma 4 26B	100%	$0.0003	10.1s	100%
Mistral Medium 3.1	99%	$0.0015	3.7s	96%
Z.AI GLM 5 Turbo	100%	$0.0035	9.0s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0049	7.5s	100%
GPT-5.4	100%	$0.0061	4.2s	100%
Inception Mercury 2	98%	$0.0020	3.2s	94%
Grok 4.1 Fast	100%	$0.0013	18.5s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.0067	11.1s	100%
DeepSeek V4 Flash (Reasoning)	98%	$0.0005	17.7s	94%
GPT-5.4 (Reasoning, Low)	100%	$0.0096	6.3s	100%
Gemma 4 31B	100%	$0.0005	32.7s	100%
Qwen3 235B A22B Instruct 2507	96%	$0.0004	10.3s	90%
ByteDance Seed 1.6 Flash	94%	$0.0005	6.5s	90%
Xiaomi MIMO v2.5	99%	$0.0031	12.0s	92%
Claude Sonnet 4	100%	$0.012	4.6s	100%
Llama 3.1 Nemotron 70B	97%	$0.0030	9.7s	91%
DeepSeek V4 Pro	98%	$0.0027	11.8s	91%
Z.AI GLM 4.7	100%	$0.0047	26.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
106	Claude Opus 4.6 (Reasoning)	$0.034	15.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Qwen3.6 Max Preview	$0.034	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Gemini 3.1 Pro (Preview)	$0.031	24.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Z.AI GLM 5 Turbo	$0.0035	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	GPT-5.5 (Reasoning)	$0.030	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	GPT-5.5 (Reasoning, Low)	$0.025	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude Opus 4.6	$0.021	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Qwen 3.5 397B A17B	$0.018	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Gemma 4 31B (Reasoning)	$0.0010	1.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Gemma 4 26B (Reasoning)	$0.0018	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 (Reasoning, Low)	$0.0096	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	MoonshotAI: Kimi K2.5	$0.0093	48.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Qwen 3.5 27B	$0.014	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3 Flash (Preview, Reasoning)	$0.0067	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	DeepSeek V4 Pro (Reasoning)	$0.0054	52.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Qwen 3.6 27B	$0.015	57.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Claude Opus 4.5	$0.021	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Grok 4.1 Fast	$0.0013	18.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Gemini 3 Pro (Preview)	$0.032	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Claude Sonnet 4	$0.012	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Z.AI GLM 4.7	$0.0047	26.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Claude Sonnet 4.5	$0.012	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Qwen 3.5 35B	$0.014	51.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	ByteDance Seed 2.0 Mini	$0.0020	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemma 4 31B	$0.0005	32.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash (Reasoning)	$0.0049	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemma 4 26B	$0.0003	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 3 Flash (Preview)	$0.0015	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	ByteDance Seed 2.0 Lite	$0.0044	45.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4	$0.0061	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Z.AI GLM 5.1	$0.0091	42.4s	95%	100	100	100	100	100	100	100	100	100	92	99%
143	MoonshotAI: Kimi K2.6	$0.030	2.9m	95%	100	100	100	100	100	100	100	100	100	92	99%
98	Qwen 3.5 Plus (2026-04-20)	$0.011	1.1m	95%	100	100	100	100	100	100	100	100	100	92	99%
33	ByteDance Seed 1.6	$0.0034	31.9s	95%	100	100	100	100	100	100	100	100	100	92	99%
40	GPT-5.2	$0.013	12.3s	95%	100	100	100	100	100	100	100	100	100	92	99%
56	Aion 2.0	$0.0052	48.7s	95%	100	100	100	100	100	100	100	100	100	92	99%
37	GPT-5.5	$0.015	4.7s	95%	100	100	100	100	100	100	100	100	100	92	99%
75	Gemini 2.5 Pro	$0.022	14.8s	95%	100	100	100	100	100	100	100	100	100	92	99%
111	Grok 4	$0.030	38.7s	95%	100	100	100	100	100	100	100	100	100	92	99%
134	Claude Opus 4	$0.062	8.6s	95%	100	100	100	100	100	100	100	100	100	92	99%
71	Claude 3.5 Sonnet	$0.024	6.9s	96%	100	100	100	100	100	100	100	100	94	94	99%
4	Mistral Medium 3.1	$0.0015	3.7s	96%	100	100	100	100	100	100	100	100	94	94	99%
122	Qwen 3.5 9B	$0.0015	2.1m	95%	100	100	100	100	100	100	100	100	94	92	99%
69	Z.AI GLM 5	$0.0079	41.9s	92%	100	100	100	100	100	100	100	100	100	86	99%
16	Xiaomi MIMO v2.5	$0.0031	12.0s	92%	100	100	100	100	100	100	100	100	100	86	99%
118	Qwen 3.5 122B	$0.021	1.1m	94%	100	100	100	100	100	100	100	100	92	92	98%
68	Grok 4.20 (Beta, Reasoning)	$0.020	11.6s	94%	100	100	100	100	100	100	100	100	92	92	98%
11	DeepSeek V4 Flash (Reasoning)	$0.0005	17.7s	94%	100	100	100	100	100	100	100	100	92	92	98%
8	Inception Mercury 2	$0.0020	3.2s	94%	100	100	100	100	100	100	100	100	92	92	98%
38	GPT-4o, May 13th (temp=0)	$0.015	2.2s	95%	100	100	100	100	100	100	100	94	94	94	98%
19	DeepSeek V4 Pro	$0.0027	11.8s	91%	100	100	100	100	100	100	100	100	92	86	98%
22	MiniMax M2.7	$0.0014	19.7s	93%	100	100	100	100	100	100	100	94	94	89	98%
96	GPT-5.4 (Reasoning)	$0.021	30.3s	93%	100	100	100	100	100	100	100	92	92	92	98%
35	GPT-5.4 Mini (Reasoning)	$0.0082	10.2s	93%	100	100	100	100	100	100	94	94	94	89	97%
24	Stealth: Healer Alpha	$0.0000	19.0s	89%	100	100	100	100	100	100	100	100	86	86	97%
18	Llama 3.1 Nemotron 70B	$0.0030	9.7s	91%	100	100	100	100	100	94	94	94	94	92	97%
88	Grok 4.20 (Reasoning)	$0.012	42.3s	93%	100	100	100	100	100	100	92	92	92	92	97%
29	Grok 4 Fast	$0.0010	7.8s	82%	100	100	100	100	100	100	100	100	100	69	97%
28	MiniMax M2.5	$0.0014	17.9s	89%	100	100	100	100	100	100	100	94	86	86	97%
14	Qwen3 235B A22B Instruct 2507	$0.0004	10.3s	90%	100	100	100	100	100	100	92	92	92	86	96%
116	Grok 4.3 (Reasoning)	$0.013	1.0m	81%	100	100	100	100	100	100	100	100	92	68	96%
113	Claude Opus 4.7 (Reasoning)	$0.035	6.4s	87%	100	100	100	100	100	100	100	86	86	86	96%
77	o4 Mini	$0.014	20.7s	89%	100	100	100	100	100	100	92	92	86	86	96%
110	GPT-5.1	$0.020	29.2s	86%	100	100	100	100	92	92	92	92	92	92	95%
139	GPT-5	$0.042	1.0m	86%	100	100	100	100	92	92	92	92	92	92	95%
91	Qwen 3.6 35B	$0.0100	40.3s	87%	100	100	100	100	100	100	92	86	86	86	95%
95	Qwen 3.5 Flash	$0.0031	55.2s	82%	100	100	100	100	100	100	100	92	86	72	95%
26	GPT-5.4 Mini (Reasoning, Low)	$0.0029	4.0s	86%	100	100	100	100	94	94	94	89	89	89	95%
115	o4 Mini High	$0.024	36.5s	86%	100	100	100	100	100	92	92	92	86	86	95%
23	Gemini 2.5 Flash Lite (Reasoning)	$0.0014	10.7s	89%	100	100	94	94	94	94	94	92	92	92	95%
34	Qwen 3.5 Plus (2026-02-15)	$0.0018	12.4s	86%	100	100	100	100	100	100	86	86	86	86	94%
30	Writer: Palmyra X5	$0.0034	6.6s	86%	100	100	100	100	100	100	86	86	86	86	94%
15	ByteDance Seed 1.6 Flash	$0.0005	6.5s	90%	100	94	94	94	94	94	94	94	92	89	94%
31	GPT-4o, Aug. 6th (temp=1)	$0.0062	2.3s	89%	100	94	94	94	94	94	94	94	89	89	94%
67	Z.AI GLM 4.5 Air	$0.0018	32.0s	82%	100	100	100	100	100	100	94	86	86	72	94%
27	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.2s	91%	94	94	94	94	94	94	94	94	94	89	94%
32	Gemini 3.1 Flash Lite (Preview)	$0.0011	1.5s	80%	100	100	100	100	100	100	100	86	79	72	94%
36	Z.AI GLM 4.5	$0.0014	10.9s	84%	100	100	100	100	100	92	86	86	86	86	94%
94	GPT-OSS 120B	$0.0013	56.1s	82%	100	100	100	100	100	92	92	86	86	79	94%
41	DeepSeek V3 (2025-03-24)	$0.0008	16.3s	84%	100	100	100	94	94	94	92	86	86	86	93%
25	Mistral Small Creative	$0.0003	2.3s	83%	100	100	100	94	94	94	92	92	86	79	93%
44	Qwen 3 32B	$0.0006	11.1s	80%	100	100	100	94	94	94	94	94	89	72	93%
83	GPT-5 Mini	$0.0072	38.4s	88%	100	92	92	92	92	92	92	92	92	92	93%
120	Claude Sonnet 4.6 (Reasoning)	$0.027	19.3s	80%	100	100	100	100	100	86	86	86	86	86	93%
59	Xiaomi MIMO v2.5 Pro	$0.0040	17.9s	80%	100	100	100	100	100	86	86	86	86	86	93%
45	Mistral Small 4 (Reasoning)	$0.0014	11.4s	80%	100	100	100	100	100	100	92	86	79	72	93%
72	Stealth: Hunter Alpha	$0.0000	32.8s	78%	100	100	100	100	94	86	86	86	86	86	92%
102	Z.AI GLM 4.6	$0.0025	40.3s	72%	100	100	100	100	100	100	92	92	86	53	92%
47	Inception Mercury	$0.0003	7.9s	77%	100	100	100	100	94	86	86	86	86	79	92%
50	Gemini 3.1 Flash Lite	$0.0011	1.9s	75%	100	100	100	94	94	86	86	86	86	72	91%
126	Qwen 3.6 Flash	$0.0066	20.1s	42%	100	100	100	100	100	100	100	100	99	3	90%
125	GPT-5 Nano	$0.0037	1.4m	76%	100	100	94	86	86	86	86	86	86	86	90%
86	Z.AI GLM 4.7 Flash	$0.0010	36.3s	80%	100	94	89	89	89	89	89	89	89	79	90%
81	Mistral Large	$0.0067	5.1s	73%	100	100	100	92	86	86	86	86	79	79	90%
64	GPT-4.1	$0.0044	5.8s	77%	100	100	86	86	86	86	86	86	86	86	89%
39	Gemini 2.5 Flash	$0.0013	1.6s	81%	94	92	92	92	92	86	86	86	86	79	89%
55	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	2.2s	73%	100	100	100	94	94	94	79	79	79	66	89%
43	GPT-4.1 Mini	$0.0010	4.0s	82%	92	92	92	92	92	86	86	86	86	79	89%
61	Gemma 3 27B	$0.0003	8.1s	73%	100	100	92	86	86	86	86	86	86	72	88%
53	DeepSeek V4 Flash	$0.0002	4.8s	76%	100	92	92	92	86	86	86	86	79	79	88%
65	DeepSeek-V2 Chat	$0.0010	7.9s	73%	100	100	94	89	86	86	86	79	79	79	88%
84	DeepSeek V3.2	$0.0008	12.8s	68%	100	100	100	92	92	92	92	79	72	58	88%
112	Claude Opus 4.7	$0.027	4.3s	82%	92	92	86	86	86	86	86	86	86	86	87%
108	Nemotron 3 Super	$0.0000	1.0m	82%	94	86	86	86	86	86	86	86	86	86	87%
117	GPT-5.4 Nano (Reasoning)	$0.0018	7.4s	40%	100	100	100	100	100	94	92	92	86	0	87%
82	Claude Sonnet 4.6	$0.013	5.4s	86%	86	86	86	86	86	86	86	86	86	86	86%
48	Claude Haiku 4.5	$0.0042	3.6s	86%	86	86	86	86	86	86	86	86	86	86	86%
79	Mistral Small 3.2 24B	$0.0003	5.2s	68%	100	94	94	92	86	86	86	74	72	66	85%
63	Arcee AI: Trinity Mini	$0.0002	5.2s	74%	94	94	89	83	83	83	83	83	78	78	85%
78	Grok 4.20	$0.0027	3.4s	72%	92	92	92	86	86	86	86	86	72	66	85%
60	GPT-4o Mini (temp=1)	$0.0003	4.9s	75%	89	89	89	89	83	83	83	83	83	72	84%
119	Llama 3.1 70B	$0.0012	6.9s	41%	94	94	94	94	94	94	94	94	86	0	84%
58	Mistral Large 3	$0.0017	5.3s	79%	92	86	86	86	86	86	79	79	79	79	84%
133	Nemotron 3 Nano	$0.0016	1.8m	69%	94	94	89	86	86	86	86	79	78	58	84%
76	DeepSeek V3 (2024-12-26)	$0.0011	8.7s	73%	94	92	89	86	86	86	79	79	72	72	84%
109	Hermes 3 405B	$0.0025	12.1s	60%	100	94	89	86	86	86	86	86	79	40	83%
46	GPT-4o Mini (temp=0)	$0.0003	3.4s	83%	83	83	83	83	83	83	83	83	83	83	83%
73	Grok 4.20 (Beta)	$0.0033	1.5s	75%	92	86	86	86	86	86	81	79	72	72	83%
93	DeepSeek V3.1	$0.0008	14.6s	69%	94	92	92	86	86	86	79	79	66	64	83%
99	Mistral Large 2	$0.0067	5.3s	70%	100	86	86	86	86	79	79	79	72	72	83%
124	GPT-4o, May 13th (temp=1)	$0.014	2.1s	59%	100	94	94	94	94	89	89	56	56	56	82%
87	Gemini 2.5 Flash Lite	$0.0002	1.2s	66%	94	94	89	86	79	79	79	79	72	66	82%
80	Gemma 3 12B	$0.0001	9.3s	73%	92	86	86	86	86	86	79	79	72	64	82%
74	GPT-5.4 Mini	$0.0015	1.1s	73%	89	86	83	83	83	83	83	83	79	64	82%
89	Qwen 2.5 72B	$0.0005	5.9s	68%	94	89	89	89	89	89	83	64	64	64	81%
70	Ministral 3 8B	$0.0004	3.0s	75%	86	86	86	81	81	81	81	81	76	76	81%
103	Arcee AI: Trinity Large (Preview)	$0.0000	10.4s	65%	89	86	86	83	79	72	72	72	72	66	78%
101	Ministral 8B	$0.0003	3.4s	62%	100	86	81	81	81	76	71	69	69	64	78%
128	WizardLM 2 8x22b	$0.0018	5.9s	38%	100	94	92	86	86	79	79	72	72	0	76%
127	Grok 4.3	$0.0034	3.4s	40%	100	94	92	86	86	79	79	72	69	3	76%
132	Hermes 3 70B	$0.0008	53.3s	54%	86	81	79	79	79	72	72	72	58	33	71%
140	Claude 3.7 Sonnet	$0.013	6.0s	12%	100	100	100	100	100	100	92	3	3	3	70%
130	Cohere Command R+ (Aug. 2024)	$0.0081	6.4s	47%	89	89	86	79	79	66	64	61	49	33	70%
123	Claude 3 Haiku	$0.0010	3.5s	53%	79	79	79	79	66	64	58	58	58	58	68%
121	Mistral NeMO	$0.0004	2.7s	54%	79	79	72	72	64	64	64	58	58	53	67%
114	Ministral 3 14B	$0.0005	3.3s	58%	72	72	72	72	66	66	64	61	58	53	66%
131	Mistral Small 4	$0.0005	3.4s	39%	86	72	69	66	61	52	49	44	43	33	58%
135	Ministral 3 3B	$0.0003	2.8s	37%	86	56	53	52	52	49	41	41	39	37	51%
137	Ministral 3B	$0.0001	2.4s	36%	72	66	61	60	49	49	40	38	33	33	50%
138	Gemma 3 4B	$0.0001	3.0s	38%	64	58	56	49	49	44	42	39	33	33	47%
141	Rocinante 12B	$0.0005	3.7s	18%	72	72	64	64	51	33	33	3	0	0	39%
142	Llama 3.1 8B	$0.0001	10.6s	27%	44	44	42	40	39	38	33	33	3	3	32%
144	GPT-5.4 Nano (Reasoning, Low)	$0.0009	3.2s	6%	86	60	56	52	28	3	3	0	0	0	29%
145	GPT-5.4 Nano	$0.0005	1.8s	1%	66	53	49	27	3	0	0	0	0	0	20%
146	GPT-4.1 Nano	$0.0002	1.9s	0%	56	33	17	17	0	0	0	0	0	0	12%
147	LFM2 24B	$0.0001	594ms	0%	0	0	0	0	0	0	0	0	0	0	0%
88.48%

Median	Evaluator	Top 3	Flop 3
89.2%	Accuracy (recall)	100Gemma 4 26B 100Gemma 4 31B 100Grok 4.1 Fast	0LFM2 24B 0Llama 3.1 8B 2GPT-4.1 Nano
94.0%	Precision	100GPT-4o, May 13th (temp=0) 100Claude Sonnet 4 100GPT-5.4 (Reasoning, Low)	0LFM2 24B 10GPT-4.1 Nano 15Llama 3.1 8B
100.0%	Structural validity	100Grok 4.20 (Beta, Reasoning) 100Gemma 4 31B 100GPT-5.5	0LFM2 24B 25GPT-4.1 Nano 36GPT-5.4 Nano

20 codex entries

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.5	100%
Grok 4.20	99%
Grok 4.20 (Beta)	99%
Gemini 3.1 Pro (Preview)	99%
ByteDance Seed 2.0 Lite	97%
MoonshotAI: Kimi K2.6	97%
Gemini 2.5 Pro	97%
Claude Sonnet 4.5	97%
GPT-5	97%
Grok 4	96%
Grok 4.20 (Reasoning)	96%
Grok 4.20 (Beta, Reasoning)	96%
GPT-5.1	96%
Gemini 3 Pro (Preview)	95%
Grok 4.3 (Reasoning)	95%
GPT-5.4	95%
DeepSeek V4 Pro (Reasoning)	95%
Gemini 3 Flash (Preview, Reasoning)	95%

	Score	Cost	Time
Grok 4.20 (Beta)	99%	$0.0047	2.0s
Grok 4.20	99%	$0.0047	5.5s
Grok 4 Fast	87%	$0.0018	13.2s
Gemini 2.5 Flash	93%	$0.0023	2.5s
Stealth: Healer Alpha	92%	$0.0000	23.5s
Gemini 3 Flash (Preview)	92%	$0.0031	4.0s
Grok 4.1 Fast	95%	$0.0022	21.9s
Mistral Medium 3.1	92%	$0.0027	8.1s
DeepSeek V4 Flash	88%	$0.0003	8.1s
Gemma 4 31B	92%	$0.0007	20.8s
ByteDance Seed 1.6 Flash	87%	$0.0009	11.8s
DeepSeek V4 Flash (Reasoning)	94%	$0.0009	34.1s
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0018	2.1s
Gemini 3.1 Flash Lite	89%	$0.0018	2.6s
Gemini 3.1 Flash Lite (Preview)	88%	$0.0019	2.2s
Gemini 2.5 Flash Lite (Reasoning)	91%	$0.0022	17.1s
GPT-4.1	75%	$0.0076	8.2s
GPT-5.4 Mini (Reasoning, Low)	91%	$0.0054	8.4s
Z.AI GLM 5 Turbo	95%	$0.0077	20.7s
GPT-5.4	95%	$0.011	8.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Grok 4.20	99%	98%	98%
Gemini 3.1 Pro (Preview)	99%	97%	97%
Grok 4.20 (Beta)	99%	95%	95%
GPT-5	97%	97%	94%
Grok 4.20 (Reasoning)	96%	96%	93%
GPT-5.1	96%	96%	93%
GPT-5.4	95%	97%	93%
Claude Sonnet 4.5	97%	93%	93%
Gemini 3 Flash (Preview)	92%	100%	92%
Gemma 4 31B	92%	100%	92%
GPT-5.2	95%	96%	92%
Gemini 2.5 Pro	97%	96%	92%
MoonshotAI: Kimi K2.6	97%	94%	92%
Grok 4.20 (Beta, Reasoning)	96%	94%	92%
ByteDance Seed 2.0 Lite	97%	95%	91%
Grok 4	96%	94%	91%
Gemini 3 Pro (Preview)	95%	95%	91%

	Score	Cost	Speed	Stability
Grok 4.20	99%	$0.0047	5.5s	98%
Grok 4.20 (Beta)	99%	$0.0047	2.0s	95%
Gemini 3 Flash (Preview)	92%	$0.0031	4.0s	92%
Gemini 2.5 Flash	93%	$0.0023	2.5s	88%
Gemma 4 31B	92%	$0.0007	20.8s	92%
Mistral Medium 3.1	92%	$0.0027	8.1s	88%
GPT-5.4	95%	$0.011	8.4s	93%
Grok 4.1 Fast	95%	$0.0022	21.9s	91%
Gemini 3.1 Flash Lite (Preview)	88%	$0.0019	2.2s	88%
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0018	2.1s	83%
Gemini 3.1 Flash Lite	89%	$0.0018	2.6s	83%
GPT-4o, Aug. 6th (temp=0)	91%	$0.011	3.8s	89%
Z.AI GLM 5 Turbo	95%	$0.0077	20.7s	89%
Gemini 2.5 Flash (Reasoning)	93%	$0.0076	12.3s	86%
GPT-5.4 Mini (Reasoning, Low)	91%	$0.0054	8.4s	85%
Gemini 2.5 Flash Lite (Reasoning)	91%	$0.0022	17.1s	86%
Claude Sonnet 4.5	97%	$0.022	8.9s	93%
Claude Opus 4.6	100%	$0.035	8.0s	100%
Stealth: Healer Alpha	92%	$0.0000	23.5s	84%
Claude Opus 4.5	100%	$0.037	8.6s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
82	Claude Opus 4.6 (Reasoning)	$0.067	25.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Claude Opus 4.6	$0.035	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Claude Opus 4.5	$0.037	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Grok 4.20	$0.0047	5.5s	98%	100	100	100	100	100	100	100	100	97	97	99%
2	Grok 4.20 (Beta)	$0.0047	2.0s	95%	100	100	100	100	100	100	100	100	100	92	99%
93	Gemini 3.1 Pro (Preview)	$0.059	44.7s	97%	100	100	100	100	100	100	100	100	96	96	99%
37	ByteDance Seed 2.0 Lite	$0.0065	1.0m	91%	100	100	100	100	97	96	96	96	96	92	97%
132	MoonshotAI: Kimi K2.6	$0.033	3.2m	92%	100	100	100	100	100	96	96	96	92	92	97%
52	Gemini 2.5 Pro	$0.035	21.2s	92%	100	100	100	96	96	96	96	96	96	96	97%
17	Claude Sonnet 4.5	$0.022	8.9s	93%	100	100	100	100	100	100	92	92	92	92	97%
113	GPT-5	$0.051	1.3m	94%	97	97	97	97	97	97	97	97	97	92	97%
112	Grok 4	$0.048	1.2m	91%	100	100	97	97	97	97	97	97	94	89	96%
29	Grok 4.20 (Reasoning)	$0.015	42.8s	93%	100	97	97	97	97	97	97	94	94	94	96%
40	Grok 4.20 (Beta, Reasoning)	$0.024	26.7s	92%	100	97	97	97	97	97	97	94	94	89	96%
61	GPT-5.1	$0.029	42.6s	93%	97	97	97	97	97	97	97	94	92	92	96%
91	Gemini 3 Pro (Preview)	$0.051	33.2s	91%	100	97	97	97	96	96	92	92	92	92	95%
80	Grok 4.3 (Reasoning)	$0.018	1.3m	88%	100	100	97	97	97	97	94	94	88	86	95%
7	GPT-5.4	$0.011	8.4s	93%	96	96	96	96	96	96	96	96	92	92	95%
135	DeepSeek V4 Pro (Reasoning)	$0.017	3.6m	88%	100	100	97	97	96	96	94	92	92	85	95%
22	Gemini 3 Flash (Preview, Reasoning)	$0.013	20.4s	88%	100	100	100	96	96	96	92	92	88	88	95%
77	Gemma 4 31B (Reasoning)	$0.0019	1.8m	90%	100	97	96	96	96	94	92	92	92	92	95%
13	Z.AI GLM 5 Turbo	$0.0077	20.7s	89%	100	100	97	96	96	96	92	92	89	89	95%
8	Grok 4.1 Fast	$0.0022	21.9s	91%	97	97	97	97	97	94	94	92	91	91	95%
32	GPT-5.2	$0.023	21.2s	92%	97	97	96	96	96	96	92	92	92	92	95%
89	Qwen 3.6 27B	$0.022	1.4m	89%	100	97	97	97	97	94	94	92	89	88	95%
96	Qwen 3.5 27B	$0.019	1.5m	85%	100	100	100	92	92	92	92	92	92	88	94%
66	Qwen 3.5 35B	$0.018	55.5s	88%	100	97	97	96	96	96	92	92	92	85	94%
74	Aion 2.0	$0.0086	1.3m	87%	100	100	97	97	96	94	92	89	88	88	94%
125	ByteDance Seed 2.0 Mini	$0.0033	3.3m	86%	100	97	97	97	92	92	92	92	92	88	94%
34	Xiaomi MIMO v2.5 Pro	$0.0087	36.5s	87%	100	100	97	96	96	92	92	92	88	88	94%
23	GPT-5.4 (Reasoning, Low)	$0.018	11.7s	88%	97	97	97	96	92	92	92	92	92	92	94%
133	Qwen3.6 Max Preview	$0.048	2.4m	86%	100	100	96	96	94	92	92	92	89	88	94%
21	DeepSeek V4 Flash (Reasoning)	$0.0009	34.1s	85%	100	100	96	96	96	94	92	92	85	85	94%
39	Claude Sonnet 4.6	$0.022	8.3s	85%	100	100	97	97	94	94	92	89	86	86	93%
117	Claude Sonnet 4.6 (Reasoning)	$0.067	43.0s	89%	96	96	96	96	96	92	92	92	92	88	93%
60	GPT-5.5 (Reasoning, Low)	$0.036	13.7s	90%	96	96	96	92	92	92	92	92	92	92	93%
106	MoonshotAI: Kimi K2.5	$0.015	1.9m	88%	97	96	96	96	92	92	92	92	92	88	93%
14	Gemini 2.5 Flash (Reasoning)	$0.0076	12.3s	86%	100	97	97	97	96	92	89	89	88	88	93%
73	Z.AI GLM 5	$0.014	1.1m	86%	100	97	97	94	94	92	92	92	91	85	93%
38	Stealth: Hunter Alpha	$0.0000	52.6s	86%	100	97	97	94	92	92	92	91	89	88	93%
4	Gemini 2.5 Flash	$0.0023	2.5s	88%	100	92	92	92	92	92	92	92	92	92	93%
83	o4 Mini High	$0.031	50.7s	87%	97	97	97	97	97	94	89	89	89	85	93%
69	Claude 3.5 Sonnet	$0.041	10.2s	88%	97	96	96	96	96	96	92	89	88	85	93%
88	Z.AI GLM 5.1	$0.018	1.4m	87%	97	97	96	94	92	92	92	92	88	88	93%
103	GPT-5.5 (Reasoning)	$0.061	26.1s	91%	96	92	92	92	92	92	92	92	92	92	93%
76	Qwen 3.5 Flash	$0.0041	1.3m	82%	100	97	97	96	96	96	96	88	85	76	93%
44	Qwen 3.6 Flash	$0.011	31.1s	84%	100	97	96	96	94	92	92	88	85	85	93%
84	GPT-5.4 (Reasoning)	$0.038	37.1s	87%	97	97	92	92	92	92	92	92	88	88	92%
5	Gemma 4 31B	$0.0007	20.8s	92%	92	92	92	92	92	92	92	92	92	92	92%
3	Gemini 3 Flash (Preview)	$0.0031	4.0s	92%	92	92	92	92	92	92	92	92	92	92	92%
6	Mistral Medium 3.1	$0.0027	8.1s	88%	96	96	92	92	92	92	92	92	89	88	92%
90	Qwen 3.5 Plus (2026-04-20)	$0.014	1.4m	85%	97	97	97	96	92	92	91	89	86	86	92%
45	GPT-5.5	$0.029	7.2s	90%	96	92	92	92	92	92	92	92	92	92	92%
19	Stealth: Healer Alpha	$0.0000	23.5s	84%	97	97	97	97	94	91	89	88	86	85	92%
48	o4 Mini	$0.017	28.6s	87%	97	94	94	94	94	94	89	89	89	85	92%
30	Claude Sonnet 4	$0.022	9.0s	89%	92	92	92	92	92	92	92	92	88	88	92%
67	Z.AI GLM 4.7	$0.010	1.0m	87%	96	96	92	92	92	92	88	88	88	88	91%
12	GPT-4o, Aug. 6th (temp=0)	$0.011	3.8s	89%	92	92	92	92	92	92	89	89	89	89	91%
119	Gemma 4 26B (Reasoning)	$0.0023	2.6m	83%	97	97	94	92	92	89	89	89	88	81	91%
16	Gemini 2.5 Flash Lite (Reasoning)	$0.0022	17.1s	86%	94	94	94	94	92	91	91	88	86	86	91%
57	GPT-5.4 Mini (Reasoning)	$0.020	29.3s	87%	94	92	92	92	92	92	92	89	86	86	91%
115	Claude Opus 4.7 (Reasoning)	$0.066	12.9s	82%	100	94	94	89	89	89	89	89	89	86	91%
15	GPT-5.4 Mini (Reasoning, Low)	$0.0054	8.4s	85%	94	94	94	94	92	92	89	89	88	81	91%
100	Qwen 3.5 122B	$0.025	1.1m	81%	97	97	97	92	92	88	88	88	85	81	91%
26	GPT-4o, Aug. 6th (temp=1)	$0.010	4.3s	80%	97	97	97	97	92	89	86	85	82	82	90%
78	Qwen 3.6 35B	$0.012	49.9s	79%	100	97	96	96	92	89	86	85	81	81	90%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0018	2.1s	83%	96	96	92	88	88	88	88	88	88	88	90%
105	GPT-5 Nano	$0.0052	1.8m	82%	97	94	94	94	89	89	88	86	85	85	90%
64	ByteDance Seed 1.6	$0.0066	1.0m	87%	92	92	89	89	89	89	89	89	89	89	90%
137	Claude Opus 4	$0.109	14.4s	81%	96	96	96	88	88	88	88	85	85	85	90%
11	Gemini 3.1 Flash Lite	$0.0018	2.6s	83%	96	96	88	88	88	88	88	88	88	85	89%
41	Xiaomi MIMO v2.5	$0.0052	19.8s	79%	97	96	96	92	89	88	86	85	85	81	89%
43	Mistral Large	$0.011	8.7s	79%	96	96	96	92	89	88	88	86	81	81	89%
36	MiniMax M2.7	$0.0019	23.0s	80%	97	94	94	94	89	89	86	86	85	79	89%
62	GPT-5 Mini	$0.0094	45.9s	86%	92	89	89	89	89	89	89	88	86	85	89%
46	DeepSeek V3.2	$0.0011	12.7s	71%	100	97	97	97	85	85	85	81	81	77	89%
9	Gemini 3.1 Flash Lite (Preview)	$0.0019	2.2s	88%	88	88	88	88	88	88	88	88	88	88	88%
27	DeepSeek V4 Flash	$0.0003	8.1s	74%	100	97	97	92	92	89	85	85	73	73	88%
95	Claude Opus 4.7	$0.051	9.3s	85%	92	88	88	88	88	88	88	88	85	85	88%
92	Z.AI GLM 4.7 Flash	$0.0023	1.5m	80%	97	91	91	89	88	86	86	86	85	82	88%
35	MiniMax M2.5	$0.0018	21.3s	81%	94	94	91	89	88	88	86	86	82	81	88%
49	DeepSeek V4 Pro	$0.0017	28.4s	79%	96	96	88	88	88	88	88	85	81	78	88%
47	Mistral Large 2	$0.012	8.8s	80%	92	92	92	89	88	88	88	85	81	77	87%
55	Qwen 3.5 Plus (2026-02-15)	$0.0039	34.5s	81%	92	92	92	89	88	88	85	85	85	79	87%
25	ByteDance Seed 1.6 Flash	$0.0009	11.8s	80%	94	91	91	91	91	91	88	82	82	73	87%
31	Grok 4.3	$0.0056	7.2s	79%	92	92	92	89	88	88	88	88	78	77	87%
128	Qwen 3.5 9B	$0.0020	2.4m	67%	97	97	96	92	89	89	89	86	86	53	87%
99	Grok 4 Fast	$0.0018	13.2s	43%	100	97	97	97	97	96	94	94	94	3	87%
104	Z.AI GLM 4.6	$0.0053	1.4m	74%	100	96	92	91	88	88	85	77	77	73	87%
42	Writer: Palmyra X5	$0.0053	10.4s	78%	94	92	89	88	86	86	86	86	82	77	87%
58	Z.AI GLM 4.5 Air	$0.0022	29.3s	76%	97	92	91	86	86	86	86	82	81	77	86%
33	Mistral Large 3	$0.0028	8.0s	78%	97	89	89	89	88	86	81	81	81	81	86%
131	Nemotron 3 Nano	$0.0023	3.1m	75%	94	94	91	91	89	82	82	82	82	73	86%
24	Inception Mercury 2	$0.0026	4.0s	80%	91	89	89	89	89	86	85	82	81	77	86%
54	GPT-5.4 Mini	$0.0033	8.8s	71%	97	97	92	88	85	85	81	81	81	70	86%
70	GPT-4o, May 13th (temp=0)	$0.025	3.5s	79%	91	89	89	89	86	86	82	82	82	79	85%
51	Stealth: Aurora Alpha	—	6.2s	81%	91	86	86	85	85	85	85	85	85	81	85%
56	Z.AI GLM 4.5	$0.0026	20.2s	76%	97	86	86	86	85	82	82	81	81	81	85%
68	Qwen3 235B A22B Instruct 2507	$0.0007	20.9s	68%	97	92	92	89	88	86	82	82	79	55	84%
75	DeepSeek V3.1	$0.0014	35.2s	71%	96	96	92	89	88	88	81	73	69	69	84%
53	Mistral Small 4 (Reasoning)	$0.0018	14.8s	75%	94	91	88	86	86	82	82	82	79	73	84%
50	Inception Mercury	$0.0006	7.7s	72%	96	94	89	88	85	85	81	78	77	70	84%
28	Gemma 4 26B	$0.0006	12.2s	81%	88	85	85	85	85	85	85	81	81	81	84%
101	Claude 3.7 Sonnet	$0.023	10.0s	63%	100	100	92	92	89	78	77	73	70	62	83%
102	GPT-OSS 120B	$0.0017	1.3m	75%	89	89	88	86	85	85	81	77	74	74	83%
63	DeepSeek V3 (2024-12-26)	$0.0017	13.9s	71%	94	91	91	86	86	86	82	73	73	65	83%
109	Claude Haiku 4.5	$0.0070	5.0s	42%	97	97	97	94	94	89	86	86	85	3	83%
145	Qwen 3.5 397B A17B	$0.027	3.0m	43%	96	92	92	92	92	92	88	88	85	3	82%
85	GPT-4o, May 13th (temp=1)	$0.024	3.4s	73%	91	86	85	82	82	82	79	75	73	73	81%
87	Qwen 3 32B	$0.0011	32.4s	64%	91	91	89	88	86	79	79	77	73	53	81%
59	GPT-4.1 Mini	$0.0013	5.3s	71%	89	86	86	86	85	82	82	69	69	69	80%
72	Ministral 3 14B	$0.0009	4.5s	63%	94	94	89	86	81	73	73	73	69	69	80%
81	Arcee AI: Trinity Large (Preview)	$0.0000	13.2s	64%	89	85	85	81	77	74	73	73	70	61	77%
65	Mistral Small Creative	$0.0005	6.8s	71%	81	81	81	77	77	77	73	73	73	69	76%
94	DeepSeek V3 (2025-03-24)	$0.0013	23.4s	62%	86	86	82	82	77	77	73	73	73	51	76%
71	Mistral Small 3.2 24B	$0.0005	8.6s	70%	82	81	79	77	77	74	73	73	73	69	76%
79	Arcee AI: Trinity Mini	$0.0003	7.0s	66%	82	82	82	82	79	75	73	70	69	60	75%
108	Hermes 3 405B	$0.0041	19.8s	57%	94	91	86	81	77	73	69	61	60	58	75%
126	GPT-4.1	$0.0076	8.2s	27%	96	94	94	94	94	94	89	85	3	3	75%
97	Llama 3.1 Nemotron 70B	$0.0051	16.2s	62%	82	82	82	79	73	69	69	69	69	65	74%
86	Gemma 3 27B	$0.0005	14.1s	65%	82	77	77	73	73	69	69	69	69	69	73%
98	Llama 3.1 70B	$0.0018	15.9s	61%	82	82	77	77	76	73	73	73	61	51	73%
118	DeepSeek-V2 Chat	$0.0017	12.2s	41%	91	86	86	86	82	77	73	73	69	3	73%
114	Cohere Command R+ (Aug. 2024)	$0.013	11.8s	58%	88	82	77	77	73	70	66	65	60	55	71%
124	Gemini 2.5 Flash Lite	$0.0004	1.5s	24%	100	97	96	89	85	85	81	77	0	0	71%
142	Nemotron 3 Super	$0.0000	1.9m	29%	89	89	86	86	85	85	85	77	3	3	69%
110	WizardLM 2 8x22b	$0.0031	8.4s	57%	82	73	69	69	69	66	65	65	60	51	67%
107	Mistral Small 4	$0.0008	4.1s	57%	73	73	73	70	68	62	62	61	60	56	66%
111	Ministral 3 8B	$0.0007	4.7s	54%	81	78	71	70	66	66	62	56	55	52	66%
116	GPT-4o Mini (temp=0)	$0.0005	7.0s	55%	71	66	60	59	59	59	59	59	59	59	61%
120	GPT-4o Mini (temp=1)	$0.0005	8.2s	48%	79	71	71	66	66	59	55	48	44	44	60%
127	Ministral 8B	$0.0004	4.0s	36%	78	78	74	71	66	66	62	56	33	0	58%
123	Claude 3 Haiku	$0.0016	4.3s	45%	75	65	60	59	55	55	51	51	48	40	56%
134	Hermes 3 70B	$0.0012	29.1s	36%	79	71	69	69	69	60	59	44	33	0	55%
140	GPT-5.4 Nano (Reasoning)	$0.0019	14.4s	10%	94	91	91	91	91	88	0	0	0	0	55%
121	Ministral 3B	$0.0002	2.5s	47%	65	62	59	58	58	53	53	50	47	39	54%
122	Ministral 3 3B	$0.0004	2.2s	46%	62	60	59	59	56	55	47	43	42	41	52%
129	Mistral NeMO	$0.0006	4.2s	42%	65	61	61	53	50	48	47	44	44	42	52%
130	Gemma 3 12B	$0.0005	10.4s	37%	65	61	61	61	60	53	52	51	47	3	51%
136	Llama 3.1 8B	$0.0001	8.1s	30%	71	69	61	55	43	42	39	36	33	27	48%
141	Qwen 2.5 72B	$0.0012	41.3s	29%	91	49	49	44	43	41	40	39	38	36	47%
143	GPT-5.4 Nano (Reasoning, Low)	$0.0010	4.8s	5%	91	91	89	88	79	0	0	0	0	0	44%
139	Gemma 3 4B	$0.0003	24.5s	34%	48	40	38	38	37	36	36	36	35	32	38%
138	Rocinante 12B	$0.0009	8.3s	34%	43	42	40	38	38	38	33	33	29	28	36%
144	GPT-5.4 Nano	$0.0007	2.3s	7%	81	73	73	70	51	0	0	0	0	0	35%
146	LFM2 24B	$0.0006	1.4m	31%	40	39	39	36	36	34	33	28	25	25	33%
147	GPT-4.1 Nano	$0.0004	4.1s	13%	33	33	24	17	17	17	3	3	0	0	15%
83.37%

Median	Evaluator	Top 3	Flop 3
79.1%	Accuracy (recall)	100Claude Opus 4.5 100Claude Opus 4.6 (Reasoning) 100Claude Opus 4.6	0LFM2 24B 0GPT-4.1 Nano 0Rocinante 12B
89.2%	Precision	100Claude Opus 4.5 100Grok 4.20 (Reasoning) 100Claude Opus 4.6 (Reasoning)	2GPT-4.1 Nano 9LFM2 24B 13Gemma 3 4B
100.0%	Structural validity	100ByteDance Seed 2.0 Mini 100Claude Opus 4.6 (Reasoning) 100Inception Mercury	42GPT-4.1 Nano 50GPT-5.4 Nano (Reasoning, Low) 50GPT-5.4 Nano

40 codex entries

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
Claude Opus 4.6	100%
Qwen 3.5 Plus (2026-04-20)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Grok 4.1 Fast	100%
GPT-5.5	100%
Qwen 3.6 35B	100%
Grok 4	100%
Gemma 4 31B	100%
Grok 4 Fast	100%
Z.AI GLM 5 Turbo	100%
Qwen 3.5 35B	100%
GPT-5.5 (Reasoning, Low)	100%

		matrix				tiers
Model	Total ▼	Small codex (7 entries), short passage (165 words)	Large codex (40 entries), short passage (165 words)	Small codex (7 entries), long passage (734 words)	Large codex (40 entries), long passage (1,019 words)	5 codex entries	10 codex entries	20 codex entries	40 codex entries
Claude Opus 4.5	99%	100%	100%	100%	96%	100%	100%	100%	98%
Gemini 3.1 Pro (Preview)	99%	100%	99%	99%	96%	100%	100%	99%	100%
Claude Opus 4.6 (Reasoning)	99%	100%	97%	98%	96%	100%	100%	100%	100%
Gemini 2.5 Pro	99%	99%	100%	99%	96%	100%	99%	97%	99%
Claude Opus 4.6	99%	100%	98%	99%	91%	100%	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	98%	100%	97%	100%	96%	100%	98%	96%	100%
Qwen3.6 Max Preview	98%	100%	97%	98%	98%	100%	100%	94%	100%
Grok 4.20 (Reasoning)	98%	100%	97%	97%	98%	100%	97%	96%	100%
Z.AI GLM 5.1	98%	100%	98%	96%	96%	100%	99%	93%	99%
GPT-5.5	98%	100%	100%	94%	95%	100%	99%	92%	100%
Qwen 3.5 27B	98%	100%	94%	98%	96%	99%	100%	94%	100%
Grok 4.3 (Reasoning)	97%	100%	97%	97%	96%	100%	96%	95%	99%
GPT-5.5 (Reasoning)	97%	100%	97%	92%	97%	100%	100%	93%	100%
Z.AI GLM 5 Turbo	97%	100%	98%	94%	94%	99%	100%	95%	100%
Gemma 4 31B (Reasoning)	97%	99%	96%	96%	93%	100%	100%	95%	99%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
94	Claude Opus 4.6 (Reasoning)	$0.077	25.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen3.6 Max Preview	$0.046	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Gemini 3.1 Pro (Preview)	$0.051	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Claude Sonnet 4.6 (Reasoning)	$0.058	28.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Claude Opus 4.7 (Reasoning)	$0.079	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5.5 (Reasoning)	$0.062	24.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Claude Opus 4.6	$0.050	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Qwen 3.5 Plus (2026-04-20)	$0.014	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Grok 4.20 (Beta, Reasoning)	$0.022	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 (Reasoning, Low)	$0.017	11.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Grok 4.20 (Reasoning)	$0.015	33.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Grok 4.1 Fast	$0.0016	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.5	$0.022	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Qwen 3.6 35B	$0.013	48.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Grok 4	$0.045	50.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemma 4 31B	$0.0012	29.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Grok 4 Fast	$0.0021	12.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Z.AI GLM 5 Turbo	$0.0057	13.3s	98%	100	100	100	100	100	100	100	100	100	97	100%
22	Qwen 3.5 35B	$0.015	41.5s	98%	100	100	100	100	100	100	100	100	100	97	100%
44	GPT-5.5 (Reasoning, Low)	$0.034	12.1s	97%	100	100	100	100	100	100	100	100	100	95	100%
37	Qwen 3.5 27B	$0.015	1.1m	97%	100	100	100	100	100	100	100	100	100	95	100%
33	Z.AI GLM 5.1	$0.013	1.1m	97%	100	100	100	100	100	100	100	100	97	97	99%
54	Grok 4.3 (Reasoning)	$0.021	1.4m	95%	100	100	100	100	100	100	100	100	100	92	99%
55	Gemma 4 31B (Reasoning)	$0.0019	2.6m	95%	100	100	100	100	100	100	100	100	100	92	99%
18	Qwen 3.6 Flash	$0.010	26.2s	95%	100	100	100	100	100	100	100	100	100	92	99%
40	Gemini 2.5 Pro	$0.027	16.8s	95%	100	100	100	100	100	100	100	100	100	92	99%
41	Claude Sonnet 4.5	$0.030	7.3s	95%	100	100	100	100	100	100	100	100	100	92	99%
13	Xiaomi MIMO v2.5 Pro	$0.0082	28.3s	95%	100	100	100	100	100	100	100	100	100	92	99%
30	GPT-5 Mini	$0.0075	1.3m	96%	100	100	100	100	100	100	100	100	95	95	99%
7	GPT-5.4	$0.011	7.9s	96%	100	100	100	100	100	100	100	100	95	95	99%
29	Gemma 4 26B (Reasoning)	$0.0024	1.5m	97%	100	100	100	100	100	100	100	97	97	97	99%
63	GPT-5.4 (Reasoning)	$0.039	39.6s	96%	100	100	100	100	100	100	100	97	97	95	99%
8	DeepSeek V4 Flash (Reasoning)	$0.0010	36.2s	95%	100	100	100	100	100	100	100	100	97	92	99%
35	MoonshotAI: Kimi K2.5	$0.012	54.2s	95%	100	100	100	100	100	100	100	100	95	92	99%
15	GPT-5.4 Mini (Reasoning)	$0.013	18.6s	97%	100	100	100	100	100	100	97	97	97	97	99%
70	Claude Opus 4.5	$0.050	8.2s	95%	100	100	100	100	100	97	97	97	97	97	98%
34	Aion 2.0	$0.0095	1.1m	95%	100	100	100	100	100	97	97	97	97	97	98%
5	Stealth: Healer Alpha	$0.0000	16.1s	95%	100	100	100	100	100	100	100	97	93	93	98%
62	ByteDance Seed 2.0 Mini	$0.0030	2.6m	95%	100	100	100	100	100	100	97	97	97	92	98%
56	o4 Mini High	$0.031	45.4s	94%	100	100	100	100	100	97	97	97	95	95	98%
9	Gemini 2.5 Flash (Reasoning)	$0.0072	10.7s	94%	100	100	100	100	100	100	97	95	95	92	98%
81	Qwen 3.5 397B A17B	$0.023	2.2m	93%	100	100	100	100	100	100	100	95	92	92	98%
32	o4 Mini	$0.016	25.1s	93%	100	100	100	100	100	97	97	97	97	92	98%
24	Z.AI GLM 4.7	$0.0070	28.9s	92%	100	100	100	100	100	100	100	97	92	88	98%
71	GPT-5.1	$0.034	49.6s	92%	100	100	100	100	97	97	97	97	95	93	98%
101	GPT-5	$0.056	1.4m	93%	100	100	100	100	100	100	97	95	92	92	98%
21	Gemini 3 Flash (Preview, Reasoning)	$0.0093	14.7s	92%	100	100	100	100	100	100	100	92	92	92	98%
76	Gemini 3 Pro (Preview)	$0.045	22.7s	92%	100	100	100	100	100	100	100	92	92	92	98%
26	Qwen 3.5 Flash	$0.0036	47.1s	92%	100	100	100	100	100	100	100	92	92	92	98%
27	Z.AI GLM 5	$0.0082	33.0s	92%	100	100	100	100	100	97	97	97	92	92	97%
65	Qwen 3.5 122B	$0.025	1.1m	93%	100	100	100	100	100	100	97	92	92	92	97%
14	Xiaomi MIMO v2.5	$0.0045	16.2s	93%	100	100	100	100	100	100	97	92	92	92	97%
69	Nemotron 3 Super	$0.0000	2.8m	93%	100	100	97	97	97	97	97	97	97	93	97%
39	ByteDance Seed 1.6	$0.0067	53.0s	91%	100	100	100	100	100	100	97	92	92	88	97%
12	Gemini 2.5 Flash Lite (Reasoning)	$0.0016	11.6s	91%	100	100	100	97	97	97	97	97	93	90	97%
23	ByteDance Seed 2.0 Lite	$0.0060	51.4s	97%	97	97	97	97	97	97	97	97	97	97	97%
20	Stealth: Hunter Alpha	$0.0000	32.5s	91%	100	100	100	100	100	97	93	92	92	92	97%
50	GPT-5.2	$0.023	22.0s	90%	100	100	100	95	95	95	95	95	95	91	96%
49	Claude Sonnet 4	$0.029	7.4s	94%	97	97	97	97	97	97	97	93	93	93	96%
19	Gemini 2.5 Flash	$0.0027	3.3s	90%	100	100	97	97	97	97	95	95	91	87	96%
36	Mistral Large 2	$0.016	6.3s	92%	100	97	97	97	97	97	93	93	93	92	96%
61	Claude Sonnet 4.6	$0.030	7.7s	90%	97	97	97	97	97	97	97	97	88	88	95%
60	Claude 3.7 Sonnet	$0.030	8.2s	90%	97	97	97	97	97	97	97	97	88	88	95%
82	Qwen 3.5 9B	$0.0020	2.0m	80%	100	100	100	100	97	97	97	97	92	70	95%
42	Z.AI GLM 4.5 Air	$0.0027	36.8s	87%	100	100	97	97	93	93	92	92	92	90	95%
25	Inception Mercury 2	$0.0029	4.4s	88%	100	97	97	97	97	95	92	91	88	88	94%
43	Mistral Small 4 (Reasoning)	$0.0020	15.1s	83%	100	97	97	97	97	93	93	93	93	76	94%
31	Mistral Large 3	$0.0040	6.6s	87%	100	97	97	97	97	93	92	88	88	88	94%
38	GPT-5.4 Mini (Reasoning, Low)	$0.0054	6.2s	86%	97	97	97	97	97	97	97	92	83	83	94%
80	GPT-OSS 120B	$0.0024	1.9m	83%	100	100	97	97	97	93	93	88	88	79	93%
95	Qwen 3.6 27B	$0.019	1.1m	73%	100	100	100	100	100	100	100	97	73	61	93%
73	GPT-4o, May 13th (temp=0)	$0.038	3.4s	91%	93	93	93	93	93	93	93	93	90	90	93%
51	Mistral Large	$0.016	6.2s	86%	97	97	97	97	97	97	93	84	84	84	93%
45	MiniMax M2.7	$0.0021	24.4s	86%	100	97	93	93	93	93	92	90	88	84	92%
47	DeepSeek V4 Pro	$0.0041	19.9s	85%	100	95	92	92	92	92	92	92	92	83	92%
57	Stealth: Aurora Alpha	—	5.8s	83%	97	97	97	97	97	93	92	88	88	75	92%
131	Claude Opus 4	$0.144	11.2s	82%	100	100	97	92	92	92	92	88	84	83	92%
53	Qwen 3.5 Plus (2026-02-15)	$0.0041	20.6s	82%	100	100	92	92	92	92	92	87	83	83	91%
111	Claude Opus 4.7	$0.066	6.0s	79%	100	100	100	92	92	92	92	83	83	79	91%
48	Gemini 3 Flash (Preview)	$0.0032	4.1s	83%	100	92	92	92	92	92	92	83	83	83	90%
135	MoonshotAI: Kimi K2.6	$0.035	3.6m	42%	100	100	100	100	100	100	100	100	95	3	90%
91	Z.AI GLM 4.6	$0.0035	46.7s	69%	100	100	100	100	92	92	91	88	75	61	90%
59	MiniMax M2.5	$0.0021	26.0s	81%	97	97	93	93	93	90	90	84	80	79	90%
79	Z.AI GLM 4.7 Flash	$0.0017	1.0m	79%	97	97	93	92	92	90	90	84	80	76	89%
46	Gemini 3.1 Flash Lite	$0.0021	2.0s	85%	92	92	92	92	92	92	87	83	83	83	89%
122	DeepSeek V4 Pro (Reasoning)	$0.0098	1.8m	41%	100	100	100	100	100	100	95	95	95	0	89%
107	Claude 3.5 Sonnet	$0.056	9.4s	81%	97	93	88	88	88	88	88	84	84	84	88%
67	DeepSeek V3.2	$0.0019	17.7s	79%	95	93	93	92	92	88	84	80	79	79	88%
58	Gemini 3.1 Flash Lite (Reasoning)	$0.0021	7.2s	80%	95	92	92	92	92	88	83	83	79	79	88%
64	Gemini 3.1 Flash Lite (Preview)	$0.0024	1.9s	79%	97	91	88	88	88	88	88	84	83	75	87%
77	DeepSeek-V2 Chat	$0.0027	10.9s	73%	97	97	93	92	92	92	90	75	70	70	87%
100	GPT-5 Nano	$0.0044	1.6m	74%	97	95	93	87	84	84	84	84	83	75	87%
83	GPT-4o, Aug. 6th (temp=1)	$0.013	3.1s	76%	93	93	93	93	90	88	84	80	80	70	87%
72	ByteDance Seed 1.6 Flash	$0.0010	11.5s	76%	93	93	93	90	90	87	87	84	76	72	87%
117	Nemotron 3 Nano	$0.0030	4.2m	76%	97	93	90	88	88	87	87	84	76	75	86%
84	GPT-4o, Aug. 6th (temp=0)	$0.012	2.8s	76%	93	93	90	90	90	84	84	84	80	70	86%
75	Ministral 3 14B	$0.0014	6.2s	75%	93	92	90	88	88	87	83	83	72	71	85%
89	Grok 4.20	$0.0084	5.2s	72%	95	92	92	91	87	83	79	79	76	71	84%
86	DeepSeek V3 (2024-12-26)	$0.0028	13.9s	72%	97	92	92	84	84	83	80	79	76	75	84%
108	GPT-4o, May 13th (temp=1)	$0.038	3.7s	74%	90	90	88	87	84	80	80	80	76	75	83%
88	Qwen3 235B A22B Instruct 2507	$0.0010	22.8s	73%	93	92	88	84	83	83	79	75	75	75	83%
93	DeepSeek V3 (2025-03-24)	$0.0020	9.9s	69%	93	92	88	87	83	79	75	75	74	71	82%
115	Gemma 4 26B	$0.0008	16.7s	42%	92	92	92	92	92	92	92	92	83	0	82%
85	GPT-4.1 Mini	$0.0015	4.4s	73%	90	84	84	84	80	80	79	79	76	75	81%
102	DeepSeek V3.1	$0.0018	30.1s	65%	97	92	87	84	83	83	83	79	62	62	81%
104	GPT-4.1	$0.0092	9.9s	65%	100	88	83	83	79	79	79	79	75	62	81%
87	Gemma 3 27B	$0.0007	10.2s	74%	87	87	84	80	80	80	80	79	75	75	81%
99	Writer: Palmyra X5	$0.0072	17.3s	68%	90	88	88	84	79	79	79	76	75	67	81%
118	Claude Haiku 4.5	$0.010	5.0s	42%	97	97	92	88	88	88	88	83	79	3	80%
98	Grok 4.20 (Beta)	$0.0075	2.2s	67%	88	87	87	87	79	76	75	75	71	71	80%
97	Mistral Medium 3.1	$0.0038	7.9s	67%	92	91	83	83	83	76	75	75	68	67	79%
96	DeepSeek V4 Flash	$0.0004	8.0s	65%	87	87	83	83	83	79	79	79	75	52	79%
103	Hermes 3 405B	$0.0067	12.8s	69%	83	83	83	83	80	75	72	71	70	70	77%
109	Z.AI GLM 4.5	$0.0025	12.4s	58%	93	88	88	88	80	79	76	75	53	50	77%
112	GPT-5.4 Mini	$0.0037	1.9s	53%	95	95	95	91	87	80	66	52	52	52	76%
106	Inception Mercury	$0.0006	10.9s	61%	92	84	79	79	75	75	71	71	67	54	75%
105	Mistral Small Creative	$0.0008	3.6s	63%	84	83	83	79	79	79	75	67	61	52	74%
110	Ministral 3 3B	$0.0007	1.7s	59%	83	83	83	80	75	72	71	67	60	53	73%
125	Qwen 3 32B	$0.0014	23.3s	39%	97	90	87	80	79	79	71	61	55	3	70%
113	Qwen 2.5 72B	$0.0011	8.6s	59%	83	80	76	76	72	72	66	61	61	53	70%
124	Grok 4.3	$0.0077	5.2s	41%	88	83	83	79	75	75	72	71	68	3	70%
121	Ministral 3 8B	$0.0011	3.5s	41%	84	84	84	83	83	79	67	67	63	0	69%
114	Mistral Small 4	$0.0008	3.4s	56%	79	79	76	75	72	72	66	60	56	44	68%
116	Mistral Small 3.2 24B	$0.0008	6.5s	55%	80	75	75	75	71	66	63	63	63	44	68%
126	Llama 3.1 Nemotron 70B	$0.0085	20.0s	48%	84	83	75	75	66	66	62	53	49	40	65%
120	Ministral 3B	$0.0003	1.3s	48%	83	80	72	66	60	60	60	55	55	55	65%
119	WizardLM 2 8x22b	$0.0051	8.0s	54%	76	75	75	66	66	66	62	55	53	51	64%
123	Hermes 3 70B	$0.0020	23.5s	50%	80	70	67	62	61	61	60	53	52	51	62%
129	Llama 3.1 70B	$0.0031	23.7s	35%	87	71	67	67	63	62	57	53	50	0	58%
127	Arcee AI: Trinity Mini	$0.0004	6.1s	42%	77	73	67	61	61	53	53	44	44	33	57%
146	Arcee AI: Trinity Large (Preview)	$0.0000	8.8m	35%	87	79	75	71	61	58	34	34	33	33	57%
136	GPT-5.4 Nano (Reasoning, Low)	$0.0011	4.9s	16%	93	92	92	88	88	61	41	0	0	0	55%
128	GPT-4o Mini (temp=0)	$0.0008	8.7s	42%	66	61	57	57	48	48	48	48	48	42	52%
134	Cohere Command R+ (Aug. 2024)	$0.020	10.4s	42%	66	66	60	60	60	48	44	41	40	33	52%
130	GPT-4o Mini (temp=1)	$0.0007	7.8s	41%	60	55	55	48	48	48	48	44	40	33	48%
143	GPT-5.4 Nano (Reasoning)	$0.0026	13.6s	4%	97	97	97	83	67	3	0	0	0	0	44%
132	Gemma 3 12B	$0.0003	7.1s	39%	55	48	48	48	48	40	40	40	40	33	44%
137	Gemini 2.5 Flash Lite	$0.0008	3.3s	28%	66	65	59	58	56	54	49	18	0	0	43%
133	Claude 3 Haiku	$0.0021	3.2s	40%	44	44	44	42	42	42	40	40	40	39	42%
140	GPT-5.4 Nano	$0.0008	3.2s	18%	83	80	66	54	54	48	3	0	0	0	39%
139	Mistral NeMO	$0.0011	6.2s	24%	72	48	41	38	37	36	35	33	33	0	37%
138	Gemma 3 4B	$0.0003	5.0s	33%	42	40	39	38	37	33	33	33	33	33	36%
144	Ministral 8B	$0.0007	2.2s	10%	75	75	71	67	67	0	0	0	0	0	35%
141	Llama 3.1 8B	$0.0002	36.7s	23%	60	57	44	42	38	33	32	25	3	3	34%
142	Rocinante 12B	$0.0015	5.4s	23%	44	42	38	33	33	33	33	17	3	0	28%
147	LFM2 24B	$0.0019	5.0m	25%	35	34	33	33	33	33	33	32	3	3	27%
145	GPT-4.1 Nano	$0.0003	2.2s	14%	33	18	17	17	17	17	17	17	0	0	15%
84.46%

Median	Evaluator	Top 3	Flop 3
84.5%	Accuracy (recall)	100Grok 4.20 (Reasoning) 100Gemini 3.1 Pro (Preview) 100Claude Opus 4.7 (Reasoning)	0Gemma 3 4B 0GPT-4.1 Nano 0Rocinante 12B
94.7%	Precision	100Gemini 3.1 Pro (Preview) 100Gemma 4 26B (Reasoning) 100Grok 4.1 Fast	1GPT-4.1 Nano 1LFM2 24B 7Rocinante 12B
100.0%	Structural validity	100Mistral Small 4 (Reasoning) 100Qwen 3.5 9B 100DeepSeek V3 (2024-12-26)	45GPT-4.1 Nano 50Ministral 8B 51GPT-5.4 Nano (Reasoning)