Codex Extraction

Evaluates a model's ability to extract structured codex entries (characters, locations, objects, lore) from prose passages and return them as well-formed XML.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.5	99%
Claude Opus 4.6 (Reasoning)	98%
Grok 4	98%
Gemini 3.5 Flash (Reasoning)	98%
Claude Opus 4.6	98%
Z.AI GLM 5.1	98%
GPT-5	98%
Gemini 3 Flash (Preview, Reasoning)	98%
Gemini 3.5 Flash (Reasoning, Minimal)	98%
Claude Opus 4	98%
Grok 4.20 (Reasoning)	98%
Claude Sonnet 4.6	98%
Qwen 3.5 Plus (2026-02-15)	98%
Qwen3.6 Max Preview	97%
Aion 2.0	97%
Claude Sonnet 4.6 (Reasoning)	97%
Grok 4.20 (Beta, Reasoning)	97%
Z.AI GLM 5 Turbo	97%
Gemini 3 Pro (Preview)	97%
Z.AI GLM 5	97%

	Score	Cost	Time
Gemini 3 Flash (Preview)	97%	$0.0027	3.9s
DeepSeek V4 Flash	95%	$0.0003	7.7s
Grok 4 Fast	96%	$0.0012	8.7s
Qwen 3.5 Plus (2026-02-15)	98%	$0.0030	10.6s
Mistral Medium 3.1	96%	$0.0026	5.8s
Xiaomi MIMO v2.5	97%	$0.0034	13.4s
Mistral Small Creative	94%	$0.0006	3.9s
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0018	2.0s
Mistral Large 3	94%	$0.0027	8.2s
Grok 4.1 Fast	97%	$0.0017	22.1s
Gemini 2.5 Flash	94%	$0.0023	2.5s
Gemini 3.5 Flash (Reasoning, Minimal)	98%	$0.010	3.1s
Gemini 3.1 Flash Lite (Preview)	94%	$0.0017	2.0s
Z.AI GLM 5 Turbo	97%	$0.0068	16.0s
Z.AI GLM 4.5	96%	$0.0028	16.8s
DeepSeek V4 Pro	95%	$0.0021	16.0s
Grok 4.20 (Beta)	95%	$0.0049	2.0s
Ministral 3 8B	94%	$0.0006	3.3s
Gemini 3.1 Flash Lite	94%	$0.0017	5.1s
Xiaomi MIMO v2.5 Pro	96%	$0.0048	18.7s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	98%	99%	97%
Claude Opus 4.5	99%	99%	97%
Claude Opus 4.6	98%	98%	97%
Grok 4	98%	98%	97%
Grok 4.20 (Reasoning)	98%	98%	96%
Gemini 3.5 Flash (Reasoning)	98%	98%	96%
Claude Sonnet 4.6	98%	98%	96%
GPT-5	98%	97%	96%
Claude Opus 4	98%	98%	96%
Z.AI GLM 5.1	98%	98%	96%
Claude Sonnet 4.6 (Reasoning)	97%	98%	96%
Gemini 3 Flash (Preview, Reasoning)	98%	97%	96%
Gemini 3.5 Flash (Reasoning, Minimal)	98%	98%	95%
Qwen3.6 Max Preview	97%	97%	95%
Z.AI GLM 5	97%	97%	95%
MoonshotAI: Kimi K2.6	97%	98%	95%
Aion 2.0	97%	97%	95%
Grok 4.20 (Beta, Reasoning)	97%	98%	95%
Qwen 3.5 Plus (2026-02-15)	98%	98%	95%
Z.AI GLM 5 Turbo	97%	97%	95%

	Score	Cost	Speed	Stability
Gemini 3 Flash (Preview)	97%	$0.0027	3.9s	95%
Qwen 3.5 Plus (2026-02-15)	98%	$0.0030	10.6s	95%
Grok 4 Fast	96%	$0.0012	8.7s	93%
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0018	2.0s	92%
Gemini 3.1 Flash Lite (Preview)	94%	$0.0017	2.0s	92%
Mistral Medium 3.1	96%	$0.0026	5.8s	92%
Gemini 3.5 Flash (Reasoning, Minimal)	98%	$0.010	3.1s	95%
Xiaomi MIMO v2.5	97%	$0.0034	13.4s	94%
Gemini 3.1 Flash Lite	94%	$0.0017	5.1s	92%
Grok 4.20 (Beta)	95%	$0.0049	2.0s	92%
Mistral Small Creative	94%	$0.0006	3.9s	89%
Grok 4.1 Fast	97%	$0.0017	22.1s	94%
Ministral 3 8B	94%	$0.0006	3.3s	88%
Z.AI GLM 5 Turbo	97%	$0.0068	16.0s	95%
Gemini 2.5 Flash	94%	$0.0023	2.5s	89%
Grok 4.20	95%	$0.0048	4.9s	91%
Mistral Large 3	94%	$0.0027	8.2s	91%
DeepSeek V4 Pro	95%	$0.0021	16.0s	92%
Z.AI GLM 4.5	96%	$0.0028	16.8s	92%
Mistral Small 3.2 24B	93%	$0.0005	4.4s	89%

Model	Total ▼	Short: The Rusty Lantern (Explicit)	Medium: Through the Thornveil (Scattered)	Medium: The Hollow (Inferred)	Long: The Spire of Echoes (Dense)
Claude Opus 4.5	99%	99%	98%	99%	98%
Claude Opus 4.6 (Reasoning)	98%	99%	99%	99%	98%
Grok 4	98%	99%	99%	98%	97%
Gemini 3.5 Flash (Reasoning)	98%	98%	99%	98%	99%
Claude Opus 4.6	98%	99%	97%	99%	98%
Z.AI GLM 5.1	98%	99%	99%	97%	97%
GPT-5	98%	99%	98%	99%	96%
Gemini 3 Flash (Preview, Reasoning)	98%	98%	97%	98%	99%
Gemini 3.5 Flash (Reasoning, Minimal)	98%	98%	99%	97%	97%
Claude Opus 4	98%	99%	97%	97%	98%
Grok 4.20 (Reasoning)	98%	99%	98%	98%	97%
Claude Sonnet 4.6	98%	99%	97%	98%	97%
Qwen 3.5 Plus (2026-02-15)	98%	99%	97%	97%	97%
Qwen3.6 Max Preview	97%	99%	97%	96%	98%
Aion 2.0	97%	98%	97%	97%	97%

Short: The Rusty Lantern (Explicit)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Z.AI GLM 5.1	99%
Qwen 3.5 Plus (2026-02-15)	99%
Grok 4	99%
Claude Sonnet 4.5	99%
GPT-5	99%
Claude Opus 4.5	99%
Claude Opus 4	99%
Claude Sonnet 4	99%
Grok 4.1 Fast	99%
DeepSeek V4 Flash (Reasoning)	99%
Claude Opus 4.6	99%
Grok 4.20 (Beta, Reasoning)	99%
MiniMax M2.7	99%
Claude Sonnet 4.6	99%
Qwen 3.5 397B A17B	99%
Grok 4.20 (Reasoning)	99%
Qwen3.6 Max Preview	99%
Z.AI GLM 4.5	99%
Hermes 3 405B	99%
Claude Opus 4.6 (Reasoning)	99%

	Score	Cost	Time
Mistral Small Creative	97%	$0.0004	2.7s
Ministral 3 8B	98%	$0.0005	2.6s
DeepSeek V4 Flash	98%	$0.0002	5.6s
Mistral Medium 3.1	98%	$0.0021	6.5s
Z.AI GLM 4.5	99%	$0.0013	8.1s
Qwen 3.5 Plus (2026-02-15)	99%	$0.0024	7.9s
Gemini 3 Flash (Preview)	98%	$0.0022	3.1s
DeepSeek V4 Pro	97%	$0.0005	10.9s
Xiaomi MIMO v2.5	98%	$0.0032	12.3s
DeepSeek V3 (2024-12-26)	96%	$0.0016	11.9s
Gemma 4 26B	96%	$0.0004	12.8s
MiniMax M2.7	99%	$0.0016	22.0s
DeepSeek V4 Flash (Reasoning)	99%	$0.0007	24.8s
Grok 4.1 Fast	99%	$0.0015	19.0s
GPT-5.4 Nano (Reasoning)	96%	$0.0017	7.3s
Grok 4 Fast	96%	$0.0010	7.4s
Qwen 2.5 72B	94%	$0.0007	8.5s
DeepSeek V3 (2025-03-24)	98%	$0.0008	28.8s
Xiaomi MIMO v2.5 Pro	98%	$0.0035	13.8s
Arcee AI: Trinity Large (Preview)	95%	$0.0000	14.5s

	Score	Consistency	Stability
Grok 4	99%	100%	99%
Qwen 3.5 Plus (2026-02-15)	99%	100%	99%
Claude Sonnet 4.5	99%	99%	99%
Claude Sonnet 4	99%	100%	99%
GPT-5	99%	100%	99%
Z.AI GLM 5.1	99%	99%	99%
Claude Opus 4.6	99%	100%	99%
Qwen3.6 Max Preview	99%	100%	99%
Claude Opus 4.5	99%	99%	99%
Claude Opus 4.6 (Reasoning)	99%	100%	99%
Claude Opus 4	99%	99%	98%
DeepSeek V4 Flash (Reasoning)	99%	99%	98%
Grok 4.1 Fast	99%	99%	98%
Claude Sonnet 4.6	99%	99%	98%
Z.AI GLM 4.5	99%	99%	98%
Hermes 3 405B	99%	99%	98%
Claude 3.7 Sonnet	98%	99%	98%
Grok 4.20 (Beta, Reasoning)	99%	99%	98%
Ministral 3 8B	98%	99%	98%
MoonshotAI: Kimi K2.6	98%	100%	97%

	Score	Cost	Speed	Stability
Ministral 3 8B	98%	$0.0005	2.6s	98%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0024	7.9s	99%
Z.AI GLM 4.5	99%	$0.0013	8.1s	98%
DeepSeek V4 Flash	98%	$0.0002	5.6s	97%
Gemini 3 Flash (Preview)	98%	$0.0022	3.1s	96%
Mistral Small Creative	97%	$0.0004	2.7s	94%
Mistral Medium 3.1	98%	$0.0021	6.5s	96%
DeepSeek V4 Pro	97%	$0.0005	10.9s	96%
Grok 4.1 Fast	99%	$0.0015	19.0s	98%
Grok 4.20 (Beta)	97%	$0.0044	1.6s	95%
DeepSeek V4 Flash (Reasoning)	99%	$0.0007	24.8s	98%
Hermes 3 405B	99%	$0.0034	16.8s	98%
Xiaomi MIMO v2.5	98%	$0.0032	12.3s	96%
Gemini 2.5 Flash	94%	$0.0018	2.0s	94%
Mistral Large 3	96%	$0.0022	6.3s	95%
MiniMax M2.7	99%	$0.0016	22.0s	97%
Gemini 3.5 Flash (Reasoning, Minimal)	98%	$0.0088	2.5s	97%
Z.AI GLM 5 Turbo	98%	$0.0053	12.9s	97%
Gemma 4 26B	96%	$0.0004	12.8s	95%
Grok 4.3	97%	$0.0047	3.4s	94%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
95	Z.AI GLM 5.1	$0.014	1.1m	99%	100	100	100	99	99	99%
2	Qwen 3.5 Plus (2026-02-15)	$0.0024	7.9s	99%	100	100	100	100	99	99%
91	Grok 4	$0.025	32.0s	99%	100	100	100	99	99	99%
34	Claude Sonnet 4.5	$0.018	5.3s	99%	100	100	100	99	99	99%
136	GPT-5	$0.043	1.2m	99%	100	99	99	99	99	99%
77	Claude Opus 4.5	$0.029	5.4s	99%	100	100	100	99	99	99%
143	Claude Opus 4	$0.087	8.8s	98%	100	100	100	99	98	99%
42	Claude Sonnet 4	$0.017	6.3s	99%	99	99	99	99	99	99%
9	Grok 4.1 Fast	$0.0015	19.0s	98%	100	99	99	99	98	99%
11	DeepSeek V4 Flash (Reasoning)	$0.0007	24.8s	98%	100	99	99	99	99	99%
81	Claude Opus 4.6	$0.029	6.3s	99%	99	99	99	99	99	99%
53	Grok 4.20 (Beta, Reasoning)	$0.018	12.4s	98%	100	99	99	99	98	99%
16	MiniMax M2.7	$0.0016	22.0s	97%	100	100	99	98	97	99%
44	Claude Sonnet 4.6	$0.018	5.4s	98%	99	99	99	98	98	99%
127	Qwen 3.5 397B A17B	$0.013	1.7m	97%	100	100	99	99	96	99%
60	Grok 4.20 (Reasoning)	$0.011	33.1s	96%	100	100	98	98	98	99%
140	Qwen3.6 Max Preview	$0.036	1.9m	99%	99	99	99	99	99	99%
3	Z.AI GLM 4.5	$0.0013	8.1s	98%	99	99	99	99	98	99%
12	Hermes 3 405B	$0.0034	16.8s	98%	99	99	99	98	98	99%
117	Claude Opus 4.6 (Reasoning)	$0.041	16.7s	99%	99	99	99	99	99	99%
25	DeepSeek V3 (2025-03-24)	$0.0008	28.8s	96%	100	99	99	99	96	98%
30	GPT-5.4 Mini (Reasoning)	$0.0085	16.6s	97%	100	99	99	98	97	98%
18	Z.AI GLM 5 Turbo	$0.0053	12.9s	97%	99	99	98	98	98	98%
17	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0088	2.5s	97%	99	99	99	98	96	98%
104	Gemini 3.5 Flash (Reasoning)	$0.033	13.0s	96%	100	99	99	99	95	98%
45	Claude 3.7 Sonnet	$0.017	5.9s	98%	99	99	99	98	98	98%
13	Xiaomi MIMO v2.5	$0.0032	12.3s	96%	100	99	99	99	95	98%
1	Ministral 3 8B	$0.0005	2.6s	98%	98	98	98	98	98	98%
7	Mistral Medium 3.1	$0.0021	6.5s	96%	100	99	99	96	96	98%
86	Aion 2.0	$0.0065	1.0m	95%	100	100	98	98	96	98%
116	Gemma 4 31B (Reasoning)	$0.0012	1.7m	95%	100	100	99	98	94	98%
23	Xiaomi MIMO v2.5 Pro	$0.0035	13.8s	95%	100	99	99	98	94	98%
146	DeepSeek V4 Pro (Reasoning)	$0.018	3.7m	96%	99	99	99	99	95	98%
51	Qwen 3.5 Flash	$0.0027	44.2s	96%	99	98	98	97	97	98%
5	Gemini 3 Flash (Preview)	$0.0022	3.1s	96%	99	99	98	98	96	98%
69	Gemini 3 Flash (Preview, Reasoning)	$0.0085	38.5s	96%	99	99	99	96	95	98%
142	MoonshotAI: Kimi K2.6	$0.019	2.8m	97%	98	98	98	98	98	98%
106	Gemini 2.5 Pro	$0.028	19.0s	94%	100	99	96	96	96	98%
4	DeepSeek V4 Flash	$0.0002	5.6s	97%	98	98	97	97	97	98%
131	Z.AI GLM 4.7	$0.0068	1.9m	93%	100	99	99	98	91	97%
8	DeepSeek V4 Pro	$0.0005	10.9s	96%	98	97	97	97	96	97%
89	o4 Mini High	$0.018	29.1s	94%	99	99	98	95	94	97%
112	Qwen 3.5 Plus (2026-04-20)	$0.012	1.1m	94%	99	99	98	95	94	97%
96	Qwen 3.5 35B	$0.013	50.7s	95%	99	98	98	96	95	97%
10	Grok 4.20 (Beta)	$0.0044	1.6s	95%	99	98	98	96	95	97%
68	Z.AI GLM 5	$0.0067	34.4s	93%	99	99	96	96	95	97%
98	Grok 4.3 (Reasoning)	$0.013	54.1s	96%	98	98	98	97	95	97%
123	Claude Sonnet 4.6 (Reasoning)	$0.035	22.8s	93%	100	98	96	96	95	97%
102	GPT-5.1	$0.023	28.1s	94%	99	98	96	96	95	97%
6	Mistral Small Creative	$0.0004	2.7s	94%	99	99	99	96	93	97%
54	Z.AI GLM 4.6	$0.0061	26.4s	93%	99	99	97	96	93	97%
133	MoonshotAI: Kimi K2.5	$0.012	1.8m	95%	98	98	98	96	95	97%
20	Grok 4.3	$0.0047	3.4s	94%	99	98	97	96	94	97%
134	Qwen3.7 Max	$0.033	50.6s	90%	99	99	95	95	94	96%
22	DeepSeek V3 (2024-12-26)	$0.0016	11.9s	94%	98	97	97	95	94	96%
24	Grok 4 Fast	$0.0010	7.4s	91%	99	99	95	95	93	96%
130	Qwen 3.5 122B	$0.024	1.0m	93%	99	96	96	95	95	96%
21	GPT-5.4 Nano (Reasoning)	$0.0017	7.3s	93%	98	97	97	96	92	96%
19	Gemma 4 26B	$0.0004	12.8s	95%	97	97	96	95	95	96%
15	Mistral Large 3	$0.0022	6.3s	95%	96	96	95	95	95	96%
101	ByteDance Seed 2.0 Lite	$0.0065	1.1m	93%	98	97	96	95	93	96%
28	DeepSeek-V2 Chat	$0.0016	11.4s	90%	99	98	95	94	93	96%
59	DeepSeek V3.2	$0.0007	28.8s	87%	100	99	98	97	85	96%
100	GPT-OSS 120B	$0.0010	1.3m	93%	97	97	95	95	95	96%
36	Mistral Large	$0.0088	6.1s	94%	96	96	95	95	95	96%
88	ByteDance Seed 1.6	$0.0053	53.1s	93%	98	96	96	95	92	96%
74	Nemotron 3 Super	$0.0000	53.2s	94%	96	96	96	96	93	96%
37	Mistral Large 2	$0.0087	6.0s	94%	96	95	95	95	95	95%
138	Gemini 3 Pro (Preview)	$0.050	33.4s	90%	100	95	95	94	94	95%
64	Qwen 3.6 35B	$0.0052	29.4s	92%	98	97	97	94	91	95%
62	MiniMax M2.5	$0.0020	30.9s	89%	99	97	96	96	89	95%
63	Qwen 3.6 Flash	$0.0073	22.7s	92%	98	97	96	94	92	95%
29	Arcee AI: Trinity Large (Preview)	$0.0000	14.5s	91%	99	97	95	94	92	95%
85	GPT-4o, May 13th (temp=0)	$0.021	3.9s	91%	99	95	94	94	94	95%
33	DeepSeek V3.1	$0.0009	21.7s	94%	96	96	96	94	94	95%
39	Stealth: Hunter Alpha	$0.0000	27.8s	94%	96	96	95	95	94	95%
35	Grok 4.20	$0.0041	3.8s	88%	99	99	97	94	87	95%
61	WizardLM 2 8x22b	$0.0021	28.8s	89%	99	98	96	93	89	95%
82	o4 Mini	$0.012	18.1s	89%	99	98	96	92	90	95%
114	Claude Opus 4.7	$0.037	4.1s	95%	95	95	95	95	95	95%
49	Gemini 2.5 Flash Lite (Reasoning)	$0.0021	14.8s	89%	99	97	94	92	91	95%
118	Claude Opus 4.7 (Reasoning)	$0.037	4.1s	94%	95	95	94	94	94	94%
14	Gemini 2.5 Flash	$0.0018	2.0s	94%	95	95	95	94	94	94%
137	ByteDance Seed 2.0 Mini	$0.0027	2.4m	90%	97	97	95	93	89	94%
120	Claude 3.5 Sonnet	$0.035	11.4s	94%	95	94	94	94	94	94%
50	Gemma 4 31B	$0.0006	27.8s	93%	95	95	94	94	94	94%
31	Qwen 2.5 72B	$0.0007	8.5s	90%	98	96	96	92	89	94%
47	Stealth: Healer Alpha	$0.0000	21.6s	91%	96	96	96	92	91	94%
92	GPT-5 Mini	$0.0061	41.0s	89%	98	95	95	92	90	94%
126	GPT-5.5 (Reasoning)	$0.035	14.9s	91%	95	94	94	94	91	94%
132	GPT-5.4 (Reasoning)	$0.028	50.8s	93%	94	94	94	94	94	94%
83	GPT-5.5	$0.018	4.8s	92%	95	95	94	94	91	94%
139	Gemini 3.1 Pro (Preview)	$0.049	45.9s	92%	95	95	94	94	91	94%
38	Gemini 3.1 Flash Lite	$0.0014	13.0s	92%	95	94	93	93	93	94%
48	GPT-4o, Aug. 6th (temp=0)	$0.0084	3.4s	93%	94	94	94	94	93	93%
26	Gemini 3.1 Flash Lite (Reasoning)	$0.0014	1.7s	92%	94	94	93	93	93	93%
40	GPT-5.4 Mini	$0.0026	1.8s	88%	98	93	93	92	91	93%
27	Gemini 3.1 Flash Lite (Preview)	$0.0014	1.8s	92%	94	94	94	92	92	93%
65	GPT-5.4 (Reasoning, Low)	$0.011	7.9s	92%	94	93	93	93	93	93%
121	Qwen 3.5 9B	$0.0011	1.2m	84%	98	98	93	90	86	93%
124	GPT-5.5 (Reasoning, Low)	$0.033	13.1s	92%	94	94	94	92	91	93%
55	Claude Haiku 4.5	$0.0059	3.5s	88%	95	94	94	94	86	93%
97	Nemotron 3 Nano	$0.0009	1.0m	91%	94	94	93	92	91	93%
57	Ministral 8B	$0.0003	3.3s	82%	99	97	90	89	87	92%
32	Ministral 3 14B	$0.0007	4.8s	90%	93	93	93	92	90	92%
41	Gemini 2.5 Flash Lite	$0.0004	1.6s	87%	96	95	93	91	87	92%
43	Inception Mercury 2	$0.0017	2.9s	88%	94	94	93	89	88	92%
99	Qwen 3 32B	$0.0011	55.3s	89%	94	93	93	91	89	92%
72	Hermes 3 70B	$0.0010	12.7s	83%	97	95	92	89	85	92%
52	Qwen3 235B A22B Instruct 2507	$0.0006	12.0s	88%	93	93	91	90	90	91%
67	Mistral Small 4 (Reasoning)	$0.0015	11.4s	85%	96	94	92	88	86	91%
76	Llama 3.1 Nemotron 70B	$0.0041	14.1s	86%	94	94	90	90	88	91%
70	GPT-4o, Aug. 6th (temp=1)	$0.0078	2.6s	88%	93	92	91	91	88	91%
56	Mistral Small 3.2 24B	$0.0004	3.4s	84%	97	92	91	87	87	91%
87	Gemini 2.5 Flash (Reasoning)	$0.0062	9.2s	81%	100	94	91	86	83	91%
46	Ministral 3B	$0.0001	1.4s	87%	93	92	90	90	89	91%
110	GPT-4o, May 13th (temp=1)	$0.021	3.0s	86%	94	91	90	89	87	90%
58	Writer: Palmyra X5	$0.0040	5.3s	89%	91	91	90	90	89	90%
73	Llama 3.1 70B	$0.0013	14.5s	87%	92	91	90	89	87	90%
111	GPT-5.2	$0.013	12.2s	82%	94	93	88	88	85	90%
129	GPT-5 Nano	$0.0036	1.1m	82%	95	92	89	87	84	89%
141	Qwen 3.6 27B	$0.017	1.1m	67%	99	98	98	94	59	89%
125	Z.AI GLM 4.7 Flash	$0.0013	1.0m	80%	98	89	89	88	83	89%
66	GPT-5.4 Mini (Reasoning, Low)	$0.0032	3.1s	86%	92	90	89	88	87	89%
108	Z.AI GLM 4.5 Air	$0.0019	37.2s	82%	94	92	91	90	80	89%
79	Claude 3 Haiku	$0.0014	4.3s	81%	94	92	89	87	81	88%
78	GPT-4.1 Mini	$0.0013	5.4s	82%	94	91	91	86	80	88%
80	Gemma 3 27B	$0.0004	12.3s	84%	92	90	88	88	84	88%
71	Gemma 3 4B	$0.0002	4.5s	84%	90	90	88	86	85	88%
94	GPT-4.1	$0.0075	3.9s	82%	91	91	90	84	81	87%
113	Cohere Command R+ (Aug. 2024)	$0.011	8.7s	80%	91	91	90	86	76	87%
105	ByteDance Seed 1.6 Flash	$0.0008	18.5s	77%	93	91	85	83	80	87%
93	GPT-5.4	$0.0081	4.7s	85%	87	87	87	86	84	86%
75	Ministral 3 3B	$0.0003	1.3s	83%	89	86	86	85	84	86%
84	Inception Mercury	$0.0004	2.7s	81%	90	89	87	82	81	86%
90	GPT-5.4 Nano (Reasoning, Low)	$0.0007	3.0s	78%	92	86	84	84	81	85%
103	Arcee AI: Trinity Mini	$0.0003	6.3s	76%	90	85	83	83	76	83%
107	Mistral Small 4	$0.0007	2.8s	74%	93	83	82	81	78	83%
109	GPT-5.4 Nano	$0.0007	3.1s	74%	88	87	81	79	78	83%
122	GPT-4o Mini (temp=1)	$0.0005	7.5s	72%	85	79	77	76	76	79%
119	Llama 3.1 8B	$0.0001	4.4s	73%	85	80	79	75	74	79%
149	Gemma 4 26B (Reasoning)	$0.0021	2.6m	23%	98	98	97	96	3	78%
115	GPT-4o Mini (temp=0)	$0.0005	6.8s	78%	79	79	79	78	77	78%
128	GPT-4.1 Nano	$0.0003	2.2s	66%	90	81	77	72	69	78%
144	Cydonia 24B V4.1	$0.0009	9.7s	27%	92	92	91	86	3	73%
135	Gemma 3 12B	$0.0002	10.7s	64%	77	71	70	69	63	70%
151	Qwen 3.5 27B	$0.029	2.2m	15%	100	99	99	13	13	64%
145	Skyfall 36B V2	$0.0013	7.4s	30%	84	78	78	75	3	63%
148	Mistral NeMO	$0.0005	1.8s	10%	93	90	85	0	0	54%
147	LFM2 24B	$0.0001	7.8s	38%	38	38	38	38	38	38%
150	Rocinante 12B	$0.0007	4.6s	0%	79	62	0	0	0	28%
92.19%

Median	Evaluator	Top 3	Flop 3
87.7%	Accuracy	98Z.AI GLM 5.1 98Qwen 3.5 Plus (2026-02-15) 98Gemini 2.5 Pro	0LFM2 24B 20Rocinante 12B 44Mistral NeMO
98.0%	Precision	100Claude Opus 4.6 100Grok 4 100GPT-4.1 Mini	40Rocinante 12B 58Mistral NeMO 59Gemma 3 12B
98.1%	Recall	100Hermes 3 405B 100Claude Sonnet 4 100Claude Opus 4.7	23Rocinante 12B 29LFM2 24B 49Skyfall 36B V2
100.0%	Structural validity	100Mistral Large 100GPT-5.4 (Reasoning, Low) 100GPT-5.4 (Reasoning)	25LFM2 24B 30Rocinante 12B 60Mistral NeMO

Medium: Through the Thornveil (Scattered)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.5 Flash (Reasoning, Minimal)	99%
Z.AI GLM 5.1	99%
Gemini 3.5 Flash (Reasoning)	99%
Claude Opus 4.6 (Reasoning)	99%
Grok 4	99%
Z.AI GLM 5 Turbo	98%
Z.AI GLM 5	98%
Grok 4.1 Fast	98%
Claude Opus 4.5	98%
Qwen3.7 Max	98%
DeepSeek V4 Pro (Reasoning)	98%
Gemini 3.1 Pro (Preview)	98%
Claude Opus 4.7 (Reasoning)	98%
Gemma 4 31B	98%
Gemini 3 Pro (Preview)	98%
GPT-5.5	98%
Gemini 3 Flash (Preview)	98%
GPT-5.4 (Reasoning, Low)	98%
Grok 4.20 (Reasoning)	98%
GPT-5	98%

	Score	Cost	Time
Gemini 3 Flash (Preview)	98%	$0.0027	3.7s
Grok 4 Fast	97%	$0.0013	10.2s
Xiaomi MIMO v2.5	96%	$0.0029	10.8s
DeepSeek V4 Flash	95%	$0.0003	7.1s
Mistral Medium 3.1	96%	$0.0025	5.1s
Gemma 4 31B	98%	$0.0007	26.6s
Gemini 3.5 Flash (Reasoning, Minimal)	99%	$0.011	2.9s
Qwen 3.5 Plus (2026-02-15)	97%	$0.0029	11.0s
Claude Haiku 4.5	97%	$0.0071	4.3s
Z.AI GLM 5 Turbo	98%	$0.0061	13.8s
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0016	1.9s
Grok 4.1 Fast	98%	$0.0019	29.4s
Gemini 3.1 Flash Lite (Preview)	95%	$0.0017	1.7s
DeepSeek V4 Pro	96%	$0.0009	14.6s
Grok 4.3	96%	$0.0057	4.6s
Mistral Small 3.2 24B	94%	$0.0005	4.4s
Xiaomi MIMO v2.5 Pro	96%	$0.0049	19.9s
Stealth: Healer Alpha	96%	$0.0000	26.7s
Gemini 3.1 Flash Lite	94%	$0.0016	1.8s
Grok 4.20 (Beta)	95%	$0.0049	2.0s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	99%	100%	98%
Z.AI GLM 5.1	99%	99%	98%
Grok 4	99%	99%	98%
Gemini 3.5 Flash (Reasoning)	99%	99%	98%
Gemini 3.5 Flash (Reasoning, Minimal)	99%	99%	98%
Grok 4.1 Fast	98%	99%	97%
Claude Opus 4.5	98%	99%	97%
Z.AI GLM 5 Turbo	98%	99%	97%
Gemma 4 31B	98%	99%	97%
Z.AI GLM 5	98%	99%	97%
Claude Sonnet 4.6 (Reasoning)	98%	99%	97%
Gemini 3 Pro (Preview)	98%	99%	97%
DeepSeek V4 Pro (Reasoning)	98%	99%	97%
Qwen3.7 Max	98%	98%	97%
Claude Haiku 4.5	97%	99%	97%
Gemma 4 31B (Reasoning)	97%	100%	97%
Grok 4.20 (Reasoning)	98%	99%	97%
GPT-5.4 (Reasoning)	97%	99%	97%
GPT-5.4 (Reasoning, Low)	98%	99%	97%
Gemini 3.1 Pro (Preview)	98%	98%	96%

	Score	Cost	Speed	Stability
Gemini 3 Flash (Preview)	98%	$0.0027	3.7s	95%
Gemini 3.5 Flash (Reasoning, Minimal)	99%	$0.011	2.9s	98%
Z.AI GLM 5 Turbo	98%	$0.0061	13.8s	97%
Mistral Medium 3.1	96%	$0.0025	5.1s	96%
Claude Haiku 4.5	97%	$0.0071	4.3s	97%
Qwen 3.5 Plus (2026-02-15)	97%	$0.0029	11.0s	96%
Gemma 4 31B	98%	$0.0007	26.6s	97%
Grok 4.1 Fast	98%	$0.0019	29.4s	97%
Grok 4 Fast	97%	$0.0013	10.2s	94%
DeepSeek V4 Flash	95%	$0.0003	7.1s	94%
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0016	1.9s	94%
Grok 4.3	96%	$0.0057	4.6s	95%
Gemini 3.1 Flash Lite (Preview)	95%	$0.0017	1.7s	93%
Xiaomi MIMO v2.5	96%	$0.0029	10.8s	94%
Mistral Small 3.2 24B	94%	$0.0005	4.4s	93%
DeepSeek V4 Pro	96%	$0.0009	14.6s	93%
Grok 4.20 (Beta)	95%	$0.0049	2.0s	93%
Gemini 3.1 Flash Lite	94%	$0.0016	1.8s	92%
Stealth: Healer Alpha	96%	$0.0000	26.7s	93%
Z.AI GLM 4.5	95%	$0.0018	13.7s	93%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
2	Gemini 3.5 Flash (Reasoning, Minimal)	$0.011	2.9s	98%	100	100	99	99	98	99%
36	Z.AI GLM 5.1	$0.011	46.6s	98%	99	99	99	98	98	99%
84	Gemini 3.5 Flash (Reasoning)	$0.040	16.2s	98%	99	99	99	98	98	99%
100	Claude Opus 4.6 (Reasoning)	$0.048	17.2s	98%	99	99	99	99	99	99%
79	Grok 4	$0.031	38.0s	98%	99	99	99	98	98	99%
3	Z.AI GLM 5 Turbo	$0.0061	13.8s	97%	99	99	98	98	97	98%
57	Z.AI GLM 5	$0.010	1.0m	97%	99	99	98	98	98	98%
8	Grok 4.1 Fast	$0.0019	29.4s	97%	99	98	98	98	97	98%
64	Claude Opus 4.5	$0.035	6.8s	97%	99	99	99	99	97	98%
118	Qwen3.7 Max	$0.041	1.0m	97%	99	99	98	98	97	98%
108	DeepSeek V4 Pro (Reasoning)	$0.011	2.0m	97%	99	98	98	98	97	98%
133	Gemini 3.1 Pro (Preview)	$0.064	57.8s	96%	99	99	99	98	96	98%
96	Claude Opus 4.7 (Reasoning)	$0.046	5.9s	96%	99	99	99	98	96	98%
7	Gemma 4 31B	$0.0007	26.6s	97%	98	98	98	98	98	98%
128	Gemini 3 Pro (Preview)	$0.056	36.8s	97%	98	98	98	98	97	98%
46	GPT-5.5	$0.026	5.7s	96%	99	99	98	98	96	98%
1	Gemini 3 Flash (Preview)	$0.0027	3.7s	95%	99	99	98	98	94	98%
21	GPT-5.4 (Reasoning, Low)	$0.016	9.5s	97%	99	98	98	97	97	98%
34	Grok 4.20 (Reasoning)	$0.012	31.8s	97%	98	98	98	98	96	98%
129	GPT-5	$0.045	1.1m	96%	98	98	98	98	96	98%
105	Claude Sonnet 4.6 (Reasoning)	$0.043	28.4s	97%	98	98	98	97	97	98%
120	GPT-5.4 (Reasoning)	$0.045	47.6s	97%	98	98	98	97	97	97%
5	Claude Haiku 4.5	$0.0071	4.3s	97%	98	97	97	97	97	97%
99	Claude Opus 4.7	$0.046	6.3s	96%	98	98	98	96	96	97%
40	Claude Sonnet 4.6	$0.021	6.7s	96%	98	98	98	98	96	97%
22	Gemini 3 Flash (Preview, Reasoning)	$0.0100	16.7s	95%	99	98	98	96	95	97%
92	GPT-5.5 (Reasoning, Low)	$0.038	14.3s	96%	98	98	98	97	95	97%
138	Qwen3.6 Max Preview	$0.044	2.4m	96%	98	98	97	97	96	97%
103	Grok 4.3 (Reasoning)	$0.017	1.4m	96%	98	98	98	97	96	97%
90	Gemma 4 31B (Reasoning)	$0.0016	1.9m	97%	98	97	97	97	97	97%
88	Claude Opus 4.6	$0.036	7.8s	94%	99	98	96	96	96	97%
42	Claude Sonnet 4.5	$0.021	6.1s	95%	98	98	97	97	96	97%
73	Aion 2.0	$0.0079	1.2m	95%	98	98	98	98	94	97%
142	Claude Opus 4	$0.106	13.0s	96%	98	97	97	97	97	97%
6	Qwen 3.5 Plus (2026-02-15)	$0.0029	11.0s	96%	98	97	97	97	96	97%
112	Z.AI GLM 4.7	$0.010	2.0m	95%	99	97	97	96	96	97%
87	ByteDance Seed 2.0 Lite	$0.0083	1.4m	95%	98	97	97	96	96	97%
102	Gemini 2.5 Pro	$0.035	23.2s	93%	98	98	98	98	93	97%
44	Grok 4.20 (Beta, Reasoning)	$0.020	12.0s	96%	98	97	97	96	96	97%
98	Claude 3.5 Sonnet	$0.041	12.9s	96%	97	97	97	97	96	97%
77	o4 Mini High	$0.023	37.7s	96%	97	97	97	96	96	97%
47	Claude Sonnet 4	$0.021	7.5s	95%	98	96	96	96	96	97%
151	Qwen 3.5 122B	$0.128	5.5m	94%	98	97	97	95	95	97%
9	Grok 4 Fast	$0.0013	10.2s	94%	98	98	97	96	94	97%
122	MoonshotAI: Kimi K2.5	$0.013	2.0m	95%	98	97	97	96	95	96%
19	Stealth: Healer Alpha	$0.0000	26.7s	93%	98	98	97	96	93	96%
51	Z.AI GLM 4.6	$0.0057	45.0s	94%	98	97	96	96	95	96%
14	Xiaomi MIMO v2.5	$0.0029	10.8s	94%	98	98	97	95	93	96%
53	Claude 3.7 Sonnet	$0.021	7.5s	94%	97	97	96	96	95	96%
4	Mistral Medium 3.1	$0.0025	5.1s	96%	97	96	96	96	96	96%
119	Gemma 4 26B (Reasoning)	$0.0025	2.2m	93%	98	98	97	97	92	96%
106	Qwen 3.5 Plus (2026-04-20)	$0.015	1.4m	94%	98	97	96	95	95	96%
12	Grok 4.3	$0.0057	4.6s	95%	97	96	96	96	96	96%
117	MoonshotAI: Kimi K2.6	$0.023	1.4m	94%	98	97	96	96	94	96%
30	MiniMax M2.5	$0.0023	33.5s	94%	98	97	96	95	94	96%
62	GPT-5.2	$0.019	17.5s	93%	98	97	95	95	94	96%
26	DeepSeek V4 Flash (Reasoning)	$0.0008	35.2s	94%	97	96	96	96	95	96%
125	Qwen 3.5 27B	$0.024	1.5m	93%	98	98	95	95	94	96%
131	GPT-5.5 (Reasoning)	$0.055	28.2s	93%	98	96	96	95	95	96%
41	Xiaomi MIMO v2.5 Pro	$0.0049	19.9s	91%	98	98	97	97	89	96%
31	GPT-5.4	$0.011	6.0s	93%	97	97	97	96	92	96%
76	GPT-5.4 Mini (Reasoning)	$0.019	32.0s	94%	98	96	96	94	94	96%
33	DeepSeek V3.2	$0.0011	33.5s	93%	97	97	96	95	93	96%
48	o4 Mini	$0.013	20.9s	95%	96	96	96	95	95	96%
66	Nemotron 3 Super	$0.0000	1.1m	92%	98	97	95	94	94	96%
16	DeepSeek V4 Pro	$0.0009	14.6s	93%	97	96	96	95	93	96%
10	DeepSeek V4 Flash	$0.0003	7.1s	94%	96	96	96	95	94	95%
114	GPT-5.1	$0.034	47.6s	94%	96	96	96	96	94	95%
116	Qwen 3.6 27B	$0.021	1.4m	94%	96	96	96	94	94	95%
23	DeepSeek V3.1	$0.0012	22.2s	93%	97	96	95	95	93	95%
29	DeepSeek V3 (2025-03-24)	$0.0011	30.3s	94%	96	96	95	95	95	95%
17	Grok 4.20 (Beta)	$0.0049	2.0s	93%	97	96	95	95	93	95%
139	ByteDance Seed 2.0 Mini	$0.0037	3.8m	93%	96	96	95	95	93	95%
32	Stealth: Hunter Alpha	$0.0000	31.7s	93%	96	95	95	94	94	95%
72	GPT-5 Mini	$0.0074	46.3s	91%	98	95	94	94	93	95%
13	Gemini 3.1 Flash Lite (Preview)	$0.0017	1.7s	93%	96	95	94	94	94	95%
11	Gemini 3.1 Flash Lite (Reasoning)	$0.0016	1.9s	94%	96	95	95	94	94	95%
126	Qwen 3.5 397B A17B	$0.015	1.8m	94%	95	95	95	95	94	95%
20	Z.AI GLM 4.5	$0.0018	13.7s	93%	96	95	95	94	93	95%
24	Gemini 2.5 Flash	$0.0021	2.4s	89%	98	97	93	93	92	95%
28	MiniMax M2.7	$0.0017	22.1s	93%	96	95	94	94	93	95%
25	Arcee AI: Trinity Large (Preview)	$0.0000	18.6s	92%	97	94	94	94	93	94%
37	DeepSeek-V2 Chat	$0.0019	14.0s	90%	97	97	96	92	90	94%
27	Grok 4.20	$0.0042	4.1s	91%	97	95	94	93	92	94%
39	DeepSeek V3 (2024-12-26)	$0.0017	13.5s	89%	97	96	95	94	89	94%
18	Gemini 3.1 Flash Lite	$0.0016	1.8s	92%	96	94	94	93	93	94%
110	Qwen 3.5 35B	$0.017	50.9s	88%	97	97	94	93	89	94%
70	Qwen 3.6 35B	$0.0074	37.3s	90%	97	95	95	92	91	94%
15	Mistral Small 3.2 24B	$0.0005	4.4s	93%	94	94	94	94	93	94%
80	GPT-4o, May 13th (temp=0)	$0.024	3.6s	92%	95	94	94	94	91	94%
85	Qwen 3.6 Flash	$0.010	31.7s	89%	97	94	93	92	91	93%
43	GPT-4o, Aug. 6th (temp=0)	$0.0098	3.0s	92%	94	93	93	93	93	93%
55	GPT-4.1	$0.0073	4.5s	89%	96	96	96	90	87	93%
50	GPT-4o, Aug. 6th (temp=1)	$0.0089	3.5s	90%	94	94	93	92	91	93%
45	Gemma 3 27B	$0.0005	17.7s	90%	95	94	93	91	90	93%
54	Hermes 3 405B	$0.0040	17.3s	90%	94	93	93	93	90	93%
115	ByteDance Seed 1.6	$0.0080	1.4m	89%	94	94	93	92	89	93%
95	GPT-4o, May 13th (temp=1)	$0.024	3.2s	89%	95	94	93	91	90	92%
89	Qwen 3.5 Flash	$0.0033	46.9s	89%	96	93	92	91	90	92%
58	Qwen3 235B A22B Instruct 2507	$0.0008	20.0s	88%	95	94	92	91	90	92%
38	Ministral 3 8B	$0.0006	3.1s	89%	95	92	92	91	90	92%
56	Writer: Palmyra X5	$0.0052	7.6s	89%	94	93	92	91	89	92%
35	GPT-4.1 Mini	$0.0013	5.6s	91%	92	92	92	91	91	92%
60	Mistral Small Creative	$0.0005	3.6s	84%	97	94	91	88	88	92%
86	WizardLM 2 8x22b	$0.0025	31.0s	86%	96	92	92	89	88	91%
107	Z.AI GLM 4.5 Air	$0.0029	1.0m	86%	94	94	93	88	86	91%
49	Mistral Large 3	$0.0027	8.1s	90%	91	91	91	91	91	91%
68	Gemini 2.5 Flash Lite (Reasoning)	$0.0020	20.5s	88%	93	93	92	88	88	91%
74	Mistral Large 2	$0.011	8.4s	89%	92	91	91	91	89	91%
93	GPT-OSS 120B	$0.0011	42.1s	87%	93	93	90	89	88	91%
63	GPT-5.4 Mini (Reasoning, Low)	$0.0038	3.8s	86%	94	91	90	89	88	91%
67	GPT-5.4 Mini	$0.0029	2.1s	84%	96	91	90	89	86	91%
71	Mistral Large	$0.011	8.2s	90%	91	91	91	90	89	90%
130	Nemotron 3 Nano	$0.0012	1.9m	88%	92	92	91	90	88	90%
52	Ministral 8B	$0.0004	3.5s	88%	92	91	91	90	88	90%
123	Qwen 3.5 9B	$0.0014	1.5m	87%	93	92	90	88	88	90%
127	GPT-5 Nano	$0.0046	1.4m	87%	93	92	91	87	87	90%
75	Qwen 3 32B	$0.0010	20.5s	86%	93	90	90	90	86	90%
81	Cydonia 24B V4.1	$0.0009	11.4s	83%	96	89	89	89	86	90%
61	Inception Mercury 2	$0.0025	3.8s	88%	91	90	89	89	88	89%
121	Gemini 2.5 Flash (Reasoning)	$0.0086	12.6s	75%	97	97	96	88	69	89%
59	GPT-4o Mini (temp=0)	$0.0005	8.0s	89%	89	89	89	89	89	89%
65	Gemini 2.5 Flash Lite	$0.0005	1.8s	86%	92	90	90	88	85	89%
104	Mistral Small 4 (Reasoning)	$0.0017	15.1s	79%	94	94	86	86	85	89%
69	Qwen 2.5 72B	$0.0006	10.1s	87%	91	89	89	88	87	89%
78	Ministral 3B	$0.0002	1.7s	83%	93	89	89	87	83	88%
83	GPT-4o Mini (temp=1)	$0.0006	7.2s	84%	90	90	88	88	84	88%
97	Claude 3 Haiku	$0.0016	4.2s	80%	93	91	87	85	82	88%
134	Z.AI GLM 4.7 Flash	$0.0019	1.6m	80%	93	91	89	86	79	87%
82	Ministral 3 14B	$0.0008	4.8s	85%	90	88	88	87	84	87%
111	GPT-5.4 Nano (Reasoning)	$0.0026	13.6s	77%	93	92	89	88	74	87%
94	Arcee AI: Trinity Mini	$0.0003	5.8s	82%	90	89	88	85	80	87%
101	Mistral Small 4	$0.0008	3.0s	80%	92	89	85	83	83	86%
91	Ministral 3 3B	$0.0004	1.9s	83%	88	87	87	87	82	86%
109	Gemma 3 12B	$0.0005	11.5s	82%	85	84	83	83	82	84%
124	Hermes 3 70B	$0.0012	15.5s	76%	89	85	84	84	75	83%
113	Inception Mercury	$0.0008	5.3s	78%	87	86	85	84	75	83%
135	ByteDance Seed 1.6 Flash	$0.0012	35.1s	71%	91	84	82	79	71	82%
141	Cohere Command R+ (Aug. 2024)	$0.014	30.7s	66%	89	84	83	80	60	79%
132	Gemma 3 4B	$0.0002	6.3s	75%	80	79	78	78	76	78%
136	GPT-5.4 Nano (Reasoning, Low)	$0.0012	3.9s	68%	83	81	77	77	66	77%
144	Gemma 4 26B	$0.0006	29.0s	25%	95	95	94	94	3	76%
137	GPT-5.4 Nano	$0.0012	4.6s	67%	82	81	77	72	64	75%
140	Llama 3.1 Nemotron 70B	$0.0050	17.4s	65%	81	79	78	78	59	75%
145	Llama 3.1 70B	$0.0017	13.4s	29%	87	85	84	84	3	68%
143	GPT-4.1 Nano	$0.0003	3.3s	58%	74	74	71	70	49	68%
146	Llama 3.1 8B	$0.0001	15.3s	31%	79	69	68	64	3	57%
149	Rocinante 12B	$0.0025	1.4m	28%	82	72	68	46	0	54%
147	Mistral NeMO	$0.0006	2.6s	14%	86	85	83	0	0	51%
150	Skyfall 36B V2	$0.0019	15.5s	14%	90	79	55	3	3	46%
148	LFM2 24B	$0.0002	15.5s	36%	36	36	36	36	36	36%
91.53%

Median	Evaluator	Top 3	Flop 3
85.1%	Accuracy	98Gemini 3.5 Flash (Reasoning, Minimal) 96Z.AI GLM 5.1 95Grok 4	0LFM2 24B 41Skyfall 36B V2 41Rocinante 12B
98.6%	Precision	100o4 Mini High 100Gemini 3.1 Flash Lite (Reasoning) 100o4 Mini	43Skyfall 36B V2 55Mistral NeMO 67GPT-4.1 Nano
97.3%	Recall	100GPT-5.4 (Reasoning, Low) 100Gemma 4 31B 100Claude Sonnet 4.5	20LFM2 24B 42Skyfall 36B V2 43Rocinante 12B
100.0%	Structural validity	100Gemini 3 Pro (Preview) 100Z.AI GLM 4.5 Air 100Claude Haiku 4.5	25LFM2 24B 57Rocinante 12B 58Skyfall 36B V2

Medium: The Hollow (Inferred)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6	99%
Claude Opus 4.6 (Reasoning)	99%
Claude Opus 4.7	99%
GPT-5	99%
Claude Opus 4.7 (Reasoning)	99%
Claude Opus 4.5	99%
GPT-5.1	98%
Grok 4	98%
Claude Sonnet 4.6	98%
Gemini 3.1 Pro (Preview)	98%
Gemini 3 Flash (Preview, Reasoning)	98%
Grok 4.20 (Reasoning)	98%
GPT-5.4 (Reasoning)	98%
Gemini 3.5 Flash (Reasoning)	98%
Qwen 3.5 27B	97%
Claude Sonnet 4.6 (Reasoning)	97%
Z.AI GLM 4.7	97%
Claude Opus 4	97%
Qwen 3.5 397B A17B	97%
Gemini 3 Pro (Preview)	97%

	Score	Cost	Time
Gemini 3.1 Flash Lite (Reasoning)	96%	$0.0016	1.7s
Gemini 3.1 Flash Lite	96%	$0.0016	1.8s
Gemini 3.1 Flash Lite (Preview)	96%	$0.0016	2.2s
DeepSeek V4 Flash	96%	$0.0003	7.0s
Gemini 2.5 Flash Lite	92%	$0.0004	1.9s
Grok 4 Fast	96%	$0.0012	7.5s
Mistral Small Creative	94%	$0.0005	3.4s
Gemini 2.5 Flash	95%	$0.0019	2.2s
Ministral 3 8B	94%	$0.0006	2.6s
Mistral Large 3	97%	$0.0025	6.6s
Ministral 8B	93%	$0.0004	3.0s
Gemma 4 31B	97%	$0.0007	14.8s
Qwen 3.5 Plus (2026-02-15)	97%	$0.0027	8.7s
Z.AI GLM 4.5	96%	$0.0024	14.6s
Mistral Small 3.2 24B	93%	$0.0005	4.1s
Gemini 3 Flash (Preview)	95%	$0.0025	3.3s
Inception Mercury 2	95%	$0.0020	3.2s
Gemma 4 26B	94%	$0.0005	16.6s
Gemini 2.5 Flash Lite (Reasoning)	95%	$0.0016	11.4s
Cydonia 24B V4.1	93%	$0.0009	9.0s

	Score	Consistency	Stability
GPT-5	99%	100%	98%
Claude Opus 4.7 (Reasoning)	99%	99%	98%
Claude Opus 4.6	99%	99%	98%
Claude Sonnet 4.6	98%	100%	98%
GPT-5.1	98%	99%	98%
Claude Opus 4.7	99%	99%	97%
Claude Opus 4.6 (Reasoning)	99%	98%	97%
GPT-5.4 (Reasoning)	98%	99%	97%
Claude Sonnet 4.6 (Reasoning)	97%	99%	97%
Claude Opus 4.5	99%	99%	97%
Grok 4.20 (Reasoning)	98%	99%	97%
Qwen3.7 Max	97%	99%	97%
Gemini 3 Flash (Preview, Reasoning)	98%	98%	96%
Gemini 3.1 Pro (Preview)	98%	98%	96%
Mistral Large 3	97%	100%	96%
Grok 4	98%	98%	96%
Grok 4.20 (Beta, Reasoning)	97%	99%	96%
Z.AI GLM 4.7	97%	99%	96%
Claude Sonnet 4.5	96%	99%	96%
Claude 3.5 Sonnet	96%	99%	96%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Reasoning)	96%	$0.0016	1.7s	95%
Gemini 3.1 Flash Lite (Preview)	96%	$0.0016	2.2s	95%
Gemini 3.1 Flash Lite	96%	$0.0016	1.8s	95%
Mistral Large 3	97%	$0.0025	6.6s	96%
DeepSeek V4 Flash	96%	$0.0003	7.0s	93%
Qwen 3.5 Plus (2026-02-15)	97%	$0.0027	8.7s	96%
Grok 4 Fast	96%	$0.0012	7.5s	94%
Ministral 3 8B	94%	$0.0006	2.6s	92%
Gemma 4 31B	97%	$0.0007	14.8s	95%
Mistral Small Creative	94%	$0.0005	3.4s	92%
Gemini 2.5 Flash	95%	$0.0019	2.2s	93%
Ministral 8B	93%	$0.0004	3.0s	92%
Gemini 3 Flash (Preview)	95%	$0.0025	3.3s	92%
Inception Mercury 2	95%	$0.0020	3.2s	91%
Mistral Small 3.2 24B	93%	$0.0005	4.1s	92%
Claude Haiku 4.5	95%	$0.0066	3.8s	95%
GPT-5.4 Mini (Reasoning, Low)	94%	$0.0039	3.5s	93%
GPT-5.4 Mini	94%	$0.0029	2.0s	92%
Gemini 2.5 Flash Lite (Reasoning)	95%	$0.0016	11.4s	93%
Gemini 3.5 Flash (Reasoning, Minimal)	97%	$0.010	2.8s	95%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
94	Claude Opus 4.6	$0.034	7.1s	98%	100	100	99	99	99	99%
132	Claude Opus 4.6 (Reasoning)	$0.056	25.0s	97%	100	99	99	99	97	99%
107	Claude Opus 4.7	$0.043	5.0s	97%	100	99	99	98	98	99%
137	GPT-5	$0.044	1.1m	98%	99	99	99	99	99	99%
104	Claude Opus 4.7 (Reasoning)	$0.042	4.8s	98%	99	99	99	99	98	99%
96	Claude Opus 4.5	$0.035	6.8s	97%	100	99	98	98	98	99%
117	GPT-5.1	$0.031	40.6s	98%	99	99	99	98	98	98%
122	Grok 4	$0.032	40.2s	96%	99	99	98	98	97	98%
54	Claude Sonnet 4.6	$0.021	6.9s	98%	98	98	98	98	98	98%
141	Gemini 3.1 Pro (Preview)	$0.064	57.7s	96%	99	99	98	98	96	98%
25	Gemini 3 Flash (Preview, Reasoning)	$0.0086	14.7s	96%	99	98	98	98	97	98%
87	Grok 4.20 (Reasoning)	$0.012	45.1s	97%	99	98	98	98	97	98%
130	GPT-5.4 (Reasoning)	$0.042	45.9s	97%	98	98	98	98	97	98%
109	Gemini 3.5 Flash (Reasoning)	$0.035	14.2s	95%	99	98	97	97	96	98%
110	Qwen 3.5 27B	$0.014	1.1m	95%	99	98	97	97	96	97%
136	Claude Sonnet 4.6 (Reasoning)	$0.053	39.3s	97%	98	98	98	97	97	97%
125	Z.AI GLM 4.7	$0.010	1.6m	96%	99	97	97	97	96	97%
146	Claude Opus 4	$0.099	12.1s	96%	99	98	97	96	96	97%
124	Qwen 3.5 397B A17B	$0.012	1.4m	95%	99	98	98	97	95	97%
134	Gemini 3 Pro (Preview)	$0.052	34.3s	95%	99	98	97	97	95	97%
69	Grok 4.20 (Beta, Reasoning)	$0.021	12.5s	96%	98	97	97	97	97	97%
102	Aion 2.0	$0.0075	1.1m	95%	99	98	98	97	94	97%
9	Gemma 4 31B	$0.0007	14.8s	95%	98	98	97	96	96	97%
133	Qwen3.7 Max	$0.040	1.1m	97%	97	97	97	97	96	97%
106	Gemini 2.5 Pro	$0.031	21.7s	95%	98	97	97	96	96	97%
135	Gemma 4 31B (Reasoning)	$0.0017	2.4m	94%	99	97	96	96	96	97%
6	Qwen 3.5 Plus (2026-02-15)	$0.0027	8.7s	96%	98	98	97	96	96	97%
20	Gemini 3.5 Flash (Reasoning, Minimal)	$0.010	2.8s	95%	97	97	97	97	95	97%
98	GPT-5.5 (Reasoning, Low)	$0.031	10.2s	95%	98	97	97	97	95	97%
144	MoonshotAI: Kimi K2.6	$0.028	2.7m	95%	97	97	97	97	95	97%
118	Z.AI GLM 5.1	$0.018	1.0m	96%	98	97	97	96	96	97%
95	Qwen 3.5 35B	$0.013	44.1s	96%	98	97	97	96	96	97%
138	Qwen 3.5 122B	$0.032	1.4m	95%	98	98	98	97	94	97%
50	DeepSeek V4 Flash (Reasoning)	$0.0009	37.8s	95%	98	97	97	97	95	97%
52	Z.AI GLM 4.6	$0.0060	24.6s	93%	99	98	98	96	92	97%
4	Mistral Large 3	$0.0025	6.6s	96%	97	97	97	97	96	97%
29	Mistral Large 2	$0.010	6.4s	94%	98	98	97	95	94	96%
114	o4 Mini High	$0.025	41.2s	95%	98	97	97	96	95	96%
44	Z.AI GLM 5 Turbo	$0.0066	19.6s	94%	98	97	97	95	94	96%
62	Claude Sonnet 4.5	$0.020	6.0s	96%	97	97	96	96	96	96%
111	ByteDance Seed 2.0 Lite	$0.0076	1.3m	95%	97	97	96	96	95	96%
5	DeepSeek V4 Flash	$0.0003	7.0s	93%	98	97	95	95	95	96%
149	Qwen3.6 Max Preview	$0.045	2.5m	93%	98	97	96	95	95	96%
1	Gemini 3.1 Flash Lite (Reasoning)	$0.0016	1.7s	95%	97	96	96	96	95	96%
116	Claude 3.5 Sonnet	$0.039	12.2s	96%	96	96	96	96	96	96%
127	Qwen 3.5 Plus (2026-04-20)	$0.015	1.4m	94%	97	97	97	96	94	96%
23	Grok 4.1 Fast	$0.0015	22.0s	95%	97	96	96	96	96	96%
28	DeepSeek V3.1	$0.0011	22.6s	94%	98	97	96	95	94	96%
101	Z.AI GLM 5	$0.0095	57.4s	95%	97	96	96	95	95	96%
92	Qwen 3.5 Flash	$0.0031	51.8s	91%	99	97	97	96	90	96%
2	Gemini 3.1 Flash Lite (Preview)	$0.0016	2.2s	95%	96	96	96	96	95	96%
22	Xiaomi MIMO v2.5	$0.0033	14.2s	94%	97	97	96	94	94	96%
63	GPT-5.4 Mini (Reasoning)	$0.012	16.7s	93%	97	97	95	95	95	96%
76	GPT-5 Mini	$0.0060	39.1s	94%	97	97	96	95	94	96%
145	MoonshotAI: Kimi K2.5	$0.014	3.1m	93%	97	97	97	96	91	96%
3	Gemini 3.1 Flash Lite	$0.0016	1.8s	95%	96	96	96	96	94	96%
66	DeepSeek V3.2	$0.0011	40.3s	93%	98	97	95	95	94	96%
88	GPT-5.5	$0.023	5.0s	92%	98	97	97	96	91	96%
7	Grok 4 Fast	$0.0012	7.5s	94%	96	96	96	95	94	96%
24	Z.AI GLM 4.5	$0.0024	14.6s	93%	98	96	96	95	94	96%
112	DeepSeek V4 Pro (Reasoning)	$0.0032	1.4m	94%	96	96	96	94	94	96%
67	Claude 3.7 Sonnet	$0.020	6.7s	95%	96	96	96	95	95	96%
19	Gemini 2.5 Flash Lite (Reasoning)	$0.0016	11.4s	93%	97	96	95	95	94	95%
16	Claude Haiku 4.5	$0.0066	3.8s	95%	96	96	95	95	95	95%
147	ByteDance Seed 2.0 Mini	$0.0034	3.6m	93%	97	96	95	95	94	95%
129	Grok 4.3 (Reasoning)	$0.019	1.4m	94%	97	97	96	94	93	95%
83	GPT-5.2	$0.017	17.2s	93%	97	96	95	95	93	95%
126	Qwen 3.5 9B	$0.0015	1.7m	91%	97	97	97	96	90	95%
70	Claude Sonnet 4	$0.020	6.8s	94%	96	95	95	95	95	95%
77	GPT-4o, May 13th (temp=0)	$0.024	3.4s	94%	96	96	95	95	94	95%
73	Qwen 3.6 Flash	$0.0098	29.9s	94%	96	96	95	95	95	95%
26	MiniMax M2.7	$0.0033	16.6s	94%	96	96	95	95	94	95%
41	Xiaomi MIMO v2.5 Pro	$0.0045	17.8s	93%	96	96	95	95	94	95%
79	Qwen 3.6 35B	$0.0076	36.4s	93%	96	96	95	95	94	95%
48	Mistral Large	$0.010	6.5s	92%	97	97	94	94	93	95%
131	GPT-5.5 (Reasoning)	$0.046	22.4s	92%	98	95	95	94	93	95%
42	DeepSeek V4 Pro	$0.0041	20.0s	93%	97	95	95	95	94	95%
57	Stealth: Hunter Alpha	$0.0000	37.1s	93%	96	96	95	94	94	95%
80	Nemotron 3 Super	$0.0000	51.6s	92%	96	96	95	95	93	95%
13	Gemini 3 Flash (Preview)	$0.0025	3.3s	92%	98	95	95	94	94	95%
103	GPT-5 Nano	$0.0038	1.1m	93%	96	96	95	94	94	95%
78	o4 Mini	$0.014	20.7s	93%	96	96	96	94	92	95%
11	Gemini 2.5 Flash	$0.0019	2.2s	93%	96	96	95	94	93	95%
14	Inception Mercury 2	$0.0020	3.2s	91%	98	95	94	94	93	95%
84	GPT-OSS 120B	$0.0012	48.7s	92%	97	97	96	92	91	95%
46	Stealth: Healer Alpha	$0.0000	22.8s	91%	98	95	94	94	91	95%
30	GPT-5.4	$0.0080	5.0s	94%	95	95	95	94	93	95%
140	Gemma 4 26B (Reasoning)	$0.0023	2.8m	89%	97	97	96	94	87	95%
71	GPT-5.4 (Reasoning, Low)	$0.016	9.7s	92%	96	96	95	93	92	95%
17	GPT-5.4 Mini (Reasoning, Low)	$0.0039	3.5s	93%	96	95	94	94	93	94%
53	WizardLM 2 8x22b	$0.0025	24.9s	92%	96	96	94	93	93	94%
8	Ministral 3 8B	$0.0006	2.6s	92%	96	96	94	94	93	94%
35	Grok 4.20	$0.0047	4.1s	89%	97	96	93	93	93	94%
33	MiniMax M2.5	$0.0020	13.9s	92%	96	94	94	94	93	94%
10	Mistral Small Creative	$0.0005	3.4s	92%	95	94	94	93	93	94%
113	ByteDance Seed 1.6	$0.0066	1.1m	92%	96	95	95	92	92	94%
39	DeepSeek-V2 Chat	$0.0019	13.3s	90%	95	95	95	94	88	94%
18	GPT-5.4 Mini	$0.0029	2.0s	92%	95	95	94	93	92	94%
93	GPT-4o, May 13th (temp=1)	$0.024	3.2s	91%	95	95	93	93	92	94%
34	Gemma 4 26B	$0.0005	16.6s	92%	95	94	94	93	92	94%
58	DeepSeek V3 (2025-03-24)	$0.0010	25.4s	90%	96	94	93	92	91	94%
37	GPT-4.1	$0.0059	3.8s	90%	95	95	94	93	90	93%
38	GPT-4o, Aug. 6th (temp=0)	$0.0086	3.0s	92%	94	94	94	93	92	93%
51	GPT-4o, Aug. 6th (temp=1)	$0.0086	2.7s	90%	95	95	94	93	89	93%
128	Qwen 3.6 27B	$0.017	1.2m	89%	97	94	94	92	89	93%
12	Ministral 8B	$0.0004	3.0s	92%	94	94	93	93	92	93%
21	Mistral Medium 3.1	$0.0024	4.1s	92%	94	94	93	93	93	93%
32	Grok 4.20 (Beta)	$0.0031	1.6s	89%	96	94	92	92	91	93%
36	Cydonia 24B V4.1	$0.0009	9.0s	89%	96	94	94	93	88	93%
15	Mistral Small 3.2 24B	$0.0005	4.1s	92%	94	93	93	93	92	93%
60	Gemini 2.5 Flash (Reasoning)	$0.0080	11.2s	90%	94	94	93	91	90	92%
27	Gemini 2.5 Flash Lite	$0.0004	1.9s	87%	96	95	94	90	87	92%
74	Z.AI GLM 4.5 Air	$0.0020	27.7s	88%	95	93	93	91	88	92%
45	GPT-5.4 Nano (Reasoning)	$0.0018	9.4s	89%	95	93	92	91	90	92%
85	Qwen 3 32B	$0.0009	36.4s	88%	95	93	92	90	90	92%
55	DeepSeek V3 (2024-12-26)	$0.0016	10.9s	87%	95	94	91	90	88	92%
99	Z.AI GLM 4.7 Flash	$0.0018	51.0s	89%	93	93	93	92	88	92%
65	Mistral Small 4 (Reasoning)	$0.0017	16.6s	87%	94	93	90	90	90	91%
31	Ministral 3 14B	$0.0008	4.5s	89%	93	92	92	91	89	91%
61	Hermes 3 405B	$0.0039	14.8s	89%	94	92	92	89	89	91%
120	Nemotron 3 Nano	$0.0011	1.2m	86%	94	93	90	90	88	91%
49	Claude 3 Haiku	$0.0016	4.6s	87%	94	92	90	89	89	91%
43	GPT-4.1 Mini	$0.0015	5.4s	88%	92	92	90	90	89	91%
40	Qwen 2.5 72B	$0.0008	8.8s	90%	91	91	91	90	90	91%
56	Gemma 3 27B	$0.0005	12.3s	87%	93	92	91	88	88	91%
59	Writer: Palmyra X5	$0.0046	6.7s	88%	92	92	91	90	88	91%
115	ByteDance Seed 1.6 Flash	$0.0012	48.8s	82%	94	91	87	87	85	89%
64	Mistral Small 4	$0.0007	2.8s	83%	94	92	89	86	83	89%
47	GPT-5.4 Nano	$0.0008	2.6s	87%	89	89	89	88	87	89%
72	Llama 3.1 70B	$0.0016	14.2s	86%	91	90	89	86	86	88%
75	Hermes 3 70B	$0.0012	14.0s	85%	90	89	88	87	86	88%
108	Qwen3 235B A22B Instruct 2507	$0.0006	13.8s	71%	93	92	91	90	65	86%
81	GPT-5.4 Nano (Reasoning, Low)	$0.0009	2.7s	80%	90	87	85	83	82	86%
90	Inception Mercury	$0.0006	2.8s	78%	90	90	84	83	80	85%
119	Grok 4.3	$0.0047	3.3s	67%	93	93	92	90	58	85%
68	Ministral 3B	$0.0002	1.4s	84%	86	85	85	85	84	85%
82	GPT-4o Mini (temp=1)	$0.0005	6.4s	82%	87	86	84	84	84	85%
89	GPT-4o Mini (temp=0)	$0.0005	5.2s	80%	87	86	84	82	81	84%
91	Arcee AI: Trinity Mini	$0.0003	4.9s	80%	87	85	83	83	80	84%
86	Ministral 3 3B	$0.0004	1.4s	80%	85	84	84	83	79	83%
123	Cohere Command R+ (Aug. 2024)	$0.013	9.0s	77%	87	85	82	81	79	83%
105	Skyfall 36B V2	$0.0016	6.6s	73%	92	81	81	80	80	83%
97	Gemma 3 4B	$0.0002	6.2s	79%	83	82	81	80	79	81%
100	GPT-4.1 Nano	$0.0003	2.3s	77%	83	80	79	79	79	80%
121	Llama 3.1 8B	$0.0001	9.2s	70%	84	81	77	76	71	78%
139	Llama 3.1 Nemotron 70B	$0.0049	14.5s	55%	86	84	83	83	41	76%
142	Arcee AI: Trinity Large (Preview)	$0.0000	15.7s	26%	94	92	92	91	3	74%
143	Gemma 3 12B	$0.0002	12.7s	28%	88	87	86	85	3	70%
148	Rocinante 12B	$0.0009	9.5s	29%	83	74	68	66	3	59%
150	LFM2 24B	$0.0002	12.2s	36%	36	36	36	36	36	36%
151	Mistral NeMO	$0.0005	519ms	0%	0	0	0	0	0	0%
92.22%

Median	Evaluator	Top 3	Flop 3
84.9%	Accuracy	99Claude Opus 4.6 97Claude Opus 4.6 (Reasoning) 97Claude Opus 4.5	0Mistral NeMO 0LFM2 24B 55Gemma 3 12B
100.0%	Precision	100Claude Opus 4.6 100GPT-5 Nano 100Qwen 2.5 72B	0Mistral NeMO 69Rocinante 12B 74Gemma 3 12B
96.6%	Recall	100Claude Sonnet 4 100Qwen 3.6 Flash 100Claude Opus 4.7	0Mistral NeMO 21LFM2 24B 45Rocinante 12B
100.0%	Structural validity	100Gemini 3.1 Pro (Preview) 100Gemma 3 27B 100DeepSeek V3 (2025-03-24)	0Mistral NeMO 25LFM2 24B 65Rocinante 12B

Long: The Spire of Echoes (Dense)

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3 Pro (Preview)	99%
Gemini 3.5 Flash (Reasoning)	99%
Gemini 3 Flash (Preview, Reasoning)	99%
Claude Opus 4.5	98%
Claude Opus 4.6	98%
Claude Opus 4	98%
Qwen3.6 Max Preview	98%
Claude Opus 4.6 (Reasoning)	98%
Gemini 3 Flash (Preview)	98%
GPT-5.4 (Reasoning)	98%
Z.AI GLM 5	98%
Claude Opus 4.7	97%
Aion 2.0	97%
Z.AI GLM 5.1	97%
Claude Sonnet 4.6 (Reasoning)	97%
Claude Opus 4.7 (Reasoning)	97%
Grok 4	97%
Grok 4.3 (Reasoning)	97%
o4 Mini High	97%
Gemini 3.5 Flash (Reasoning, Minimal)	97%

Median	Evaluator	Top 3	Flop 3
83.0%	Accuracy	95Gemini 3 Pro (Preview) 95Gemini 3.5 Flash (Reasoning) 94Gemini 3 Flash (Preview, Reasoning)	0Mistral NeMO 43Rocinante 12B 45GPT-4.1 Nano
99.3%	Precision	100Hermes 3 405B 100Gemini 3.1 Flash Lite 100GPT-4o, Aug. 6th (temp=0)	0Mistral NeMO 58Rocinante 12B 60Gemma 4 26B
98.3%	Recall	100GPT-5.5 100Claude Opus 4.7 100Claude Haiku 4.5	0Mistral NeMO 49Rocinante 12B 56Gemma 4 26B
100.0%	Structural validity	100Z.AI GLM 5 Turbo 100Nemotron 3 Nano 100Qwen 3.5 Flash	0Mistral NeMO 53Rocinante 12B 62Gemma 4 26B

Codex Extraction

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Short: The Rusty Lantern (Explicit)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Medium: Through the Thornveil (Scattered)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Medium: The Hollow (Inferred)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Long: The Spire of Echoes (Dense)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
124	Gemini 3 Pro (Preview)	$0.061	38.1s	98%	99	99	99	99	99	99%
111	Gemini 3.5 Flash (Reasoning)	$0.052	22.0s	98%	99	99	99	99	98	99%
13	Gemini 3 Flash (Preview, Reasoning)	$0.011	19.1s	98%	99	99	99	98	98	99%
99	Claude Opus 4.5	$0.049	11.8s	98%	99	98	98	98	98	98%
102	Claude Opus 4.6	$0.050	11.3s	98%	98	98	98	98	98	98%
144	Claude Opus 4	$0.147	20.0s	98%	98	98	98	98	98	98%
142	Qwen3.6 Max Preview	$0.055	3.0m	97%	99	98	98	97	97	98%
133	Claude Opus 4.6 (Reasoning)	$0.078	26.6s	97%	99	98	98	98	97	98%
1	Gemini 3 Flash (Preview)	$0.0033	5.4s	97%	99	98	98	97	97	98%
135	GPT-5.4 (Reasoning)	$0.063	1.2m	97%	98	98	98	98	97	98%
48	Z.AI GLM 5	$0.0095	51.0s	97%	98	98	98	97	97	98%
118	Claude Opus 4.7	$0.062	9.0s	97%	98	98	98	97	97	97%
95	Aion 2.0	$0.010	1.6m	96%	98	98	98	98	96	97%
103	Z.AI GLM 5.1	$0.019	1.4m	96%	98	98	97	97	96	97%
136	Claude Sonnet 4.6 (Reasoning)	$0.077	53.4s	97%	98	98	97	97	97	97%
116	Claude Opus 4.7 (Reasoning)	$0.061	8.8s	97%	98	98	98	97	97	97%
98	Grok 4	$0.035	38.5s	97%	98	98	98	98	96	97%
117	Grok 4.3 (Reasoning)	$0.023	1.7m	95%	99	98	98	96	96	97%
105	o4 Mini High	$0.032	54.1s	96%	98	98	97	97	96	97%
12	Gemini 3.5 Flash (Reasoning, Minimal)	$0.012	4.3s	96%	98	98	97	97	96	97%
131	Qwen3.7 Max	$0.051	1.3m	95%	98	98	98	97	95	97%
6	Xiaomi MIMO v2.5	$0.0042	16.1s	96%	98	98	97	97	96	97%
55	Grok 4.20 (Reasoning)	$0.015	39.0s	96%	98	97	97	97	96	97%
87	GPT-5.4 Mini (Reasoning)	$0.027	37.0s	97%	97	97	97	97	97	97%
5	Qwen 3.5 Plus (2026-02-15)	$0.0041	14.9s	96%	97	97	97	97	96	97%
121	Gemma 4 26B (Reasoning)	$0.0023	2.8m	95%	98	98	97	96	95	97%
66	Claude Sonnet 4.6	$0.029	10.6s	96%	98	97	97	96	96	97%
104	Gemini 2.5 Pro	$0.041	27.4s	95%	98	97	97	96	95	97%
41	Stealth: Hunter Alpha	$0.0000	50.4s	93%	99	99	96	96	94	97%
139	GPT-5.5 (Reasoning)	$0.088	37.5s	96%	97	97	97	97	96	97%
109	DeepSeek V4 Pro (Reasoning)	$0.0047	2.1m	95%	98	97	97	96	95	97%
2	Mistral Medium 3.1	$0.0035	7.5s	96%	97	97	97	97	96	97%
106	Qwen 3.5 27B	$0.018	1.5m	95%	98	97	97	96	96	97%
33	DeepSeek V4 Flash (Reasoning)	$0.0012	50.2s	96%	97	97	97	96	96	97%
93	GPT-5.5	$0.040	8.6s	96%	97	97	96	96	96	97%
20	Xiaomi MIMO v2.5 Pro	$0.0065	23.3s	95%	98	97	97	96	95	97%
60	Grok 4.20 (Beta, Reasoning)	$0.023	13.8s	94%	98	97	97	96	94	97%
112	Qwen 3.5 Plus (2026-04-20)	$0.017	1.6m	95%	98	97	97	96	95	96%
113	GPT-5.5 (Reasoning, Low)	$0.050	15.6s	96%	97	97	96	96	96	96%
7	Grok 4.20	$0.0064	7.8s	95%	97	97	96	96	96	96%
140	GPT-5	$0.065	1.6m	95%	97	97	97	96	95	96%
137	MoonshotAI: Kimi K2.6	$0.033	2.6m	95%	97	97	96	96	96	96%
134	MoonshotAI: Kimi K2.5	$0.015	2.9m	94%	98	97	96	95	95	96%
14	Claude Haiku 4.5	$0.0096	6.6s	95%	97	96	96	96	96	96%
24	Z.AI GLM 5 Turbo	$0.0093	17.7s	95%	97	97	97	95	95	96%
150	Qwen 3.5 122B	$0.131	6.4m	95%	97	97	96	95	95	96%
67	Claude 3.7 Sonnet	$0.027	10.8s	95%	97	96	96	96	96	96%
4	Grok 4 Fast	$0.0014	9.6s	94%	97	97	96	96	94	96%
16	Gemma 4 31B	$0.0009	34.4s	95%	96	96	96	96	96	96%
82	Claude Sonnet 4	$0.029	11.1s	93%	98	97	96	95	94	96%
59	Z.AI GLM 4.6	$0.0050	59.2s	95%	97	96	96	95	95	96%
128	Qwen 3.5 397B A17B	$0.0096	2.5m	94%	97	97	96	95	95	96%
101	Z.AI GLM 4.7	$0.012	1.3m	92%	98	98	96	95	93	96%
35	DeepSeek V3.2	$0.0015	44.1s	94%	97	96	96	95	95	96%
74	Nemotron 3 Super	$0.0000	1.3m	93%	97	96	95	95	95	96%
130	GPT-5.1	$0.051	57.9s	94%	97	96	95	95	95	96%
69	GPT-5 Mini	$0.0086	55.7s	94%	97	96	96	95	94	96%
9	Grok 4.20 (Beta)	$0.0072	2.8s	95%	96	96	96	95	95	96%
40	Mistral Large 2	$0.014	12.4s	94%	96	96	96	96	93	96%
58	Qwen 3.5 Flash	$0.0034	55.0s	93%	97	96	95	95	94	96%
34	Z.AI GLM 4.5	$0.0056	30.8s	94%	97	96	96	96	94	96%
76	GPT-5.2	$0.023	20.4s	93%	97	96	96	95	93	95%
11	GPT-5.4 Mini (Reasoning, Low)	$0.0060	4.5s	94%	96	96	95	95	95	95%
77	GPT-5.4 (Reasoning, Low)	$0.024	14.5s	93%	97	97	97	96	91	95%
3	Mistral Small Creative	$0.0007	5.8s	94%	97	96	95	95	94	95%
123	Gemma 4 31B (Reasoning)	$0.0017	2.7m	95%	96	96	96	95	94	95%
17	DeepSeek-V2 Chat	$0.0022	20.5s	93%	97	96	96	94	93	95%
71	o4 Mini	$0.018	26.2s	92%	97	97	96	94	92	95%
32	Gemini 2.5 Flash (Reasoning)	$0.0099	14.2s	94%	96	96	96	94	94	95%
19	Grok 4.1 Fast	$0.0018	17.9s	92%	97	97	95	94	93	95%
25	Stealth: Healer Alpha	$0.0000	27.4s	92%	97	97	94	94	94	95%
22	Gemini 2.5 Flash Lite (Reasoning)	$0.0025	15.5s	91%	98	97	95	94	92	95%
78	Claude Sonnet 4.5	$0.029	9.0s	95%	96	95	95	95	95	95%
110	ByteDance Seed 2.0 Lite	$0.0089	1.7m	93%	96	96	96	94	93	95%
126	Claude 3.5 Sonnet	$0.056	19.0s	93%	96	96	96	94	93	95%
83	Qwen 3.5 35B	$0.015	43.7s	93%	96	96	95	95	93	95%
27	Grok 4.3	$0.0071	6.0s	91%	98	96	95	93	93	95%
29	MiniMax M2.7	$0.0024	26.2s	93%	96	95	95	95	94	95%
26	Mistral Large 3	$0.0036	11.9s	91%	96	96	93	93	93	94%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0023	2.7s	93%	95	95	94	94	94	94%
53	GPT-5.4	$0.015	9.8s	91%	97	94	94	93	93	94%
115	ByteDance Seed 1.6	$0.0095	1.7m	92%	96	94	94	93	93	94%
8	Gemini 3.1 Flash Lite (Preview)	$0.0022	2.3s	93%	95	94	94	93	93	94%
36	DeepSeek V4 Pro	$0.0030	18.7s	90%	97	95	93	93	91	94%
63	WizardLM 2 8x22b	$0.0031	40.4s	90%	97	95	95	93	89	94%
84	Qwen 3.6 Flash	$0.011	36.7s	89%	97	96	93	92	91	94%
18	Gemini 3.1 Flash Lite	$0.0021	4.0s	91%	95	94	93	93	92	94%
45	DeepSeek V3 (2025-03-24)	$0.0027	23.7s	90%	96	95	93	92	92	94%
92	GPT-4o, May 13th (temp=0)	$0.032	6.4s	93%	94	94	94	93	93	93%
107	Qwen 3.6 27B	$0.015	56.2s	87%	97	96	93	92	88	93%
15	Mistral Small 3.2 24B	$0.0007	5.7s	91%	95	94	93	93	92	93%
39	DeepSeek V3 (2024-12-26)	$0.0021	17.5s	89%	96	94	93	92	92	93%
46	GPT-4o, Aug. 6th (temp=0)	$0.013	6.6s	93%	94	93	93	93	93	93%
47	Gemini 2.5 Flash	$0.0033	3.6s	85%	97	96	96	95	82	93%
138	ByteDance Seed 2.0 Mini	$0.0039	3.7m	92%	94	94	94	93	91	93%
85	GPT-OSS 120B	$0.0010	1.0m	89%	95	94	92	92	91	93%
65	MiniMax M2.5	$0.0028	42.0s	90%	95	94	92	92	91	93%
43	GPT-5.4 Nano (Reasoning)	$0.0033	18.3s	91%	95	94	93	92	90	93%
62	Z.AI GLM 4.5 Air	$0.0025	34.5s	89%	95	94	92	92	91	93%
21	GPT-5.4 Mini	$0.0042	2.7s	92%	93	93	93	92	92	93%
51	Hermes 3 405B	$0.0049	22.5s	90%	94	93	93	92	90	93%
91	Qwen 3.6 35B	$0.0087	47.3s	89%	95	94	93	91	89	92%
143	Gemini 3.1 Pro (Preview)	$0.085	1.4m	79%	98	97	97	96	74	92%
28	Inception Mercury 2	$0.0027	4.2s	91%	93	93	92	92	91	92%
129	Nemotron 3 Nano	$0.0019	2.3m	87%	94	94	92	92	88	92%
42	GPT-4.1 Mini	$0.0018	10.0s	88%	94	92	91	91	90	92%
23	Gemini 2.5 Flash Lite	$0.0005	2.4s	90%	93	92	91	91	91	92%
30	Ministral 3 8B	$0.0008	4.9s	90%	93	92	92	91	90	92%
52	Qwen3 235B A22B Instruct 2507	$0.0009	31.4s	91%	92	92	92	91	90	92%
96	DeepSeek V4 Flash	$0.0005	11.2s	74%	98	98	98	97	67	91%
61	GPT-4o, Aug. 6th (temp=1)	$0.012	6.5s	90%	93	92	91	91	91	91%
37	Ministral 3 14B	$0.0010	9.9s	89%	93	92	92	90	89	91%
64	Llama 3.1 Nemotron 70B	$0.0060	23.2s	89%	93	92	92	90	88	91%
31	Ministral 8B	$0.0005	5.3s	90%	92	92	91	91	90	91%
125	Qwen 3.5 9B	$0.0014	1.5m	80%	96	95	94	94	76	91%
108	GPT-4o, May 13th (temp=1)	$0.031	6.6s	87%	93	93	92	91	86	91%
57	Writer: Palmyra X5	$0.0071	10.6s	89%	92	91	91	91	89	91%
56	GPT-4.1	$0.0087	6.5s	89%	92	91	91	91	90	91%
80	Qwen 3 32B	$0.0010	39.2s	88%	93	92	91	90	88	91%
122	GPT-5 Nano	$0.0053	1.6m	85%	95	94	93	87	85	90%
38	Mistral Small 4	$0.0010	4.4s	88%	92	92	91	89	88	90%
54	Qwen 2.5 72B	$0.0012	16.5s	88%	92	91	90	90	88	90%
49	Claude 3 Haiku	$0.0024	8.8s	88%	92	90	90	90	89	90%
68	Mistral Small 4 (Reasoning)	$0.0025	19.4s	87%	92	90	90	89	87	90%
44	Ministral 3 3B	$0.0005	2.7s	88%	90	90	89	88	88	89%
79	Cydonia 24B V4.1	$0.0013	18.7s	84%	93	92	91	88	82	89%
50	Ministral 3B	$0.0002	2.9s	86%	92	89	89	88	87	89%
90	Hermes 3 70B	$0.0015	21.1s	83%	92	90	90	90	81	89%
73	Gemma 3 27B	$0.0005	15.8s	84%	91	90	88	88	85	89%
86	Llama 3.1 70B	$0.0019	21.9s	84%	92	90	90	86	84	89%
127	Z.AI GLM 4.7 Flash	$0.0025	1.3m	80%	95	89	87	86	83	88%
114	Cohere Command R+ (Aug. 2024)	$0.018	23.1s	84%	90	90	87	86	86	88%
89	Gemma 3 12B	$0.0003	21.5s	83%	90	89	89	89	81	88%
75	GPT-5.4 Nano (Reasoning, Low)	$0.0014	5.4s	83%	91	88	88	87	83	87%
70	GPT-4o Mini (temp=0)	$0.0007	11.6s	85%	88	88	87	86	85	87%
81	Gemma 3 4B	$0.0002	9.7s	83%	89	87	86	86	84	87%
72	Arcee AI: Trinity Mini	$0.0003	6.4s	84%	87	87	86	86	85	86%
94	GPT-5.4 Nano	$0.0015	4.8s	79%	90	89	88	87	76	86%
88	GPT-4o Mini (temp=1)	$0.0007	10.9s	83%	88	87	87	85	82	86%
119	ByteDance Seed 1.6 Flash	$0.0014	54.8s	79%	92	85	84	83	83	85%
97	LFM2 24B	$0.0002	14.4s	80%	87	87	86	86	78	85%
100	Inception Mercury	$0.0008	4.8s	78%	88	86	83	81	81	84%
132	Skyfall 36B V2	$0.0023	21.1s	65%	90	87	85	77	58	79%
145	DeepSeek V3.1	$0.0016	38.0s	23%	98	98	97	96	3	78%
147	Mistral Large	$0.014	9.4s	23%	97	95	94	93	0	76%
120	GPT-4.1 Nano	$0.0003	3.3s	73%	79	76	76	75	72	76%
141	Llama 3.1 8B	$0.0002	11.1s	49%	85	83	82	81	32	73%
146	Arcee AI: Trinity Large (Preview)	$0.0000	33.2s	27%	92	89	89	87	3	72%
148	Gemma 4 26B	$0.0008	16.3s	10%	96	96	86	3	3	57%
149	Rocinante 12B	$0.0012	7.4s	13%	88	86	80	0	0	51%
151	Mistral NeMO	$0.0006	500ms	0%	0	0	0	0	0	0%
92.04%