Accuracy

Test: Codex Extraction

Avg. Score

83.0%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3 Flash (Preview)	90.9%	$0.0027	3.9s	85%
2	Z.AI GLM 5 Turbo	92.2%	$0.0068	16.0s	87%
3	Z.AI GLM 5.2 (Reasoning, High)	93.3%	$0.0071	21.2s	87%
4	Xiaomi MIMO v2.5	90.7%	$0.0034	13.4s	84%
5	Gemini 3.5 Flash (Reasoning, Minimal)	91.8%	$0.010	3.1s	82%
6	Qwen 3.5 Plus (2026-02-15)	90.4%	$0.0030	10.6s	81%
7	Gemini 3 Flash (Preview, Reasoning)	93.5%	$0.0096	22.2s	86%
8	Grok 4.5 (Reasoning, Low)	91.2%	$0.010	13.1s	85%
9	DeepSeek V4 Flash	87.1%	$0.0003	7.7s	80%
10	Mistral Medium 3.1	87.8%	$0.0026	5.8s	76%
11	Claude Haiku 4.5	86.8%	$0.0073	4.5s	80%
12	Mistral Large 3	87.8%	$0.0027	8.2s	76%
13	Xiaomi MIMO v2.5 Pro	89.4%	$0.0048	18.7s	80%
14	Grok 4.20	86.4%	$0.0048	4.9s	77%
15	Claude Sonnet 4.6	91.4%	$0.022	7.4s	86%
16	MiniMax M3	91.4%	$0.0023	40.5s	84%
17	DeepSeek V4 Flash (Reasoning)	89.7%	$0.0009	37.0s	81%
18	DeepSeek-V2 Chat	86.5%	$0.0019	14.8s	76%
19	Claude Sonnet 5	90.5%	$0.019	8.6s	82%
20	Z.AI GLM 4.5	86.9%	$0.0028	16.8s	77%
21	Gemini 2.5 Flash	82.8%	$0.0023	2.5s	75%
22	Mistral Large 2	88.0%	$0.011	8.3s	78%
23	Gemini 2.5 Flash (Reasoning)	86.6%	$0.0082	11.8s	79%
24	Claude Opus 4.6	95.1%	$0.037	8.1s	90%
25	Claude Opus 4.5	94.9%	$0.037	7.7s	89%
26	Grok 4.20 (Reasoning)	91.5%	$0.012	37.2s	86%
27	DeepSeek V4 Pro	84.7%	$0.0021	16.0s	76%
28	DeepSeek V3 (2024-12-26)	84.0%	$0.0017	13.5s	76%
29	Claude Sonnet 5 (Reasoning, Low)	91.4%	$0.024	13.0s	85%
30	Claude Sonnet 5 (Reasoning)	91.2%	$0.025	13.6s	85%
31	Gemma 4 31B	85.5%	$0.0008	25.9s	75%
32	MiniMax M2.7	85.8%	$0.0022	21.7s	73%
33	GPT-5.6 Luna	81.3%	$0.0043	3.6s	72%
34	Gemini 2.5 Flash Lite (Reasoning)	84.3%	$0.0021	15.6s	72%
35	Gemini 3.1 Flash Lite (Reasoning)	79.8%	$0.0018	2.0s	71%
36	DeepSeek V3.2	86.4%	$0.0011	36.7s	76%
37	Qwen 3.5 Flash	88.5%	$0.0031	49.5s	81%
38	Z.AI GLM 4.6	88.3%	$0.0057	38.8s	78%
39	Writer: Palmyra X5	80.9%	$0.0052	7.5s	74%
40	Z.AI GLM 5	91.1%	$0.0091	51.4s	83%
41	Mistral Small 3.2 24B	78.9%	$0.0005	4.4s	70%
42	Inception Mercury 2	80.2%	$0.0022	3.5s	70%
43	Grok 4.5 (Reasoning, High)	93.8%	$0.024	45.2s	88%
44	GPT-5.4 Mini (Reasoning)	88.3%	$0.017	25.6s	80%
45	GPT-5.6 Terra	84.1%	$0.012	3.1s	71%
46	Ministral 3 14B	80.7%	$0.0009	6.0s	68%
47	Gemini 3.1 Flash Lite (Preview)	78.5%	$0.0017	2.0s	69%
48	MiniMax M2.5	84.9%	$0.0023	30.1s	73%
49	Claude Sonnet 4.5	87.9%	$0.022	6.6s	75%
50	Aion 2.0	92.6%	$0.0080	1.2m	86%
51	Nemotron 3 Super	89.5%	$0.0000	1.0m	78%
52	GPT-5.6 Terra (Reasoning)	85.3%	$0.016	7.3s	73%
53	GPT-5 Mini	86.9%	$0.0070	45.5s	80%
54	Ministral 3 8B	79.7%	$0.0006	3.3s	65%
55	DeepSeek V3 (2025-03-24)	84.7%	$0.0014	27.0s	70%
56	GPT-5.6 Sol	86.3%	$0.023	5.2s	77%
57	Gemini 2.5 Pro	92.4%	$0.034	22.8s	85%
58	Qwen3 235B A22B Instruct 2507	80.2%	$0.0007	19.3s	71%
59	Hermes 3 405B	83.4%	$0.0040	17.8s	69%
60	Grok 4.3	83.5%	$0.0056	4.3s	64%
61	Gemini 3.5 Flash (Reasoning)	93.4%	$0.040	16.4s	85%
62	Ministral 8B	77.5%	$0.0004	3.8s	67%
63	Gemini 3.1 Flash Lite	78.0%	$0.0017	5.1s	68%
64	GPT-5.6 Luna (Reasoning)	80.5%	$0.0078	7.2s	70%
65	Claude Sonnet 4	86.7%	$0.022	7.9s	74%
66	GPT-4o, Aug. 6th (temp=0)	77.9%	$0.0100	4.0s	74%
67	Gemini 2.5 Flash Lite	77.6%	$0.0005	1.9s	65%
68	GPT-5.4 Nano (Reasoning)	79.8%	$0.0023	12.2s	68%
69	Z.AI GLM 5.1	92.6%	$0.015	1.1m	84%
70	Claude Opus 4.8 (Reasoning)	93.8%	$0.047	8.3s	84%
71	Claude Opus 4.8 (Reasoning, Low)	93.7%	$0.047	8.3s	84%
72	GPT-5.5	85.8%	$0.027	6.0s	76%
73	GPT-5.4 (Reasoning, Low)	83.1%	$0.017	10.4s	73%
74	Qwen 2.5 72B	77.2%	$0.0008	11.0s	67%
75	WizardLM 2 8x22b	82.5%	$0.0026	31.3s	70%
76	Qwen 3.5 35B	87.5%	$0.015	47.3s	80%
77	GPT-5.4 Mini (Reasoning, Low)	76.5%	$0.0042	3.7s	67%
78	Qwen 3.6 Flash	81.8%	$0.0096	30.2s	75%
79	GPT-5.4 Mini	75.4%	$0.0031	2.2s	65%
80	GPT-5.2	83.0%	$0.018	16.8s	74%
81	o4 Mini	83.8%	$0.014	21.5s	72%
82	GPT-5.4	79.7%	$0.011	6.4s	67%
83	o4 Mini High	89.0%	$0.025	40.5s	81%
84	Aion 3.0	92.2%	$0.024	58.8s	84%
85	GPT-5.1	92.1%	$0.035	43.6s	86%
86	Claude Opus 4.6 (Reasoning)	94.5%	$0.055	21.4s	89%
87	GPT-4.1	75.6%	$0.0073	4.7s	66%
88	Qwen 3.6 35B	81.3%	$0.0072	37.6s	72%
89	Claude Opus 4.7	89.5%	$0.047	6.1s	80%
90	GPT-5.6 Sol (Reasoning)	89.9%	$0.045	17.0s	82%
91	GPT-4o, Aug. 6th (temp=1)	74.4%	$0.0092	3.8s	66%
92	Claude Opus 4.7 (Reasoning)	89.1%	$0.046	5.9s	79%
93	DeepSeek V3.1	85.4%	$0.0012	26.1s	54%
94	GPT-4.1 Mini	73.5%	$0.0015	6.6s	60%
95	Z.AI GLM 4.5 Air	79.4%	$0.0023	40.1s	67%
96	Grok 4.3 (Reasoning)	89.5%	$0.018	1.3m	85%
97	GPT-OSS 120B	81.1%	$0.0011	57.1s	71%
98	Gemma 3 4B	70.1%	$0.0002	6.7s	63%
99	Hermes 3 70B	76.6%	$0.0012	15.8s	59%
100	GPT-5.5 (Reasoning, Low)	86.1%	$0.038	13.3s	76%
101	Qwen 3 32B	75.9%	$0.0010	37.9s	68%
102	Arcee AI: Trinity Mini	69.4%	$0.0003	5.8s	61%
103	ByteDance Seed 2.0 Lite	87.1%	$0.0078	1.4m	77%
104	Mistral Small 4	69.0%	$0.0008	3.2s	60%
105	Claude Sonnet 4.6 (Reasoning)	91.8%	$0.052	36.0s	86%
106	Z.AI GLM 4.7	90.0%	$0.0098	1.7m	81%
107	Qwen 3.5 Plus (2026-04-20)	88.0%	$0.015	1.4m	79%
108	Mistral Small 4 (Reasoning)	72.6%	$0.0019	15.6s	59%
109	Ministral 3B	65.4%	$0.0002	1.8s	59%
110	Qwen 3.5 397B A17B	91.3%	$0.012	1.8m	82%
111	Cydonia 24B V4.1	74.6%	$0.0010	12.2s	50%
112	Gemma 3 27B	67.8%	$0.0005	14.5s	58%
113	GPT-4o Mini (temp=0)	66.1%	$0.0005	7.9s	57%
114	Ministral 3 3B	63.6%	$0.0004	1.8s	57%
115	GPT-4o Mini (temp=1)	66.7%	$0.0006	8.0s	56%
116	GPT-5.4 Nano	64.7%	$0.0011	3.8s	56%
117	GPT-5	94.0%	$0.049	1.3m	89%
118	ByteDance Seed 1.6 Flash	72.1%	$0.0011	39.3s	61%
119	ByteDance Seed 1.6	81.1%	$0.0073	1.3m	70%
120	Nemotron 3 Nano	82.0%	$0.0013	1.6m	72%
121	Qwen 3.6 27B	83.5%	$0.018	1.2m	72%
122	Llama 3.1 70B	71.9%	$0.0016	16.0s	51%
123	GPT-5.4 Nano (Reasoning, Low)	65.0%	$0.0011	3.7s	53%
124	Qwen 3.5 9B	82.0%	$0.0013	1.5m	68%
125	Gemma 4 31B (Reasoning)	87.6%	$0.0016	2.2m	78%
126	Qwen3.7 Max	89.0%	$0.041	1.1m	79%
127	GPT-5.5 (Reasoning)	86.8%	$0.056	25.8s	78%
128	DeepSeek V4 Pro (Reasoning)	90.0%	$0.0093	2.3m	82%
129	GPT-5.4 (Reasoning)	87.0%	$0.044	53.6s	77%
130	MoonshotAI: Kimi K2.5	88.9%	$0.013	2.4m	81%
131	Gemma 3 12B	63.0%	$0.0003	14.1s	46%
132	Cohere Command R+ (Aug. 2024)	66.1%	$0.014	17.9s	51%
133	GPT-5 Nano	71.8%	$0.0043	1.3m	59%
134	MoonshotAI: Kimi K2.6	87.9%	$0.026	2.4m	83%
135	Gemma 4 26B	68.1%	$0.0006	18.7s	33%
136	Gemini 3.1 Pro (Preview)	88.3%	$0.065	1.0m	78%
137	Z.AI GLM 4.7 Flash	69.1%	$0.0019	1.2m	52%
138	GPT-4.1 Nano	51.8%	$0.0003	2.8s	42%
139	Claude Opus 4	91.4%	$0.110	13.5s	84%
140	Qwen3.6 Max Preview	90.7%	$0.045	2.4m	84%
141	ByteDance Seed 2.0 Mini	84.4%	$0.0034	3.4m	77%
142	Gemma 4 26B (Reasoning)	81.7%	$0.0023	2.6m	52%
143	Qwen 3.5 27B	81.4%	$0.021	1.6m	41%
144	Aion 3.0 Mini	68.2%	$0.0077	1.8m	18%
145	Qwen 3.5 122B	90.4%	$0.079	3.6m	83%
146	Mistral NeMO	22.4%	$0.0006	1.4s	0%
83.00%

Individual Scenarios

▼

Long: The Spire of Echoes (Dense)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.8 (Reasoning)	98	97	97	97	96	96.8%
Claude Opus 4.8 (Reasoning, Low)	97	96	96	96	93	95.6%
Gemini 3.5 Flash (Reasoning)	98	94	94	94	93	94.7%
Gemini 3 Flash (Preview, Reasoning)	97	96	95	93	92	94.3%
Aion 2.0	98	94	93	92	90	93.6%
Claude Opus 4.5	95	93	93	93	93	93.1%
Z.AI GLM 5.2 (Reasoning, High)	99	96	92	92	85	92.9%
Claude Opus 4.6	93	93	92	92	92	92.2%
Aion 3.0 Mini	97	93	92	92	86	92.1%
Claude Opus 4	92	92	92	92	91	91.7%
Qwen3.6 Max Preview	96	92	92	90	89	91.7%
Claude Opus 4.6 (Reasoning)	96	91	91	91	89	91.5%
Nemotron 3 Super	96	92	91	89	89	91.4%
Gemini 3 Flash (Preview)	94	93	91	90	89	91.3%
o4 Mini High	94	94	90	89	88	91.2%
GPT-5	93	93	91	90	88	91.1%
GPT-5.4 (Reasoning)	94	92	90	90	89	90.9%
Z.AI GLM 5	93	93	91	88	88	90.5%
Grok 4.5 (Reasoning, High)	95	92	88	88	87	90.2%
Claude Opus 4.7	91	91	90	89	88	89.9%
Z.AI GLM 5.1	93	92	90	89	85	89.8%
Claude Sonnet 4.6 (Reasoning)	92	90	89	89	88	89.7%
Qwen3.7 Max	95	92	91	90	80	89.7%
Claude Opus 4.7 (Reasoning)	91	90	90	89	89	89.7%
Grok 4.3 (Reasoning)	95	92	90	85	84	89.5%
Gemini 2.5 Pro	92	91	89	88	86	89.4%
Xiaomi MIMO v2.5	92	91	89	88	87	89.3%
Gemini 3.5 Flash (Reasoning, Minimal)	92	91	89	88	85	89.2%
Gemini 3.1 Pro (Preview)	92	91	90	89	82	88.9%
Aion 3.0	95	90	87	86	85	88.6%
Grok 4.20 (Reasoning)	94	89	88	87	85	88.5%
Z.AI GLM 5 Turbo	89	89	88	87	87	87.9%
Qwen 3.5 27B	92	89	88	86	84	87.8%
DeepSeek V4 Flash (Reasoning)	89	89	88	88	85	87.8%
Claude Sonnet 5 (Reasoning)	92	90	86	85	84	87.6%
GPT-5.4 Mini (Reasoning)	89	88	88	88	86	87.6%
Qwen 3.5 Plus (2026-02-15)	89	88	88	88	86	87.4%
GPT-5.1	89	88	87	87	85	87.3%
Gemma 4 26B (Reasoning)	91	91	88	84	82	87.3%
Claude Sonnet 4.6	90	89	87	85	85	87.2%
GPT-5.5 (Reasoning)	89	88	86	86	86	86.9%
Claude Sonnet 5	91	89	88	87	80	86.9%
DeepSeek-V2 Chat	91	90	87	86	81	86.9%
DeepSeek V4 Pro (Reasoning)	92	88	86	85	82	86.8%
Mistral Medium 3.1	87	87	87	86	85	86.7%
Qwen 3.5 122B	94	91	87	81	80	86.7%
Qwen 3.5 Plus (2026-04-20)	92	88	88	87	79	86.7%
Qwen 3.5 35B	92	92	85	83	82	86.7%
Gemini 2.5 Flash (Reasoning)	90	89	87	85	83	86.6%
GPT-5.5	88	88	86	86	86	86.4%
Grok 4.5 (Reasoning, Low)	87	87	86	86	85	86.3%
Xiaomi MIMO v2.5 Pro	92	88	86	84	82	86.3%
DeepSeek V4 Flash	92	91	91	87	70	86.1%
GPT-5.4 (Reasoning, Low)	88	87	87	87	81	86.1%
MoonshotAI: Kimi K2.5	91	88	87	86	78	86.0%
Nemotron 3 Nano	94	91	87	84	73	85.9%
Z.AI GLM 4.7	91	91	85	83	80	85.8%
GPT-5.6 Terra (Reasoning)	90	87	84	84	84	85.8%
Claude Sonnet 5 (Reasoning, Low)	88	87	86	85	83	85.7%
GPT-5.5 (Reasoning, Low)	87	86	85	85	85	85.6%
Grok 4.20	89	86	85	84	83	85.5%
MoonshotAI: Kimi K2.6	89	87	84	84	83	85.5%
Qwen 3.5 397B A17B	89	86	85	84	83	85.4%
Z.AI GLM 4.5	88	86	85	85	82	85.4%
GPT-5.6 Sol	87	86	86	85	84	85.3%
Qwen 3.5 Flash	89	89	86	82	80	85.3%
GPT-5.2	88	87	85	84	81	85.1%
Gemini 2.5 Flash	88	88	85	83	82	85.1%
MiniMax M3	92	85	84	84	80	85.0%
GPT-5.6 Luna	87	85	85	84	84	84.8%
GPT-5.6 Sol (Reasoning)	87	85	85	84	83	84.8%
Claude Haiku 4.5	88	85	84	84	83	84.8%
GPT-5.6 Luna (Reasoning)	87	86	85	82	82	84.2%
Gemini 2.5 Flash Lite (Reasoning)	92	88	81	80	79	84.2%
Mistral Large 2	86	86	85	84	79	84.1%
o4 Mini	93	89	87	82	68	84.1%
Z.AI GLM 4.6	87	87	86	81	80	84.0%
Inception Mercury 2	89	87	85	81	77	83.9%
Gemma 4 31B	86	84	84	84	83	83.9%
GPT-5 Mini	89	83	83	83	80	83.7%
Claude Sonnet 4	91	88	85	78	76	83.6%
DeepSeek V3.2	89	84	83	81	79	83.2%
Grok 4.3	90	86	82	80	77	83.0%
Mistral Large 3	87	85	80	80	80	82.7%
GPT-5.4	88	83	82	82	79	82.6%
Hermes 3 405B	88	85	83	80	77	82.6%
Qwen 3.6 27B	89	86	83	81	73	82.3%
GPT-5.6 Terra	83	83	83	81	81	82.3%
GPT-OSS 120B	95	85	80	76	75	82.0%
GPT-5.4 Mini (Reasoning, Low)	86	83	82	80	79	81.8%
WizardLM 2 8x22b	88	85	84	80	71	81.6%
Gemma 4 31B (Reasoning)	83	82	82	82	78	81.5%
Mistral Small 3.2 24B	85	84	83	81	74	81.3%
GPT-5.4 Nano (Reasoning)	88	84	81	76	75	80.8%
Claude Sonnet 4.5	82	81	81	80	78	80.5%
Qwen 3.6 Flash	86	82	80	78	76	80.4%
ByteDance Seed 2.0 Lite	85	84	83	77	73	80.2%
MiniMax M2.7	84	82	80	78	75	80.0%
DeepSeek V3 (2024-12-26)	84	82	78	77	77	79.8%
Qwen 3.6 35B	84	81	80	79	75	79.7%
GPT-4o, Aug. 6th (temp=0)	81	81	81	81	76	79.6%
Hermes 3 70B	85	83	82	79	68	79.2%
ByteDance Seed 2.0 Mini	83	82	78	78	75	79.1%
DeepSeek V4 Pro	87	83	77	75	70	78.6%
Gemini 3.1 Flash Lite (Reasoning)	81	80	80	75	75	78.4%
Qwen3 235B A22B Instruct 2507	78	78	78	77	76	77.4%
Writer: Palmyra X5	84	77	76	75	75	77.3%
Qwen 3.5 9B	86	85	83	80	52	77.2%
MiniMax M2.5	84	82	80	75	65	77.1%
Ministral 3 14B	79	77	77	76	74	76.7%
ByteDance Seed 1.6	83	77	74	74	72	76.0%
Qwen 3 32B	82	82	79	69	69	76.0%
Gemini 3.1 Flash Lite (Preview)	78	78	77	74	74	76.0%
DeepSeek V3 (2025-03-24)	83	83	74	70	67	75.3%
Gemini 3.1 Flash Lite	82	78	74	72	70	75.2%
Llama 3.1 70B	79	78	74	73	70	74.6%
Cydonia 24B V4.1	85	81	74	69	65	74.6%
GPT-5.4 Mini	80	77	73	71	71	74.3%
GPT-4.1 Mini	79	77	77	70	68	74.1%
GPT-4.1	76	74	74	74	69	73.3%
GPT-4o, Aug. 6th (temp=1)	77	76	74	71	69	73.3%
Z.AI GLM 4.5 Air	78	78	76	68	67	73.3%
Gemini 2.5 Flash Lite	78	76	70	69	65	71.7%
DeepSeek V3.1	93	93	86	84	0	71.3%
GPT-4o Mini (temp=1)	75	74	74	70	63	71.2%
Mistral Small 4 (Reasoning)	79	78	70	69	60	71.0%
Ministral 8B	73	72	72	69	68	71.0%
Ministral 3 8B	73	73	71	69	68	70.8%
GPT-5 Nano	79	78	77	72	47	70.3%
Mistral Small 4	76	72	71	70	61	70.1%
GPT-4o Mini (temp=0)	75	72	70	69	64	70.1%
Qwen 2.5 72B	76	72	72	66	65	70.0%
Cohere Command R+ (Aug. 2024)	85	72	67	64	62	69.9%
Gemma 3 4B	73	72	71	67	65	69.6%
Arcee AI: Trinity Mini	75	71	69	67	65	69.3%
ByteDance Seed 1.6 Flash	78	77	70	63	45	67.0%
GPT-5.4 Nano (Reasoning, Low)	75	70	64	62	57	65.8%
GPT-5.4 Nano	73	71	70	69	44	65.4%
Ministral 3B	69	65	63	62	59	63.7%
Gemma 3 12B	68	67	67	64	53	63.7%
Ministral 3 3B	66	63	61	61	61	62.2%
Z.AI GLM 4.7 Flash	80	61	60	59	42	60.5%
Gemma 3 27B	68	67	58	58	47	59.4%
Gemma 4 26B	84	84	75	0	0	48.8%
GPT-4.1 Nano	58	48	46	39	32	44.6%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: The Hollow (Inferred)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6	99	99	99	99	99	98.6%
Claude Opus 4.8 (Reasoning)	99	99	99	97	95	97.6%
Claude Opus 4.8 (Reasoning, Low)	99	99	99	96	96	97.6%
Claude Opus 4.6 (Reasoning)	99	99	99	97	93	97.3%
Claude Opus 4.5	99	99	96	96	96	97.1%
Claude Opus 4.7	100	96	95	92	92	95.1%
GPT-5	96	95	95	95	95	94.9%
Claude Opus 4.7 (Reasoning)	96	95	95	95	92	94.5%
Claude Sonnet 5	97	94	94	93	90	93.5%
GPT-5.1	96	95	95	91	91	93.5%
Grok 4.5 (Reasoning, High)	97	93	93	92	91	93.3%
Gemini 3.1 Pro (Preview)	96	96	95	91	89	93.3%
MiniMax M3	97	96	92	91	90	93.2%
GPT-5.6 Sol (Reasoning)	94	94	93	91	89	92.3%
Z.AI GLM 5 Turbo	96	92	92	91	90	92.1%
Claude Sonnet 4.6	92	92	92	92	91	92.1%
Grok 4.20 (Reasoning)	94	93	92	91	90	92.0%
Gemini 3 Flash (Preview, Reasoning)	96	93	92	91	86	91.7%
Claude Sonnet 5 (Reasoning, Low)	93	92	92	92	90	91.6%
Aion 2.0	95	92	92	90	89	91.5%
Claude Sonnet 5 (Reasoning)	97	94	92	89	84	91.4%
Z.AI GLM 4.7	98	94	90	88	86	91.3%
Qwen 3.5 Flash	96	93	92	89	86	91.3%
Claude Sonnet 4.6 (Reasoning)	92	92	91	91	90	91.2%
GPT-5.6 Sol	93	92	91	90	89	90.9%
Mistral Large 2	94	91	91	90	88	90.9%
Gemini 3.5 Flash (Reasoning)	97	93	91	87	85	90.8%
Mistral Large 3	92	92	92	92	86	90.8%
Grok 4.5 (Reasoning, Low)	92	92	91	90	88	90.7%
Qwen 3.5 27B	95	94	90	89	85	90.6%
GPT-5.4 (Reasoning)	92	91	90	90	89	90.4%
Qwen 3.5 122B	93	91	91	90	87	90.3%
Xiaomi MIMO v2.5	93	92	91	91	85	90.1%
Gemini 2.5 Pro	93	92	90	90	85	90.1%
Z.AI GLM 4.6	96	94	92	84	83	89.8%
Qwen 3.5 397B A17B	96	92	91	87	82	89.5%
DeepSeek V3.1	90	90	89	89	89	89.4%
DeepSeek V4 Flash (Reasoning)	93	91	90	87	87	89.3%
Gemma 4 31B	96	93	87	86	85	89.2%
GPT-5.5 (Reasoning, Low)	92	91	88	88	87	89.2%
DeepSeek V4 Pro (Reasoning)	92	89	89	88	87	89.1%
Claude Opus 4	95	91	90	86	84	89.0%
GPT-5.6 Terra	92	91	88	87	87	88.8%
GPT-5.5 (Reasoning)	92	92	91	85	83	88.7%
Z.AI GLM 5.2 (Reasoning, High)	89	89	88	88	88	88.6%
Qwen3.7 Max	89	89	89	88	86	88.5%
Grok 4.3 (Reasoning)	91	90	90	89	82	88.5%
DeepSeek V4 Flash	94	92	89	85	82	88.4%
DeepSeek-V2 Chat	91	91	91	88	81	88.4%
DeepSeek V3.2	91	91	89	87	84	88.3%
Qwen3.6 Max Preview	93	92	89	86	79	88.1%
Gemini 3.1 Flash Lite (Reasoning)	91	89	89	88	83	88.0%
GPT-5 Mini	92	91	88	85	84	87.9%
Xiaomi MIMO v2.5 Pro	93	93	85	85	84	87.9%
Aion 3.0	93	89	87	86	85	87.9%
MoonshotAI: Kimi K2.6	91	89	89	88	80	87.7%
Gemma 4 31B (Reasoning)	95	89	85	85	84	87.7%
ByteDance Seed 2.0 Mini	89	89	88	88	83	87.5%
Qwen 3.5 Plus (2026-02-15)	91	90	88	85	84	87.5%
Gemini 3 Flash (Preview)	91	89	86	86	85	87.3%
Gemini 3.5 Flash (Reasoning, Minimal)	90	90	89	88	79	87.2%
Qwen 3.5 35B	91	88	87	86	85	87.2%
Z.AI GLM 5.1	91	89	88	84	83	87.0%
ByteDance Seed 2.0 Lite	91	89	88	83	83	86.8%
DeepSeek V3 (2025-03-24)	88	87	87	86	85	86.6%
GPT-5.5	91	87	87	86	82	86.5%
GPT-5.6 Terra (Reasoning)	90	89	86	84	84	86.4%
Qwen 3.5 Plus (2026-04-20)	88	87	86	86	84	86.2%
MiniMax M2.7	89	87	87	84	83	85.9%
MoonshotAI: Kimi K2.5	89	89	89	83	79	85.8%
Gemini 3.1 Flash Lite	89	88	86	84	81	85.7%
Gemini 2.5 Flash (Reasoning)	89	87	85	85	82	85.6%
DeepSeek V3 (2024-12-26)	91	89	88	82	78	85.6%
Grok 4.20	87	86	85	85	85	85.5%
MiniMax M2.5	89	87	86	84	80	85.3%
GPT-5.4 Mini (Reasoning)	90	88	88	81	80	85.3%
o4 Mini High	90	88	87	82	79	85.3%
Claude Haiku 4.5	86	86	84	84	84	85.2%
Claude Sonnet 4.5	86	86	85	85	83	85.1%
Qwen 3.5 9B	93	88	88	86	70	85.1%
GPT-OSS 120B	87	87	85	84	82	84.9%
Gemini 3.1 Flash Lite (Preview)	88	87	86	84	80	84.8%
Z.AI GLM 4.5	93	85	83	82	79	84.5%
Gemini 2.5 Flash Lite (Reasoning)	90	88	84	82	76	84.0%
Z.AI GLM 5	87	85	84	82	81	83.7%
GPT-5.2	89	85	82	81	80	83.6%
WizardLM 2 8x22b	88	88	83	81	76	83.2%
GPT-5.4	85	84	84	81	81	83.1%
Nemotron 3 Super	86	86	82	81	80	83.0%
GPT-5.4 (Reasoning, Low)	85	85	84	83	78	82.9%
GPT-5 Nano	88	86	82	81	78	82.9%
Nemotron 3 Nano	90	85	81	81	77	82.7%
Z.AI GLM 4.5 Air	92	86	80	79	75	82.5%
DeepSeek V4 Pro	86	85	83	79	79	82.2%
Qwen 3.6 35B	86	84	83	82	76	82.2%
Mistral Small 3.2 24B	84	84	84	81	77	82.2%
ByteDance Seed 1.6	86	83	81	80	79	82.0%
Mistral Medium 3.1	84	84	82	80	80	81.9%
Writer: Palmyra X5	85	84	82	79	78	81.7%
Ministral 3 8B	82	82	82	82	79	81.6%
Cydonia 24B V4.1	89	85	83	81	69	81.3%
Claude Sonnet 4	86	81	81	80	78	81.2%
Ministral 3 14B	84	82	82	81	77	81.1%
Qwen 3.6 Flash	84	84	81	79	78	81.1%
Gemini 2.5 Flash	84	84	82	79	76	80.8%
Qwen 2.5 72B	82	82	81	80	76	80.3%
Qwen3 235B A22B Instruct 2507	90	84	82	80	64	80.2%
Ministral 8B	82	81	81	79	77	80.1%
GPT-5.6 Luna (Reasoning)	84	84	82	79	71	80.0%
GPT-4o, Aug. 6th (temp=0)	83	80	80	80	77	80.0%
Qwen 3.6 27B	88	85	83	78	66	80.0%
o4 Mini	87	85	83	75	70	79.9%
GPT-5.6 Luna	82	82	80	79	77	79.9%
Inception Mercury 2	91	79	77	76	75	79.6%
Gemini 2.5 Flash Lite	87	82	81	80	67	79.3%
GPT-4.1 Mini	86	79	79	77	76	79.2%
Gemma 4 26B (Reasoning)	89	89	86	78	49	78.1%
GPT-4o, Aug. 6th (temp=1)	84	82	80	79	65	78.0%
Hermes 3 405B	82	79	77	77	74	78.0%
GPT-4.1	81	80	80	76	72	77.9%
Gemma 4 26B	78	78	77	77	77	77.7%
GPT-5.4 Mini (Reasoning, Low)	82	80	76	76	73	77.7%
Llama 3.1 70B	80	80	80	79	66	77.0%
GPT-5.4 Mini	79	79	79	75	70	76.6%
Qwen 3 32B	85	79	76	75	68	76.6%
Hermes 3 70B	81	77	74	74	72	75.4%
Z.AI GLM 4.7 Flash	82	81	70	68	66	73.4%
Mistral Small 4 (Reasoning)	77	76	73	71	68	73.1%
GPT-5.4 Nano (Reasoning)	83	82	72	63	63	72.5%
GPT-4o Mini (temp=1)	83	76	69	67	65	71.8%
Grok 4.3	86	83	79	73	35	71.2%
ByteDance Seed 1.6 Flash	82	78	67	67	62	71.1%
Gemma 3 4B	73	72	72	70	68	71.1%
Arcee AI: Trinity Mini	78	74	69	68	61	69.8%
Mistral Small 4	81	70	68	68	57	68.8%
GPT-4o Mini (temp=0)	73	70	67	62	60	66.3%
Cohere Command R+ (Aug. 2024)	72	66	65	63	58	64.8%
GPT-5.4 Nano	72	64	61	61	58	63.1%
Ministral 3B	66	63	63	62	60	62.8%
Gemma 3 27B	72	70	62	57	53	62.7%
Ministral 3 3B	63	63	62	61	61	61.6%
GPT-5.4 Nano (Reasoning, Low)	71	66	64	55	48	60.9%
GPT-4.1 Nano	66	57	56	54	53	57.3%
Gemma 3 12B	71	71	67	65	0	54.9%
Aion 3.0 Mini	92	85	0	0	0	35.3%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: Through the Thornveil (Scattered)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.5 Flash (Reasoning, Minimal)	99	99	98	96	95	97.7%
Grok 4.5 (Reasoning, High)	98	98	98	93	92	95.8%
Z.AI GLM 5.1	98	97	97	94	93	95.7%
Gemini 3.5 Flash (Reasoning)	98	97	96	93	92	95.0%
Z.AI GLM 5.2 (Reasoning, High)	97	95	95	94	93	95.0%
Claude Opus 4.6 (Reasoning)	96	95	95	95	95	94.9%
Claude Opus 4.8 (Reasoning, Low)	96	95	95	94	92	94.6%
Z.AI GLM 5 Turbo	96	95	94	94	93	94.5%
Claude Opus 4.6	95	95	95	95	93	94.3%
Gemini 3.1 Pro (Preview)	96	95	94	94	92	94.3%
Gemini 3 Flash (Preview, Reasoning)	98	95	94	93	92	94.3%
Aion 3.0	97	96	95	93	89	94.3%
Claude Sonnet 5	95	95	94	93	93	94.3%
Claude Opus 4.7 (Reasoning)	95	95	95	93	92	94.1%
Grok 4.5 (Reasoning, Low)	97	95	93	92	92	93.9%
Claude Opus 4.8 (Reasoning)	95	94	94	93	93	93.9%
Z.AI GLM 5	96	95	95	92	91	93.9%
GPT-5.6 Terra (Reasoning)	95	95	95	94	90	93.8%
Gemini 3 Flash (Preview)	95	95	93	93	91	93.6%
Claude Opus 4.7	95	94	93	93	92	93.4%
Claude Sonnet 5 (Reasoning, Low)	96	94	93	92	91	93.3%
GPT-5.5	95	95	93	93	90	93.2%
GPT-5.6 Terra	94	94	93	93	92	93.1%
Qwen 3.5 397B A17B	95	95	93	92	89	92.9%
Claude Opus 4.5	94	94	94	94	88	92.9%
GPT-5	94	93	93	92	92	92.7%
GPT-5.5 (Reasoning, Low)	96	93	92	91	91	92.7%
Qwen3.7 Max	97	94	94	91	87	92.6%
DeepSeek V4 Pro (Reasoning)	97	93	93	91	88	92.4%
Gemini 2.5 Pro	94	93	93	91	90	92.2%
MiniMax M3	93	93	92	92	90	92.1%
GPT-5.6 Sol	94	92	92	92	90	92.1%
GPT-5.1	95	92	92	92	88	92.0%
GPT-5.4 (Reasoning)	96	92	92	90	89	91.8%
Gemma 4 31B	94	92	92	91	90	91.7%
Claude Sonnet 5 (Reasoning)	94	93	92	90	89	91.4%
Xiaomi MIMO v2.5 Pro	97	93	92	89	87	91.4%
Claude Sonnet 4.6	93	91	91	91	91	91.4%
GPT-5.5 (Reasoning)	93	93	92	90	89	91.4%
GPT-5.6 Sol (Reasoning)	94	92	90	90	90	91.3%
MoonshotAI: Kimi K2.5	95	93	90	89	89	91.2%
GPT-5.4 (Reasoning, Low)	95	91	90	90	89	90.9%
Grok 4.20 (Reasoning)	93	92	92	91	86	90.8%
Claude Sonnet 4.6 (Reasoning)	92	91	91	90	90	90.7%
GPT-5 Mini	93	90	90	90	89	90.6%
Aion 2.0	92	91	91	91	86	90.3%
Qwen 3.5 122B	93	92	90	90	86	89.9%
Claude Haiku 4.5	92	90	90	90	88	89.7%
Gemma 4 26B (Reasoning)	93	91	91	89	84	89.5%
Qwen 3.5 27B	92	91	90	89	86	89.5%
DeepSeek V4 Pro	93	90	89	88	87	89.4%
Grok 4.3 (Reasoning)	91	91	90	88	86	89.4%
Gemma 4 31B (Reasoning)	91	90	89	89	87	89.3%
Z.AI GLM 4.6	94	92	90	87	83	89.3%
ByteDance Seed 2.0 Lite	93	92	90	86	85	89.2%
o4 Mini High	92	90	88	88	87	89.0%
Qwen 3.5 Plus (2026-02-15)	91	89	89	88	87	88.9%
Z.AI GLM 4.7	95	91	89	85	84	88.8%
Qwen3.6 Max Preview	94	90	89	87	84	88.8%
GPT-5.4	92	88	88	88	86	88.5%
Claude Sonnet 4.5	93	90	87	87	85	88.4%
Claude Opus 4	92	90	88	86	86	88.4%
GPT-5.6 Luna	92	89	89	88	83	88.2%
Xiaomi MIMO v2.5	93	91	89	85	81	87.9%
GPT-5.2	92	92	88	87	80	87.8%
Gemini 2.5 Flash	90	89	89	88	83	87.7%
Grok 4.3	90	89	87	86	85	87.6%
GPT-5.6 Luna (Reasoning)	91	90	87	86	83	87.4%
MoonshotAI: Kimi K2.6	90	88	87	85	85	87.1%
DeepSeek V3.1	89	88	88	85	84	87.0%
GPT-5.4 Mini (Reasoning)	90	87	87	87	84	87.0%
MiniMax M2.5	92	87	86	86	85	87.0%
Grok 4.20	92	89	85	83	83	86.5%
o4 Mini	90	88	88	83	82	86.2%
Claude Sonnet 4	91	86	86	85	83	86.2%
Nemotron 3 Super	91	89	84	84	83	86.1%
Qwen 3.5 Flash	93	87	87	82	81	85.8%
Gemini 2.5 Flash (Reasoning)	89	88	84	84	83	85.7%
DeepSeek V4 Flash (Reasoning)	88	88	85	84	83	85.7%
Writer: Palmyra X5	89	89	87	81	80	85.4%
Qwen 3.5 Plus (2026-04-20)	93	86	85	84	78	85.3%
Qwen 3.5 35B	87	87	84	84	83	85.1%
DeepSeek V3.2	87	87	85	84	81	85.1%
Mistral Medium 3.1	87	86	84	84	84	85.0%
Qwen 3.6 27B	89	85	85	82	80	84.2%
DeepSeek V4 Flash	86	85	84	83	81	83.8%
Z.AI GLM 4.5	87	85	84	83	79	83.4%
Qwen3 235B A22B Instruct 2507	88	87	87	80	73	83.0%
Qwen 3.5 9B	88	87	85	78	75	82.7%
MiniMax M2.7	92	83	81	80	77	82.6%
ByteDance Seed 2.0 Mini	85	85	83	81	79	82.5%
Mistral Large 2	87	82	81	81	81	82.4%
Qwen 3.6 35B	90	83	80	79	78	82.1%
Qwen 3.6 Flash	87	85	83	80	75	81.7%
DeepSeek V3 (2024-12-26)	89	88	78	77	76	81.7%
Mistral Large 3	83	81	81	81	81	81.6%
GPT-4.1	86	84	83	81	71	81.1%
DeepSeek V3 (2025-03-24)	84	82	79	79	78	80.5%
DeepSeek-V2 Chat	89	88	83	71	68	79.9%
Gemini 3.1 Flash Lite (Preview)	85	81	78	77	76	79.5%
Gemini 3.1 Flash Lite (Reasoning)	83	80	80	78	76	79.3%
ByteDance Seed 1.6 Flash	83	83	81	76	74	79.3%
ByteDance Seed 1.6	88	80	77	76	72	78.6%
Hermes 3 405B	82	79	79	77	77	78.5%
Z.AI GLM 4.5 Air	85	82	80	76	70	78.4%
Nemotron 3 Nano	80	80	79	77	75	78.2%
GPT-4o, Aug. 6th (temp=0)	78	78	78	78	78	78.1%
GPT-4.1 Mini	86	81	78	72	71	77.5%
GPT-5.4 Nano (Reasoning)	86	81	78	75	67	77.3%
GPT-4o, Aug. 6th (temp=1)	81	78	77	76	75	77.3%
Gemini 3.1 Flash Lite	85	76	76	75	74	77.0%
Gemini 2.5 Flash Lite (Reasoning)	80	79	79	76	69	76.9%
WizardLM 2 8x22b	86	79	75	73	66	75.8%
Mistral Small 3.2 24B	77	77	77	75	70	75.3%
Inception Mercury 2	82	80	77	74	63	75.3%
GPT-5.4 Mini (Reasoning, Low)	78	76	76	75	71	75.2%
GPT-4o Mini (temp=0)	76	76	76	76	71	75.0%
GPT-OSS 120B	79	75	75	73	71	74.7%
GPT-5.4 Mini	86	74	74	70	68	74.3%
Ministral 3 8B	79	76	75	72	70	74.3%
Qwen 2.5 72B	77	75	74	74	71	74.2%
Gemma 3 27B	79	79	71	71	70	74.1%
Ministral 3 14B	77	75	75	72	72	74.1%
Ministral 8B	77	73	72	71	70	72.8%
Cydonia 24B V4.1	82	77	74	67	64	72.8%
GPT-5 Nano	81	79	73	67	63	72.4%
Qwen 3 32B	76	73	72	71	67	71.9%
Gemini 2.5 Flash Lite	75	74	71	70	69	71.8%
Mistral Small 4 (Reasoning)	80	78	72	66	63	71.7%
Hermes 3 70B	81	73	73	68	62	71.6%
Mistral Small 4	73	72	71	67	63	69.4%
GPT-4o Mini (temp=1)	76	71	69	67	64	69.4%
Z.AI GLM 4.7 Flash	84	75	73	69	42	68.5%
Ministral 3 3B	74	73	71	64	59	68.1%
Ministral 3B	74	70	70	65	56	67.3%
Arcee AI: Trinity Mini	77	71	69	61	58	67.0%
Gemma 3 12B	67	67	62	61	60	63.6%
Gemma 3 4B	75	63	61	59	55	62.4%
GPT-5.4 Nano (Reasoning, Low)	69	69	64	58	52	62.3%
Gemma 4 26B	81	79	75	75	0	62.0%
GPT-5.4 Nano	69	68	65	59	48	61.8%
Cohere Command R+ (Aug. 2024)	69	65	60	58	53	61.0%
Llama 3.1 70B	80	79	69	63	0	58.1%
Aion 3.0 Mini	87	86	86	0	0	51.8%
GPT-4.1 Nano	53	53	51	48	45	50.1%
Mistral NeMO	82	72	72	0	0	45.3%

▼

Short: The Rusty Lantern (Explicit)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Aion 3.0	98	98	98	98	97	98.2%
Z.AI GLM 5.1	100	98	98	97	97	98.0%
Gemini 2.5 Pro	98	98	98	98	96	97.9%
Qwen 3.5 Plus (2026-02-15)	98	98	98	98	96	97.9%
Claude Sonnet 4.5	98	98	98	96	96	97.5%
Mistral Medium 3.1	98	98	97	97	96	97.5%
GPT-5	98	97	97	97	97	97.3%
Qwen 3.5 397B A17B	98	98	98	97	94	97.3%
Nemotron 3 Super	98	98	97	97	96	97.2%
Claude Opus 4.5	98	98	98	94	94	96.7%
Z.AI GLM 5.2 (Reasoning, High)	98	97	96	96	96	96.6%
DeepSeek V3 (2025-03-24)	99	97	97	95	94	96.5%
Claude Opus 4	98	98	98	94	93	96.5%
Mistral Large 3	98	98	95	95	95	96.3%
Z.AI GLM 5	97	97	97	95	94	96.2%
Claude Sonnet 4	96	96	96	96	96	96.0%
DeepSeek V4 Flash (Reasoning)	98	96	96	95	94	95.9%
Grok 4.5 (Reasoning, High)	96	96	96	96	95	95.8%
Claude Sonnet 4.6 (Reasoning)	98	96	96	94	94	95.7%
GPT-5.1	98	96	96	95	92	95.6%
Claude Opus 4.6	95	95	95	95	95	95.3%
Xiaomi MIMO v2.5	98	96	96	94	92	95.3%
MiniMax M3	98	96	95	94	92	95.1%
Claude Sonnet 5 (Reasoning, Low)	98	96	95	94	92	94.9%
MiniMax M2.7	98	98	96	94	88	94.9%
Aion 2.0	98	98	97	91	90	94.9%
Claude Sonnet 4.6	96	96	96	93	93	94.8%
Qwen 3.5 122B	98	96	94	92	92	94.7%
Grok 4.20 (Reasoning)	98	98	92	92	92	94.6%
Mistral Large 2	98	95	95	92	92	94.6%
Hermes 3 405B	95	95	95	94	93	94.6%
Qwen3.6 Max Preview	94	94	94	94	94	94.4%
Claude Sonnet 5 (Reasoning)	98	96	94	92	92	94.4%
Z.AI GLM 4.5	95	95	95	95	92	94.3%
Z.AI GLM 5 Turbo	96	96	95	93	92	94.2%
Claude Opus 4.6 (Reasoning)	94	94	94	94	94	94.1%
Grok 4.5 (Reasoning, Low)	98	95	94	92	92	94.1%
DeepSeek V3.1	97	97	96	91	89	93.9%
Gemini 3 Flash (Preview, Reasoning)	98	97	97	97	79	93.9%
Z.AI GLM 4.7	98	94	94	93	90	93.9%
Qwen 3.5 Plus (2026-04-20)	97	97	95	91	90	93.9%
Aion 3.0 Mini	98	98	96	92	83	93.5%
GPT-5.4 Mini (Reasoning)	98	95	94	93	87	93.5%
Gemini 3.5 Flash (Reasoning, Minimal)	97	96	96	92	85	93.2%
Gemini 3.5 Flash (Reasoning)	98	97	97	95	78	93.2%
MoonshotAI: Kimi K2.5	96	94	92	90	90	92.4%
Ministral 3 8B	94	94	94	91	90	92.3%
Grok 4.3	97	94	93	89	87	92.3%
Gemini 2.5 Flash Lite (Reasoning)	96	94	93	92	87	92.3%
ByteDance Seed 2.0 Lite	96	94	94	90	86	92.0%
Gemma 4 31B (Reasoning)	98	98	94	92	77	91.9%
Xiaomi MIMO v2.5 Pro	100	96	96	92	75	91.9%
DeepSeek V4 Pro (Reasoning)	96	95	95	94	79	91.8%
Qwen 3.5 Flash	97	92	90	90	88	91.5%
Gemini 3 Flash (Preview)	94	94	92	92	85	91.5%
GPT-5.6 Sol (Reasoning)	96	95	94	93	78	91.3%
MoonshotAI: Kimi K2.6	93	92	91	91	90	91.3%
Qwen 3.5 35B	95	92	92	92	86	91.2%
Ministral 3 14B	95	92	92	88	88	91.0%
DeepSeek-V2 Chat	96	92	92	90	84	90.9%
Grok 4.3 (Reasoning)	93	91	91	91	88	90.7%
o4 Mini High	97	95	94	90	78	90.7%
DeepSeek V4 Flash	92	91	90	89	89	90.2%
MiniMax M2.5	96	96	95	89	75	90.2%
Z.AI GLM 4.6	96	96	89	85	84	90.1%
WizardLM 2 8x22b	97	95	93	87	75	89.4%
DeepSeek V3.2	98	95	92	89	70	88.9%
DeepSeek V3 (2024-12-26)	92	90	90	87	86	88.9%
DeepSeek V4 Pro	92	90	89	89	84	88.8%
GPT-5.4 Nano (Reasoning)	91	91	88	88	86	88.7%
Gemini 2.5 Flash (Reasoning)	98	91	90	88	75	88.4%
ByteDance Seed 2.0 Mini	94	89	88	87	85	88.4%
Grok 4.20	96	96	88	87	73	88.2%
ByteDance Seed 1.6	98	92	86	81	81	87.7%
Claude Haiku 4.5	94	90	90	90	74	87.7%
Gemini 2.5 Flash Lite	92	88	87	86	85	87.5%
Qwen 3.6 27B	94	93	90	90	70	87.5%
Claude Sonnet 5	96	94	94	77	77	87.5%
Claude Opus 4.8 (Reasoning, Low)	98	98	79	79	79	87.0%
Claude Opus 4.8 (Reasoning)	98	98	79	79	79	87.0%
Ministral 8B	95	87	83	83	82	86.1%
GPT-5 Mini	93	92	92	79	73	85.6%
Qwen3.7 Max	97	96	78	78	77	85.3%
o4 Mini	96	94	93	72	69	84.8%
Qwen 2.5 72B	90	87	83	81	81	84.4%
Qwen 3.6 Flash	92	87	83	80	78	83.9%
Gemma 4 26B	86	86	84	82	82	83.8%
Z.AI GLM 4.5 Air	93	90	83	78	73	83.5%
Qwen 3.5 9B	93	93	85	80	64	82.8%
GPT-OSS 120B	88	87	81	80	79	82.8%
Inception Mercury 2	88	86	81	78	76	82.0%
Qwen 3.6 35B	90	88	87	77	64	81.4%
Nemotron 3 Nano	89	82	80	79	77	81.3%
GPT-5.5 (Reasoning)	95	78	77	76	75	80.1%
Hermes 3 70B	100	91	88	73	48	80.0%
Qwen3 235B A22B Instruct 2507	81	81	81	79	77	79.9%
Claude Opus 4.7	79	79	79	79	79	79.4%
Writer: Palmyra X5	81	81	79	79	75	79.3%
Qwen 3 32B	84	81	80	76	74	78.9%
Claude Opus 4.7 (Reasoning)	79	79	77	77	77	77.9%
Llama 3.1 70B	82	81	78	77	70	77.9%
Gemini 2.5 Flash	78	78	78	77	77	77.7%
Gemma 3 4B	81	78	76	76	75	77.3%
GPT-5.5	78	78	78	76	76	77.2%
Gemma 4 31B	79	79	76	76	75	77.1%
GPT-5.5 (Reasoning, Low)	79	78	77	76	75	77.1%
Gemini 3.1 Pro (Preview)	78	78	78	75	75	76.9%
Mistral Small 3.2 24B	89	81	74	72	68	76.8%
GPT-5.6 Sol	78	78	77	76	75	76.6%
GPT-5.4 Mini	92	81	71	70	68	76.6%
GPT-5.2	77	76	75	75	73	75.3%
GPT-5.6 Terra (Reasoning)	79	76	75	73	73	75.2%
Gemma 3 27B	79	77	76	72	72	75.0%
GPT-5.4 (Reasoning)	76	76	75	74	74	74.9%
Mistral Small 4 (Reasoning)	90	88	81	66	47	74.3%
Gemini 3.1 Flash Lite	78	77	73	73	70	74.2%
GPT-4o, Aug. 6th (temp=0)	74	74	74	74	72	73.8%
Z.AI GLM 4.7 Flash	92	78	70	68	61	73.7%
Gemini 3.1 Flash Lite (Preview)	77	77	76	71	67	73.5%
Gemini 3.1 Flash Lite (Reasoning)	77	77	73	70	70	73.5%
GPT-5.4 (Reasoning, Low)	75	74	73	72	70	72.6%
GPT-5.6 Terra	75	73	73	72	70	72.3%
GPT-5.6 Luna	73	73	72	71	71	72.1%
Gemma 4 26B (Reasoning)	92	92	90	85	0	71.8%
Arcee AI: Trinity Mini	79	74	71	70	63	71.5%
GPT-5.4 Mini (Reasoning, Low)	85	73	73	68	57	71.4%
ByteDance Seed 1.6 Flash	81	76	70	67	62	71.2%
GPT-5.4 Nano (Reasoning, Low)	81	80	73	63	59	71.2%
GPT-5.6 Luna (Reasoning)	73	73	72	67	66	70.2%
GPT-4.1	77	74	72	65	62	70.0%
Gemma 3 12B	79	75	71	71	54	69.9%
Cydonia 24B V4.1	91	90	87	81	0	69.8%
GPT-4o, Aug. 6th (temp=1)	81	70	65	65	64	68.9%
Cohere Command R+ (Aug. 2024)	88	81	71	67	36	68.6%
GPT-5.4 Nano	77	73	70	63	60	68.5%
Ministral 3B	72	70	68	67	63	68.0%
Mistral Small 4	84	70	65	63	55	67.6%
GPT-5.4	67	65	64	64	62	64.5%
GPT-4.1 Mini	77	73	70	63	34	63.1%
Ministral 3 3B	65	64	63	62	58	62.6%
GPT-5 Nano	78	70	58	56	47	61.7%
Qwen 3.5 27B	98	96	94	0	0	57.7%
GPT-4.1 Nano	79	66	53	41	37	55.1%
GPT-4o Mini (temp=1)	64	54	54	50	50	54.5%
GPT-4o Mini (temp=0)	54	54	54	54	50	52.9%
Mistral NeMO	81	80	61	0	0	44.3%

Accuracy

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Long: The Spire of Echoes (Dense)

Medium: The Hollow (Inferred)

Medium: Through the Thornveil (Scattered)

Short: The Rusty Lantern (Explicit)