Structural validity

Avg. Score

98.3%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0018	2.0s	100%
2	Inception Mercury 2	100.0%	$0.0022	3.5s	100%
3	Gemini 3.1 Flash Lite (Preview)	99.9%	$0.0017	2.0s	99%
4	Gemini 2.5 Flash	99.8%	$0.0023	2.5s	99%
5	Ministral 3 8B	99.6%	$0.0006	3.3s	98%
6	Mistral Small 3.2 24B	99.5%	$0.0005	4.4s	98%
7	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.0042	3.7s	100%
8	Gemini 3.1 Flash Lite	99.8%	$0.0017	5.1s	99%
9	Ministral 3 3B	99.1%	$0.0004	1.8s	97%
10	GPT-5.4 Mini	99.6%	$0.0031	2.2s	98%
11	Grok 4.20	100.0%	$0.0048	4.9s	100%
12	GPT-4.1 Mini	99.6%	$0.0015	6.6s	98%
13	DeepSeek V3 (2024-12-26)	100.0%	$0.0017	13.5s	100%
14	Ministral 3B	98.3%	$0.0002	1.8s	95%
15	Claude Haiku 4.5	100.0%	$0.0073	4.5s	100%
16	DeepSeek-V2 Chat	99.9%	$0.0019	14.8s	99%
17	GPT-5.6 Luna	99.4%	$0.0043	3.6s	97%
18	Qwen 3.5 Plus (2026-02-15)	99.8%	$0.0030	10.6s	99%
19	Xiaomi MIMO v2.5	99.8%	$0.0034	13.4s	99%
20	Gemma 3 27B	99.4%	$0.0005	14.5s	97%
21	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.010	3.1s	100%
22	GPT-4o, Aug. 6th (temp=1)	99.8%	$0.0092	3.8s	99%
23	DeepSeek V4 Pro	99.7%	$0.0021	16.0s	98%
24	Mistral Medium 3.1	98.6%	$0.0026	5.8s	95%
25	GPT-5.6 Terra	100.0%	$0.012	3.1s	100%
26	GPT-4o Mini (temp=1)	98.0%	$0.0006	8.0s	95%
27	GPT-4o, Aug. 6th (temp=0)	99.7%	$0.0100	4.0s	99%
28	GPT-5.6 Luna (Reasoning)	99.8%	$0.0078	7.2s	98%
29	DeepSeek V4 Flash	99.1%	$0.0003	7.7s	93%
30	Gemma 4 31B	100.0%	$0.0008	25.9s	100%
31	Gemini 2.5 Flash (Reasoning)	100.0%	$0.0082	11.8s	100%
32	Xiaomi MIMO v2.5 Pro	100.0%	$0.0048	18.7s	100%
33	MiniMax M2.7	99.9%	$0.0022	21.7s	99%
34	GPT-4o Mini (temp=0)	98.3%	$0.0005	7.9s	93%
35	Gemini 3 Flash (Preview)	98.2%	$0.0027	3.9s	93%
36	Mistral Large 3	98.3%	$0.0027	8.2s	95%
37	DeepSeek V3 (2025-03-24)	100.0%	$0.0014	27.0s	100%
38	Grok 4.5 (Reasoning, Low)	100.0%	$0.010	13.1s	100%
39	Z.AI GLM 4.5	99.5%	$0.0028	16.8s	96%
40	Mistral Small 4 (Reasoning)	98.7%	$0.0019	15.6s	95%
41	Z.AI GLM 5 Turbo	99.8%	$0.0068	16.0s	98%
42	GPT-5.4 Nano	98.1%	$0.0011	3.8s	89%
43	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0071	21.2s	100%
44	Hermes 3 405B	98.9%	$0.0040	17.8s	97%
45	MiniMax M2.5	99.7%	$0.0023	30.1s	99%
46	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0009	37.0s	100%
47	Qwen 2.5 72B	97.0%	$0.0008	11.0s	92%
48	WizardLM 2 8x22b	99.9%	$0.0026	31.3s	99%
49	DeepSeek V3.2	100.0%	$0.0011	36.7s	100%
50	Mistral Small 4	96.4%	$0.0008	3.2s	89%
51	Mistral Large 2	98.9%	$0.011	8.3s	96%
52	Gemma 3 4B	95.9%	$0.0002	6.7s	90%
53	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.0096	22.2s	100%
54	Arcee AI: Trinity Mini	95.8%	$0.0003	5.8s	90%
55	GPT-5.6 Terra (Reasoning)	99.8%	$0.016	7.3s	99%
56	Grok 4.3	98.7%	$0.0056	4.3s	89%
57	Gemini 2.5 Flash Lite (Reasoning)	97.7%	$0.0021	15.6s	92%
58	GPT-5.4	98.2%	$0.011	6.4s	95%
59	Claude Sonnet 5	100.0%	$0.019	8.6s	100%
60	GPT-5.4 (Reasoning, Low)	99.8%	$0.017	10.4s	98%
61	o4 Mini	100.0%	$0.014	21.5s	100%
62	Claude Sonnet 4.5	100.0%	$0.022	6.6s	100%
63	Writer: Palmyra X5	96.7%	$0.0052	7.5s	90%
64	Z.AI GLM 4.6	100.0%	$0.0057	38.8s	100%
65	MiniMax M3	99.8%	$0.0023	40.5s	98%
66	Claude Sonnet 4	100.0%	$0.022	7.9s	100%
67	GPT-5.6 Sol	100.0%	$0.023	5.2s	100%
68	Claude Sonnet 4.6	100.0%	$0.022	7.4s	100%
69	GPT-5.4 Nano (Reasoning, Low)	96.6%	$0.0011	3.7s	83%
70	Qwen 3 32B	98.9%	$0.0010	37.9s	96%
71	GPT-5.2	100.0%	$0.018	16.8s	100%
72	Qwen 3.6 35B	100.0%	$0.0072	37.6s	100%
73	Qwen 3.6 Flash	99.8%	$0.0096	30.2s	99%
74	Ministral 8B	96.0%	$0.0004	3.8s	83%
75	Z.AI GLM 4.5 Air	99.1%	$0.0023	40.1s	97%
76	GPT-4.1 Nano	94.1%	$0.0003	2.8s	85%
77	Hermes 3 70B	97.1%	$0.0012	15.8s	87%
78	Qwen 3.5 Flash	100.0%	$0.0031	49.5s	100%
79	GPT-4.1	96.6%	$0.0073	4.7s	87%
80	GPT-5.5	100.0%	$0.027	6.0s	100%
81	GPT-5.4 Mini (Reasoning)	100.0%	$0.017	25.6s	100%
82	Gemini 2.5 Flash Lite	94.2%	$0.0005	1.9s	82%
83	GPT-OSS 120B	100.0%	$0.0011	57.1s	100%
84	GPT-5 Mini	100.0%	$0.0070	45.5s	100%
85	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.024	13.0s	100%
86	Grok 4.20 (Reasoning)	100.0%	$0.012	37.2s	100%
87	Claude Sonnet 5 (Reasoning)	100.0%	$0.025	13.6s	100%
88	Qwen3 235B A22B Instruct 2507	96.2%	$0.0007	19.3s	85%
89	ByteDance Seed 1.6 Flash	97.3%	$0.0011	39.3s	93%
90	Cohere Command R+ (Aug. 2024)	97.7%	$0.014	17.9s	94%
91	GPT-5.4 Nano (Reasoning)	97.3%	$0.0023	12.2s	81%
92	Nemotron 3 Super	99.8%	$0.0000	1.0m	99%
93	Z.AI GLM 5	100.0%	$0.0091	51.4s	100%
94	Qwen 3.5 35B	99.9%	$0.015	47.3s	99%
95	Claude Opus 4.5	100.0%	$0.037	7.7s	100%
96	Claude Opus 4.6	100.0%	$0.037	8.1s	100%
97	GPT-5.5 (Reasoning, Low)	100.0%	$0.038	13.3s	100%
98	o4 Mini High	100.0%	$0.025	40.5s	100%
99	Gemini 2.5 Pro	100.0%	$0.034	22.8s	100%
100	Aion 2.0	100.0%	$0.0080	1.2m	100%
101	Ministral 3 14B	90.7%	$0.0009	6.0s	75%
102	ByteDance Seed 1.6	100.0%	$0.0073	1.3m	100%
103	Grok 4.5 (Reasoning, High)	100.0%	$0.024	45.2s	100%
104	Z.AI GLM 4.7 Flash	98.7%	$0.0019	1.2m	94%
105	Gemini 3.5 Flash (Reasoning)	100.0%	$0.040	16.4s	100%
106	Z.AI GLM 5.1	100.0%	$0.015	1.1m	100%
107	Claude Opus 4.7 (Reasoning)	100.0%	$0.046	5.9s	100%
108	Claude Opus 4.7	100.0%	$0.047	6.1s	100%
109	GPT-5 Nano	99.5%	$0.0043	1.3m	96%
110	Nemotron 3 Nano	99.9%	$0.0013	1.6m	99%
111	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.047	8.3s	100%
112	Claude Opus 4.8 (Reasoning)	100.0%	$0.047	8.3s	100%
113	ByteDance Seed 2.0 Lite	99.6%	$0.0078	1.4m	98%
114	GPT-5.6 Sol (Reasoning)	100.0%	$0.045	17.0s	100%
115	Aion 3.0	100.0%	$0.024	58.8s	100%
116	GPT-5.1	100.0%	$0.035	43.6s	100%
117	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.015	1.4m	100%
118	Grok 4.3 (Reasoning)	100.0%	$0.018	1.3m	100%
119	Z.AI GLM 4.7	100.0%	$0.0098	1.7m	100%
120	Cydonia 24B V4.1	92.3%	$0.0010	12.2s	60%
121	DeepSeek V3.1	95.5%	$0.0012	26.1s	61%
122	Claude Opus 4.6 (Reasoning)	100.0%	$0.055	21.4s	100%
123	Gemma 4 31B (Reasoning)	100.0%	$0.0016	2.2m	100%
124	Gemma 3 12B	89.8%	$0.0003	14.1s	59%
125	Qwen 3.5 397B A17B	100.0%	$0.012	1.8m	100%
126	GPT-5.5 (Reasoning)	100.0%	$0.056	25.8s	100%
127	Llama 3.1 70B	90.6%	$0.0016	16.0s	59%
128	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.052	36.0s	100%
129	GPT-5.4 (Reasoning)	100.0%	$0.044	53.6s	100%
130	Qwen3.7 Max	100.0%	$0.041	1.1m	100%
131	Qwen 3.5 9B	95.6%	$0.0013	1.5m	79%
132	DeepSeek V4 Pro (Reasoning)	100.0%	$0.0093	2.3m	100%
133	Qwen 3.6 27B	97.4%	$0.018	1.2m	78%
134	GPT-5	100.0%	$0.049	1.3m	100%
135	MoonshotAI: Kimi K2.5	100.0%	$0.013	2.4m	100%
136	MoonshotAI: Kimi K2.6	100.0%	$0.026	2.4m	100%
137	Gemma 4 26B	85.7%	$0.0006	18.7s	36%
138	Gemini 3.1 Pro (Preview)	99.5%	$0.065	1.0m	96%
139	Qwen 3.5 27B	95.0%	$0.021	1.6m	70%
140	ByteDance Seed 2.0 Mini	98.2%	$0.0034	3.4m	95%
141	Claude Opus 4	100.0%	$0.110	13.5s	100%
142	Qwen3.6 Max Preview	100.0%	$0.045	2.4m	100%
143	Gemma 4 26B (Reasoning)	95.5%	$0.0023	2.6m	61%
144	Aion 3.0 Mini	78.6%	$0.0077	1.8m	24%
145	Qwen 3.5 122B	100.0%	$0.079	3.6m	100%
146	Mistral NeMO	30.0%	$0.0006	1.4s	0%
98.25%

Individual Scenarios

▼

Long: The Spire of Echoes (Dense)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	99	99.8%
Aion 3.0 Mini	100	100	100	100	99	99.8%
DeepSeek V3.2	100	100	100	100	99	99.8%
DeepSeek V4 Pro	100	100	100	100	99	99.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.8%
Qwen 3.6 27B	100	100	100	100	99	99.8%
Mistral Small 4 (Reasoning)	100	100	100	100	98	99.7%
Z.AI GLM 4.5 Air	100	100	100	100	98	99.6%
GPT-5.6 Luna	100	100	100	100	98	99.6%
Gemma 3 27B	100	100	100	100	98	99.6%
MiniMax M2.7	100	100	100	100	98	99.6%
Gemini 2.5 Flash	100	100	100	100	98	99.6%
DeepSeek-V2 Chat	100	100	100	99	99	99.6%
MiniMax M2.5	100	100	100	100	98	99.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	99	99.6%
WizardLM 2 8x22b	100	100	100	100	97	99.4%
Qwen 3 32B	100	100	100	99	98	99.3%
Gemini 2.5 Flash Lite	100	100	99	99	98	99.2%
Xiaomi MIMO v2.5	100	99	99	99	99	99.2%
Mistral Small 3.2 24B	100	99	99	99	99	99.2%
MiniMax M3	100	100	100	100	95	99.0%
Ministral 3 3B	100	100	99	98	98	99.0%
GPT-4o, Aug. 6th (temp=0)	99	99	99	99	99	98.9%
Qwen 2.5 72B	100	100	99	99	95	98.5%
Ministral 3 8B	100	100	98	98	96	98.4%
Ministral 8B	100	99	99	98	96	98.3%
GPT-4o Mini (temp=1)	100	99	99	97	96	98.1%
Mistral Large 2	99	99	99	99	94	98.1%
Gemini 3.1 Pro (Preview)	100	100	100	100	90	98.0%
Mistral Small 4	100	100	98	97	94	97.9%
Z.AI GLM 4.7 Flash	100	100	100	98	91	97.8%
Ministral 3B	100	98	98	97	96	97.8%
Hermes 3 405B	99	99	99	97	95	97.7%
Llama 3.1 70B	100	99	99	96	94	97.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	99	88	97.5%
Gemma 3 12B	100	100	99	99	89	97.5%
GPT-4o Mini (temp=0)	100	100	96	96	94	97.4%
Writer: Palmyra X5	100	98	98	96	95	97.4%
DeepSeek V4 Flash	100	100	100	100	83	96.7%
ByteDance Seed 2.0 Mini	99	98	96	95	94	96.6%
ByteDance Seed 1.6 Flash	99	99	96	94	93	96.2%
Cohere Command R+ (Aug. 2024)	98	98	97	96	93	96.2%
Arcee AI: Trinity Mini	99	99	95	95	92	95.9%
Qwen3 235B A22B Instruct 2507	96	96	96	96	95	95.6%
Hermes 3 70B	100	99	99	98	83	95.6%
Gemma 3 4B	100	96	96	95	90	95.4%
Mistral Large 3	98	98	93	93	93	95.2%
Ministral 3 14B	99	96	95	92	92	94.9%
GPT-4.1 Nano	100	98	98	92	80	93.6%
Cydonia 24B V4.1	96	96	95	94	78	91.7%
Qwen 3.5 9B	100	100	100	99	53	90.4%
DeepSeek V3.1	100	100	100	100	10	82.0%
Gemma 4 26B	100	100	90	10	10	62.1%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: The Hollow (Inferred)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	98	99.6%
DeepSeek V4 Flash	100	100	100	100	98	99.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	98	99.6%
Gemini 2.5 Flash	100	100	100	100	98	99.6%
Qwen 3.5 35B	100	100	100	100	98	99.6%
GPT-4.1 Mini	100	100	100	100	98	99.5%
Ministral 3 3B	100	100	100	100	98	99.5%
GPT-5.6 Terra (Reasoning)	100	100	100	100	97	99.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	96	99.3%
GPT-5.6 Luna (Reasoning)	100	100	100	100	96	99.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	96	99.3%
Mistral Large 2	100	100	100	98	98	99.2%
MiniMax M2.5	100	100	100	98	98	99.2%
Z.AI GLM 4.7 Flash	100	100	100	100	96	99.2%
Qwen 3 32B	100	100	100	100	96	99.2%
GPT-5.4 Nano	100	100	100	100	96	99.2%
Ministral 3B	100	100	100	98	98	99.1%
Hermes 3 70B	100	100	100	98	98	99.0%
DeepSeek V4 Pro	100	100	100	98	96	98.9%
Hermes 3 405B	100	100	100	98	96	98.7%
Mistral Small 3.2 24B	100	100	98	98	98	98.7%
Gemma 4 26B	100	100	100	96	96	98.6%
Cohere Command R+ (Aug. 2024)	100	100	98	98	96	98.5%
Cydonia 24B V4.1	100	100	98	98	96	98.4%
GPT-4o Mini (temp=1)	100	100	100	97	94	98.3%
Mistral Large 3	98	98	98	98	98	98.1%
GPT-4.1	100	100	100	96	93	98.0%
Mistral Small 4 (Reasoning)	100	100	100	97	93	97.9%
Gemini 2.5 Flash Lite (Reasoning)	100	98	98	96	96	97.9%
Z.AI GLM 4.5 Air	100	98	98	96	95	97.3%
GPT-5.4	100	100	96	96	93	97.1%
GPT-4o Mini (temp=0)	100	100	100	100	85	97.0%
Qwen 2.5 72B	100	100	96	95	93	97.0%
ByteDance Seed 2.0 Mini	100	98	96	96	94	97.0%
Writer: Palmyra X5	100	100	96	95	93	96.9%
Gemini 2.5 Flash Lite	100	98	98	96	90	96.5%
Qwen 3.5 9B	100	100	96	96	89	96.4%
ByteDance Seed 1.6 Flash	100	98	96	94	92	96.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	97	94	90	96.1%
Grok 4.3	100	100	100	100	75	95.0%
Mistral Medium 3.1	96	94	94	94	94	94.5%
Mistral Small 4	100	100	96	91	83	94.2%
Arcee AI: Trinity Mini	98	97	93	92	90	93.8%
GPT-4.1 Nano	98	94	93	93	89	93.4%
Qwen3 235B A22B Instruct 2507	100	100	96	95	75	93.3%
Gemini 3 Flash (Preview)	100	93	93	89	89	92.9%
Gemma 3 4B	96	93	91	91	90	92.3%
Llama 3.1 70B	98	94	92	90	86	91.9%
Ministral 3 14B	92	91	89	89	88	90.0%
Gemma 3 12B	90	89	88	88	10	73.0%
Aion 3.0 Mini	100	100	50	25	0	55.0%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: Through the Thornveil (Scattered)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	98	99.6%
Hermes 3 405B	100	100	100	100	98	99.6%
Nemotron 3 Nano	100	100	100	100	98	99.6%
Qwen 3.6 Flash	100	100	100	100	97	99.4%
GPT-5.4 Mini	100	100	100	100	97	99.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	97	99.3%
Gemini 3.1 Flash Lite	100	100	100	100	97	99.3%
Nemotron 3 Super	100	100	100	100	97	99.3%
GPT-5.6 Luna	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	95	99.0%
Ministral 3 3B	100	100	100	98	97	99.0%
GPT-4.1 Mini	100	100	100	98	97	98.9%
Cydonia 24B V4.1	100	100	100	99	95	98.7%
GPT-4.1	100	100	100	100	93	98.7%
Arcee AI: Trinity Mini	100	100	100	100	92	98.3%
Mistral Large 2	100	100	100	97	94	98.2%
Ministral 3B	100	100	98	97	96	98.2%
Qwen 3 32B	100	100	100	98	93	98.2%
ByteDance Seed 1.6 Flash	100	100	100	96	95	98.2%
Z.AI GLM 4.5	100	100	100	100	90	98.0%
Cohere Command R+ (Aug. 2024)	100	100	98	98	95	98.0%
Gemma 3 27B	100	100	98	97	95	97.9%
Z.AI GLM 4.7 Flash	100	100	100	100	89	97.9%
Mistral Small 4 (Reasoning)	100	100	97	94	94	97.0%
Qwen 3.5 9B	100	100	100	94	91	96.9%
Gemma 3 4B	98	97	96	96	95	96.6%
Mistral Small 4	100	100	100	98	84	96.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	93	86	95.8%
Qwen3 235B A22B Instruct 2507	100	100	96	93	89	95.7%
GPT-5.4 Nano	100	100	100	100	76	95.2%
Hermes 3 70B	100	100	98	98	78	94.7%
Qwen 2.5 72B	98	96	93	92	88	93.5%
Gemma 3 12B	97	94	94	91	90	93.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	64	92.8%
Writer: Palmyra X5	96	96	95	90	86	92.5%
Gemini 2.5 Flash Lite	100	100	98	93	71	92.5%
GPT-4.1 Nano	96	93	91	89	88	91.3%
GPT-5.4 Nano (Reasoning)	100	100	100	94	56	90.0%
Gemma 4 26B	100	100	100	100	10	82.0%
Ministral 3 14B	88	86	85	70	65	78.7%
Llama 3.1 70B	95	94	93	91	10	76.7%
Mistral NeMO	100	100	100	0	0	60.0%
Aion 3.0 Mini	100	100	98	0	0	59.7%

▼

Short: The Rusty Lantern (Explicit)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	98	99.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	98	99.5%
Hermes 3 405B	100	100	100	100	98	99.5%
Gemma 3 4B	100	100	100	100	98	99.5%
Z.AI GLM 4.5 Air	100	100	100	100	97	99.4%
ByteDance Seed 2.0 Mini	100	100	100	100	96	99.2%
GPT-5.4 Mini	100	100	100	100	96	99.2%
Ministral 3 14B	100	100	100	98	98	99.2%
Z.AI GLM 5 Turbo	100	100	100	100	95	99.1%
GPT-5.6 Luna	100	100	100	100	95	99.1%
Qwen 2.5 72B	100	100	100	100	95	99.1%
Hermes 3 70B	100	100	100	98	98	99.1%
Qwen 3 32B	100	100	100	100	95	99.0%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.9%
Qwen 3.5 9B	100	100	100	100	94	98.8%
Ministral 3 3B	100	100	100	100	94	98.8%
ByteDance Seed 1.6 Flash	100	100	98	98	98	98.7%
ByteDance Seed 2.0 Lite	100	100	98	98	98	98.6%
Cohere Command R+ (Aug. 2024)	100	100	100	96	95	98.3%
Ministral 3B	100	100	100	96	95	98.3%
GPT-5 Nano	100	100	100	100	91	98.2%
GPT-4.1 Nano	100	100	100	96	94	98.1%
GPT-5.4 Nano	100	100	100	97	93	98.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	88	97.7%
Mistral Small 4	100	100	100	100	85	96.9%
GPT-4o Mini (temp=1)	100	100	94	94	94	96.7%
Llama 3.1 70B	100	98	97	95	92	96.4%
GPT-5.4	100	96	96	96	92	95.8%
Gemma 3 12B	97	97	96	96	92	95.4%
Arcee AI: Trinity Mini	100	100	97	90	89	95.2%
Qwen 3.6 27B	100	100	100	100	50	90.0%
GPT-4.1	100	100	91	83	75	89.8%
Gemini 2.5 Flash Lite	100	93	90	85	75	88.6%
Ministral 8B	100	100	79	77	73	85.8%
Gemma 4 26B (Reasoning)	100	100	100	100	10	82.0%
Cydonia 24B V4.1	100	100	100	92	10	80.3%
Qwen 3.5 27B	100	100	100	50	50	80.0%
Mistral NeMO	100	100	100	0	0	60.0%

Structural validity

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Long: The Spire of Echoes (Dense)

Medium: The Hollow (Inferred)

Medium: Through the Thornveil (Scattered)

Short: The Rusty Lantern (Explicit)