Precision

Avg. Score

96.8%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0017	2.0s	100%
2	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0018	2.0s	100%
3	Gemini 3.1 Flash Lite	100.0%	$0.0017	5.1s	100%
4	Ministral 3 8B	99.5%	$0.0006	3.3s	97%
5	DeepSeek V4 Flash	99.7%	$0.0003	7.7s	97%
6	GPT-5.6 Luna	99.8%	$0.0043	3.6s	98%
7	Gemini 3 Flash (Preview)	99.7%	$0.0027	3.9s	97%
8	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0030	10.6s	100%
9	GPT-4.1 Mini	99.5%	$0.0015	6.6s	97%
10	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0092	3.8s	100%
11	Gemini 2.5 Flash Lite	98.0%	$0.0005	1.9s	94%
12	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.010	3.1s	100%
13	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0100	4.0s	100%
14	Ministral 8B	98.2%	$0.0004	3.8s	94%
15	Mistral Medium 3.1	99.2%	$0.0026	5.8s	95%
16	Gemini 2.5 Flash	98.5%	$0.0023	2.5s	93%
17	Ministral 3B	98.1%	$0.0002	1.8s	91%
18	Gemma 4 31B	100.0%	$0.0008	25.9s	100%
19	Xiaomi MIMO v2.5 Pro	100.0%	$0.0048	18.7s	100%
20	Mistral Small 3.2 24B	98.3%	$0.0005	4.4s	92%
21	Grok 4.3	99.2%	$0.0056	4.3s	95%
22	Z.AI GLM 4.5	99.6%	$0.0028	16.8s	97%
23	Xiaomi MIMO v2.5	99.3%	$0.0034	13.4s	95%
24	GPT-5.6 Luna (Reasoning)	99.4%	$0.0078	7.2s	96%
25	DeepSeek V3 (2024-12-26)	98.8%	$0.0017	13.5s	94%
26	DeepSeek V4 Pro	99.0%	$0.0021	16.0s	95%
27	Hermes 3 405B	99.6%	$0.0040	17.8s	97%
28	Ministral 3 3B	96.4%	$0.0004	1.8s	90%
29	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0071	21.2s	100%
30	Z.AI GLM 5 Turbo	99.6%	$0.0068	16.0s	98%
31	Qwen 2.5 72B	98.1%	$0.0008	11.0s	92%
32	GPT-5.4 Mini	97.3%	$0.0031	2.2s	91%
33	DeepSeek-V2 Chat	98.4%	$0.0019	14.8s	94%
34	GPT-4o Mini (temp=1)	97.1%	$0.0006	8.0s	91%
35	GPT-4o Mini (temp=0)	97.2%	$0.0005	7.9s	90%
36	DeepSeek V3 (2025-03-24)	99.6%	$0.0014	27.0s	96%
37	MiniMax M2.7	99.4%	$0.0022	21.7s	95%
38	Grok 4.20	97.5%	$0.0048	4.9s	92%
39	Writer: Palmyra X5	97.0%	$0.0052	7.5s	92%
40	Inception Mercury 2	95.4%	$0.0022	3.5s	89%
41	Claude Sonnet 5	100.0%	$0.019	8.6s	100%
42	Qwen3 235B A22B Instruct 2507	97.7%	$0.0007	19.3s	92%
43	GPT-5.6 Terra	97.9%	$0.012	3.1s	94%
44	Hermes 3 70B	96.9%	$0.0012	15.8s	91%
45	Claude Haiku 4.5	97.5%	$0.0073	4.5s	91%
46	Grok 4.5 (Reasoning, Low)	99.2%	$0.010	13.1s	95%
47	GPT-5.4 Mini (Reasoning, Low)	95.9%	$0.0042	3.7s	88%
48	Claude Sonnet 4.5	100.0%	$0.022	6.6s	100%
49	DeepSeek V4 Flash (Reasoning)	99.2%	$0.0009	37.0s	96%
50	Claude Sonnet 4	100.0%	$0.022	7.9s	100%
51	GPT-5.6 Sol	100.0%	$0.023	5.2s	100%
52	Arcee AI: Trinity Mini	94.7%	$0.0003	5.8s	87%
53	Gemini 2.5 Flash Lite (Reasoning)	96.9%	$0.0021	15.6s	89%
54	MiniMax M2.5	98.3%	$0.0023	30.1s	94%
55	MiniMax M3	99.5%	$0.0023	40.5s	97%
56	Gemma 3 27B	96.0%	$0.0005	14.5s	87%
57	Gemini 3 Flash (Preview, Reasoning)	98.9%	$0.0096	22.2s	95%
58	GPT-5.6 Terra (Reasoning)	98.5%	$0.016	7.3s	93%
59	Claude Sonnet 4.6	99.7%	$0.022	7.4s	97%
60	Mistral Large 3	95.0%	$0.0027	8.2s	86%
61	DeepSeek V3.2	98.8%	$0.0011	36.7s	92%
62	GPT-5.4 (Reasoning, Low)	98.6%	$0.017	10.4s	94%
63	GPT-5.4 Nano (Reasoning)	95.1%	$0.0023	12.2s	87%
64	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.024	13.0s	100%
65	GPT-4.1	95.4%	$0.0073	4.7s	87%
66	WizardLM 2 8x22b	97.4%	$0.0026	31.3s	92%
67	Grok 4.20 (Reasoning)	100.0%	$0.012	37.2s	100%
68	Z.AI GLM 4.6	99.3%	$0.0057	38.8s	95%
69	o4 Mini	99.2%	$0.014	21.5s	95%
70	Ministral 3 14B	94.2%	$0.0009	6.0s	82%
71	GPT-5.4	95.4%	$0.011	6.4s	88%
72	Qwen 3 32B	97.8%	$0.0010	37.9s	90%
73	GPT-5.4 Mini (Reasoning)	99.4%	$0.017	25.6s	96%
74	Qwen 3.6 Flash	97.6%	$0.0096	30.2s	94%
75	Claude Sonnet 5 (Reasoning)	99.7%	$0.025	13.6s	97%
76	Mistral Small 4	92.9%	$0.0008	3.2s	79%
77	GPT-OSS 120B	99.0%	$0.0011	57.1s	95%
78	Mistral Large 2	95.0%	$0.011	8.3s	86%
79	Mistral Small 4 (Reasoning)	93.8%	$0.0019	15.6s	82%
80	Qwen 3.6 35B	97.6%	$0.0072	37.6s	92%
81	GPT-5.5	98.6%	$0.027	6.0s	93%
82	Claude Opus 4.5	100.0%	$0.037	7.7s	100%
83	Z.AI GLM 5	98.8%	$0.0091	51.4s	94%
84	o4 Mini High	100.0%	$0.025	40.5s	100%
85	Qwen 3.5 Flash	96.4%	$0.0031	49.5s	89%
86	GPT-5.2	95.9%	$0.018	16.8s	87%
87	Gemma 3 4B	88.1%	$0.0002	6.7s	76%
88	Claude Opus 4.6	99.1%	$0.037	8.1s	96%
89	Gemini 3.5 Flash (Reasoning)	100.0%	$0.040	16.4s	100%
90	Z.AI GLM 5.1	100.0%	$0.015	1.1m	100%
91	Nemotron 3 Super	96.5%	$0.0000	1.0m	90%
92	GPT-5 Mini	95.9%	$0.0070	45.5s	88%
93	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.047	8.3s	100%
94	Claude Opus 4.8 (Reasoning)	100.0%	$0.047	8.3s	100%
95	Grok 4.5 (Reasoning, High)	99.6%	$0.024	45.2s	96%
96	Z.AI GLM 4.5 Air	93.9%	$0.0023	40.1s	81%
97	Nemotron 3 Nano	99.8%	$0.0013	1.6m	98%
98	Claude Opus 4.7 (Reasoning)	99.7%	$0.046	5.9s	97%
99	Qwen 3.5 35B	97.0%	$0.015	47.3s	91%
100	Aion 2.0	98.8%	$0.0080	1.2m	94%
101	GPT-5.5 (Reasoning, Low)	98.2%	$0.038	13.3s	94%
102	Claude Opus 4.7	99.4%	$0.047	6.1s	96%
103	ByteDance Seed 1.6	97.9%	$0.0073	1.3m	93%
104	Gemini 2.5 Pro	97.4%	$0.034	22.8s	92%
105	ByteDance Seed 2.0 Lite	98.8%	$0.0078	1.4m	93%
106	GPT-5.6 Sol (Reasoning)	99.0%	$0.045	17.0s	95%
107	Gemini 2.5 Flash (Reasoning)	90.8%	$0.0082	11.8s	71%
108	Z.AI GLM 4.7 Flash	95.5%	$0.0019	1.2m	87%
109	Aion 3.0	99.0%	$0.024	58.8s	94%
110	GPT-4.1 Nano	86.8%	$0.0003	2.8s	63%
111	GPT-5.4 Nano (Reasoning, Low)	83.4%	$0.0011	3.7s	68%
112	Grok 4.3 (Reasoning)	99.6%	$0.018	1.3m	96%
113	Qwen 3.6 27B	98.3%	$0.018	1.2m	92%
114	Qwen 3.5 Plus (2026-04-20)	98.6%	$0.015	1.4m	94%
115	GPT-5 Nano	96.4%	$0.0043	1.3m	86%
116	Claude Opus 4.6 (Reasoning)	100.0%	$0.055	21.4s	100%
117	Cohere Command R+ (Aug. 2024)	91.3%	$0.014	17.9s	71%
118	Z.AI GLM 4.7	99.1%	$0.0098	1.7m	95%
119	Gemma 4 31B (Reasoning)	100.0%	$0.0016	2.2m	100%
120	Qwen 3.5 9B	95.1%	$0.0013	1.5m	87%
121	GPT-5.4 Nano	82.2%	$0.0011	3.8s	64%
122	Llama 3.1 70B	91.7%	$0.0016	16.0s	56%
123	Cydonia 24B V4.1	89.8%	$0.0010	12.2s	55%
124	DeepSeek V3.1	92.6%	$0.0012	26.1s	57%
125	GPT-5.1	96.4%	$0.035	43.6s	90%
126	GPT-5.4 (Reasoning)	99.7%	$0.044	53.6s	97%
127	Qwen3.7 Max	99.8%	$0.041	1.1m	98%
128	Claude Sonnet 4.6 (Reasoning)	98.8%	$0.052	36.0s	94%
129	ByteDance Seed 1.6 Flash	86.3%	$0.0011	39.3s	66%
130	Qwen 3.5 397B A17B	97.6%	$0.012	1.8m	94%
131	DeepSeek V4 Pro (Reasoning)	100.0%	$0.0093	2.3m	100%
132	GPT-5.5 (Reasoning)	96.6%	$0.056	25.8s	90%
133	GPT-5	98.8%	$0.049	1.3m	96%
134	Gemma 3 12B	79.7%	$0.0003	14.1s	47%
135	MoonshotAI: Kimi K2.5	98.3%	$0.013	2.4m	94%
136	MoonshotAI: Kimi K2.6	99.7%	$0.026	2.4m	97%
137	Gemini 3.1 Pro (Preview)	98.9%	$0.065	1.0m	95%
138	Gemma 4 26B	84.7%	$0.0006	18.7s	29%
139	Claude Opus 4	100.0%	$0.110	13.5s	100%
140	ByteDance Seed 2.0 Mini	97.8%	$0.0034	3.4m	92%
141	Qwen3.6 Max Preview	100.0%	$0.045	2.4m	100%
142	Gemma 4 26B (Reasoning)	94.7%	$0.0023	2.6m	56%
143	Qwen 3.5 27B	88.9%	$0.021	1.6m	41%
144	Aion 3.0 Mini	83.5%	$0.0077	1.8m	29%
145	Qwen 3.5 122B	97.0%	$0.079	3.6m	93%
146	Mistral NeMO	28.2%	$0.0006	1.4s	0%
96.77%

Individual Scenarios

▼

Long: The Spire of Echoes (Dense)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	96	99.3%
GPT-5.6 Terra (Reasoning)	100	100	100	100	96	99.3%
GPT-5 Mini	100	100	100	100	96	99.3%
MoonshotAI: Kimi K2.5	100	100	100	100	96	99.3%
Qwen 3.5 27B	100	100	100	100	96	99.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	96	99.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	96	99.3%
GPT-5.6 Luna	100	100	100	100	96	99.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	96	99.3%
Gemini 2.5 Flash Lite	100	100	100	100	96	99.3%
MiniMax M3	100	100	100	100	96	99.2%
GPT-4.1 Mini	100	100	100	100	96	99.2%
GPT-5.4 Mini	100	100	100	100	96	99.2%
Ministral 3 8B	100	100	100	100	96	99.2%
Qwen 3 32B	100	100	100	100	95	99.1%
Arcee AI: Trinity Mini	100	100	100	100	95	99.1%
Nemotron 3 Nano	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	95	99.0%
Z.AI GLM 4.5	100	100	100	100	93	98.6%
Z.AI GLM 4.5 Air	100	100	100	100	93	98.6%
Gemini 3.1 Pro (Preview)	100	100	100	96	96	98.5%
Qwen 3.5 397B A17B	100	100	100	96	96	98.5%
Qwen 3.5 122B	100	100	100	96	96	98.5%
Gemini 2.5 Pro	100	100	100	96	96	98.5%
Qwen 3.5 Flash	100	100	100	96	96	98.5%
Z.AI GLM 4.7	100	100	100	96	96	98.5%
Ministral 3 3B	100	100	100	96	96	98.5%
Z.AI GLM 5 Turbo	100	100	100	96	96	98.5%
MiniMax M2.5	100	100	100	96	96	98.4%
Inception Mercury 2	100	100	100	100	91	98.3%
GPT-5.2	100	100	100	100	90	97.9%
Aion 2.0	100	100	100	100	90	97.9%
Qwen 3.5 9B	100	100	100	96	93	97.8%
Ministral 3B	100	100	100	96	93	97.8%
ByteDance Seed 2.0 Mini	100	100	96	96	96	97.8%
Gemma 3 27B	100	100	96	96	96	97.8%
Mistral Small 4	100	100	100	96	92	97.7%
GPT-5.4 (Reasoning, Low)	100	100	100	96	90	97.2%
Llama 3.1 70B	100	100	96	95	94	97.1%
GPT-5.1	100	100	96	96	93	97.1%
Qwen 3.6 Flash	100	100	96	96	93	97.1%
Z.AI GLM 4.7 Flash	100	100	100	96	89	97.1%
Gemma 3 12B	100	100	96	96	92	96.9%
Nemotron 3 Super	100	96	96	96	96	96.8%
GPT-5	100	96	96	96	93	96.3%
GPT-5.4	100	96	96	96	93	96.3%
Gemini 2.5 Flash (Reasoning)	100	96	96	96	93	96.3%
Qwen 3.6 27B	100	100	100	96	85	96.3%
Qwen 3.5 35B	100	100	93	93	93	95.7%
Ministral 3 14B	100	100	96	93	90	95.7%
Cydonia 24B V4.1	100	96	96	96	90	95.5%
Gemma 3 4B	100	95	95	95	91	95.5%
Cohere Command R+ (Aug. 2024)	100	100	96	92	90	95.5%
GPT-5.4 Nano (Reasoning)	96	96	96	93	93	94.8%
Qwen 3.6 35B	100	100	93	90	89	94.3%
GPT-4.1	96	96	93	93	90	93.6%
GPT-5 Nano	100	100	100	96	69	93.0%
GPT-4.1 Nano	100	95	90	90	83	91.7%
Mistral Small 4 (Reasoning)	100	93	90	90	84	91.2%
GPT-5.4 Nano (Reasoning, Low)	92	90	90	89	76	87.4%
ByteDance Seed 1.6 Flash	93	93	84	83	81	86.7%
GPT-5.4 Nano	93	89	87	84	73	84.9%
DeepSeek V3.1	100	100	100	100	0	80.0%
Gemma 4 26B	100	100	100	0	0	60.0%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: The Hollow (Inferred)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	93	98.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	93	98.7%
ByteDance Seed 1.6	100	100	100	100	93	98.7%
GPT-5.2	100	100	100	100	93	98.7%
Gemini 2.5 Pro	100	100	100	100	93	98.7%
Qwen 3.6 27B	100	100	100	100	93	98.7%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	93	98.7%
GPT-4.1	100	100	100	100	93	98.7%
Gemma 4 26B	100	100	100	100	93	98.7%
GPT-5.4	100	100	100	100	93	98.7%
GPT-5.4 Nano (Reasoning)	100	100	100	100	93	98.7%
Qwen 3.5 122B	100	100	100	100	93	98.6%
Z.AI GLM 4.7 Flash	100	100	100	100	93	98.6%
Mistral Small 4	100	100	100	100	93	98.6%
Z.AI GLM 4.5 Air	100	100	100	100	92	98.5%
ByteDance Seed 1.6 Flash	100	100	100	100	92	98.5%
Ministral 3 3B	100	100	100	100	90	98.0%
GPT-5.5	100	100	100	100	88	97.5%
GPT-5 Mini	100	100	100	93	93	97.3%
GPT-5.4 (Reasoning, Low)	100	100	100	93	93	97.3%
Gemini 2.5 Flash Lite	100	100	100	93	93	97.2%
GPT-5.4 Nano	100	100	100	93	93	97.2%
Ministral 3 14B	100	100	100	93	93	97.2%
Ministral 8B	100	100	100	93	93	97.2%
Qwen 3.5 Flash	100	100	100	100	82	96.5%
GPT-4.1 Nano	100	100	100	100	81	96.3%
Arcee AI: Trinity Mini	100	100	100	91	90	96.2%
Mistral Small 4 (Reasoning)	100	100	100	93	88	96.2%
GPT-5.6 Sol (Reasoning)	100	100	93	93	93	96.0%
GPT-5.6 Terra (Reasoning)	100	100	93	93	88	94.8%
GPT-5.5 (Reasoning)	100	93	93	93	93	94.7%
GPT-5.4 Nano (Reasoning, Low)	100	93	93	92	81	92.0%
Cohere Command R+ (Aug. 2024)	93	92	92	91	85	90.5%
Gemini 2.5 Flash (Reasoning)	93	93	93	88	82	90.0%
Gemma 3 4B	91	91	85	83	79	85.7%
Aion 3.0 Mini	100	100	100	100	0	80.0%
Gemma 3 12B	93	93	93	93	0	74.5%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Medium: Through the Thornveil (Scattered)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	94	98.8%
GPT-5.4 (Reasoning)	100	100	100	100	94	98.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
Claude Sonnet 4.6	100	100	100	100	94	98.8%
MiniMax M3	100	100	100	100	94	98.8%
GPT-5.5	100	100	100	100	94	98.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.8%
Aion 2.0	100	100	100	100	94	98.8%
DeepSeek-V2 Chat	100	100	100	100	94	98.8%
DeepSeek V4 Flash	100	100	100	100	94	98.8%
Nemotron 3 Super	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	93	98.7%
Claude Sonnet 5 (Reasoning)	100	100	100	100	93	98.7%
Gemma 4 26B (Reasoning)	100	100	100	100	93	98.7%
Z.AI GLM 4.6	100	100	100	100	93	98.7%
Gemini 3 Flash (Preview)	100	100	100	100	93	98.7%
Xiaomi MIMO v2.5	100	100	100	100	93	98.7%
DeepSeek V3.1	100	100	100	100	93	98.7%
DeepSeek V3.2	100	100	100	100	93	98.7%
GPT-4.1 Mini	100	100	100	100	93	98.7%
Ministral 3 8B	100	100	100	100	93	98.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	93	98.6%
Hermes 3 405B	100	100	100	100	93	98.6%
GPT-4o Mini (temp=1)	100	100	100	100	91	98.2%
Aion 3.0	100	100	100	100	88	97.6%
MiniMax M2.7	100	100	100	100	88	97.6%
GPT-5.5 (Reasoning, Low)	100	100	100	94	94	97.5%
GPT-5.6 Luna (Reasoning)	100	100	100	94	94	97.5%
Qwen 3.5 122B	100	100	100	94	94	97.5%
Claude Opus 4.7	100	100	100	94	94	97.5%
GPT-5.4 Mini (Reasoning)	100	100	100	94	94	97.5%
GPT-5.2	100	100	100	94	94	97.5%
Gemini 2.5 Pro	100	100	100	100	88	97.5%
Ministral 3 14B	100	100	100	94	94	97.5%
MoonshotAI: Kimi K2.5	100	100	100	94	93	97.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	93	93	97.3%
Gemini 2.5 Flash Lite	100	100	100	94	93	97.3%
Writer: Palmyra X5	100	100	100	93	93	97.2%
Qwen 2.5 72B	100	100	100	93	92	97.0%
Ministral 8B	100	100	100	93	92	97.0%
Arcee AI: Trinity Mini	100	100	100	93	91	96.8%
ByteDance Seed 1.6	100	100	100	94	88	96.4%
GPT-5.4	100	100	100	94	88	96.4%
Qwen 3.6 35B	100	100	100	93	88	96.3%
Claude Opus 4.6	100	100	94	94	94	96.3%
Qwen 3.5 27B	100	100	94	94	94	96.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	94	88	96.3%
Ministral 3B	100	100	100	100	81	96.3%
GPT-4.1	100	100	100	93	88	96.2%
DeepSeek V4 Pro	100	100	94	94	93	96.2%
Qwen3 235B A22B Instruct 2507	100	100	100	93	88	96.2%
GPT-OSS 120B	100	100	93	93	93	95.8%
Qwen 3 32B	100	100	100	100	79	95.8%
GPT-5.5 (Reasoning)	100	94	94	94	94	95.0%
Qwen 3.6 Flash	100	94	94	94	94	95.0%
GPT-5.6 Terra	100	94	94	94	94	95.0%
WizardLM 2 8x22b	100	100	93	93	88	94.9%
Grok 4.20	100	93	93	93	93	94.7%
Gemini 2.5 Flash	100	100	94	88	88	94.0%
Qwen 3.5 35B	100	100	94	94	82	94.0%
Cydonia 24B V4.1	100	100	93	88	88	94.0%
GPT-5 Mini	100	94	93	93	88	93.7%
GPT-5.1	94	94	94	94	93	93.7%
Qwen 3.5 397B A17B	94	94	93	93	93	93.5%
Inception Mercury 2	100	93	92	92	88	93.0%
Hermes 3 70B	100	92	92	91	90	93.0%
Mistral Small 4 (Reasoning)	100	100	88	88	88	92.8%
GPT-5 Nano	94	94	94	93	88	92.6%
Z.AI GLM 4.7 Flash	94	93	93	93	88	92.2%
GPT-5.4 Mini	100	94	94	88	83	91.8%
GPT-5.4 Mini (Reasoning, Low)	100	94	88	88	88	91.7%
Z.AI GLM 4.5 Air	100	94	94	88	83	91.7%
Qwen 3.5 Flash	94	94	93	88	83	90.5%
GPT-5.4 Nano (Reasoning)	94	93	88	88	88	90.1%
Mistral Small 4	100	93	93	87	74	89.3%
Qwen 3.5 9B	94	94	93	83	82	89.3%
Ministral 3 3B	93	93	87	87	87	89.2%
Gemma 3 12B	93	88	88	88	88	88.8%
Mistral Large 3	88	88	88	88	88	88.2%
Mistral Large 2	88	88	88	88	88	88.2%
Cohere Command R+ (Aug. 2024)	100	100	100	86	47	86.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	79	47	85.2%
Gemma 4 26B	100	100	100	100	0	80.0%
Gemma 3 4B	86	80	80	79	73	79.5%
Llama 3.1 70B	100	93	92	91	0	75.1%
ByteDance Seed 1.6 Flash	100	74	68	68	52	72.5%
GPT-5.4 Nano (Reasoning, Low)	83	72	71	67	65	71.8%
GPT-5.4 Nano	81	72	71	61	58	68.7%
GPT-4.1 Nano	83	72	70	67	41	66.6%
Aion 3.0 Mini	100	100	94	0	0	58.8%
Mistral NeMO	100	90	83	0	0	54.7%

▼

Short: The Rusty Lantern (Explicit)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	92	98.3%
GPT-5.5	100	100	100	100	92	98.3%
Qwen 3.6 Flash	100	100	100	100	92	98.3%
Xiaomi MIMO v2.5	100	100	100	100	92	98.3%
Grok 4.5 (Reasoning, High)	100	100	100	100	92	98.3%
Gemini 3.1 Pro (Preview)	100	100	100	100	92	98.3%
Grok 4.3 (Reasoning)	100	100	100	100	92	98.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	92	98.3%
Aion 3.0	100	100	100	100	92	98.3%
Qwen 3.6 27B	100	100	100	100	92	98.3%
Z.AI GLM 4.6	100	100	100	100	92	98.3%
Qwen 3.5 35B	100	100	100	100	92	98.3%
Aion 2.0	100	100	100	100	92	98.3%
GPT-5.4 Mini	100	100	100	100	92	98.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	92	98.3%
Gemini 2.5 Flash Lite	100	100	100	100	92	98.3%
Ministral 8B	100	100	100	100	92	98.3%
Ministral 3B	100	100	100	100	92	98.3%
Z.AI GLM 4.7	100	100	100	100	90	98.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	85	96.9%
DeepSeek V3.2	100	100	100	100	83	96.7%
GPT-5.5 (Reasoning)	100	100	100	92	92	96.7%
GPT-5.5 (Reasoning, Low)	100	100	100	92	92	96.7%
Grok 4.5 (Reasoning, Low)	100	100	100	92	92	96.7%
MoonshotAI: Kimi K2.5	100	100	100	92	92	96.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	92	92	96.7%
ByteDance Seed 1.6	100	100	100	92	92	96.7%
GPT-5.6 Terra	100	100	100	92	92	96.7%
o4 Mini	100	100	100	92	92	96.7%
DeepSeek V3 (2024-12-26)	100	100	100	92	92	96.7%
Grok 4.3	100	100	100	92	92	96.7%
Mistral Medium 3.1	100	100	100	92	92	96.7%
Qwen 3 32B	100	100	100	92	91	96.5%
ByteDance Seed 2.0 Lite	100	100	100	92	85	95.3%
Aion 3.0 Mini	100	100	100	92	85	95.3%
Grok 4.20	100	100	100	92	85	95.3%
Qwen 2.5 72B	100	100	100	92	85	95.3%
Claude Sonnet 4.6 (Reasoning)	100	100	92	92	92	95.0%
GPT-5.1	100	100	92	92	92	95.0%
Z.AI GLM 5	100	100	92	92	92	95.0%
Gemini 2.5 Pro	100	100	92	92	92	95.0%
DeepSeek-V2 Chat	100	100	92	92	92	95.0%
Mistral Small 4 (Reasoning)	100	100	92	92	92	95.0%
MiniMax M2.5	100	100	92	92	91	94.8%
WizardLM 2 8x22b	100	100	92	92	91	94.8%
Qwen3 235B A22B Instruct 2507	100	100	91	91	91	94.5%
Hermes 3 70B	100	100	91	91	91	94.5%
Llama 3.1 70B	100	100	92	91	90	94.5%
Z.AI GLM 4.7 Flash	100	100	92	90	90	94.3%
ByteDance Seed 2.0 Mini	100	100	92	92	85	93.6%
Qwen 3.5 9B	100	100	92	91	85	93.4%
GPT-5 Mini	100	92	92	92	92	93.3%
Qwen 3.5 122B	100	92	92	92	92	93.3%
GPT-4.1	100	92	92	92	92	93.3%
Mistral Small 3.2 24B	100	100	92	90	85	93.3%
GPT-4.1 Nano	100	100	100	89	75	92.8%
Cohere Command R+ (Aug. 2024)	100	92	91	91	90	92.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	91	85	85	92.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	92	85	83	91.9%
Mistral Large 3	92	92	92	92	92	91.7%
DeepSeek V3.1	92	92	92	92	92	91.7%
Mistral Large 2	92	92	92	92	92	91.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	85	73	91.6%
Gemma 3 4B	100	90	90	89	89	91.6%
GPT-4o Mini (temp=1)	100	89	89	89	89	91.1%
Writer: Palmyra X5	91	91	91	91	91	90.9%
Inception Mercury 2	100	92	92	85	85	90.5%
GPT-5.4	92	92	92	92	85	90.3%
Nemotron 3 Super	92	92	92	92	85	90.3%
Claude Haiku 4.5	92	92	92	92	83	90.0%
GPT-5.2	100	100	85	85	79	89.6%
GPT-4o Mini (temp=0)	89	89	89	89	89	88.9%
ByteDance Seed 1.6 Flash	100	100	91	79	69	87.6%
Z.AI GLM 4.5 Air	100	91	90	85	69	86.9%
Arcee AI: Trinity Mini	100	89	83	82	80	86.8%
Gemma 3 27B	92	92	85	85	79	86.2%
Ministral 3 14B	92	92	85	85	79	86.2%
Mistral Small 4	92	89	85	85	80	86.0%
GPT-5.4 Nano (Reasoning, Low)	92	85	85	79	73	82.6%
Gemma 4 26B (Reasoning)	100	100	100	100	0	80.0%
GPT-5.4 Nano	85	85	73	73	73	77.8%
Cydonia 24B V4.1	100	85	85	79	0	69.6%
Qwen 3.5 27B	100	100	100	0	0	60.0%
Gemma 3 12B	67	60	56	56	56	58.8%
Mistral NeMO	100	100	90	0	0	58.0%

Precision

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Long: The Spire of Echoes (Dense)

Medium: The Hollow (Inferred)

Medium: Through the Thornveil (Scattered)

Short: The Rusty Lantern (Explicit)