Red-herring resistance

Avg. Score

99.4%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0033	3.2s	100%
2	Gemini 3.1 Flash Lite	100.0%	$0.0031	3.3s	100%
3	Gemini 2.5 Flash Lite	100.0%	$0.0023	4.8s	100%
4	GPT-4.1 Nano	100.0%	$0.0009	6.9s	100%
5	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0046	3.2s	100%
6	GPT-5.4 Nano	100.0%	$0.0026	11.2s	100%
7	Gemini 2.5 Flash	100.0%	$0.0075	6.1s	100%
8	Mistral Small 3.2 24B	100.0%	$0.0017	13.8s	100%
9	Gemini 3 Flash (Preview)	100.0%	$0.0087	7.1s	100%
10	Mistral NeMO	100.0%	$0.0024	15.4s	100%
11	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0038	13.8s	100%
12	GPT-5.4 Mini	100.0%	$0.0087	7.9s	100%
13	Grok 4.3	100.0%	$0.0094	7.8s	100%
14	GPT-4o Mini (temp=0)	100.0%	$0.0019	20.7s	100%
15	GPT-5.6 Luna	100.0%	$0.012	8.7s	100%
16	Inception Mercury 2	100.0%	$0.0096	12.8s	100%
17	DeepSeek V4 Pro	100.0%	$0.0083	17.3s	100%
18	Gemma 3 4B	100.0%	$0.0007	27.5s	100%
19	Mistral Large 3	100.0%	$0.0091	17.5s	100%
20	Ministral 3 14B	100.0%	$0.0031	25.4s	100%
21	MiniMax M2.7	100.0%	$0.0063	21.4s	100%
22	Gemma 4 26B	100.0%	$0.0018	27.2s	100%
23	Grok 4.3 (Reasoning)	100.0%	$0.013	13.9s	100%
24	Gemma 3 27B	100.0%	$0.0016	27.5s	100%
25	Mistral Small 4 (Reasoning)	100.0%	$0.0051	24.7s	100%
26	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.014	14.4s	100%
27	GPT-4.1 Mini	100.0%	$0.0046	26.0s	100%
28	Grok 4.20	100.0%	$0.020	7.5s	100%
29	Gemma 3 12B	100.0%	$0.0014	30.4s	100%
30	Mistral Medium 3.1	100.0%	$0.010	21.2s	100%
31	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.024	6.3s	100%
32	GPT-4o Mini (temp=1)	100.0%	$0.0026	33.4s	100%
33	ByteDance Seed 1.6 Flash	100.0%	$0.0020	34.2s	100%
34	GPT-4.1	100.0%	$0.024	8.5s	100%
35	Claude Haiku 4.5	100.0%	$0.024	8.2s	100%
36	Writer: Palmyra X5	100.0%	$0.016	18.4s	100%
37	DeepSeek V3.2	100.0%	$0.0046	33.9s	100%
38	DeepSeek-V2 Chat	100.0%	$0.0049	34.0s	100%
39	Llama 3.1 70B	100.0%	$0.0064	34.0s	100%
40	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.029	9.1s	100%
41	DeepSeek V3 (2024-12-26)	100.0%	$0.0045	40.2s	100%
42	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.032	8.4s	100%
43	GPT-5.1	100.0%	$0.025	17.7s	100%
44	MiniMax M2.5	100.0%	$0.0036	45.0s	100%
45	GPT-5.6 Terra	100.0%	$0.034	9.4s	100%
46	GPT-5.6 Luna (Reasoning)	100.0%	$0.027	18.6s	100%
47	GPT-5.4 Nano (Reasoning)	100.0%	$0.0088	41.7s	100%
48	DeepSeek V4 Flash	100.0%	$0.0020	51.4s	100%
49	DeepSeek V3 (2025-03-24)	100.0%	$0.0037	50.3s	100%
50	Z.AI GLM 4.5	100.0%	$0.0075	48.1s	100%
51	GPT-5.4	100.0%	$0.033	17.4s	100%
52	DeepSeek V3.1	100.0%	$0.0055	52.0s	100%
53	Cydonia 24B V4.1	100.0%	$0.0040	1.0m	100%
54	Mistral Large 2	100.0%	$0.037	20.5s	100%
55	Gemini 2.5 Flash (Reasoning)	100.0%	$0.023	37.3s	100%
56	Gemini 2.5 Flash Lite (Reasoning)	100.0%	$0.0073	1.0m	100%
57	Qwen 3.6 Flash	100.0%	$0.015	51.7s	100%
58	Xiaomi MIMO v2.5	100.0%	$0.0027	1.1m	100%
59	Grok 4.20 (Reasoning)	100.0%	$0.027	40.0s	100%
60	Qwen 2.5 72B	100.0%	$0.0056	1.2m	100%
61	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.030	40.3s	100%
62	Hermes 3 405B	100.0%	$0.015	1.0m	100%
63	Qwen 3.6 35B	100.0%	$0.014	1.1m	100%
64	ByteDance Seed 1.6	100.0%	$0.014	1.2m	100%
65	o4 Mini	100.0%	$0.037	45.7s	100%
66	Grok 4.5 (Reasoning, Low)	100.0%	$0.040	49.7s	100%
67	GPT-5.6 Terra (Reasoning)	100.0%	$0.060	24.2s	100%
68	GPT-5.4 (Reasoning, Low)	100.0%	$0.053	35.5s	100%
69	Claude Sonnet 5	100.0%	$0.068	17.1s	100%
70	Claude Sonnet 4	100.0%	$0.072	17.5s	100%
71	Claude Sonnet 4.5	100.0%	$0.077	18.6s	100%
72	Gemma 4 31B	100.0%	$0.0028	1.9m	100%
73	Arcee AI: Trinity Mini	100.0%	$0.0037	1.9m	100%
74	Claude Sonnet 4.6	100.0%	$0.081	23.3s	100%
75	Xiaomi MIMO v2.5 Pro	100.0%	$0.0076	1.9m	100%
76	Cohere Command R+ (Aug. 2024)	100.0%	$0.057	56.5s	100%
77	GPT-5.2	100.0%	$0.062	50.7s	100%
78	GPT-5.6 Sol	100.0%	$0.096	18.1s	100%
79	GPT-OSS 120B	100.0%	$0.0040	2.2m	100%
80	Qwen 3.5 35B	100.0%	$0.015	2.0m	100%
81	GPT-5 Mini	100.0%	$0.019	2.0m	100%
82	o4 Mini High	100.0%	$0.059	1.3m	100%
83	WizardLM 2 8x22b	100.0%	$0.0098	2.3m	100%
84	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.039	1.8m	100%
85	GPT-5.5 (Reasoning, Low)	100.0%	$0.097	42.6s	100%
86	DeepSeek V4 Pro (Reasoning)	100.0%	$0.020	2.3m	100%
87	GPT-5.5	100.0%	$0.105	37.1s	100%
88	Nemotron 3 Nano	100.0%	$0.0039	2.8m	100%
89	Qwen 3 32B	100.0%	$0.0042	2.9m	100%
90	Gemini 2.5 Pro	100.0%	$0.099	58.2s	100%
91	Claude Opus 4.5	100.0%	$0.131	19.8s	100%
92	Gemini 3.5 Flash (Reasoning)	100.0%	$0.113	49.4s	100%
93	Gemma 4 26B (Reasoning)	100.0%	$0.0041	3.1m	100%
94	Qwen 3.6 27B	100.0%	$0.034	2.7m	100%
95	Z.AI GLM 4.5 Air	100.0%	$0.0071	3.2m	100%
96	Z.AI GLM 4.6	100.0%	$0.018	3.0m	100%
97	Aion 2.0	100.0%	$0.024	3.0m	100%
98	Qwen 3.5 397B A17B	100.0%	$0.045	2.6m	100%
99	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.023	3.1m	100%
100	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0041	3.5m	100%
101	Grok 4.5 (Reasoning, High)	100.0%	$0.080	2.0m	100%
102	Claude Opus 4.6	100.0%	$0.154	31.4s	100%
103	Qwen 3.5 Flash	100.0%	$0.0040	3.8m	100%
104	ByteDance Seed 2.0 Lite	100.0%	$0.014	3.6m	100%
105	Claude Opus 4.7	100.0%	$0.182	24.3s	100%
106	Z.AI GLM 4.7	100.0%	$0.025	3.7m	100%
107	GPT-5	100.0%	$0.092	2.3m	100%
108	Claude Opus 4.7 (Reasoning)	100.0%	$0.184	25.0s	100%
109	Qwen 3.5 27B	100.0%	$0.029	3.7m	100%
110	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.021	3.9m	100%
111	Z.AI GLM 5 Turbo	100.0%	$0.044	3.6m	100%
112	Qwen3.7 Max	100.0%	$0.045	3.5m	100%
113	Qwen 3.5 122B	100.0%	$0.035	4.0m	100%
114	GPT-5.6 Sol (Reasoning)	100.0%	$0.186	59.0s	100%
115	Gemini 3.1 Pro (Preview)	100.0%	$0.172	1.5m	100%
116	GPT-5.4 Mini (Reasoning)	100.0%	$0.117	2.8m	100%
117	Claude Sonnet 5 (Reasoning)	100.0%	$0.172	1.7m	100%
118	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.175	1.7m	100%
119	Z.AI GLM 5	100.0%	$0.037	4.6m	100%
120	Qwen3.6 Max Preview	100.0%	$0.084	3.7m	100%
121	Aion 3.0 Mini	100.0%	$0.030	4.9m	100%
122	Nemotron 3 Super	100.0%	$0.0000	5.5m	100%
123	Gemma 4 31B (Reasoning)	100.0%	$0.0043	5.8m	100%
124	MoonshotAI: Kimi K2.5	100.0%	$0.031	5.4m	100%
125	GPT-5.4 (Reasoning)	100.0%	$0.175	2.6m	100%
126	MoonshotAI: Kimi K2.6	100.0%	$0.082	5.0m	100%
127	GPT-5.5 (Reasoning)	100.0%	$0.251	2.0m	100%
128	Aion 3.0	100.0%	$0.074	5.8m	100%
129	Qwen 3.5 9B	100.0%	$0.0040	7.8m	100%
130	Ministral 8B	93.2%	$0.0016	15.6s	59%
131	Ministral 3 8B	93.2%	$0.0022	17.0s	59%
132	ByteDance Seed 2.0 Mini	100.0%	$0.0062	8.7m	100%
133	Z.AI GLM 5.1	100.0%	$0.081	7.3m	100%
134	Qwen3 235B A22B Instruct 2507	93.2%	$0.0017	1.0m	59%
135	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.383	1.9m	100%
136	Claude Opus 4.8 (Reasoning)	100.0%	$0.381	1.9m	100%
137	Claude Opus 4.6 (Reasoning)	100.0%	$0.356	2.6m	100%
138	Claude Opus 4	100.0%	$0.368	2.4m	100%
139	MiniMax M3	100.0%	$0.036	9.3m	100%
140	Z.AI GLM 4.7 Flash	93.2%	$0.0050	2.8m	59%
141	Ministral 3 3B	90.6%	$0.0007	9.9s	44%
142	Mistral Small 4	90.6%	$0.0030	7.4s	44%
143	GPT-5 Nano	90.6%	$0.0080	2.2m	44%
144	Hermes 3 70B	86.3%	$0.0045	42.7s	45%
145	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.448	5.9m	100%
146	Ministral 3B	81.3%	$0.0007	9.8s	25%
99.40%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	6	81.3%
Mistral Small 4	100	100	100	100	6	81.3%
Ministral 3 3B	100	100	100	100	6	81.3%
Ministral 3B	100	100	100	6	6	62.5%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	–	–	–	–	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	32	86.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	32	86.3%
Ministral 3 8B	100	100	100	100	32	86.3%
Ministral 8B	100	100	100	100	32	86.3%
Hermes 3 70B	100	100	100	32	32	72.7%

Red-herring resistance

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree