XML structure

Avg. Score

92.4%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0033	3.2s	100%
2	Gemini 3.1 Flash Lite	100.0%	$0.0031	3.3s	100%
3	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0046	3.2s	100%
4	GPT-5.4 Nano	100.0%	$0.0026	11.2s	100%
5	Gemini 2.5 Flash	100.0%	$0.0075	6.1s	100%
6	Gemini 3 Flash (Preview)	100.0%	$0.0087	7.1s	100%
7	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0038	13.8s	100%
8	GPT-5.6 Luna	100.0%	$0.012	8.7s	100%
9	Inception Mercury 2	100.0%	$0.0096	12.8s	100%
10	DeepSeek V4 Pro	100.0%	$0.0083	17.3s	100%
11	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.014	14.4s	100%
12	Grok 4.20	100.0%	$0.020	7.5s	100%
13	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.024	6.3s	100%
14	DeepSeek V3.2	100.0%	$0.0046	33.9s	100%
15	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.032	8.4s	100%
16	GPT-5.1	100.0%	$0.025	17.7s	100%
17	MiniMax M2.5	100.0%	$0.0036	45.0s	100%
18	GPT-5.6 Luna (Reasoning)	100.0%	$0.027	18.6s	100%
19	GPT-5.4 Nano (Reasoning)	100.0%	$0.0088	41.7s	100%
20	GPT-5.4	100.0%	$0.033	17.4s	100%
21	Gemini 2.5 Flash (Reasoning)	100.0%	$0.023	37.3s	100%
22	Qwen 3.6 Flash	100.0%	$0.015	51.7s	100%
23	Grok 4.20 (Reasoning)	100.0%	$0.027	40.0s	100%
24	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.030	40.3s	100%
25	ByteDance Seed 1.6	100.0%	$0.014	1.2m	100%
26	o4 Mini	100.0%	$0.037	45.7s	100%
27	GPT-5.4 (Reasoning, Low)	100.0%	$0.053	35.5s	100%
28	Claude Sonnet 4	100.0%	$0.072	17.5s	100%
29	Gemma 4 31B	100.0%	$0.0028	1.9m	100%
30	Claude Sonnet 4.6	100.0%	$0.081	23.3s	100%
31	Xiaomi MIMO v2.5 Pro	100.0%	$0.0076	1.9m	100%
32	GPT-5.2	100.0%	$0.062	50.7s	100%
33	GPT-5.6 Sol	100.0%	$0.096	18.1s	100%
34	GPT-OSS 120B	100.0%	$0.0040	2.2m	100%
35	GPT-5 Mini	100.0%	$0.019	2.0m	100%
36	GPT-5 Nano	100.0%	$0.0080	2.2m	100%
37	o4 Mini High	100.0%	$0.059	1.3m	100%
38	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.039	1.8m	100%
39	DeepSeek V4 Pro (Reasoning)	100.0%	$0.020	2.3m	100%
40	GPT-5.5	100.0%	$0.105	37.1s	100%
41	Gemini 2.5 Pro	100.0%	$0.099	58.2s	100%
42	Claude Opus 4.5	100.0%	$0.131	19.8s	100%
43	Xiaomi MIMO v2.5	97.0%	$0.0027	1.1m	88%
44	Gemini 3.5 Flash (Reasoning)	100.0%	$0.113	49.4s	100%
45	Gemma 4 26B (Reasoning)	100.0%	$0.0041	3.1m	100%
46	Qwen 3.6 27B	100.0%	$0.034	2.7m	100%
47	DeepSeek-V2 Chat	94.0%	$0.0049	34.0s	85%
48	Qwen 3.5 397B A17B	100.0%	$0.045	2.6m	100%
49	Qwen 3.5 35B	98.5%	$0.015	2.0m	91%
50	Grok 4.5 (Reasoning, High)	100.0%	$0.080	2.0m	100%
51	Claude Opus 4.6	100.0%	$0.154	31.4s	100%
52	MiniMax M2.7	96.0%	$0.0063	21.4s	76%
53	Gemma 4 26B	96.0%	$0.0018	27.2s	76%
54	ByteDance Seed 2.0 Lite	100.0%	$0.014	3.6m	100%
55	GPT-4o Mini (temp=1)	96.0%	$0.0026	33.4s	76%
56	Claude Opus 4.7	100.0%	$0.182	24.3s	100%
57	Gemini 2.5 Flash Lite	93.0%	$0.0023	4.8s	75%
58	Claude Opus 4.7 (Reasoning)	100.0%	$0.184	25.0s	100%
59	GPT-5.6 Terra	96.0%	$0.034	9.4s	76%
60	Qwen 3.5 27B	100.0%	$0.029	3.7m	100%
61	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.021	3.9m	100%
62	Qwen3.7 Max	100.0%	$0.045	3.5m	100%
63	GPT-4o, Aug. 6th (temp=1)	94.5%	$0.029	9.1s	75%
64	Qwen 3.6 35B	96.0%	$0.014	1.1m	76%
65	GPT-5.6 Sol (Reasoning)	100.0%	$0.186	59.0s	100%
66	Mistral Large 3	85.0%	$0.0091	17.5s	85%
67	Gemini 3.1 Pro (Preview)	100.0%	$0.172	1.5m	100%
68	Grok 4.5 (Reasoning, Low)	96.0%	$0.040	49.7s	76%
69	GPT-5.6 Terra (Reasoning)	96.0%	$0.060	24.2s	76%
70	DeepSeek V3 (2024-12-26)	91.5%	$0.0045	40.2s	75%
71	Claude Haiku 4.5	85.0%	$0.024	8.2s	85%
72	Mistral Small 4	88.0%	$0.0030	7.4s	75%
73	GPT-5.4 Mini (Reasoning)	100.0%	$0.117	2.8m	100%
74	Claude Sonnet 5 (Reasoning)	100.0%	$0.172	1.7m	100%
75	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.175	1.7m	100%
76	GPT-5.4 Mini	92.0%	$0.0087	7.9s	68%
77	DeepSeek V4 Flash	85.0%	$0.0020	51.4s	85%
78	GPT-4o Mini (temp=0)	92.0%	$0.0019	20.7s	68%
79	Qwen3.6 Max Preview	100.0%	$0.084	3.7m	100%
80	DeepSeek V4 Flash (Reasoning)	97.0%	$0.0041	3.5m	88%
81	GPT-4.1 Mini	92.0%	$0.0046	26.0s	68%
82	Mistral Large 2	85.0%	$0.037	20.5s	85%
83	GPT-4.1	92.0%	$0.024	8.5s	68%
84	Qwen 3.5 Flash	97.0%	$0.0040	3.8m	88%
85	WizardLM 2 8x22b	96.0%	$0.0098	2.3m	76%
86	Z.AI GLM 4.5	92.0%	$0.0075	48.1s	68%
87	MoonshotAI: Kimi K2.5	100.0%	$0.031	5.4m	100%
88	Claude Sonnet 5	85.0%	$0.068	17.1s	85%
89	Gemini 2.5 Flash Lite (Reasoning)	92.0%	$0.0073	1.0m	68%
90	GPT-5.4 (Reasoning)	100.0%	$0.175	2.6m	100%
91	MoonshotAI: Kimi K2.6	100.0%	$0.082	5.0m	100%
92	Claude Sonnet 4.5	86.5%	$0.077	18.6s	77%
93	Z.AI GLM 4.5 Air	94.5%	$0.0071	3.2m	75%
94	GPT-5.5 (Reasoning)	100.0%	$0.251	2.0m	100%
95	ByteDance Seed 1.6 Flash	86.7%	$0.0020	34.2s	62%
96	Mistral Small 3.2 24B	81.5%	$0.0017	13.8s	65%
97	Ministral 8B	80.0%	$0.0016	15.6s	68%
98	Grok 4.3	84.0%	$0.0094	7.8s	61%
99	Z.AI GLM 5 Turbo	96.0%	$0.044	3.6m	76%
100	Llama 3.1 70B	84.0%	$0.0064	34.0s	61%
101	Grok 4.3 (Reasoning)	91.0%	$0.013	13.9s	46%
102	Qwen 3.5 122B	96.0%	$0.035	4.0m	76%
103	Ministral 3 8B	77.5%	$0.0022	17.0s	66%
104	Mistral Medium 3.1	77.5%	$0.010	21.2s	66%
105	Qwen 3.5 Plus (2026-04-20)	92.0%	$0.023	3.1m	68%
106	DeepSeek V3.1	91.0%	$0.0055	52.0s	46%
107	Qwen 2.5 72B	84.0%	$0.0056	1.2m	61%
108	ByteDance Seed 2.0 Mini	100.0%	$0.0062	8.7m	100%
109	Z.AI GLM 5.1	100.0%	$0.081	7.3m	100%
110	Z.AI GLM 4.7	92.0%	$0.025	3.7m	68%
111	GPT-5	92.0%	$0.092	2.3m	68%
112	Z.AI GLM 4.7 Flash	86.5%	$0.0050	2.8m	64%
113	Mistral Small 4 (Reasoning)	85.0%	$0.0051	24.7s	44%
114	Z.AI GLM 4.6	88.0%	$0.018	3.0m	63%
115	Claude Opus 4.8 (Reasoning)	100.0%	$0.381	1.9m	100%
116	Claude Opus 4.6 (Reasoning)	100.0%	$0.356	2.6m	100%
117	Claude Opus 4	100.0%	$0.368	2.4m	100%
118	MiniMax M3	100.0%	$0.036	9.3m	100%
119	Writer: Palmyra X5	80.0%	$0.016	18.4s	48%
120	Arcee AI: Trinity Mini	88.0%	$0.0037	1.9m	47%
121	Qwen 3 32B	84.0%	$0.0042	2.9m	61%
122	GPT-5.5 (Reasoning, Low)	91.0%	$0.097	42.6s	46%
123	Gemma 3 27B	77.5%	$0.0016	27.5s	47%
124	Hermes 3 405B	83.0%	$0.015	1.0m	42%
125	Claude Opus 4.8 (Reasoning, Low)	98.5%	$0.383	1.9m	91%
126	Gemma 3 12B	76.5%	$0.0014	30.4s	44%
127	Qwen 3.5 9B	96.0%	$0.0040	7.8m	76%
128	Hermes 3 70B	77.5%	$0.0045	42.7s	40%
129	Ministral 3B	70.0%	$0.0007	9.8s	45%
130	Ministral 3 3B	67.5%	$0.0007	9.9s	46%
131	Mistral NeMO	60.0%	$0.0024	15.4s	60%
132	Ministral 3 14B	67.5%	$0.0031	25.4s	46%
133	Gemma 3 4B	65.0%	$0.0007	27.5s	48%
134	GPT-4.1 Nano	64.0%	$0.0009	6.9s	46%
135	Z.AI GLM 5	91.0%	$0.037	4.6m	46%
136	Gemma 4 31B (Reasoning)	91.0%	$0.0043	5.8m	46%
137	Nemotron 3 Nano	82.0%	$0.0039	2.8m	28%
138	Cydonia 24B V4.1	69.5%	$0.0040	1.0m	28%
139	Qwen3 235B A22B Instruct 2507	67.0%	$0.0017	1.0m	29%
140	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.448	5.9m	100%
141	Cohere Command R+ (Aug. 2024)	66.0%	$0.057	56.5s	20%
142	Aion 2.0	73.0%	$0.024	3.0m	18%
143	Aion 3.0 Mini	76.0%	$0.030	4.9m	28%
144	Aion 3.0	80.5%	$0.074	5.8m	29%
145	DeepSeek V3 (2025-03-24)	50.5%	$0.0037	50.3s	17%
146	Nemotron 3 Super	61.0%	$0.0000	5.5m	15%
92.36%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	85	97.0%
Aion 3.0 Mini	100	100	100	100	85	97.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	85	97.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	85	97.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	85	85	94.0%
DeepSeek-V2 Chat	100	100	100	85	85	94.0%
Xiaomi MIMO v2.5	100	100	100	85	85	94.0%
Z.AI GLM 4.7	100	100	100	100	60	92.0%
Z.AI GLM 4.6	100	100	100	100	60	92.0%
MiniMax M2.7	100	100	100	100	60	92.0%
Z.AI GLM 4.5	100	100	100	100	60	92.0%
Qwen 3.5 9B	100	100	100	100	60	92.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	60	92.0%
Z.AI GLM 4.7 Flash	100	100	100	100	60	92.0%
GPT-4.1 Mini	100	100	100	100	60	92.0%
Z.AI GLM 4.5 Air	100	100	100	100	60	92.0%
ByteDance Seed 1.6 Flash	100	100	100	100	60	92.0%
Claude Sonnet 4.5	100	85	85	85	85	88.0%
Claude Sonnet 5	85	85	85	85	85	85.0%
Mistral Large 3	85	85	85	85	85	85.0%
Claude Haiku 4.5	85	85	85	85	85	85.0%
DeepSeek V4 Flash	85	85	85	85	85	85.0%
Mistral Large 2	85	85	85	85	85	85.0%
Mistral Small 4	85	85	85	85	85	85.0%
GPT-5	100	100	100	60	60	84.0%
Qwen 3 32B	100	100	100	60	60	84.0%
Qwen3 235B A22B Instruct 2507	100	100	100	60	60	84.0%
GPT-4o Mini (temp=0)	100	100	100	60	60	84.0%
Cohere Command R+ (Aug. 2024)	100	100	100	60	60	84.0%
Mistral Small 3.2 24B	100	85	85	85	60	83.0%
Grok 4.3 (Reasoning)	100	100	100	100	10	82.0%
DeepSeek V3.1	100	100	100	100	10	82.0%
Cydonia 24B V4.1	100	100	85	60	60	81.0%
Ministral 8B	85	85	85	85	60	80.0%
Mistral Small 4 (Reasoning)	100	100	85	85	10	76.0%
Writer: Palmyra X5	100	100	60	60	60	76.0%
Llama 3.1 70B	100	100	60	60	60	76.0%
Mistral Medium 3.1	85	85	85	60	60	75.0%
Ministral 3 14B	85	85	85	60	60	75.0%
Ministral 3 8B	85	85	85	60	60	75.0%
Ministral 3 3B	85	85	85	60	60	75.0%
Ministral 3B	85	85	85	60	60	75.0%
Gemma 3 27B	85	85	85	85	10	70.0%
Gemma 3 4B	85	85	60	60	60	70.0%
GPT-4.1 Nano	100	60	60	60	60	68.0%
Grok 4.3	100	60	60	60	60	68.0%
Nemotron 3 Super	100	100	60	60	10	66.0%
Gemma 3 12B	85	85	85	60	10	65.0%
Mistral NeMO	60	60	60	60	60	60.0%
DeepSeek V3 (2025-03-24)	100	100	60	10	10	56.0%
Aion 2.0	100	100	10	10	10	46.0%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	85	97.0%
Z.AI GLM 4.5 Air	100	100	100	100	85	97.0%
Qwen 3.5 Flash	100	100	100	85	85	94.0%
DeepSeek-V2 Chat	100	100	100	85	85	94.0%
Mistral Small 4 (Reasoning)	100	100	100	85	85	94.0%
Z.AI GLM 5 Turbo	100	100	100	100	60	92.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	60	92.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	60	92.0%
Qwen 3.5 122B	100	100	100	100	60	92.0%
GPT-5.6 Terra	100	100	100	100	60	92.0%
Z.AI GLM 4.7	100	100	100	100	60	92.0%
Qwen 3.6 35B	100	100	100	100	60	92.0%
Z.AI GLM 4.5	100	100	100	100	60	92.0%
Gemma 4 26B	100	100	100	100	60	92.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	60	92.0%
GPT-4.1 Mini	100	100	100	100	60	92.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	60	92.0%
GPT-4o Mini (temp=1)	100	100	100	100	60	92.0%
Llama 3.1 70B	100	100	100	100	60	92.0%
WizardLM 2 8x22b	100	100	100	100	60	92.0%
Mistral Small 4	100	100	85	85	85	91.0%
Gemma 3 12B	100	85	85	85	85	88.0%
DeepSeek V3 (2024-12-26)	100	100	85	85	60	86.0%
Gemini 2.5 Flash Lite	100	100	85	85	60	86.0%
Claude Sonnet 4.5	85	85	85	85	85	85.0%
Claude Sonnet 5	85	85	85	85	85	85.0%
Mistral Large 3	85	85	85	85	85	85.0%
Claude Haiku 4.5	85	85	85	85	85	85.0%
DeepSeek V4 Flash	85	85	85	85	85	85.0%
Mistral Large 2	85	85	85	85	85	85.0%
Gemma 3 27B	85	85	85	85	85	85.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	60	60	84.0%
Z.AI GLM 4.6	100	100	100	60	60	84.0%
GPT-4.1	100	100	100	60	60	84.0%
GPT-5.4 Mini	100	100	100	60	60	84.0%
Qwen 3 32B	100	100	100	60	60	84.0%
Writer: Palmyra X5	100	100	100	60	60	84.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	10	82.0%
Gemma 4 31B (Reasoning)	100	100	100	100	10	82.0%
Z.AI GLM 5	100	100	100	100	10	82.0%
Z.AI GLM 4.7 Flash	100	100	85	60	60	81.0%
Mistral Small 3.2 24B	85	85	85	85	60	80.0%
Mistral Medium 3.1	85	85	85	85	60	80.0%
Ministral 3 8B	85	85	85	85	60	80.0%
Ministral 8B	85	85	85	85	60	80.0%
Arcee AI: Trinity Mini	100	100	85	85	10	76.0%
Qwen 2.5 72B	100	60	60	60	60	68.0%
Hermes 3 405B	100	100	60	60	10	66.0%
Ministral 3B	85	60	60	60	60	65.0%
Nemotron 3 Nano	100	100	100	10	10	64.0%
Aion 3.0	100	100	85	10	10	61.0%
ByteDance Seed 1.6 Flash	60	–	–	–	–	60.0%
Ministral 3 14B	60	60	60	60	60	60.0%
GPT-4.1 Nano	60	60	60	60	60	60.0%
Gemma 3 4B	60	60	60	60	60	60.0%
Ministral 3 3B	60	60	60	60	60	60.0%
Mistral NeMO	60	60	60	60	60	60.0%
Cydonia 24B V4.1	100	60	60	60	10	58.0%
Nemotron 3 Super	100	100	60	10	10	56.0%
Aion 3.0 Mini	85	85	85	10	10	55.0%
Hermes 3 70B	85	60	60	60	10	55.0%
Qwen3 235B A22B Instruct 2507	60	60	60	60	10	50.0%
Cohere Command R+ (Aug. 2024)	100	60	60	10	10	48.0%
DeepSeek V3 (2025-03-24)	85	60	60	10	10	45.0%

XML structure

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree