Matches Regex

Avg. Score

81.9%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Ministral 3 3B	100.0%	$0.0000	811ms	100%
2	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0002	975ms	100%
3	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0002	2.3s	100%
4	Mistral Large 3	100.0%	$0.0001	4.2s	100%
5	DeepSeek V3 (2024-12-26)	100.0%	$0.0002	4.5s	100%
6	DeepSeek-V2 Chat	100.0%	$0.0001	7.5s	100%
7	DeepSeek V3.1	100.0%	$0.0002	5.6s	100%
8	Gemma 4 26B	100.0%	$0.0000	9.2s	100%
9	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0003	5.4s	100%
10	DeepSeek V3 (2025-03-24)	100.0%	$0.0001	9.8s	100%
11	Hermes 3 405B	100.0%	$0.0000	11.9s	100%
12	Gemma 4 26B (Reasoning)	100.0%	$0.0002	9.7s	100%
13	DeepSeek V3.2	100.0%	$0.0002	12.8s	100%
14	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.0009	3.6s	100%
15	Mistral Large 2	100.0%	$0.0012	4.9s	100%
16	Gemma 4 31B (Reasoning)	100.0%	$0.0002	19.2s	100%
17	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0014	1.3s	100%
18	GPT-5.5	100.0%	$0.0019	1.7s	100%
19	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.0017	4.0s	100%
20	Z.AI GLM 4.5 Air	100.0%	$0.0009	17.6s	100%
21	Z.AI GLM 4.7 Flash	100.0%	$0.0005	23.4s	100%
22	ByteDance Seed 1.6	100.0%	$0.0012	14.4s	100%
23	GPT-5.4 Mini (Reasoning)	100.0%	$0.0019	7.0s	100%
24	Aion 2.0	100.0%	$0.0012	17.8s	100%
25	Claude Sonnet 4	100.0%	$0.0025	3.4s	100%
26	Qwen 3.6 35B	100.0%	$0.0021	11.1s	100%
27	Claude Sonnet 4.6	100.0%	$0.0026	3.3s	100%
28	Claude Sonnet 4.5	100.0%	$0.0028	3.7s	100%
29	MiniMax M3	100.0%	$0.0013	28.8s	100%
30	Z.AI GLM 5 Turbo	100.0%	$0.0026	8.9s	100%
31	GPT-5.4 (Reasoning, Low)	100.0%	$0.0030	4.2s	100%
32	Grok 4.5 (Reasoning, Low)	100.0%	$0.0034	6.3s	100%
33	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.0037	5.7s	100%
34	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0032	14.6s	100%
35	Z.AI GLM 4.6	100.0%	$0.0021	32.1s	100%
36	Claude Opus 4.5	100.0%	$0.0043	3.7s	100%
37	Qwen 3.5 9B	100.0%	$0.0006	1.0m	100%
38	ByteDance Seed 2.0 Lite	100.0%	$0.0028	31.7s	100%
39	Claude Sonnet 5 (Reasoning)	100.0%	$0.0045	6.2s	100%
40	Claude Opus 4.6	100.0%	$0.0048	4.9s	100%
41	GPT-5.5 (Reasoning, Low)	100.0%	$0.0049	5.4s	100%
42	MiniMax M2.7	100.0%	$0.0027	41.7s	100%
43	Claude Opus 4.7 (Reasoning)	100.0%	$0.0057	2.9s	100%
44	GPT-5.4 (Reasoning)	100.0%	$0.0053	9.0s	100%
45	Z.AI GLM 4.7	100.0%	$0.0024	54.2s	100%
46	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.0041	30.3s	100%
47	Claude Opus 4.7	100.0%	$0.0063	3.4s	100%
48	Qwen 3.5 122B	100.0%	$0.0060	16.0s	100%
49	Qwen 3.5 397B A17B	100.0%	$0.0048	37.0s	100%
50	Qwen 3.6 27B	100.0%	$0.0052	32.6s	100%
51	Z.AI GLM 5	100.0%	$0.0040	52.7s	100%
52	Qwen 3.5 27B	100.0%	$0.0059	25.2s	100%
53	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.0073	9.8s	100%
54	Qwen 3.5 35B	100.0%	$0.0065	21.4s	100%
55	Gemini 3.5 Flash (Reasoning)	100.0%	$0.0079	4.3s	100%
56	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0003	2.0m	100%
57	MoonshotAI: Kimi K2.5	100.0%	$0.0058	43.3s	100%
58	Grok 4.5 (Reasoning, High)	100.0%	$0.0077	16.3s	100%
59	Gemini 2.5 Pro	100.0%	$0.0084	8.1s	100%
60	Grok 4.20 (Reasoning)	100.0%	$0.0082	33.9s	100%
61	Claude Opus 4	100.0%	$0.0100	11.3s	100%
62	GPT-5.5 (Reasoning)	100.0%	$0.010	7.9s	100%
63	ByteDance Seed 2.0 Mini	100.0%	$0.0020	2.2m	100%
64	Claude Opus 4.6 (Reasoning)	100.0%	$0.011	8.8s	100%
65	Grok 4.3 (Reasoning)	100.0%	$0.0081	51.0s	100%
66	Gemini 3.1 Pro (Preview)	100.0%	$0.011	12.6s	100%
67	Claude Opus 4.8 (Reasoning)	100.0%	$0.012	6.3s	100%
68	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.013	6.5s	100%
69	Mistral NeMO	90.0%	$0.0000	380ms	40%
70	Gemini 2.5 Flash Lite	90.0%	$0.0001	728ms	40%
71	Gemma 4 31B	90.0%	$0.0000	3.1s	40%
72	Gemini 3.1 Flash Lite	90.0%	$0.0002	977ms	40%
73	Cydonia 24B V4.1	90.0%	$0.0001	2.4s	40%
74	Z.AI GLM 4.5	90.0%	$0.0001	3.1s	40%
75	Gemini 3 Flash (Preview)	90.0%	$0.0003	1.2s	40%
76	WizardLM 2 8x22b	90.0%	$0.0002	5.0s	40%
77	Claude Haiku 4.5	90.0%	$0.0009	2.1s	40%
78	DeepSeek V4 Flash	90.0%	$0.0000	18.9s	40%
79	GPT-OSS 120B	90.0%	$0.0003	16.3s	40%
80	GPT-4.1	90.0%	$0.0013	2.7s	40%
81	GPT-5 Mini	90.0%	$0.0015	12.5s	40%
82	GPT-5.2	90.0%	$0.0026	5.0s	40%
83	Qwen3.6 Max Preview	100.0%	$0.013	50.7s	100%
84	Qwen 3.5 Flash	90.0%	$0.0014	25.5s	40%
85	Claude Sonnet 5	90.0%	$0.0029	4.4s	40%
86	MiniMax M2.5	90.0%	$0.0019	32.8s	40%
87	GPT-5.1	90.0%	$0.0045	9.8s	40%
88	Aion 3.0	90.0%	$0.0049	16.1s	40%
89	Gemma 3 4B	80.0%	$0.0000	2.2s	20%
90	Gemini 2.5 Flash	80.0%	$0.0003	987ms	20%
91	Z.AI GLM 5.1	90.0%	$0.0041	42.3s	40%
92	Qwen 3 32B	80.0%	$0.0003	13.0s	20%
93	MoonshotAI: Kimi K2.6	100.0%	$0.013	1.8m	100%
94	GPT-5.4	80.0%	$0.0018	2.1s	20%
95	Gemini 2.5 Flash Lite (Reasoning)	80.0%	$0.0009	20.0s	20%
96	Qwen3.7 Max	100.0%	$0.019	46.9s	100%
97	Xiaomi MIMO v2.5 Pro	80.0%	$0.0024	13.4s	20%
98	Nemotron 3 Nano	80.0%	$0.0006	40.6s	20%
99	GPT-5.4 Mini	70.0%	$0.0002	749ms	8%
100	Grok 4.3	70.0%	$0.0003	936ms	8%
101	Aion 3.0 Mini	80.0%	$0.0022	39.7s	20%
102	Gemini 2.5 Flash (Reasoning)	80.0%	$0.0062	11.7s	20%
103	Qwen 3.6 Flash	70.0%	$0.0024	8.1s	8%
104	o4 Mini	70.0%	$0.0026	7.4s	8%
105	Cohere Command R+ (Aug. 2024)	70.0%	$0.0028	5.5s	8%
106	Llama 3.1 70B	60.0%	$0.0002	3.4s	2%
107	Inception Mercury 2	60.0%	$0.0004	879ms	2%
108	GPT-5.4 Nano (Reasoning, Low)	60.0%	$0.0003	3.3s	2%
109	GPT-4.1 Mini	60.0%	$0.0004	2.8s	2%
110	GPT-5.4 Nano (Reasoning)	60.0%	$0.0004	5.3s	2%
111	Qwen3 235B A22B Instruct 2507	60.0%	$0.0002	14.2s	2%
112	Xiaomi MIMO v2.5	60.0%	$0.0010	5.2s	2%
113	GPT-5 Nano	60.0%	$0.0006	17.5s	2%
114	o4 Mini High	70.0%	$0.0046	13.2s	8%
115	Ministral 8B	50.0%	$0.0000	347ms	0%
116	GPT-4o Mini (temp=0)	50.0%	$0.0000	877ms	0%
117	GPT-4o Mini (temp=1)	50.0%	$0.0000	862ms	0%
118	Mistral Small 3.2 24B	50.0%	$0.0000	2.4s	0%
119	Hermes 3 70B	50.0%	$0.0001	3.2s	0%
120	Gemma 3 12B	50.0%	$0.0000	4.9s	0%
121	DeepSeek V4 Pro	50.0%	$0.0003	13.0s	0%
122	GPT-5.4 Nano	40.0%	$0.0001	1.1s	0%
123	GPT-5	90.0%	$0.016	28.4s	40%
124	Writer: Palmyra X5	50.0%	$0.0017	7.8s	0%
125	Grok 4.20	40.0%	$0.0002	867ms	0%
126	Qwen 2.5 72B	40.0%	$0.0001	3.9s	0%
127	ByteDance Seed 1.6 Flash	40.0%	$0.0002	5.1s	0%
128	Ministral 3B	30.0%	$0.0000	357ms	0%
129	GPT-4.1 Nano	30.0%	$0.0000	1.6s	0%
130	Arcee AI: Trinity Mini	40.0%	$0.0001	32.5s	0%
131	Gemma 3 27B	30.0%	$0.0001	8.2s	0%
132	GPT-4o, Aug. 6th (temp=1)	30.0%	$0.0007	1.3s	0%
133	Nemotron 3 Super	30.0%	$0.0000	12.9s	0%
134	Mistral Small 4 (Reasoning)	30.0%	$0.0006	6.3s	0%
135	Mistral Small 4	10.0%	$0.0001	1.2s	0%
136	Ministral 3 8B	0.0%	$0.0000	711ms	0%
137	Ministral 3 14B	0.0%	$0.0000	912ms	0%
138	Mistral Medium 3.1	0.0%	$0.0004	3.6s	0%
139	GPT-4o, Aug. 6th (temp=0)	0.0%	$0.0007	1.9s	0%
140	DeepSeek V4 Pro (Reasoning)	70.0%	$0.0097	4.8m	8%
81.93%

Individual Scenarios

▼

Asking for directions (Dutch)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	0	80.0%
GPT-5 Mini	100	100	100	100	0	80.0%
Aion 3.0	100	100	100	100	0	80.0%
o4 Mini High	100	100	100	100	0	80.0%
MiniMax M2.5	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
Qwen 3.5 Flash	100	100	100	100	0	80.0%
Gemini 3 Flash (Preview)	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Aion 3.0 Mini	100	100	100	100	0	80.0%
Claude Haiku 4.5	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
DeepSeek V4 Flash	100	100	100	100	0	80.0%
GPT-4.1 Mini	100	100	100	100	0	80.0%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
GPT-5 Nano	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
Writer: Palmyra X5	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	100	0	80.0%
WizardLM 2 8x22b	100	100	100	100	0	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
GPT-5.4	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5	100	100	100	0	0	60.0%
Inception Mercury 2	100	100	100	0	0	60.0%
GPT-5.4 Mini	100	100	100	0	0	60.0%
Nemotron 3 Nano	100	100	100	0	0	60.0%
Gemma 3 4B	100	100	100	0	0	60.0%
Qwen 3.6 Flash	100	100	0	0	0	40.0%
DeepSeek V4 Pro (Reasoning)	100	100	0	0	0	40.0%
o4 Mini	100	100	0	0	0	40.0%
Nemotron 3 Super	100	100	0	0	0	40.0%
Grok 4.20	100	100	0	0	0	40.0%
GPT-5.4 Nano	100	100	0	0	0	40.0%
ByteDance Seed 1.6 Flash	100	100	0	0	0	40.0%
GPT-4.1 Nano	100	100	0	0	0	40.0%
Arcee AI: Trinity Mini	100	100	0	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	100	0	0	0	40.0%
Ministral 8B	100	100	0	0	0	40.0%
Ministral 3B	100	100	0	0	0	40.0%
GPT-4o, Aug. 6th (temp=1)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Hermes 3 70B	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%

▼

Asking for directions (German)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	0	80.0%
GPT-5.1	100	100	100	100	0	80.0%
GPT-5.2	100	100	100	100	0	80.0%
Claude Sonnet 5	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
Gemma 4 31B	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	0	80.0%
Z.AI GLM 4.5	100	100	100	100	0	80.0%
GPT-OSS 120B	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Aion 3.0 Mini	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
GPT-5.4 Mini	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
o4 Mini High	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5	100	100	100	0	0	60.0%
Inception Mercury 2	100	100	100	0	0	60.0%
Mistral Small 4 (Reasoning)	100	100	100	0	0	60.0%
Grok 4.3	100	100	100	0	0	60.0%
Gemma 3 27B	100	100	100	0	0	60.0%
Ministral 8B	100	100	100	0	0	60.0%
GPT-4.1 Mini	100	100	0	0	0	40.0%
GPT-4o, Aug. 6th (temp=1)	100	100	0	0	0	40.0%
Grok 4.20	100	100	0	0	0	40.0%
GPT-5 Nano	100	100	0	0	0	40.0%
Qwen3 235B A22B Instruct 2507	100	100	0	0	0	40.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	0	0	0	40.0%
GPT-5.4 Nano	100	100	0	0	0	40.0%
ByteDance Seed 1.6 Flash	100	100	0	0	0	40.0%
Arcee AI: Trinity Mini	100	100	0	0	0	40.0%
Nemotron 3 Super	100	0	0	0	0	20.0%
GPT-5.4 Nano (Reasoning)	100	0	0	0	0	20.0%
Writer: Palmyra X5	100	0	0	0	0	20.0%
Mistral Small 4	100	0	0	0	0	20.0%
GPT-4.1 Nano	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%

Matches Regex

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Asking for directions (Dutch)

Asking for directions (German)