Asking for directions (Dutch)

Language Comprehension

Does the model understand more than just English?

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%

	Score	Cost	Time
Mistral NeMO	80%	$0.0000	440ms
Ministral 3 3B	100%	$0.0000	930ms
Gemini 2.5 Flash Lite	80%	$0.0001	735ms
Mistral Large 3	100%	$0.0001	984ms
Stealth: Aurora Alpha	80%	—	1.2s
GPT-5.4 Mini	60%	$0.0001	685ms
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	954ms
Gemini 3.1 Flash Lite	100%	$0.0002	1.0s
Gemma 4 31B	100%	$0.0000	2.2s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0002	1.1s
Gemma 3 4B	60%	$0.0000	2.0s
Grok 4.3	80%	$0.0003	1.1s
Gemini 2.5 Flash	80%	$0.0002	796ms
Llama 3.1 8B	60%	$0.0000	1.7s
Gemini 3 Flash (Preview)	80%	$0.0003	1.2s
Z.AI GLM 4.5	100%	$0.0001	2.4s
Gemma 4 26B	100%	$0.0000	7.2s
Grok 4.20 (Beta)	60%	$0.0004	571ms
Inception Mercury 2	60%	$0.0005	1.0s
Cydonia 24B V4.1	80%	$0.0001	2.7s

	Score	Cost	Speed	Stability
Ministral 3 3B	100%	$0.0000	930ms	100%
Mistral Large 3	100%	$0.0001	984ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	954ms	100%
Gemini 3.1 Flash Lite	100%	$0.0002	1.0s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0002	1.1s	100%
Gemma 4 31B	100%	$0.0000	2.2s	100%
Z.AI GLM 4.5	100%	$0.0001	2.4s	100%
Grok 4 Fast	100%	$0.0003	3.8s	100%
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0013	1.2s	100%
DeepSeek V3 (2024-12-26)	100%	$0.0002	5.9s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0003	5.5s	100%
Gemma 4 26B	100%	$0.0000	7.2s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0009	3.6s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0005	6.1s	100%
GPT-5.5	100%	$0.0017	1.7s	100%
GPT-4.1	100%	$0.0014	3.1s	100%
Mistral Large 2	100%	$0.0011	5.0s	100%
GPT-4o, May 13th (temp=1)	100%	$0.0017	2.6s	100%
DeepSeek V3.1	100%	$0.0003	8.8s	100%
GPT-4o, May 13th (temp=0)	100%	$0.0018	2.5s	100%

Language Comprehension

Asking for directions (Dutch)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
61	Claude Opus 4.6 (Reasoning)	$0.011	8.1s	100%	100	100	100	100	100	100%
81	Qwen3.7 Max	$0.032	1.1m	100%	100	100	100	100	100	100%
67	Gemini 3.1 Pro (Preview)	$0.012	12.6s	100%	100	100	100	100	100	100%
47	GPT-5.4 (Reasoning)	$0.0055	9.8s	100%	100	100	100	100	100	100%
77	Qwen3.6 Max Preview	$0.014	50.6s	100%	100	100	100	100	100	100%
64	GPT-5.5 (Reasoning)	$0.012	10.2s	100%	100	100	100	100	100	100%
52	Claude Sonnet 4.6 (Reasoning)	$0.0077	12.1s	100%	100	100	100	100	100	100%
46	Z.AI GLM 5.2 (Reasoning, High)	$0.0036	15.6s	100%	100	100	100	100	100	100%
51	Gemini 3.5 Flash (Reasoning)	$0.0091	4.9s	100%	100	100	100	100	100	100%
39	Z.AI GLM 5 Turbo	$0.0031	9.9s	100%	100	100	100	100	100	100%
79	MoonshotAI: Kimi K2.6	$0.014	1.5m	100%	100	100	100	100	100	100%
48	Claude Opus 4.7 (Reasoning)	$0.0071	3.4s	100%	100	100	100	100	100	100%
45	GPT-5.5 (Reasoning, Low)	$0.0056	4.9s	100%	100	100	100	100	100	100%
62	Claude Opus 4.8 (Reasoning)	$0.012	6.1s	100%	100	100	100	100	100	100%
41	Claude Opus 4.6	$0.0049	4.8s	100%	100	100	100	100	100	100%
68	Claude Opus 4.8 (Reasoning, Low)	$0.014	7.0s	100%	100	100	100	100	100	100%
73	GPT-5	$0.014	26.9s	100%	100	100	100	100	100	100%
63	Qwen 3.5 397B A17B	$0.0049	39.2s	100%	100	100	100	100	100	100%
78	Grok 4.3 (Reasoning)	$0.010	1.2m	100%	100	100	100	100	100	100%
76	Grok 4.20 (Beta, Reasoning)	$0.020	13.7s	100%	100	100	100	100	100	100%
28	GPT-5.4 (Reasoning, Low)	$0.0028	4.2s	100%	100	100	100	100	100	100%
74	Grok 4.20 (Reasoning)	$0.011	44.8s	100%	100	100	100	100	100	100%
69	MoonshotAI: Kimi K2.5	$0.0059	40.3s	100%	100	100	100	100	100	100%
44	GPT-5.1	$0.0041	9.4s	100%	100	100	100	100	100	100%
26	Claude Sonnet 4.6	$0.0026	3.2s	100%	100	100	100	100	100	100%
59	MiniMax M3	$0.0019	43.3s	100%	100	100	100	100	100	100%
58	Qwen 3.5 122B	$0.0075	20.4s	100%	100	100	100	100	100	100%
70	Qwen 3.5 27B	$0.0081	34.2s	100%	100	100	100	100	100	100%
25	Gemini 3 Flash (Preview, Reasoning)	$0.0022	4.9s	100%	100	100	100	100	100	100%
49	Claude Opus 4.7	$0.0072	3.2s	100%	100	100	100	100	100	100%
29	GPT-5.4 Mini (Reasoning)	$0.0019	7.9s	100%	100	100	100	100	100	100%
65	Qwen 3.5 Plus (2026-04-20)	$0.0051	39.9s	100%	100	100	100	100	100	100%
34	Gemma 4 31B (Reasoning)	$0.0002	16.8s	100%	100	100	100	100	100	100%
40	Claude Opus 4.5	$0.0047	3.9s	100%	100	100	100	100	100	100%
75	Z.AI GLM 5	$0.0044	1.2m	100%	100	100	100	100	100	100%
35	ByteDance Seed 1.6	$0.0011	13.6s	100%	100	100	100	100	100	100%
32	Grok 4.1 Fast	$0.0009	13.3s	100%	100	100	100	100	100	100%
31	GPT-5.2	$0.0027	4.9s	100%	100	100	100	100	100	100%
15	GPT-5.5	$0.0017	1.7s	100%	100	100	100	100	100	100%
22	Gemma 4 26B (Reasoning)	$0.0003	10.7s	100%	100	100	100	100	100	100%
66	Gemini 3 Pro (Preview)	$0.013	9.6s	100%	100	100	100	100	100	100%
53	Gemini 2.5 Pro	$0.0089	8.2s	100%	100	100	100	100	100	100%
50	Qwen 3.6 27B	$0.0045	21.9s	100%	100	100	100	100	100	100%
82	DeepSeek V4 Flash (Reasoning)	$0.0004	3.8m	100%	100	100	100	100	100	100%
57	Z.AI GLM 4.7	$0.0028	37.8s	100%	100	100	100	100	100	100%
37	Qwen 3.6 35B	$0.0023	11.1s	100%	100	100	100	100	100	100%
54	Z.AI GLM 4.6	$0.0022	36.6s	100%	100	100	100	100	100	100%
27	Claude Sonnet 4	$0.0026	3.6s	100%	100	100	100	100	100	100%
30	Claude Sonnet 4.5	$0.0030	3.6s	100%	100	100	100	100	100	100%
56	Claude Opus 4	$0.0098	8.5s	100%	100	100	100	100	100	100%
55	Qwen 3.5 35B	$0.0066	19.4s	100%	100	100	100	100	100	100%
16	GPT-4.1	$0.0014	3.1s	100%	100	100	100	100	100	100%
43	Aion 2.0	$0.0014	19.3s	100%	100	100	100	100	100	100%
71	MiniMax M2.7	$0.0036	57.7s	100%	100	100	100	100	100	100%
11	Qwen 3.5 Plus (2026-02-15)	$0.0003	5.5s	100%	100	100	100	100	100	100%
8	Grok 4 Fast	$0.0003	3.8s	100%	100	100	100	100	100	100%
5	Gemini 3.1 Flash Lite (Reasoning)	$0.0002	1.1s	100%	100	100	100	100	100	100%
9	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0013	1.2s	100%	100	100	100	100	100	100%
80	ByteDance Seed 2.0 Mini	$0.0023	2.6m	100%	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0001	954ms	100%	100	100	100	100	100	100%
6	Gemma 4 31B	$0.0000	2.2s	100%	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite	$0.0002	1.0s	100%	100	100	100	100	100	100%
7	Z.AI GLM 4.5	$0.0001	2.4s	100%	100	100	100	100	100	100%
12	Gemma 4 26B	$0.0000	7.2s	100%	100	100	100	100	100	100%
33	GPT-OSS 120B	$0.0002	16.4s	100%	100	100	100	100	100	100%
20	GPT-4o, May 13th (temp=0)	$0.0018	2.5s	100%	100	100	100	100	100	100%
2	Mistral Large 3	$0.0001	984ms	100%	100	100	100	100	100	100%
60	ByteDance Seed 2.0 Lite	$0.0033	37.9s	100%	100	100	100	100	100	100%
21	DeepSeek-V2 Chat	$0.0001	10.3s	100%	100	100	100	100	100	100%
72	Qwen 3.5 9B	$0.0006	1.2m	100%	100	100	100	100	100	100%
13	GPT-5.4 Mini (Reasoning, Low)	$0.0009	3.6s	100%	100	100	100	100	100	100%
18	GPT-4o, May 13th (temp=1)	$0.0017	2.6s	100%	100	100	100	100	100	100%
10	DeepSeek V3 (2024-12-26)	$0.0002	5.9s	100%	100	100	100	100	100	100%
19	DeepSeek V3.1	$0.0003	8.8s	100%	100	100	100	100	100	100%
38	DeepSeek V3.2	$0.0003	20.0s	100%	100	100	100	100	100	100%
36	Z.AI GLM 4.7 Flash	$0.0004	16.8s	100%	100	100	100	100	100	100%
17	Mistral Large 2	$0.0011	5.0s	100%	100	100	100	100	100	100%
23	Hermes 3 405B	$0.0000	11.9s	100%	100	100	100	100	100	100%
42	Z.AI GLM 4.5 Air	$0.0012	20.0s	100%	100	100	100	100	100	100%
14	GPT-5.4 Nano (Reasoning)	$0.0005	6.1s	100%	100	100	100	100	100	100%
24	DeepSeek V3 (2025-03-24)	$0.0001	12.0s	100%	100	100	100	100	100	100%
1	Ministral 3 3B	$0.0000	930ms	100%	100	100	100	100	100	100%
106	Z.AI GLM 5.1	$0.0043	36.9s	20%	100	100	100	100	0	80%
97	GPT-5 Mini	$0.0015	12.3s	20%	100	100	100	100	0	80%
100	o4 Mini High	$0.0040	12.7s	20%	100	100	100	100	0	80%
93	Stealth: Hunter Alpha	$0.0000	8.7s	20%	100	100	100	100	0	80%
105	MiniMax M2.5	$0.0025	40.2s	20%	100	100	100	100	0	80%
101	Xiaomi MIMO v2.5 Pro	$0.0037	18.6s	20%	100	100	100	100	0	80%
102	Qwen 3.5 Flash	$0.0017	29.1s	20%	100	100	100	100	0	80%
86	Gemini 3 Flash (Preview)	$0.0003	1.2s	20%	100	100	100	100	0	80%
104	Gemini 2.5 Flash (Reasoning)	$0.0072	13.3s	20%	100	100	100	100	0	80%
107	Stealth: Aurora Alpha	—	1.2s	20%	100	100	100	100	0	80%
90	Claude Haiku 4.5	$0.0008	2.0s	20%	100	100	100	100	0	80%
103	Gemini 2.5 Flash Lite (Reasoning)	$0.0010	33.3s	20%	100	100	100	100	0	80%
96	DeepSeek V4 Flash	$0.0000	16.9s	20%	100	100	100	100	0	80%
89	GPT-4.1 Mini	$0.0004	3.3s	20%	100	100	100	100	0	80%
85	Gemini 2.5 Flash	$0.0002	796ms	20%	100	100	100	100	0	80%
98	GPT-5 Nano	$0.0006	17.3s	20%	100	100	100	100	0	80%
84	Gemini 2.5 Flash Lite	$0.0001	735ms	20%	100	100	100	100	0	80%
99	Qwen 3 32B	$0.0005	20.3s	20%	100	100	100	100	0	80%
94	Writer: Palmyra X5	$0.0016	5.6s	20%	100	100	100	100	0	80%
95	Qwen3 235B A22B Instruct 2507	$0.0002	15.7s	20%	100	100	100	100	0	80%
87	Grok 4.3	$0.0003	1.1s	20%	100	100	100	100	0	80%
91	GPT-5.4 Nano (Reasoning, Low)	$0.0004	4.0s	20%	100	100	100	100	0	80%
88	Cydonia 24B V4.1	$0.0001	2.7s	20%	100	100	100	100	0	80%
92	WizardLM 2 8x22b	$0.0003	6.3s	20%	100	100	100	100	0	80%
83	Mistral NeMO	$0.0000	440ms	20%	100	100	100	100	0	80%
156	Grok 4	$0.132	3.8m	2%	100	100	100	0	0	60%
118	Stealth: Healer Alpha	$0.0000	18.5s	2%	100	100	100	0	0	60%
114	GPT-5.4	$0.0020	2.2s	2%	100	100	100	0	0	60%
115	Xiaomi MIMO v2.5	$0.0012	6.3s	2%	100	100	100	0	0	60%
117	Claude 3.7 Sonnet	$0.0023	3.4s	2%	100	100	100	0	0	60%
111	Grok 4.20 (Beta)	$0.0004	571ms	2%	100	100	100	0	0	60%
112	Inception Mercury 2	$0.0005	1.0s	2%	100	100	100	0	0	60%
108	GPT-5.4 Mini	$0.0001	685ms	2%	100	100	100	0	0	60%
113	Mistral Large	$0.0011	3.5s	2%	100	100	100	0	0	60%
116	Nemotron 3 Nano	$0.0002	10.9s	2%	100	100	100	0	0	60%
110	Gemma 3 4B	$0.0000	2.0s	2%	100	100	100	0	0	60%
109	Llama 3.1 8B	$0.0000	1.7s	2%	100	100	100	0	0	60%
133	Qwen 3.6 Flash	$0.0028	9.6s	0%	100	100	0	0	0	40%
155	DeepSeek V4 Pro (Reasoning)	$0.018	8.9m	0%	100	100	0	0	0	40%
131	o4 Mini	$0.0020	5.2s	0%	100	100	0	0	0	40%
130	Nemotron 3 Super	$0.0000	12.1s	0%	100	100	0	0	0	40%
122	Grok 4.20	$0.0002	862ms	0%	100	100	0	0	0	40%
124	Arcee AI: Trinity Large (Preview)	$0.0000	1.9s	0%	100	100	0	0	0	40%
121	GPT-5.4 Nano	$0.0001	1.1s	0%	100	100	0	0	0	40%
129	ByteDance Seed 1.6 Flash	$0.0003	6.0s	0%	100	100	0	0	0	40%
125	Claude 3 Haiku	$0.0001	1.4s	0%	100	100	0	0	0	40%
123	GPT-4.1 Nano	$0.0000	1.6s	0%	100	100	0	0	0	40%
126	Arcee AI: Trinity Mini	$0.0001	2.6s	0%	100	100	0	0	0	40%
132	Cohere Command R+ (Aug. 2024)	$0.0027	5.5s	0%	100	100	0	0	0	40%
120	Ministral 8B	$0.0000	354ms	0%	100	100	0	0	0	40%
127	Skyfall 36B V2	$0.0002	3.1s	0%	100	100	0	0	0	40%
119	Ministral 3B	$0.0000	309ms	0%	100	100	0	0	0	40%
128	Rocinante 12B	$0.0001	5.7s	0%	100	100	0	0	0	40%
139	Claude 3.5 Sonnet	$0.0019	3.4s	0%	100	0	0	0	0	20%
136	GPT-4o, Aug. 6th (temp=1)	$0.0006	1.3s	0%	100	0	0	0	0	20%
134	Inception Mercury	$0.0000	685ms	0%	100	0	0	0	0	20%
138	Llama 3.1 70B	$0.0002	3.4s	0%	100	0	0	0	0	20%
140	Llama 3.1 Nemotron 70B	$0.0002	13.0s	0%	100	0	0	0	0	20%
135	Hermes 3 70B	$0.0001	3.2s	0%	100	0	0	0	0	20%
137	LFM2 24B	$0.0000	4.0s	0%	100	0	0	0	0	20%
149	GPT-4o, Aug. 6th (temp=0)	$0.0006	1.7s	0%	0	0	0	0	0	0%
154	DeepSeek V4 Pro	$0.0002	19.8s	0%	0	0	0	0	0	0%
153	Mistral Small 4 (Reasoning)	$0.0007	8.1s	0%	0	0	0	0	0	0%
143	GPT-4o Mini (temp=1)	$0.0000	923ms	0%	0	0	0	0	0	0%
144	GPT-4o Mini (temp=0)	$0.0000	1.0s	0%	0	0	0	0	0	0%
147	Mistral Small 3.2 24B	$0.0001	3.2s	0%	0	0	0	0	0	0%
150	Mistral Medium 3.1	$0.0004	2.8s	0%	0	0	0	0	0	0%
151	Gemma 3 12B	$0.0000	4.2s	0%	0	0	0	0	0	0%
152	Gemma 3 27B	$0.0001	7.2s	0%	0	0	0	0	0	0%
146	Mistral Small 4	$0.0001	1.2s	0%	0	0	0	0	0	0%
145	Mistral Small Creative	$0.0001	1.0s	0%	0	0	0	0	0	0%
148	Qwen 2.5 72B	$0.0001	3.4s	0%	0	0	0	0	0	0%
142	Ministral 3 14B	$0.0000	816ms	0%	0	0	0	0	0	0%
141	Ministral 3 8B	$0.0000	729ms	0%	0	0	0	0	0	0%
75.00%