Language Comprehension

Does the model understand more than just English?

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Grok 4.20 (Beta, Reasoning)	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%
GPT-5.4 Mini (Reasoning)	100%
Claude Opus 4.5	100%
Aion 2.0	100%

	Score	Cost	Time
Mistral NeMO	95%	$0.0000	625ms
Inception Mercury	65%	$0.0000	562ms
Ministral 3 3B	100%	$0.0000	833ms
Gemini 2.5 Flash Lite	80%	$0.0001	648ms
Ministral 8B	55%	$0.0000	540ms
GPT-4o Mini (temp=1)	55%	$0.0000	942ms
Stealth: Aurora Alpha	85%	—	1.3s
GPT-5.4 Nano	70%	$0.0001	990ms
Gemini 3.1 Flash Lite (Preview)	95%	$0.0001	975ms
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0002	1.6s
Gemini 3.1 Flash Lite	85%	$0.0001	905ms
GPT-5.4 Mini	80%	$0.0002	747ms
Gemma 3 4B	70%	$0.0000	1.7s
Mistral Small 4	55%	$0.0001	1.1s
Arcee AI: Trinity Large (Preview)	80%	$0.0000	2.5s
Llama 3.1 8B	55%	$0.0000	1.3s
Mistral Small 3.2 24B	75%	$0.0000	2.4s
GPT-4.1 Nano	65%	$0.0000	1.7s
Inception Mercury 2	75%	$0.0003	771ms
Gemini 2.5 Flash	75%	$0.0002	817ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Aion 2.0	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 3 3B	100%	$0.0000	833ms	100%
Mistral Large 3	100%	$0.0002	3.7s	100%
DeepSeek V3 (2024-12-26)	100%	$0.0002	4.8s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0003	4.8s	100%
Mistral Large 2	100%	$0.0009	3.8s	100%
DeepSeek-V2 Chat	100%	$0.0000	6.6s	100%
GPT-4o, May 13th (temp=0)	100%	$0.0016	2.4s	100%
DeepSeek V3 (2025-03-24)	100%	$0.0001	7.5s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0012	4.8s	100%
Claude Sonnet 4.6	100%	$0.0021	3.1s	100%
Hermes 3 405B	100%	$0.0000	12.1s	100%
Claude Opus 4.5	100%	$0.0035	3.7s	100%
Claude Opus 4.6	100%	$0.0037	4.3s	100%
GPT-5.5 (Reasoning, Low)	100%	$0.0039	4.7s	100%
Z.AI GLM 5 Turbo	100%	$0.0030	9.5s	100%
Aion 2.0	100%	$0.0011	15.9s	100%
Claude Opus 4.7 (Reasoning)	100%	$0.0056	3.2s	100%
ByteDance Seed 1.6	100%	$0.0013	15.8s	100%
GPT-5.5 (Reasoning)	100%	$0.0068	6.3s	100%
Claude Sonnet 4.6 (Reasoning)	100%	$0.0061	8.3s	100%

Model	Total ▼	Friend got new kittens (Tagalog)	Friend got new kittens (German)	Asking for directions (German)	Asking for directions (Dutch)
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%	100%	100%
Claude Opus 4.6	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%	100%	100%

Friend got new kittens (Tagalog)

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%

	Score	Cost	Time
Mistral NeMO	100%	$0.0000	515ms
Inception Mercury	100%	$0.0000	418ms
Gemini 2.5 Flash Lite	100%	$0.0000	505ms
Ministral 3 3B	100%	$0.0000	715ms
Gemma 3 4B	100%	$0.0000	903ms
Stealth: Aurora Alpha	100%	—	1.5s
GPT-4o Mini (temp=1)	100%	$0.0000	883ms
Gemini 2.5 Flash	100%	$0.0001	518ms
Gemma 4 26B	100%	$0.0000	4.0s
Ministral 3 8B	100%	$0.0000	1.2s
Mistral Small Creative	100%	$0.0000	918ms
GPT-5.4 Nano	100%	$0.0001	759ms
GPT-4.1 Nano	100%	$0.0000	1.4s
Llama 3.1 8B	80%	$0.0000	1.2s
GPT-4o Mini (temp=0)	100%	$0.0000	1.2s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0001	955ms
Ministral 3 14B	100%	$0.0000	1.3s
Mistral Small 4	100%	$0.0001	997ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	3.5s
DeepSeek V4 Flash	100%	$0.0000	3.7s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Inception Mercury	100%	$0.0000	418ms	100%
Mistral NeMO	100%	$0.0000	515ms	100%
Gemini 2.5 Flash Lite	100%	$0.0000	505ms	100%
Ministral 3 3B	100%	$0.0000	715ms	100%
Gemini 2.5 Flash	100%	$0.0001	518ms	100%
Gemma 3 4B	100%	$0.0000	903ms	100%
GPT-5.4 Nano	100%	$0.0001	759ms	100%
GPT-4o Mini (temp=1)	100%	$0.0000	883ms	100%
Mistral Small Creative	100%	$0.0000	918ms	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0001	955ms	100%
Ministral 3 8B	100%	$0.0000	1.2s	100%
Mistral Small 4	100%	$0.0001	997ms	100%
GPT-4o Mini (temp=0)	100%	$0.0000	1.2s	100%
Ministral 3 14B	100%	$0.0000	1.3s	100%
GPT-4.1 Nano	100%	$0.0000	1.4s	100%
Gemini 3.1 Flash Lite	100%	$0.0001	940ms	100%
Inception Mercury 2	100%	$0.0002	614ms	100%
Claude 3 Haiku	100%	$0.0001	1.0s	100%
GPT-5.4 Mini	100%	$0.0002	597ms	100%
Stealth: Aurora Alpha	100%	—	1.5s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
121	Claude Opus 4.6 (Reasoning)	$0.0049	4.6s	100%	100	100	100	100	100	100%
129	Qwen3.6 Max Preview	$0.0051	20.2s	100%	100	100	100	100	100	100%
139	Gemini 3.1 Pro (Preview)	$0.011	12.3s	100%	100	100	100	100	100	100%
124	Z.AI GLM 5.1	$0.0032	19.0s	100%	100	100	100	100	100	100%
111	Z.AI GLM 5 Turbo	$0.0026	8.0s	100%	100	100	100	100	100	100%
115	Claude Sonnet 4.6 (Reasoning)	$0.0037	3.9s	100%	100	100	100	100	100	100%
94	Grok 4.3 (Reasoning)	$0.0014	7.9s	100%	100	100	100	100	100	100%
84	GPT-5.4 (Reasoning)	$0.0014	3.5s	100%	100	100	100	100	100	100%
122	Claude Opus 4.7 (Reasoning)	$0.0052	3.1s	100%	100	100	100	100	100	100%
108	GPT-5.5 (Reasoning)	$0.0031	3.9s	100%	100	100	100	100	100	100%
95	GPT-5 Mini	$0.0012	9.7s	100%	100	100	100	100	100	100%
96	GPT-5.5 (Reasoning, Low)	$0.0023	3.7s	100%	100	100	100	100	100	100%
75	GPT-5.1	$0.0011	4.1s	100%	100	100	100	100	100	100%
104	Claude Opus 4.6	$0.0030	3.7s	100%	100	100	100	100	100	100%
98	MoonshotAI: Kimi K2.6	$0.0018	7.9s	100%	100	100	100	100	100	100%
119	GPT-5	$0.0034	9.1s	100%	100	100	100	100	100	100%
132	Qwen 3.5 397B A17B	$0.0044	37.3s	100%	100	100	100	100	100	100%
123	Qwen 3.5 122B	$0.0040	10.2s	100%	100	100	100	100	100	100%
100	Qwen 3.5 Plus (2026-04-20)	$0.0014	10.4s	100%	100	100	100	100	100	100%
114	Gemma 4 26B (Reasoning)	$0.0002	24.7s	100%	100	100	100	100	100	100%
109	Grok 4.20 (Beta, Reasoning)	$0.0035	2.4s	100%	100	100	100	100	100	100%
71	GPT-5.4 (Reasoning, Low)	$0.0011	2.8s	100%	100	100	100	100	100	100%
106	Grok 4.20 (Reasoning)	$0.0021	9.6s	100%	100	100	100	100	100	100%
126	Z.AI GLM 5	$0.0026	26.6s	100%	100	100	100	100	100	100%
78	Claude Sonnet 4.6	$0.0014	2.6s	100%	100	100	100	100	100	100%
107	MoonshotAI: Kimi K2.5	$0.0018	11.2s	100%	100	100	100	100	100	100%
118	Qwen 3.5 27B	$0.0026	12.4s	100%	100	100	100	100	100	100%
101	ByteDance Seed 1.6	$0.0011	13.1s	100%	100	100	100	100	100	100%
81	Qwen 3.6 Flash	$0.0011	4.7s	100%	100	100	100	100	100	100%
60	GPT-5.4 Mini (Reasoning)	$0.0006	2.7s	100%	100	100	100	100	100	100%
72	Gemini 3 Flash (Preview, Reasoning)	$0.0011	2.9s	100%	100	100	100	100	100	100%
92	o4 Mini High	$0.0018	5.6s	100%	100	100	100	100	100	100%
69	GPT-5.2	$0.0009	3.2s	100%	100	100	100	100	100	100%
137	DeepSeek V4 Pro (Reasoning)	$0.0014	1.1m	100%	100	100	100	100	100	100%
120	Claude Opus 4.7	$0.0044	4.1s	100%	100	100	100	100	100	100%
110	Qwen 3.6 27B	$0.0020	11.3s	100%	100	100	100	100	100	100%
93	Claude Opus 4.5	$0.0022	3.3s	100%	100	100	100	100	100	100%
34	Grok 4.1 Fast	$0.0002	2.9s	100%	100	100	100	100	100	100%
89	Aion 2.0	$0.0007	10.4s	100%	100	100	100	100	100	100%
127	Z.AI GLM 4.6	$0.0020	32.1s	100%	100	100	100	100	100	100%
97	MiniMax M2.7	$0.0007	13.4s	100%	100	100	100	100	100	100%
76	GPT-5.5	$0.0015	2.2s	100%	100	100	100	100	100	100%
83	Qwen 3.6 35B	$0.0010	5.6s	100%	100	100	100	100	100	100%
25	DeepSeek V4 Flash (Reasoning)	$0.0000	2.3s	100%	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.0097	8.1s	100%	100	100	100	100	100	100%
74	Claude Sonnet 4	$0.0013	2.7s	100%	100	100	100	100	100	100%
88	MiniMax M2.5	$0.0007	9.9s	100%	100	100	100	100	100	100%
57	GPT-4.1	$0.0006	1.9s	100%	100	100	100	100	100	100%
125	Gemini 2.5 Pro	$0.0055	5.8s	100%	100	100	100	100	100	100%
80	o4 Mini	$0.0013	3.5s	100%	100	100	100	100	100	100%
128	Grok 4	$0.0064	12.4s	100%	100	100	100	100	100	100%
73	Claude Sonnet 4.5	$0.0012	2.8s	100%	100	100	100	100	100	100%
113	Qwen 3.5 35B	$0.0028	8.6s	100%	100	100	100	100	100	100%
130	Claude Opus 4	$0.0074	7.5s	100%	100	100	100	100	100	100%
70	Xiaomi MIMO v2.5 Pro	$0.0007	5.0s	100%	100	100	100	100	100	100%
39	Stealth: Hunter Alpha	$0.0000	3.9s	100%	100	100	100	100	100	100%
112	ByteDance Seed 2.0 Mini	$0.0004	22.1s	100%	100	100	100	100	100	100%
79	Gemini 2.5 Flash (Reasoning)	$0.0013	3.5s	100%	100	100	100	100	100	100%
91	GPT-OSS 120B	$0.0001	15.5s	100%	100	100	100	100	100	100%
21	Gemini 3.1 Flash Lite (Reasoning)	$0.0002	981ms	100%	100	100	100	100	100	100%
131	Qwen 3.5 Flash	$0.0008	56.6s	100%	100	100	100	100	100	100%
85	Z.AI GLM 4.5	$0.0008	7.5s	100%	100	100	100	100	100	100%
28	Grok 4 Fast	$0.0002	2.3s	100%	100	100	100	100	100	100%
56	Qwen 3.5 Plus (2026-02-15)	$0.0002	3.9s	100%	100	100	100	100	100	100%
41	Stealth: Healer Alpha	$0.0000	3.9s	100%	100	100	100	100	100	100%
22	Gemini 3.1 Flash Lite (Preview)	$0.0002	1.1s	100%	100	100	100	100	100	100%
43	Gemma 4 26B	$0.0000	4.0s	100%	100	100	100	100	100	100%
16	Gemini 3.1 Flash Lite	$0.0001	940ms	100%	100	100	100	100	100	100%
37	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	2.6s	100%	100	100	100	100	100	100%
54	Mistral Large 3	$0.0003	3.5s	100%	100	100	100	100	100	100%
61	GPT-4o, May 13th (temp=0)	$0.0008	1.8s	100%	100	100	100	100	100	100%
26	Gemini 3 Flash (Preview)	$0.0002	1.2s	100%	100	100	100	100	100	100%
48	Claude Haiku 4.5	$0.0005	1.8s	100%	100	100	100	100	100	100%
68	Xiaomi MIMO v2.5	$0.0007	4.4s	100%	100	100	100	100	100	100%
55	DeepSeek-V2 Chat	$0.0000	5.1s	100%	100	100	100	100	100	100%
105	Z.AI GLM 4.7 Flash	$0.0004	19.2s	100%	100	100	100	100	100	100%
117	ByteDance Seed 2.0 Lite	$0.0015	18.2s	100%	100	100	100	100	100	100%
103	Nemotron 3 Super	$0.0000	21.2s	100%	100	100	100	100	100	100%
53	GPT-5.4	$0.0007	986ms	100%	100	100	100	100	100	100%
86	Claude 3.5 Sonnet	$0.0016	2.9s	100%	100	100	100	100	100	100%
49	Grok 4.20 (Beta)	$0.0007	738ms	100%	100	100	100	100	100	100%
17	Inception Mercury 2	$0.0002	614ms	100%	100	100	100	100	100	100%
66	GPT-4o, May 13th (temp=1)	$0.0010	1.5s	100%	100	100	100	100	100	100%
20	Stealth: Aurora Alpha	—	1.5s	100%	100	100	100	100	100	100%
58	DeepSeek V3 (2024-12-26)	$0.0002	4.7s	100%	100	100	100	100	100	100%
82	Claude 3.7 Sonnet	$0.0015	3.0s	100%	100	100	100	100	100	100%
24	GPT-4.1 Mini	$0.0001	1.6s	100%	100	100	100	100	100	100%
99	Z.AI GLM 4.5 Air	$0.0006	14.9s	100%	100	100	100	100	100	100%
77	Hermes 3 405B	$0.0000	11.1s	100%	100	100	100	100	100	100%
42	DeepSeek V4 Pro	$0.0002	3.1s	100%	100	100	100	100	100	100%
35	GPT-4o, Aug. 6th (temp=1)	$0.0004	1.3s	100%	100	100	100	100	100	100%
116	GPT-5 Nano	$0.0007	22.9s	100%	100	100	100	100	100	100%
31	GPT-4o, Aug. 6th (temp=0)	$0.0004	1.2s	100%	100	100	100	100	100	100%
19	GPT-5.4 Mini	$0.0002	597ms	100%	100	100	100	100	100	100%
51	Mistral Large 2	$0.0005	1.9s	100%	100	100	100	100	100	100%
46	Mistral Small 4 (Reasoning)	$0.0002	3.1s	100%	100	100	100	100	100	100%
64	DeepSeek V3.1	$0.0001	6.1s	100%	100	100	100	100	100	100%
67	DeepSeek V3.2	$0.0001	8.0s	100%	100	100	100	100	100	100%
87	Qwen 3 32B	$0.0003	12.2s	100%	100	100	100	100	100	100%
38	DeepSeek V4 Flash	$0.0000	3.7s	100%	100	100	100	100	100	100%
59	DeepSeek V3 (2025-03-24)	$0.0002	4.9s	100%	100	100	100	100	100	100%
36	Grok 4.20	$0.0004	1.7s	100%	100	100	100	100	100	100%
50	GPT-5.4 Nano (Reasoning)	$0.0002	3.7s	100%	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0000	505ms	100%	100	100	100	100	100	100%
5	Gemini 2.5 Flash	$0.0001	518ms	100%	100	100	100	100	100	100%
65	Mistral Large	$0.0008	2.6s	100%	100	100	100	100	100	100%
47	Qwen3 235B A22B Instruct 2507	$0.0001	4.2s	100%	100	100	100	100	100	100%
1	Inception Mercury	$0.0000	418ms	100%	100	100	100	100	100	100%
10	GPT-5.4 Nano (Reasoning, Low)	$0.0001	955ms	100%	100	100	100	100	100	100%
8	GPT-4o Mini (temp=1)	$0.0000	883ms	100%	100	100	100	100	100	100%
27	Mistral Small 3.2 24B	$0.0000	2.6s	100%	100	100	100	100	100	100%
23	Gemma 3 12B	$0.0000	2.0s	100%	100	100	100	100	100	100%
90	Llama 3.1 70B	$0.0001	14.1s	100%	100	100	100	100	100	100%
13	GPT-4o Mini (temp=0)	$0.0000	1.2s	100%	100	100	100	100	100	100%
33	Gemma 3 27B	$0.0000	3.6s	100%	100	100	100	100	100	100%
32	Mistral Medium 3.1	$0.0002	2.4s	100%	100	100	100	100	100	100%
102	Nemotron 3 Nano	$0.0002	19.5s	100%	100	100	100	100	100	100%
12	Mistral Small 4	$0.0001	997ms	100%	100	100	100	100	100	100%
40	Qwen 2.5 72B	$0.0001	3.6s	100%	100	100	100	100	100	100%
7	GPT-5.4 Nano	$0.0001	759ms	100%	100	100	100	100	100	100%
30	Arcee AI: Trinity Large (Preview)	$0.0000	3.5s	100%	100	100	100	100	100	100%
9	Mistral Small Creative	$0.0000	918ms	100%	100	100	100	100	100	100%
45	Hermes 3 70B	$0.0001	3.9s	100%	100	100	100	100	100	100%
14	Ministral 3 14B	$0.0000	1.3s	100%	100	100	100	100	100	100%
15	GPT-4.1 Nano	$0.0000	1.4s	100%	100	100	100	100	100	100%
11	Ministral 3 8B	$0.0000	1.2s	100%	100	100	100	100	100	100%
18	Claude 3 Haiku	$0.0001	1.0s	100%	100	100	100	100	100	100%
63	WizardLM 2 8x22b	$0.0002	5.4s	100%	100	100	100	100	100	100%
29	Arcee AI: Trinity Mini	$0.0001	2.9s	100%	100	100	100	100	100	100%
44	Cohere Command R+ (Aug. 2024)	$0.0005	1.2s	100%	100	100	100	100	100	100%
6	Gemma 3 4B	$0.0000	903ms	100%	100	100	100	100	100	100%
4	Ministral 3 3B	$0.0000	715ms	100%	100	100	100	100	100	100%
2	Mistral NeMO	$0.0000	515ms	100%	100	100	100	100	100	100%
52	LFM2 24B	$0.0000	4.9s	100%	100	100	100	100	100	100%
62	Rocinante 12B	$0.0000	6.1s	100%	100	100	100	100	100	100%
141	Gemma 4 31B (Reasoning)	$0.0001	16.7s	20%	100	100	100	100	0	80%
143	Z.AI GLM 4.7	$0.0022	26.7s	20%	100	100	100	100	0	80%
145	Qwen 3.5 9B	$0.0006	53.4s	20%	100	100	100	100	0	80%
140	Writer: Palmyra X5	$0.0006	12.9s	20%	100	100	100	100	0	80%
135	Grok 4.3	$0.0003	1.7s	20%	100	100	100	100	0	80%
138	Llama 3.1 Nemotron 70B	$0.0001	7.6s	20%	100	100	100	100	0	80%
136	ByteDance Seed 1.6 Flash	$0.0001	3.3s	20%	100	100	100	100	0	80%
134	Llama 3.1 8B	$0.0000	1.2s	20%	100	100	100	100	0	80%
142	GPT-5.4 Mini (Reasoning, Low)	$0.0003	3.1s	2%	100	100	100	0	0	60%
144	Ministral 8B	$0.0000	733ms	0%	100	100	0	0	0	40%
147	Gemma 4 31B	$0.0000	10.6s	0%	100	0	0	0	0	20%
146	Ministral 3B	$0.0000	644ms	0%	100	0	0	0	0	20%
97.14%

Median	Evaluator	Top 3	Flop 3
100.0%	Contains a count of nouns	100Claude Sonnet 4.6 (Reasoning) 100Qwen 3.5 Plus (2026-02-15) 100MoonshotAI: Kimi K2.6	20Gemma 4 31B 20Ministral 3B 40Ministral 8B

Friend got new kittens (German)

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Grok 4.20 (Beta, Reasoning)	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%
Qwen 3.6 Flash	100%
GPT-5.4 Mini (Reasoning)	100%

	Score	Cost	Time
Inception Mercury	100%	$0.0000	544ms
Ministral 8B	80%	$0.0000	733ms
Ministral 3 3B	100%	$0.0000	995ms
Stealth: Aurora Alpha	100%	—	914ms
Ministral 3 8B	100%	$0.0000	1.0s
Llama 3.1 8B	80%	$0.0000	1.1s
Mistral NeMO	100%	$0.0000	1.2s
Ministral 3 14B	100%	$0.0000	1.6s
Mistral Small 4	100%	$0.0001	1.2s
Gemini 3.1 Flash Lite (Reasoning)	80%	$0.0001	827ms
Gemini 3.1 Flash Lite	60%	$0.0001	725ms
Mistral Small Creative	100%	$0.0001	1.2s
Gemini 3.1 Flash Lite (Preview)	80%	$0.0001	841ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	3.0s
GPT-5.4 Nano	100%	$0.0001	989ms
Mistral Small 3.2 24B	100%	$0.0001	2.3s
GPT-4.1 Nano	100%	$0.0000	2.4s
Stealth: Healer Alpha	100%	$0.0000	3.8s
LFM2 24B	100%	$0.0000	3.9s
GPT-4.1 Mini	100%	$0.0001	2.0s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
Qwen 3.6 Flash	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Inception Mercury	100%	$0.0000	544ms	100%
Stealth: Aurora Alpha	100%	—	914ms	100%
Ministral 3 3B	100%	$0.0000	995ms	100%
Ministral 3 8B	100%	$0.0000	1.0s	100%
Mistral NeMO	100%	$0.0000	1.2s	100%
GPT-5.4 Nano	100%	$0.0001	989ms	100%
Mistral Small 4	100%	$0.0001	1.2s	100%
Mistral Small Creative	100%	$0.0001	1.2s	100%
Ministral 3 14B	100%	$0.0000	1.6s	100%
Mistral Small 3.2 24B	100%	$0.0001	2.3s	100%
GPT-4.1 Nano	100%	$0.0000	2.4s	100%
GPT-4.1 Mini	100%	$0.0001	2.0s	100%
Mistral Medium 3.1	100%	$0.0003	1.6s	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	3.0s	100%
Hermes 3 70B	100%	$0.0001	3.1s	100%
Stealth: Healer Alpha	100%	$0.0000	3.8s	100%
LFM2 24B	100%	$0.0000	3.9s	100%
Mistral Large 3	100%	$0.0002	2.7s	100%
Qwen 2.5 72B	100%	$0.0001	3.9s	100%
GPT-4o, Aug. 6th (temp=1)	100%	$0.0006	1.3s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
66	Claude Opus 4.6 (Reasoning)	$0.0072	6.8s	100%	100	100	100	100	100	100%
76	Qwen3.6 Max Preview	$0.0088	37.2s	100%	100	100	100	100	100	100%
59	Z.AI GLM 5 Turbo	$0.0040	12.1s	100%	100	100	100	100	100	100%
65	Claude Sonnet 4.6 (Reasoning)	$0.0062	9.7s	100%	100	100	100	100	100	100%
60	Claude Opus 4.7 (Reasoning)	$0.0057	3.7s	100%	100	100	100	100	100	100%
52	GPT-5.5 (Reasoning)	$0.0036	5.2s	100%	100	100	100	100	100	100%
47	GPT-5 Mini	$0.0015	10.9s	100%	100	100	100	100	100	100%
50	GPT-5.5 (Reasoning, Low)	$0.0033	4.1s	100%	100	100	100	100	100	100%
45	Claude Opus 4.6	$0.0025	3.9s	100%	100	100	100	100	100	100%
97	MoonshotAI: Kimi K2.6	$0.0057	1.2m	100%	100	100	100	100	100	100%
116	Qwen 3.5 397B A17B	$0.0099	1.3m	100%	100	100	100	100	100	100%
61	Qwen 3.5 122B	$0.0051	12.3s	100%	100	100	100	100	100	100%
58	Qwen 3.5 Plus (2026-04-20)	$0.0026	17.2s	100%	100	100	100	100	100	100%
64	Grok 4.20 (Beta, Reasoning)	$0.0067	4.9s	100%	100	100	100	100	100	100%
40	Claude Sonnet 4.6	$0.0017	3.0s	100%	100	100	100	100	100	100%
54	MoonshotAI: Kimi K2.5	$0.0021	14.3s	100%	100	100	100	100	100	100%
68	Qwen 3.5 27B	$0.0048	23.1s	100%	100	100	100	100	100	100%
56	ByteDance Seed 1.6	$0.0017	21.1s	100%	100	100	100	100	100	100%
44	Qwen 3.6 Flash	$0.0018	7.5s	100%	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0006	2.6s	100%	100	100	100	100	100	100%
71	DeepSeek V4 Pro (Reasoning)	$0.0036	54.9s	100%	100	100	100	100	100	100%
48	Claude Opus 4.5	$0.0030	3.9s	100%	100	100	100	100	100	100%
33	Grok 4.1 Fast	$0.0003	6.0s	100%	100	100	100	100	100	100%
51	Aion 2.0	$0.0012	17.4s	100%	100	100	100	100	100	100%
69	Z.AI GLM 4.6	$0.0026	50.1s	100%	100	100	100	100	100	100%
46	MiniMax M2.7	$0.0009	13.2s	100%	100	100	100	100	100	100%
62	DeepSeek V4 Flash (Reasoning)	$0.0002	39.1s	100%	100	100	100	100	100	100%
42	MiniMax M2.5	$0.0008	10.7s	100%	100	100	100	100	100	100%
86	Grok 4	$0.013	21.3s	100%	100	100	100	100	100	100%
67	Qwen 3.5 35B	$0.0052	18.7s	100%	100	100	100	100	100	100%
70	Claude Opus 4	$0.012	11.1s	100%	100	100	100	100	100	100%
49	Stealth: Hunter Alpha	$0.0000	20.5s	100%	100	100	100	100	100	100%
37	GPT-OSS 120B	$0.0002	9.6s	100%	100	100	100	100	100	100%
53	Qwen 3.5 Flash	$0.0010	19.5s	100%	100	100	100	100	100	100%
55	Z.AI GLM 4.5	$0.0015	18.3s	100%	100	100	100	100	100	100%
23	Grok 4 Fast	$0.0003	3.5s	100%	100	100	100	100	100	100%
25	Qwen 3.5 Plus (2026-02-15)	$0.0003	4.4s	100%	100	100	100	100	100	100%
16	Stealth: Healer Alpha	$0.0000	3.8s	100%	100	100	100	100	100	100%
18	Mistral Large 3	$0.0002	2.7s	100%	100	100	100	100	100	100%
35	GPT-4o, May 13th (temp=0)	$0.0014	2.1s	100%	100	100	100	100	100	100%
22	Claude Haiku 4.5	$0.0005	1.9s	100%	100	100	100	100	100	100%
29	DeepSeek-V2 Chat	$0.0000	6.5s	100%	100	100	100	100	100	100%
63	ByteDance Seed 2.0 Lite	$0.0023	28.3s	100%	100	100	100	100	100	100%
57	Nemotron 3 Super	$0.0000	30.8s	100%	100	100	100	100	100	100%
39	GPT-4o, May 13th (temp=1)	$0.0016	2.5s	100%	100	100	100	100	100	100%
2	Stealth: Aurora Alpha	—	914ms	100%	100	100	100	100	100	100%
30	DeepSeek V3 (2024-12-26)	$0.0002	5.5s	100%	100	100	100	100	100	100%
43	Claude 3.7 Sonnet	$0.0022	3.4s	100%	100	100	100	100	100	100%
12	GPT-4.1 Mini	$0.0001	2.0s	100%	100	100	100	100	100	100%
41	Hermes 3 405B	$0.0000	13.4s	100%	100	100	100	100	100	100%
20	GPT-4o, Aug. 6th (temp=1)	$0.0006	1.3s	100%	100	100	100	100	100	100%
21	GPT-4o, Aug. 6th (temp=0)	$0.0006	1.7s	100%	100	100	100	100	100	100%
32	Mistral Large 2	$0.0007	3.3s	100%	100	100	100	100	100	100%
36	Qwen 3 32B	$0.0001	9.5s	100%	100	100	100	100	100	100%
28	DeepSeek V3 (2025-03-24)	$0.0002	5.6s	100%	100	100	100	100	100	100%
31	Mistral Large	$0.0008	2.5s	100%	100	100	100	100	100	100%
34	Writer: Palmyra X5	$0.0009	3.6s	100%	100	100	100	100	100	100%
1	Inception Mercury	$0.0000	544ms	100%	100	100	100	100	100	100%
10	Mistral Small 3.2 24B	$0.0001	2.3s	100%	100	100	100	100	100	100%
26	Gemma 3 27B	$0.0001	6.0s	100%	100	100	100	100	100	100%
13	Mistral Medium 3.1	$0.0003	1.6s	100%	100	100	100	100	100	100%
7	Mistral Small 4	$0.0001	1.2s	100%	100	100	100	100	100	100%
19	Qwen 2.5 72B	$0.0001	3.9s	100%	100	100	100	100	100	100%
6	GPT-5.4 Nano	$0.0001	989ms	100%	100	100	100	100	100	100%
14	Arcee AI: Trinity Large (Preview)	$0.0000	3.0s	100%	100	100	100	100	100	100%
8	Mistral Small Creative	$0.0001	1.2s	100%	100	100	100	100	100	100%
15	Hermes 3 70B	$0.0001	3.1s	100%	100	100	100	100	100	100%
9	Ministral 3 14B	$0.0000	1.6s	100%	100	100	100	100	100	100%
11	GPT-4.1 Nano	$0.0000	2.4s	100%	100	100	100	100	100	100%
4	Ministral 3 8B	$0.0000	1.0s	100%	100	100	100	100	100	100%
38	WizardLM 2 8x22b	$0.0004	8.9s	100%	100	100	100	100	100	100%
3	Ministral 3 3B	$0.0000	995ms	100%	100	100	100	100	100	100%
5	Mistral NeMO	$0.0000	1.2s	100%	100	100	100	100	100	100%
17	LFM2 24B	$0.0000	3.9s	100%	100	100	100	100	100	100%
27	Rocinante 12B	$0.0001	6.0s	100%	100	100	100	100	100	100%
145	Gemini 3.1 Pro (Preview)	$0.015	16.6s	20%	100	100	100	100	0	80%
114	Grok 4.3 (Reasoning)	$0.0035	28.5s	20%	100	100	100	100	0	80%
96	GPT-5.4 (Reasoning)	$0.0023	4.4s	20%	100	100	100	100	0	80%
92	GPT-5.1	$0.0013	4.5s	20%	100	100	100	100	0	80%
99	Gemma 4 26B (Reasoning)	$0.0002	22.6s	20%	100	100	100	100	0	80%
104	Grok 4.20 (Reasoning)	$0.0036	15.8s	20%	100	100	100	100	0	80%
112	Z.AI GLM 5	$0.0037	25.9s	20%	100	100	100	100	0	80%
94	Gemini 3 Flash (Preview, Reasoning)	$0.0018	4.1s	20%	100	100	100	100	0	80%
141	Gemini 3 Pro (Preview)	$0.015	11.3s	20%	100	100	100	100	0	80%
85	GPT-4.1	$0.0007	1.8s	20%	100	100	100	100	0	80%
95	Claude Sonnet 4.5	$0.0019	3.7s	20%	100	100	100	100	0	80%
91	Xiaomi MIMO v2.5 Pro	$0.0009	6.0s	20%	100	100	100	100	0	80%
74	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	827ms	20%	100	100	100	100	0	80%
130	Qwen 3.5 9B	$0.0009	1.2m	20%	100	100	100	100	0	80%
75	Gemini 3.1 Flash Lite (Preview)	$0.0001	841ms	20%	100	100	100	100	0	80%
83	GPT-5.4 Mini (Reasoning, Low)	$0.0004	2.5s	20%	100	100	100	100	0	80%
87	Gemini 3 Flash (Preview)	$0.0007	2.2s	20%	100	100	100	100	0	80%
98	Z.AI GLM 4.7 Flash	$0.0005	20.5s	20%	100	100	100	100	0	80%
100	Claude 3.5 Sonnet	$0.0033	7.9s	20%	100	100	100	100	0	80%
81	Grok 4.20 (Beta)	$0.0006	868ms	20%	100	100	100	100	0	80%
78	Inception Mercury 2	$0.0002	712ms	20%	100	100	100	100	0	80%
101	Z.AI GLM 4.5 Air	$0.0007	23.7s	20%	100	100	100	100	0	80%
88	DeepSeek V4 Pro	$0.0002	5.8s	20%	100	100	100	100	0	80%
77	GPT-5.4 Mini	$0.0002	896ms	20%	100	100	100	100	0	80%
93	DeepSeek V3.1	$0.0001	10.8s	20%	100	100	100	100	0	80%
111	DeepSeek V4 Flash	$0.0001	45.1s	20%	100	100	100	100	0	80%
82	Grok 4.20	$0.0004	1.8s	20%	100	100	100	100	0	80%
89	Qwen3 235B A22B Instruct 2507	$0.0001	6.6s	20%	100	100	100	100	0	80%
84	Grok 4.3	$0.0004	2.9s	20%	100	100	100	100	0	80%
80	Gemma 3 12B	$0.0000	3.6s	20%	100	100	100	100	0	80%
79	Llama 3.1 70B	$0.0001	2.4s	20%	100	100	100	100	0	80%
90	Llama 3.1 Nemotron 70B	$0.0001	9.0s	20%	100	100	100	100	0	80%
72	Ministral 8B	$0.0000	733ms	20%	100	100	100	100	0	80%
73	Llama 3.1 8B	$0.0000	1.1s	20%	100	100	100	100	0	80%
131	Z.AI GLM 5.1	$0.0045	24.3s	2%	100	100	100	0	0	60%
123	GPT-5	$0.0044	9.6s	2%	100	100	100	0	0	60%
107	GPT-5.2	$0.0012	3.4s	2%	100	100	100	0	0	60%
122	Qwen 3.6 27B	$0.0031	16.1s	2%	100	100	100	0	0	60%
110	GPT-5.5	$0.0020	2.5s	2%	100	100	100	0	0	60%
118	Qwen 3.6 35B	$0.0018	11.4s	2%	100	100	100	0	0	60%
109	Claude Sonnet 4	$0.0018	2.8s	2%	100	100	100	0	0	60%
132	Gemini 2.5 Pro	$0.0081	8.0s	2%	100	100	100	0	0	60%
147	ByteDance Seed 2.0 Mini	$0.0013	1.4m	2%	100	100	100	0	0	60%
106	Gemma 4 26B	$0.0001	6.1s	2%	100	100	100	0	0	60%
102	Gemini 3.1 Flash Lite	$0.0001	725ms	2%	100	100	100	0	0	60%
108	GPT-5.4 Nano (Reasoning)	$0.0002	11.2s	2%	100	100	100	0	0	60%
103	GPT-5.4 Nano (Reasoning, Low)	$0.0001	2.3s	2%	100	100	100	0	0	60%
113	Nemotron 3 Nano	$0.0002	14.0s	2%	100	100	100	0	0	60%
105	Arcee AI: Trinity Mini	$0.0001	3.2s	2%	100	100	100	0	0	60%
121	GPT-5.4 (Reasoning, Low)	$0.0013	3.2s	0%	100	100	0	0	0	40%
136	Claude Opus 4.7	$0.0065	4.3s	0%	100	100	0	0	0	40%
142	Z.AI GLM 4.7	$0.0023	31.3s	0%	100	100	0	0	0	40%
124	Gemini 2.5 Flash (Reasoning)	$0.0023	4.8s	0%	100	100	0	0	0	40%
120	Xiaomi MIMO v2.5	$0.0007	4.8s	0%	100	100	0	0	0	40%
119	Mistral Small 4 (Reasoning)	$0.0001	2.3s	0%	100	100	0	0	0	40%
115	Gemini 2.5 Flash Lite	$0.0000	631ms	0%	100	100	0	0	0	40%
117	Gemini 2.5 Flash	$0.0002	773ms	0%	100	100	0	0	0	40%
134	Gemma 4 31B (Reasoning)	$0.0002	18.4s	0%	100	0	0	0	0	20%
129	DeepSeek V3.2	$0.0001	3.0s	0%	100	0	0	0	0	20%
126	GPT-4o Mini (temp=1)	$0.0000	1.2s	0%	100	0	0	0	0	20%
128	Claude 3 Haiku	$0.0002	1.5s	0%	100	0	0	0	0	20%
127	Gemma 3 4B	$0.0000	1.4s	0%	100	0	0	0	0	20%
125	Ministral 3B	$0.0000	538ms	0%	100	0	0	0	0	20%
144	o4 Mini High	$0.0020	5.4s	0%	0	0	0	0	0	0%
143	o4 Mini	$0.0011	5.1s	0%	0	0	0	0	0	0%
135	Gemma 4 31B	$0.0000	2.6s	0%	0	0	0	0	0	0%
138	Gemini 2.5 Flash Lite (Reasoning)	$0.0005	4.6s	0%	0	0	0	0	0	0%
137	GPT-5.4	$0.0009	1.2s	0%	0	0	0	0	0	0%
146	GPT-5 Nano	$0.0008	21.9s	0%	0	0	0	0	0	0%
133	GPT-4o Mini (temp=0)	$0.0000	1.2s	0%	0	0	0	0	0	0%
140	ByteDance Seed 1.6 Flash	$0.0003	6.9s	0%	0	0	0	0	0	0%
139	Cohere Command R+ (Aug. 2024)	$0.0012	2.2s	0%	0	0	0	0	0	0%
78.64%

Median	Evaluator	Top 3	Flop 3
100.0%	Contains a count of nouns	100GPT-OSS 120B 100Qwen 3.5 397B A17B 100Ministral 3 8B	0o4 Mini 0o4 Mini High 0Gemini 2.5 Flash Lite (Reasoning)

Asking for directions (German)

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%

	Score	Cost	Time
Mistral NeMO	100%	$0.0000	321ms
Ministral 8B	60%	$0.0000	341ms
Ministral 3 3B	100%	$0.0000	691ms
GPT-4o Mini (temp=0)	100%	$0.0000	728ms
GPT-4o Mini (temp=1)	100%	$0.0000	800ms
Mistral Large 3	100%	$0.0001	7.5s
Gemini 2.5 Flash Lite	100%	$0.0001	722ms
Grok 4.3	60%	$0.0002	740ms
GPT-5.4 Mini	80%	$0.0002	812ms
Arcee AI: Trinity Large (Preview)	80%	$0.0000	1.5s
Claude 3 Haiku	100%	$0.0001	1.1s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0002	3.5s
Gemini 3.1 Flash Lite	80%	$0.0002	922ms
Inception Mercury 2	60%	$0.0003	709ms
Mistral Small 3.2 24B	100%	$0.0000	1.6s
Grok 4.20 (Beta)	100%	$0.0004	728ms
Gemma 4 26B	100%	$0.0000	11.1s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0002	995ms
Gemini 3 Flash (Preview)	100%	$0.0003	1.3s
Gemma 3 4B	100%	$0.0000	2.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Mistral NeMO	100%	$0.0000	321ms	100%
Ministral 3 3B	100%	$0.0000	691ms	100%
GPT-4o Mini (temp=0)	100%	$0.0000	728ms	100%
Gemini 2.5 Flash Lite	100%	$0.0001	722ms	100%
GPT-4o Mini (temp=1)	100%	$0.0000	800ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0002	995ms	100%
Claude 3 Haiku	100%	$0.0001	1.1s	100%
Grok 4.20 (Beta)	100%	$0.0004	728ms	100%
Mistral Small 3.2 24B	100%	$0.0000	1.6s	100%
Gemini 3 Flash (Preview)	100%	$0.0003	1.3s	100%
Gemma 3 4B	100%	$0.0000	2.4s	100%
DeepSeek V3.1	100%	$0.0002	2.4s	100%
DeepSeek V3 (2024-12-26)	100%	$0.0001	3.2s	100%
Llama 3.1 70B	100%	$0.0002	3.3s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0002	3.5s	100%
Claude Haiku 4.5	100%	$0.0010	2.3s	100%
WizardLM 2 8x22b	100%	$0.0002	3.8s	100%
GPT-5.4	100%	$0.0016	2.0s	100%
DeepSeek-V2 Chat	100%	$0.0000	4.6s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0008	3.5s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
72	Claude Opus 4.6 (Reasoning)	$0.011	9.6s	100%	100	100	100	100	100	100%
90	Qwen3.6 Max Preview	$0.013	50.8s	100%	100	100	100	100	100	100%
74	Gemini 3.1 Pro (Preview)	$0.0096	12.5s	100%	100	100	100	100	100	100%
87	Z.AI GLM 5.1	$0.0039	47.8s	100%	100	100	100	100	100	100%
47	Z.AI GLM 5 Turbo	$0.0022	8.0s	100%	100	100	100	100	100	100%
60	Claude Sonnet 4.6 (Reasoning)	$0.0068	7.4s	100%	100	100	100	100	100	100%
83	Grok 4.3 (Reasoning)	$0.0062	31.7s	100%	100	100	100	100	100	100%
57	GPT-5.4 (Reasoning)	$0.0050	8.1s	100%	100	100	100	100	100	100%
40	Claude Opus 4.7 (Reasoning)	$0.0042	2.5s	100%	100	100	100	100	100	100%
62	GPT-5.5 (Reasoning)	$0.0081	5.7s	100%	100	100	100	100	100	100%
55	GPT-5 Mini	$0.0016	12.6s	100%	100	100	100	100	100	100%
51	GPT-5.5 (Reasoning, Low)	$0.0043	5.8s	100%	100	100	100	100	100	100%
49	Claude Opus 4.6	$0.0046	5.0s	100%	100	100	100	100	100	100%
93	MoonshotAI: Kimi K2.6	$0.013	2.1m	100%	100	100	100	100	100	100%
84	Qwen 3.5 397B A17B	$0.0046	34.8s	100%	100	100	100	100	100	100%
65	Gemma 4 31B (Reasoning)	$0.0002	21.6s	100%	100	100	100	100	100	100%
61	Qwen 3.5 122B	$0.0046	11.7s	100%	100	100	100	100	100	100%
68	Qwen 3.5 Plus (2026-04-20)	$0.0031	20.8s	100%	100	100	100	100	100	100%
38	Gemma 4 26B (Reasoning)	$0.0002	8.7s	100%	100	100	100	100	100	100%
70	Grok 4.20 (Beta, Reasoning)	$0.012	7.4s	100%	100	100	100	100	100	100%
41	GPT-5.4 (Reasoning, Low)	$0.0033	4.2s	100%	100	100	100	100	100	100%
79	Grok 4.20 (Reasoning)	$0.0056	23.1s	100%	100	100	100	100	100	100%
82	Z.AI GLM 5	$0.0035	30.7s	100%	100	100	100	100	100	100%
36	Claude Sonnet 4.6	$0.0026	3.5s	100%	100	100	100	100	100	100%
88	MoonshotAI: Kimi K2.5	$0.0057	46.4s	100%	100	100	100	100	100	100%
66	Qwen 3.5 27B	$0.0038	16.2s	100%	100	100	100	100	100	100%
58	ByteDance Seed 1.6	$0.0012	15.3s	100%	100	100	100	100	100	100%
42	Qwen 3.6 Flash	$0.0020	6.6s	100%	100	100	100	100	100	100%
39	GPT-5.4 Mini (Reasoning)	$0.0019	6.1s	100%	100	100	100	100	100	100%
22	Gemini 3 Flash (Preview, Reasoning)	$0.0013	3.2s	100%	100	100	100	100	100	100%
81	DeepSeek V4 Pro (Reasoning)	$0.0017	33.6s	100%	100	100	100	100	100	100%
48	Claude Opus 4.7	$0.0054	3.7s	100%	100	100	100	100	100	100%
86	Qwen 3.6 27B	$0.0059	43.4s	100%	100	100	100	100	100	100%
43	Claude Opus 4.5	$0.0040	3.6s	100%	100	100	100	100	100	100%
59	Aion 2.0	$0.0011	16.3s	100%	100	100	100	100	100	100%
76	Z.AI GLM 4.6	$0.0020	27.6s	100%	100	100	100	100	100	100%
73	MiniMax M2.7	$0.0019	25.7s	100%	100	100	100	100	100	100%
21	GPT-5.5	$0.0021	1.7s	100%	100	100	100	100	100	100%
52	Qwen 3.6 35B	$0.0018	11.1s	100%	100	100	100	100	100	100%
53	DeepSeek V4 Flash (Reasoning)	$0.0002	14.3s	100%	100	100	100	100	100	100%
69	Gemini 3 Pro (Preview)	$0.011	8.0s	100%	100	100	100	100	100	100%
30	Claude Sonnet 4	$0.0023	3.1s	100%	100	100	100	100	100	100%
71	MiniMax M2.5	$0.0014	25.5s	100%	100	100	100	100	100	100%
91	Z.AI GLM 4.7	$0.0021	1.2m	100%	100	100	100	100	100	100%
64	Gemini 2.5 Pro	$0.0078	8.0s	100%	100	100	100	100	100	100%
54	o4 Mini	$0.0033	9.6s	100%	100	100	100	100	100	100%
37	Claude Sonnet 4.5	$0.0026	3.8s	100%	100	100	100	100	100	100%
80	Qwen 3.5 35B	$0.0064	23.4s	100%	100	100	100	100	100	100%
78	Claude Opus 4	$0.010	14.1s	100%	100	100	100	100	100	100%
50	Stealth: Hunter Alpha	$0.0000	13.1s	100%	100	100	100	100	100	100%
92	ByteDance Seed 2.0 Mini	$0.0017	1.8m	100%	100	100	100	100	100	100%
15	Gemini 3.1 Flash Lite (Reasoning)	$0.0002	3.5s	100%	100	100	100	100	100	100%
67	Qwen 3.5 Flash	$0.0012	21.9s	100%	100	100	100	100	100	100%
85	Qwen 3.5 9B	$0.0005	46.8s	100%	100	100	100	100	100	100%
25	Qwen 3.5 Plus (2026-02-15)	$0.0003	5.3s	100%	100	100	100	100	100	100%
32	Stealth: Healer Alpha	$0.0000	7.6s	100%	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite (Preview)	$0.0002	995ms	100%	100	100	100	100	100	100%
45	Gemma 4 26B	$0.0000	11.1s	100%	100	100	100	100	100	100%
20	GPT-5.4 Mini (Reasoning, Low)	$0.0008	3.5s	100%	100	100	100	100	100	100%
33	Mistral Large 3	$0.0001	7.5s	100%	100	100	100	100	100	100%
35	GPT-4o, May 13th (temp=0)	$0.0025	3.4s	100%	100	100	100	100	100	100%
10	Gemini 3 Flash (Preview)	$0.0003	1.3s	100%	100	100	100	100	100	100%
16	Claude Haiku 4.5	$0.0010	2.3s	100%	100	100	100	100	100	100%
19	DeepSeek-V2 Chat	$0.0000	4.6s	100%	100	100	100	100	100	100%
77	Z.AI GLM 4.7 Flash	$0.0006	30.0s	100%	100	100	100	100	100	100%
75	ByteDance Seed 2.0 Lite	$0.0022	25.5s	100%	100	100	100	100	100	100%
18	GPT-5.4	$0.0016	2.0s	100%	100	100	100	100	100	100%
29	Claude 3.5 Sonnet	$0.0020	3.7s	100%	100	100	100	100	100	100%
8	Grok 4.20 (Beta)	$0.0004	728ms	100%	100	100	100	100	100	100%
13	DeepSeek V3 (2024-12-26)	$0.0001	3.2s	100%	100	100	100	100	100	100%
31	Claude 3.7 Sonnet	$0.0024	3.4s	100%	100	100	100	100	100	100%
56	Z.AI GLM 4.5 Air	$0.0006	15.3s	100%	100	100	100	100	100	100%
46	Hermes 3 405B	$0.0000	11.8s	100%	100	100	100	100	100	100%
28	DeepSeek V4 Pro	$0.0004	6.3s	100%	100	100	100	100	100	100%
27	Mistral Large 2	$0.0012	4.8s	100%	100	100	100	100	100	100%
12	DeepSeek V3.1	$0.0002	2.4s	100%	100	100	100	100	100	100%
24	DeepSeek V3.2	$0.0001	5.6s	100%	100	100	100	100	100	100%
63	DeepSeek V4 Flash	$0.0000	20.9s	100%	100	100	100	100	100	100%
34	DeepSeek V3 (2025-03-24)	$0.0001	7.5s	100%	100	100	100	100	100	100%
4	Gemini 2.5 Flash Lite	$0.0001	722ms	100%	100	100	100	100	100	100%
26	Mistral Large	$0.0012	3.8s	100%	100	100	100	100	100	100%
5	GPT-4o Mini (temp=1)	$0.0000	800ms	100%	100	100	100	100	100	100%
9	Mistral Small 3.2 24B	$0.0000	1.6s	100%	100	100	100	100	100	100%
23	Gemma 3 12B	$0.0000	5.6s	100%	100	100	100	100	100	100%
14	Llama 3.1 70B	$0.0002	3.3s	100%	100	100	100	100	100	100%
3	GPT-4o Mini (temp=0)	$0.0000	728ms	100%	100	100	100	100	100	100%
89	Nemotron 3 Nano	$0.0011	1.2m	100%	100	100	100	100	100	100%
7	Claude 3 Haiku	$0.0001	1.1s	100%	100	100	100	100	100	100%
17	WizardLM 2 8x22b	$0.0002	3.8s	100%	100	100	100	100	100	100%
44	Cohere Command R+ (Aug. 2024)	$0.0029	5.5s	100%	100	100	100	100	100	100%
11	Gemma 3 4B	$0.0000	2.4s	100%	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0000	691ms	100%	100	100	100	100	100	100%
1	Mistral NeMO	$0.0000	321ms	100%	100	100	100	100	100	100%
109	GPT-5.1	$0.0049	10.2s	20%	100	100	100	100	0	80%
114	GPT-5	$0.018	29.8s	20%	100	100	100	100	0	80%
106	GPT-5.2	$0.0025	5.2s	20%	100	100	100	100	0	80%
102	GPT-4.1	$0.0013	2.4s	20%	100	100	100	100	0	80%
147	Grok 4	$0.088	2.5m	20%	100	100	100	100	0	80%
107	Xiaomi MIMO v2.5 Pro	$0.0012	8.3s	20%	100	100	100	100	0	80%
100	Gemma 4 31B	$0.0000	4.0s	20%	100	100	100	100	0	80%
110	Gemini 2.5 Flash (Reasoning)	$0.0051	10.0s	20%	100	100	100	100	0	80%
108	GPT-OSS 120B	$0.0003	16.1s	20%	100	100	100	100	0	80%
99	Z.AI GLM 4.5	$0.0001	3.8s	20%	100	100	100	100	0	80%
95	Gemini 3.1 Flash Lite	$0.0002	922ms	20%	100	100	100	100	0	80%
105	Gemini 2.5 Flash Lite (Reasoning)	$0.0007	6.8s	20%	100	100	100	100	0	80%
104	GPT-4o, May 13th (temp=1)	$0.0022	3.1s	20%	100	100	100	100	0	80%
94	GPT-5.4 Mini	$0.0002	812ms	20%	100	100	100	100	0	80%
103	Qwen 3 32B	$0.0001	5.8s	20%	100	100	100	100	0	80%
97	Gemini 2.5 Flash	$0.0004	1.2s	20%	100	100	100	100	0	80%
101	Qwen 2.5 72B	$0.0001	4.3s	20%	100	100	100	100	0	80%
96	Arcee AI: Trinity Large (Preview)	$0.0000	1.5s	20%	100	100	100	100	0	80%
98	Hermes 3 70B	$0.0001	3.2s	20%	100	100	100	100	0	80%
120	o4 Mini High	$0.0051	13.6s	2%	100	100	100	0	0	60%
127	Grok 4.1 Fast	$0.0017	33.6s	2%	100	100	100	0	0	60%
116	Xiaomi MIMO v2.5	$0.0007	4.1s	2%	100	100	100	0	0	60%
113	Inception Mercury 2	$0.0003	709ms	2%	100	100	100	0	0	60%
137	Stealth: Aurora Alpha	—	1.5s	2%	100	100	100	0	0	60%
115	Mistral Small 4 (Reasoning)	$0.0004	4.6s	2%	100	100	100	0	0	60%
112	Grok 4.3	$0.0002	740ms	2%	100	100	100	0	0	60%
118	Gemma 3 27B	$0.0001	9.1s	2%	100	100	100	0	0	60%
119	Llama 3.1 Nemotron 70B	$0.0002	13.9s	2%	100	100	100	0	0	60%
111	Ministral 8B	$0.0000	341ms	2%	100	100	100	0	0	60%
117	Rocinante 12B	$0.0001	5.4s	2%	100	100	100	0	0	60%
130	Grok 4 Fast	$0.0006	7.6s	0%	100	100	0	0	0	40%
126	GPT-4.1 Mini	$0.0003	2.4s	0%	100	100	0	0	0	40%
124	GPT-4o, Aug. 6th (temp=1)	$0.0008	1.3s	0%	100	100	0	0	0	40%
132	GPT-5 Nano	$0.0006	17.6s	0%	100	100	0	0	0	40%
123	Grok 4.20	$0.0003	871ms	0%	100	100	0	0	0	40%
131	Qwen3 235B A22B Instruct 2507	$0.0002	12.6s	0%	100	100	0	0	0	40%
121	Inception Mercury	$0.0000	599ms	0%	100	100	0	0	0	40%
125	GPT-5.4 Nano (Reasoning, Low)	$0.0002	2.5s	0%	100	100	0	0	0	40%
122	GPT-5.4 Nano	$0.0001	1.1s	0%	100	100	0	0	0	40%
129	ByteDance Seed 1.6 Flash	$0.0002	4.1s	0%	100	100	0	0	0	40%
144	Arcee AI: Trinity Mini	$0.0001	1.0m	0%	100	100	0	0	0	40%
128	LFM2 24B	$0.0000	4.0s	0%	100	100	0	0	0	40%
139	Nemotron 3 Super	$0.0000	13.7s	0%	100	0	0	0	0	20%
136	GPT-5.4 Nano (Reasoning)	$0.0003	4.5s	0%	100	0	0	0	0	20%
138	Writer: Palmyra X5	$0.0019	9.9s	0%	100	0	0	0	0	20%
134	Mistral Small 4	$0.0001	1.2s	0%	100	0	0	0	0	20%
135	GPT-4.1 Nano	$0.0001	1.5s	0%	100	0	0	0	0	20%
133	Ministral 3B	$0.0000	405ms	0%	100	0	0	0	0	20%
145	GPT-4o, Aug. 6th (temp=0)	$0.0009	2.2s	0%	0	0	0	0	0	0%
146	Mistral Medium 3.1	$0.0005	4.5s	0%	0	0	0	0	0	0%
142	Mistral Small Creative	$0.0001	1.1s	0%	0	0	0	0	0	0%
141	Ministral 3 14B	$0.0000	1.0s	0%	0	0	0	0	0	0%
140	Ministral 3 8B	$0.0000	693ms	0%	0	0	0	0	0	0%
143	Llama 3.1 8B	$0.0000	1.1s	0%	0	0	0	0	0	0%
82.18%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches Regex	100Gemini 3 Flash (Preview, Reasoning) 100Claude Opus 4.7 (Reasoning) 100Mistral Small 3.2 24B	0Mistral Medium 3.1 0Ministral 3 14B 0Mistral Small Creative

Asking for directions (Dutch)

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%

Language Comprehension

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Friend got new kittens (Tagalog)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Friend got new kittens (German)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Asking for directions (German)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Asking for directions (Dutch)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

	Score	Cost	Time
Mistral NeMO	80%	$0.0000	440ms
Ministral 3 3B	100%	$0.0000	930ms
Gemini 2.5 Flash Lite	80%	$0.0001	735ms
Mistral Large 3	100%	$0.0001	984ms
Stealth: Aurora Alpha	80%	—	1.2s
GPT-5.4 Mini	60%	$0.0001	685ms
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	954ms
Gemini 3.1 Flash Lite	100%	$0.0002	1.0s
Gemma 4 31B	100%	$0.0000	2.2s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0002	1.1s
Gemma 3 4B	60%	$0.0000	2.0s
Grok 4.3	80%	$0.0003	1.1s
Gemini 2.5 Flash	80%	$0.0002	796ms
Llama 3.1 8B	60%	$0.0000	1.7s
Gemini 3 Flash (Preview)	80%	$0.0003	1.2s
Z.AI GLM 4.5	100%	$0.0001	2.4s
Gemma 4 26B	100%	$0.0000	7.2s
Grok 4.20 (Beta)	60%	$0.0004	571ms
Inception Mercury 2	60%	$0.0005	1.0s
GPT-4.1 Mini	80%	$0.0004	3.3s