Contains a count of nouns

Test: Language Comprehension

Avg. Score

87.5%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Ministral 3 3B	100.0%	$0.0000	855ms	100%
2	Mistral NeMO	100.0%	$0.0000	870ms	100%
3	GPT-5.4 Nano	100.0%	$0.0001	874ms	100%
4	Ministral 3 8B	100.0%	$0.0000	1.1s	100%
5	Mistral Small 4	100.0%	$0.0001	1.1s	100%
6	Ministral 3 14B	100.0%	$0.0000	1.4s	100%
7	GPT-4.1 Nano	100.0%	$0.0000	1.9s	100%
8	GPT-4.1 Mini	100.0%	$0.0001	1.8s	100%
9	Cydonia 24B V4.1	100.0%	$0.0001	2.0s	100%
10	Mistral Small 3.2 24B	100.0%	$0.0000	2.5s	100%
11	Mistral Medium 3.1	100.0%	$0.0002	2.0s	100%
12	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0005	1.5s	100%
13	Hermes 3 70B	100.0%	$0.0001	3.5s	100%
14	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0005	1.3s	100%
15	Qwen 2.5 72B	100.0%	$0.0001	3.7s	100%
16	Claude Haiku 4.5	100.0%	$0.0005	1.8s	100%
17	Mistral Large 3	100.0%	$0.0003	3.1s	100%
18	Gemma 3 27B	100.0%	$0.0000	4.8s	100%
19	GPT-5.4 Mini (Reasoning)	100.0%	$0.0006	2.7s	100%
20	Mistral Large 2	100.0%	$0.0006	2.6s	100%
21	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0003	4.2s	100%
22	DeepSeek-V2 Chat	100.0%	$0.0000	5.8s	100%
23	DeepSeek V3 (2024-12-26)	100.0%	$0.0002	5.1s	100%
24	DeepSeek V3 (2025-03-24)	100.0%	$0.0002	5.3s	100%
25	WizardLM 2 8x22b	100.0%	$0.0003	7.1s	100%
26	Claude Sonnet 4.6	100.0%	$0.0016	2.8s	100%
27	Qwen 3 32B	100.0%	$0.0002	10.8s	100%
28	Hermes 3 405B	100.0%	$0.0000	12.2s	100%
29	Qwen 3.6 Flash	100.0%	$0.0015	6.1s	100%
30	GPT-OSS 120B	100.0%	$0.0001	12.5s	100%
31	MiniMax M2.5	100.0%	$0.0007	10.3s	100%
32	Claude Opus 4.5	100.0%	$0.0026	3.6s	100%
33	Claude Sonnet 5	100.0%	$0.0024	5.3s	100%
34	GPT-5 Mini	100.0%	$0.0013	10.3s	100%
35	Claude Opus 4.6	100.0%	$0.0027	3.8s	100%
36	MiniMax M2.7	100.0%	$0.0008	13.3s	100%
37	GPT-5.5 (Reasoning, Low)	100.0%	$0.0028	3.9s	100%
38	Z.AI GLM 4.5	100.0%	$0.0011	12.9s	100%
39	Aion 2.0	100.0%	$0.0010	13.9s	100%
40	Aion 3.0 Mini	100.0%	$0.0009	15.5s	100%
41	GPT-5.5 (Reasoning)	100.0%	$0.0034	4.6s	100%
42	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0001	20.7s	100%
43	MiniMax M3	100.0%	$0.0006	18.3s	100%
44	MoonshotAI: Kimi K2.5	100.0%	$0.0020	12.7s	100%
45	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.0020	13.8s	100%
46	ByteDance Seed 1.6	100.0%	$0.0014	17.1s	100%
47	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0025	12.3s	100%
48	Z.AI GLM 5 Turbo	100.0%	$0.0033	10.0s	100%
49	Nemotron 3 Super	100.0%	$0.0000	26.0s	100%
50	Claude Sonnet 5 (Reasoning)	100.0%	$0.0044	6.6s	100%
51	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.0044	7.3s	100%
52	Grok 4.5 (Reasoning, High)	100.0%	$0.0042	9.0s	100%
53	Claude Opus 4.7 (Reasoning)	100.0%	$0.0054	3.4s	100%
54	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.0050	6.8s	100%
55	ByteDance Seed 2.0 Lite	100.0%	$0.0019	23.3s	100%
56	Qwen 3.5 35B	100.0%	$0.0040	13.7s	100%
57	Qwen 3.5 122B	100.0%	$0.0046	11.2s	100%
58	Claude Opus 4.6 (Reasoning)	100.0%	$0.0060	5.7s	100%
59	Qwen 3.5 27B	100.0%	$0.0037	17.8s	100%
60	Qwen 3.5 Flash	100.0%	$0.0009	38.0s	100%
61	Gemini 3.1 Flash Lite (Reasoning)	90.0%	$0.0001	904ms	40%
62	Gemini 3.1 Flash Lite (Preview)	90.0%	$0.0001	975ms	40%
63	Inception Mercury 2	90.0%	$0.0002	663ms	40%
64	GPT-5.4 Mini	90.0%	$0.0002	746ms	40%
65	Gemma 3 12B	90.0%	$0.0000	2.8s	40%
66	Grok 4.20	90.0%	$0.0004	1.8s	40%
67	Gemini 3 Flash (Preview)	90.0%	$0.0005	1.7s	40%
68	GPT-4.1	90.0%	$0.0006	1.9s	40%
69	DeepSeek V4 Pro	90.0%	$0.0002	4.4s	40%
70	Qwen3 235B A22B Instruct 2507	90.0%	$0.0001	5.4s	40%
71	Z.AI GLM 4.6	100.0%	$0.0023	41.1s	100%
72	Llama 3.1 70B	90.0%	$0.0001	8.3s	40%
73	DeepSeek V3.1	90.0%	$0.0001	8.5s	40%
74	Xiaomi MIMO v2.5 Pro	90.0%	$0.0008	5.5s	40%
75	Gemini 3.5 Flash (Reasoning, Minimal)	90.0%	$0.0017	1.7s	40%
76	Claude Opus 4	100.0%	$0.0095	9.3s	100%
77	GPT-5.1	90.0%	$0.0012	4.3s	40%
78	Gemini 3 Flash (Preview, Reasoning)	90.0%	$0.0015	3.5s	40%
79	Claude Sonnet 4.5	90.0%	$0.0015	3.2s	40%
80	Writer: Palmyra X5	90.0%	$0.0008	8.3s	40%
81	GPT-5.4 (Reasoning)	90.0%	$0.0019	4.0s	40%
82	MoonshotAI: Kimi K2.6	100.0%	$0.0037	40.1s	100%
83	Qwen3.6 Max Preview	100.0%	$0.0070	28.7s	100%
84	Gemini 3.1 Flash Lite	80.0%	$0.0001	832ms	20%
85	GPT-5.4 Nano (Reasoning, Low)	80.0%	$0.0001	1.6s	20%
86	Z.AI GLM 4.7 Flash	90.0%	$0.0004	19.9s	40%
87	Z.AI GLM 4.5 Air	90.0%	$0.0006	19.3s	40%
88	Arcee AI: Trinity Mini	80.0%	$0.0001	3.0s	20%
89	Grok 4.3	80.0%	$0.0003	2.3s	20%
90	Qwen3.7 Max	100.0%	$0.0097	22.2s	100%
91	Grok 4.5 (Reasoning, Low)	90.0%	$0.0032	8.7s	40%
92	Gemma 4 26B (Reasoning)	90.0%	$0.0002	23.7s	40%
93	DeepSeek V4 Flash	90.0%	$0.0001	24.4s	40%
94	Gemma 4 26B	80.0%	$0.0000	5.0s	20%
95	Grok 4.20 (Reasoning)	90.0%	$0.0028	12.7s	40%
96	DeepSeek V4 Pro (Reasoning)	100.0%	$0.0025	1.0m	100%
97	GPT-5.4 Nano (Reasoning)	80.0%	$0.0002	7.4s	20%
98	GPT-5.2	80.0%	$0.0011	3.3s	20%
99	Claude Sonnet 4	80.0%	$0.0015	2.7s	20%
100	GPT-5.5	80.0%	$0.0017	2.3s	20%
101	Grok 4.3 (Reasoning)	90.0%	$0.0025	18.2s	40%
102	Gemini 2.5 Flash Lite	70.0%	$0.0000	568ms	8%
103	Qwen 3.6 35B	80.0%	$0.0014	8.5s	20%
104	Gemini 2.5 Flash	70.0%	$0.0001	646ms	8%
105	Gemini 3.5 Flash (Reasoning)	90.0%	$0.0067	4.0s	40%
106	Nemotron 3 Nano	80.0%	$0.0002	16.7s	20%
107	Mistral Small 4 (Reasoning)	70.0%	$0.0002	2.7s	8%
108	GPT-5.4 Mini (Reasoning, Low)	70.0%	$0.0003	2.8s	8%
109	Z.AI GLM 5	90.0%	$0.0032	26.3s	40%
110	Xiaomi MIMO v2.5	70.0%	$0.0007	4.6s	8%
111	GPT-5.4 (Reasoning, Low)	70.0%	$0.0012	3.0s	8%
112	Qwen 3.6 27B	80.0%	$0.0026	13.7s	20%
113	Ministral 8B	60.0%	$0.0000	733ms	2%
114	Gemma 3 4B	60.0%	$0.0000	1.1s	2%
115	GPT-4o Mini (temp=1)	60.0%	$0.0000	1.0s	2%
116	Gemini 2.5 Flash (Reasoning)	70.0%	$0.0018	4.1s	8%
117	Claude Opus 4.8 (Reasoning, Low)	90.0%	$0.0086	5.8s	40%
118	GPT-5	80.0%	$0.0039	9.3s	20%
119	Qwen 3.5 397B A17B	100.0%	$0.0071	59.1s	100%
120	DeepSeek V3.2	60.0%	$0.0001	5.5s	2%
121	Aion 3.0	70.0%	$0.0021	7.2s	8%
122	Claude Opus 4.8 (Reasoning)	90.0%	$0.0096	6.3s	40%
123	GPT-4o Mini (temp=0)	50.0%	$0.0000	1.2s	0%
124	GPT-5.4	50.0%	$0.0008	1.1s	0%
125	Gemini 2.5 Flash Lite (Reasoning)	50.0%	$0.0003	3.6s	0%
126	Cohere Command R+ (Aug. 2024)	50.0%	$0.0008	1.7s	0%
127	Gemini 2.5 Pro	80.0%	$0.0068	6.9s	20%
128	Z.AI GLM 5.1	80.0%	$0.0038	21.7s	20%
129	o4 Mini	50.0%	$0.0012	4.3s	0%
130	Claude Opus 4.7	70.0%	$0.0054	4.2s	8%
131	ByteDance Seed 1.6 Flash	40.0%	$0.0002	5.1s	0%
132	o4 Mini High	50.0%	$0.0019	5.5s	0%
133	Gemma 4 31B (Reasoning)	50.0%	$0.0001	17.6s	0%
134	Ministral 3B	20.0%	$0.0000	591ms	0%
135	ByteDance Seed 2.0 Mini	80.0%	$0.0008	52.8s	20%
136	Gemini 3.1 Pro (Preview)	90.0%	$0.013	14.4s	40%
137	GPT-5 Nano	50.0%	$0.0007	22.4s	0%
138	Z.AI GLM 4.7	60.0%	$0.0023	29.0s	2%
139	Qwen 3.5 9B	80.0%	$0.0007	1.1m	20%
140	Gemma 4 31B	10.0%	$0.0000	6.6s	0%
87.50%

Individual Scenarios

▼

Friend got new kittens (German)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	0	80.0%
GPT-5.4 (Reasoning)	100	100	100	100	0	80.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	0	80.0%
Grok 4.3 (Reasoning)	100	100	100	100	0	80.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	0	80.0%
Grok 4.20 (Reasoning)	100	100	100	100	0	80.0%
GPT-5.1	100	100	100	100	0	80.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	100	100	0	80.0%
Gemma 4 26B (Reasoning)	100	100	100	100	0	80.0%
Claude Sonnet 4.5	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	0	80.0%
Gemini 3 Flash (Preview)	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	0	80.0%
Qwen 3.5 9B	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	0	80.0%
DeepSeek V3.1	100	100	100	100	0	80.0%
Z.AI GLM 4.7 Flash	100	100	100	100	0	80.0%
DeepSeek V4 Pro	100	100	100	100	0	80.0%
DeepSeek V4 Flash	100	100	100	100	0	80.0%
Inception Mercury 2	100	100	100	100	0	80.0%
Grok 4.20	100	100	100	100	0	80.0%
Z.AI GLM 4.5 Air	100	100	100	100	0	80.0%
GPT-5.4 Mini	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	100	0	80.0%
Gemma 3 12B	100	100	100	100	0	80.0%
Ministral 8B	100	100	100	100	0	80.0%
Z.AI GLM 5.1	100	100	100	0	0	60.0%
GPT-5	100	100	100	0	0	60.0%
GPT-5.2	100	100	100	0	0	60.0%
GPT-5.5	100	100	100	0	0	60.0%
Gemini 2.5 Pro	100	100	100	0	0	60.0%
Qwen 3.6 27B	100	100	100	0	0	60.0%
Qwen 3.6 35B	100	100	100	0	0	60.0%
Claude Sonnet 4	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Mini	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite	100	100	100	0	0	60.0%
Gemma 4 26B	100	100	100	0	0	60.0%
GPT-5.4 Nano (Reasoning)	100	100	100	0	0	60.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	0	0	60.0%
Nemotron 3 Nano	100	100	100	0	0	60.0%
Arcee AI: Trinity Mini	100	100	100	0	0	60.0%
GPT-5.4 (Reasoning, Low)	100	100	0	0	0	40.0%
Claude Opus 4.7	100	100	0	0	0	40.0%
Aion 3.0	100	100	0	0	0	40.0%
Z.AI GLM 4.7	100	100	0	0	0	40.0%
Gemini 2.5 Flash (Reasoning)	100	100	0	0	0	40.0%
Xiaomi MIMO v2.5	100	100	0	0	0	40.0%
Gemini 2.5 Flash	100	100	0	0	0	40.0%
Gemini 2.5 Flash Lite	100	100	0	0	0	40.0%
Mistral Small 4 (Reasoning)	100	100	0	0	0	40.0%
Gemma 4 31B (Reasoning)	100	0	0	0	0	20.0%
DeepSeek V3.2	100	0	0	0	0	20.0%
GPT-4o Mini (temp=1)	100	0	0	0	0	20.0%
Gemma 3 4B	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%
o4 Mini High	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.0%

▼

Friend got new kittens (Tagalog)

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 4.7	100	100	100	100	0	80.0%
Qwen 3.5 9B	100	100	100	100	0	80.0%
Writer: Palmyra X5	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
ByteDance Seed 1.6 Flash	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	0	0	60.0%
Ministral 8B	100	100	0	0	0	40.0%
Gemma 4 31B	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%

Contains a count of nouns

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Friend got new kittens (German)

Friend got new kittens (Tagalog)