N-Length Sentences

Write sentences with exactly N words

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
Qwen3.6 Max Preview	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Qwen 3.5 122B	100%
Qwen 3.5 27B	100%
Gemini 3 Flash (Preview, Reasoning)	100%
GPT-5.4 Mini (Reasoning)	100%
Gemma 4 31B (Reasoning)	100%
GPT-5.2	100%
o4 Mini High	100%
o4 Mini	100%
Qwen 3.5 Flash	100%

	Score	Cost	Time
Gemini 3.1 Flash Lite	100%	$0.0001	1.5s
Gemini 3.1 Flash Lite (Reasoning)	98%	$0.0001	2.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	1.2s
Inception Mercury	98%	$0.0001	1.6s
Stealth: Aurora Alpha	98%	—	1.7s
Gemma 4 26B	96%	$0.0000	3.8s
Gemini 3 Flash (Preview)	99%	$0.0004	1.9s
Inception Mercury 2	100%	$0.0007	1.2s
Gemini 3.5 Flash (Reasoning, Minimal)	88%	$0.0011	1.6s
Llama 3.1 Nemotron 70B	81%	$0.0001	5.7s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0008	5.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0010	7.5s
Llama 3.1 70B	84%	$0.0002	2.1s
Nemotron 3 Super	100%	$0.0000	16.0s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0025	6.3s
Gemma 4 31B	89%	$0.0001	8.6s
GPT-5.4 Mini (Reasoning)	100%	$0.0038	8.1s
GPT-OSS 120B	100%	$0.0004	20.3s
Claude Opus 4.5	94%	$0.0052	6.8s
Stealth: Healer Alpha	79%	$0.0000	12.1s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
GPT-5.2	100%	100%	100%
o4 Mini High	100%	100%	100%
o4 Mini	100%	100%	100%
Qwen 3.5 Flash	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	1.2s	100%
Gemini 3.1 Flash Lite	100%	$0.0001	1.5s	100%
Inception Mercury 2	100%	$0.0007	1.2s	98%
GPT-5.4 Nano (Reasoning)	100%	$0.0010	7.5s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0025	6.3s	100%
Gemini 3 Flash (Preview)	99%	$0.0004	1.9s	95%
Nemotron 3 Super	100%	$0.0000	16.0s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0038	8.1s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0008	5.7s	95%
Inception Mercury	98%	$0.0001	1.6s	90%
GPT-OSS 120B	100%	$0.0004	20.3s	98%
GPT-5 Nano	100%	$0.0010	28.2s	100%
Stealth: Aurora Alpha	98%	—	1.7s	90%
GPT-5.4 (Reasoning, Low)	100%	$0.0093	10.4s	100%
Gemini 3.1 Flash Lite (Reasoning)	98%	$0.0001	2.0s	85%
o4 Mini	100%	$0.0083	20.8s	100%
GPT-5.2	100%	$0.011	15.0s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.010	17.7s	100%
Qwen 3.5 Flash	100%	$0.0024	38.6s	100%
GPT-5 Mini	99%	$0.0043	26.2s	94%

Model	Total ▼	Write sentences with 5 words each	Write sentences with 10 words each	Write sentences with 20 words each
Qwen3.7 Max	100%	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%	100%

Write sentences with 5 words each

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%

	Score	Cost	Time
Llama 3.1 8B	100%	$0.0000	877ms
Gemini 3.1 Flash Lite	100%	$0.0001	2.3s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	904ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0001	945ms
Inception Mercury	100%	$0.0001	1.2s
Llama 3.1 70B	100%	$0.0001	1.3s
Gemini 3 Flash (Preview)	100%	$0.0002	1.3s
Mistral Medium 3.1	99%	$0.0002	1.9s
Inception Mercury 2	100%	$0.0006	1.1s
Gemma 4 26B	100%	$0.0000	4.3s
Stealth: Aurora Alpha	98%	—	1.6s
Qwen 2.5 72B	89%	$0.0007	44.4s
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0007	1.2s
Gemma 4 31B	100%	$0.0000	4.7s
Grok 4.3	92%	$0.0002	1.5s
Llama 3.1 Nemotron 70B	100%	$0.0001	3.8s
DeepSeek V3 (2024-12-26)	95%	$0.0001	4.3s
DeepSeek V4 Pro	98%	$0.0002	4.7s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	5.1s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0015	3.9s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	904ms	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0001	945ms	100%
Gemini 3 Flash (Preview)	100%	$0.0002	1.3s	100%
Gemini 3.1 Flash Lite	100%	$0.0001	2.3s	100%
Inception Mercury 2	100%	$0.0006	1.1s	100%
Llama 3.1 8B	100%	$0.0000	877ms	99%
Llama 3.1 Nemotron 70B	100%	$0.0001	3.8s	100%
Llama 3.1 70B	100%	$0.0001	1.3s	99%
Gemma 4 26B	100%	$0.0000	4.3s	100%
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0007	1.2s	100%
Gemma 4 31B	100%	$0.0000	4.7s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	5.1s	100%
Nemotron 3 Super	100%	$0.0000	8.5s	100%
Inception Mercury	100%	$0.0001	1.2s	97%
Claude Sonnet 4.6	100%	$0.0016	3.3s	100%
Mistral Medium 3.1	99%	$0.0002	1.9s	97%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0015	3.9s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0009	7.1s	100%
GPT-5.4 Mini	99%	$0.0004	871ms	96%
GPT-4o Mini (temp=0)	98%	$0.0001	3.2s	96%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
128	Claude Opus 4.6 (Reasoning)	$0.028	19.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Qwen3.7 Max	$0.022	44.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Gemini 3.1 Pro (Preview)	$0.041	31.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	GPT-5.4 (Reasoning)	$0.0069	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Z.AI GLM 5.1	$0.012	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Qwen3.6 Max Preview	$0.019	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
88	GPT-5.5 (Reasoning)	$0.015	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Claude Sonnet 4.6 (Reasoning)	$0.018	16.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Z.AI GLM 5.2 (Reasoning, High)	$0.0054	20.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Gemini 3.5 Flash (Reasoning)	$0.018	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Z.AI GLM 5 Turbo	$0.0057	15.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	MoonshotAI: Kimi K2.6	$0.0093	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
81	GPT-5.5 (Reasoning, Low)	$0.013	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
146	GPT-5	$0.037	58.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-5 Mini	$0.0036	23.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Qwen 3.5 397B A17B	$0.018	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Grok 4.3 (Reasoning)	$0.0065	35.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Grok 4.20 (Beta, Reasoning)	$0.012	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-5.4 (Reasoning, Low)	$0.0059	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Grok 4.20 (Reasoning)	$0.0061	27.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Claude Sonnet 4.6	$0.0016	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	MiniMax M3	$0.0031	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
151	Qwen 3.5 122B	$0.039	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Qwen 3.5 27B	$0.012	46.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Gemini 3 Flash (Preview, Reasoning)	$0.0084	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Mini (Reasoning)	$0.0025	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Gemma 4 31B (Reasoning)	$0.0007	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Z.AI GLM 5	$0.0043	32.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-5.2	$0.0083	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Gemma 4 26B (Reasoning)	$0.0014	3.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Gemini 3 Pro (Preview)	$0.016	12.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	o4 Mini High	$0.0099	24.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Qwen 3.5 35B	$0.012	37.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	MiniMax M2.5	$0.0024	24.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	o4 Mini	$0.0061	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	945ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0007	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen 3.5 Flash	$0.0022	35.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3 Flash (Preview)	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 3.1 Flash Lite (Preview)	$0.0001	904ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemma 4 31B	$0.0000	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite	$0.0001	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemma 4 26B	$0.0000	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.5 9B	$0.0014	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Mini (Reasoning, Low)	$0.0015	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury 2	$0.0006	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Nemotron 3 Super	$0.0000	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5 Nano	$0.0009	23.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 Nano (Reasoning)	$0.0009	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 Nano (Reasoning, Low)	$0.0006	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Llama 3.1 Nemotron 70B	$0.0001	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Nemotron 3 Nano	$0.0029	3.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Z.AI GLM 4.7	$0.0038	1.4m	99%	100	100	100	100	100	100	100	100	100	99	100%
38	Claude Opus 4.7	$0.0063	4.5s	99%	100	100	100	100	100	100	100	100	100	98	100%
8	Llama 3.1 70B	$0.0001	1.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
6	Llama 3.1 8B	$0.0000	877ms	99%	100	100	100	100	100	100	100	100	100	98	100%
92	Qwen 3.6 27B	$0.0087	41.0s	99%	100	100	100	100	100	100	100	100	100	98	100%
44	Grok 4	$0.0055	11.5s	99%	100	100	100	100	100	100	100	100	100	98	100%
32	GPT-OSS 120B	$0.0003	23.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
59	Claude Opus 4.8 (Reasoning)	$0.0089	7.0s	99%	100	100	100	100	100	100	100	100	99	98	100%
39	ByteDance Seed 1.6	$0.0018	21.4s	97%	100	100	100	100	100	100	100	100	100	96	100%
14	Inception Mercury	$0.0001	1.2s	97%	100	100	100	100	100	100	100	100	100	95	100%
24	GPT-5.5	$0.0024	2.6s	98%	100	100	100	100	100	100	100	100	98	96	99%
71	MoonshotAI: Kimi K2.5	$0.0042	30.1s	96%	100	100	100	100	100	100	100	100	100	94	99%
102	Qwen 3.5 Plus (2026-04-20)	$0.0082	53.4s	98%	100	100	100	100	100	100	100	98	98	98	99%
22	GPT-4o, May 13th (temp=0)	$0.0018	3.9s	98%	100	100	100	100	100	100	100	98	98	98	99%
141	ByteDance Seed 2.0 Mini	$0.0029	3.1m	98%	100	100	100	100	100	100	100	98	98	97	99%
123	GPT-5.1	$0.021	32.9s	95%	100	100	100	100	100	100	100	100	100	92	99%
85	Claude Opus 4.8 (Reasoning, Low)	$0.0097	18.8s	96%	100	100	100	100	100	100	100	100	95	95	99%
16	Mistral Medium 3.1	$0.0002	1.9s	97%	100	100	100	100	100	100	98	98	97	97	99%
82	ByteDance Seed 2.0 Lite	$0.0035	40.8s	95%	100	100	100	100	100	100	100	100	98	92	99%
51	Claude Opus 4.5	$0.0044	6.4s	93%	100	100	100	100	100	100	100	100	100	89	99%
87	MiniMax M2.7	$0.0042	40.1s	93%	100	100	100	100	100	100	100	100	100	89	99%
108	Gemini 2.5 Pro	$0.017	16.2s	97%	100	100	100	100	100	100	98	97	97	96	99%
26	GPT-4o, May 13th (temp=1)	$0.0015	4.3s	97%	100	100	100	100	100	100	98	97	96	96	99%
19	GPT-5.4 Mini	$0.0004	871ms	96%	100	100	100	100	100	98	98	98	97	96	99%
28	DeepSeek V4 Pro	$0.0002	4.7s	93%	100	100	100	100	100	100	100	98	98	89	98%
20	GPT-4o Mini (temp=0)	$0.0001	3.2s	96%	100	98	98	98	98	98	98	98	98	96	98%
27	Gemini 2.5 Flash Lite (Reasoning)	$0.0006	5.8s	96%	100	100	100	99	98	98	98	97	97	96	98%
116	DeepSeek V4 Pro (Reasoning)	$0.0047	1.3m	93%	100	100	100	100	100	100	100	99	94	88	98%
23	GPT-4.1 Mini	$0.0002	1.9s	94%	100	100	100	100	99	98	98	97	96	93	98%
25	Gemma 3 27B	$0.0000	3.5s	94%	100	100	100	100	100	98	98	96	96	93	98%
43	Claude Opus 4.6	$0.0038	6.1s	94%	100	100	100	100	100	100	98	95	94	93	98%
33	Stealth: Aurora Alpha	—	1.6s	92%	100	100	100	100	100	100	100	100	91	89	98%
64	Claude Opus 4.7 (Reasoning)	$0.0068	4.1s	93%	100	100	100	100	100	100	99	95	95	90	98%
29	GPT-4o Mini (temp=1)	$0.0001	7.9s	94%	100	100	100	100	100	100	96	95	94	93	98%
95	Claude Opus 4	$0.012	12.6s	94%	100	100	100	100	100	100	97	95	94	93	98%
56	Claude 3.7 Sonnet	$0.0024	4.5s	87%	100	100	100	100	100	100	100	100	100	78	98%
40	Claude 3.5 Sonnet	$0.0020	4.0s	91%	100	100	100	100	100	100	100	96	93	87	98%
49	Gemini 2.5 Flash (Reasoning)	$0.0038	7.7s	95%	100	99	99	99	99	97	97	96	95	95	98%
34	GPT-5.4	$0.0017	4.1s	92%	100	100	100	100	100	100	98	96	91	89	97%
66	Aion 2.0	$0.0012	19.5s	89%	100	100	100	100	100	100	100	97	90	83	97%
30	GPT-4.1 Nano	$0.0000	1.3s	91%	100	100	100	100	100	98	97	96	91	89	97%
41	Mistral Small 4 (Reasoning)	$0.0008	9.1s	91%	100	100	100	100	98	97	96	94	94	91	97%
45	DeepSeek V3 (2025-03-24)	$0.0001	4.1s	87%	100	100	100	100	100	98	98	98	88	81	96%
101	Z.AI GLM 4.7 Flash	$0.0013	54.6s	87%	100	100	100	100	100	100	100	96	87	80	96%
35	Gemma 3 12B	$0.0000	1.2s	88%	100	100	100	98	96	96	96	96	93	87	96%
112	Qwen 3.6 Flash	$0.010	24.1s	88%	100	100	100	100	100	100	94	94	91	80	96%
91	Z.AI GLM 4.6	$0.0024	43.8s	91%	100	98	98	98	97	96	94	93	92	90	96%
58	Claude Sonnet 4	$0.0023	4.3s	88%	100	100	100	100	97	97	93	92	91	86	96%
48	GPT-4o, Aug. 6th (temp=1)	$0.0010	1.8s	88%	100	100	99	99	96	95	94	93	91	89	96%
62	Claude Sonnet 4.5	$0.0025	5.0s	88%	100	100	100	100	99	96	94	91	89	86	95%
55	Gemma 3 4B	$0.0000	1.2s	84%	100	100	100	98	98	98	94	93	89	77	95%
69	DeepSeek V3 (2024-12-26)	$0.0001	4.3s	82%	100	100	100	100	100	100	96	93	86	70	95%
46	GPT-4o, Aug. 6th (temp=0)	$0.0008	1.9s	90%	98	96	96	94	93	93	93	93	93	92	94%
65	GPT-4.1	$0.0009	2.4s	84%	100	98	98	98	97	96	96	89	88	78	94%
103	Qwen 3.6 35B	$0.0050	24.3s	82%	100	100	100	100	100	96	92	91	80	78	94%
90	DeepSeek V3.2	$0.0005	27.9s	82%	100	100	100	100	100	99	93	87	78	78	94%
72	Z.AI GLM 4.5	$0.0003	6.6s	83%	100	100	100	98	98	98	89	87	82	81	93%
73	DeepSeek V3.1	$0.0001	8.6s	84%	100	100	99	98	97	97	90	85	84	82	93%
70	Claude Haiku 4.5	$0.0007	2.7s	84%	99	99	99	98	97	92	90	88	86	84	93%
76	Grok 4.3	$0.0002	1.5s	80%	100	100	100	100	100	100	89	78	78	78	92%
93	Xiaomi MIMO v2.5 Pro	$0.0019	11.6s	78%	100	100	100	100	99	95	94	80	78	73	92%
75	Qwen3 235B A22B Instruct 2507	$0.0001	6.0s	83%	99	98	94	93	93	92	91	90	86	80	92%
60	Mistral Large 3	$0.0001	2.2s	87%	96	93	93	93	91	91	89	89	89	89	91%
84	Grok 4.20	$0.0003	1.6s	76%	100	100	98	98	97	97	96	82	82	65	91%
79	Mistral Small 4	$0.0000	1.3s	80%	100	96	96	96	93	92	91	87	82	76	91%
80	Gemini 2.5 Flash Lite	$0.0000	576ms	78%	100	98	96	95	93	91	89	86	86	72	91%
67	LFM2 24B	$0.0000	3.2s	87%	93	92	92	92	91	91	89	89	89	85	90%
89	Grok 4.20 (Beta)	$0.0005	737ms	73%	100	100	100	100	98	98	83	81	78	63	90%
137	Qwen 2.5 72B	$0.0007	44.4s	41%	100	100	100	100	100	100	100	95	93	0	89%
113	Stealth: Hunter Alpha	$0.0000	26.8s	71%	100	100	100	98	94	91	80	77	73	67	88%
110	ByteDance Seed 1.6 Flash	$0.0003	5.4s	68%	100	100	96	91	91	89	87	85	72	60	87%
100	Mistral Large	$0.0022	3.9s	76%	96	95	93	90	89	89	83	82	79	73	87%
98	Cydonia 24B V4.1	$0.0001	3.0s	73%	98	94	94	93	93	89	85	79	78	64	87%
105	DeepSeek-V2 Chat	$0.0000	6.4s	72%	100	93	91	89	89	82	82	80	78	72	86%
96	Ministral 3 14B	$0.0000	1.0s	77%	93	91	90	89	88	87	80	80	79	72	85%
106	Mistral Small 3.2 24B	$0.0000	1.6s	71%	95	93	91	90	87	85	83	80	77	63	85%
118	Gemini 2.5 Flash	$0.0003	1.1s	60%	98	98	95	93	93	92	88	84	64	40	84%
119	Hermes 3 70B	$0.0001	3.8s	61%	100	100	98	92	90	87	87	69	58	56	84%
117	Grok 4.1 Fast	$0.0003	5.8s	64%	100	99	91	80	78	78	78	78	78	78	84%
111	Hermes 3 405B	$0.0000	7.7s	74%	90	90	88	87	85	84	83	80	76	69	83%
114	Qwen 3.5 Plus (2026-02-15)	$0.0001	2.9s	67%	100	91	82	78	78	78	78	78	78	78	82%
115	GPT-5.4 Nano	$0.0001	1.2s	69%	89	87	85	78	78	78	78	75	72	70	79%
133	Writer: Palmyra X5	$0.0010	5.8s	42%	100	98	96	90	83	82	78	76	73	11	79%
143	Stealth: Healer Alpha	$0.0000	9.9s	24%	100	100	100	100	100	100	100	78	7	1	79%
125	DeepSeek V4 Flash	$0.0000	7.5s	62%	93	91	89	85	83	82	70	69	63	53	78%
130	DeepSeek V4 Flash (Reasoning)	$0.0000	11.5s	61%	93	87	87	81	81	80	72	70	61	53	76%
122	Arcee AI: Trinity Large (Preview)	$0.0000	3.2s	63%	93	87	81	81	80	77	72	69	66	56	76%
132	Z.AI GLM 4.5 Air	$0.0002	7.8s	49%	96	96	93	93	89	76	76	52	52	37	76%
142	Xiaomi MIMO v2.5	$0.0011	6.1s	31%	100	100	100	100	97	79	78	61	32	1	75%
127	Grok 4 Fast	$0.0002	3.7s	64%	89	78	78	78	78	78	70	70	67	53	74%
121	Mistral Small Creative	$0.0000	714ms	65%	80	80	78	72	72	72	72	72	70	63	73%
134	Mistral Large 2	$0.0004	1.6s	45%	91	91	91	89	87	82	70	60	52	16	73%
135	Cohere Command R+ (Aug. 2024)	$0.0007	1.8s	49%	94	89	82	78	76	76	65	53	51	36	70%
138	Ministral 3 3B	$0.0000	743ms	46%	93	84	74	74	64	63	56	56	52	50	66%
145	Claude 3 Haiku	$0.0001	2.6s	37%	89	85	81	78	72	72	68	65	47	1	66%
147	WizardLM 2 8x22b	$0.0002	5.8s	34%	91	89	89	85	81	68	64	50	23	10	65%
149	Ministral 8B	$0.0000	515ms	28%	100	100	78	78	64	56	45	36	32	20	61%
150	Arcee AI: Trinity Mini	$0.0001	2.8s	31%	97	89	76	73	63	53	45	45	27	24	59%
148	Rocinante 12B	$0.0001	6.1s	37%	88	78	72	66	62	59	59	40	34	22	58%
153	Ministral 3 8B	$0.0000	913ms	13%	96	93	90	85	55	36	34	9	7	7	51%
152	Ministral 3B	$0.0000	458ms	30%	71	64	64	64	52	52	40	37	20	0	46%
154	Qwen 3 32B	$0.0002	13.1s	12%	90	84	67	54	34	29	22	13	1	0	39%
156	Skyfall 36B V2	$0.0001	1.9s	6%	81	76	67	34	16	15	11	8	0	0	31%
155	Mistral NeMO	$0.0000	1.5s	17%	72	47	45	37	35	22	21	17	1	1	30%
92.09%

Median	Evaluator	Top 3	Flop 3
98.3%	Matches word count	100Nemotron 3 Super 100GPT-5.4 Nano (Reasoning, Low) 100Gemini 3.1 Flash Lite (Reasoning)	30Mistral NeMO 31Skyfall 36B V2 39Qwen 3 32B

Write sentences with 10 words each

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.8 (Reasoning, Low)	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
MoonshotAI: Kimi K2.5	100%
GPT-5.1	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.4s
Inception Mercury	99%	$0.0001	1.5s
Gemma 4 26B	100%	$0.0000	3.6s
Gemini 3.1 Flash Lite	100%	$0.0001	1.1s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0001	1.1s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	1.2s
Llama 3.1 70B	96%	$0.0002	1.9s
Gemini 3 Flash (Preview)	100%	$0.0004	2.0s
Inception Mercury 2	100%	$0.0006	1.2s
Llama 3.1 Nemotron 70B	99%	$0.0001	6.0s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	5.4s
Gemma 4 31B	100%	$0.0001	13.0s
GPT-5.4 Nano (Reasoning)	100%	$0.0008	6.1s
GPT-OSS 120B	100%	$0.0003	16.2s
Gemini 3.5 Flash (Reasoning, Minimal)	98%	$0.0012	1.6s
Nemotron 3 Super	100%	$0.0000	20.5s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0021	6.5s
GPT-5 Nano	100%	$0.0008	23.8s
GPT-5.4 Mini (Reasoning)	100%	$0.0029	6.9s
Llama 3.1 8B	95%	$0.0000	824ms

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.8 (Reasoning, Low)	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
GPT-5.1	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.4s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0001	1.1s	100%
Gemini 3.1 Flash Lite	100%	$0.0001	1.1s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	1.2s	100%
Gemini 3 Flash (Preview)	100%	$0.0004	2.0s	100%
Gemma 4 26B	100%	$0.0000	3.6s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	5.4s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0008	6.1s	100%
Inception Mercury 2	100%	$0.0006	1.2s	97%
Inception Mercury	99%	$0.0001	1.5s	97%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0021	6.5s	100%
Gemma 4 31B	100%	$0.0001	13.0s	98%
GPT-5.4 Mini (Reasoning)	100%	$0.0029	6.9s	100%
Llama 3.1 Nemotron 70B	99%	$0.0001	6.0s	97%
Nemotron 3 Super	100%	$0.0000	20.5s	100%
GPT-OSS 120B	100%	$0.0003	16.2s	98%
GPT-5 Nano	100%	$0.0008	23.8s	100%
Gemini 3.5 Flash (Reasoning, Minimal)	98%	$0.0012	1.6s	94%
Claude Opus 4.5	100%	$0.0051	6.4s	98%
GPT-5.4 (Reasoning, Low)	100%	$0.0079	9.3s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
84	Qwen3.7 Max	$0.022	43.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Gemini 3.1 Pro (Preview)	$0.051	48.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-5.4 (Reasoning)	$0.0099	24.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Qwen3.6 Max Preview	$0.033	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-5.5 (Reasoning)	$0.021	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Claude Sonnet 4.6 (Reasoning)	$0.057	36.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Z.AI GLM 5.2 (Reasoning, High)	$0.010	32.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Gemini 3.5 Flash (Reasoning)	$0.018	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 5 Turbo	$0.012	25.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	MoonshotAI: Kimi K2.6	$0.022	1.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude Opus 4.7 (Reasoning)	$0.029	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-5.5 (Reasoning, Low)	$0.016	10.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Claude Opus 4.8 (Reasoning)	$0.039	18.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Claude Opus 4.8 (Reasoning, Low)	$0.036	37.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Qwen 3.5 397B A17B	$0.032	3.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Grok 4.3 (Reasoning)	$0.0067	37.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 (Reasoning, Low)	$0.0079	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Grok 4.20 (Reasoning)	$0.0068	26.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	MoonshotAI: Kimi K2.5	$0.011	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
48	GPT-5.1	$0.015	22.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	MiniMax M3	$0.0053	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Qwen 3.5 122B	$0.016	35.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Qwen 3.5 27B	$0.016	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Gemini 3 Flash (Preview, Reasoning)	$0.011	18.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-5.4 Mini (Reasoning)	$0.0029	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Qwen 3.5 Plus (2026-04-20)	$0.012	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Gemma 4 31B (Reasoning)	$0.0011	1.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.2	$0.011	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Gemma 4 26B (Reasoning)	$0.0022	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Gemini 3 Pro (Preview)	$0.018	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	o4 Mini High	$0.0098	23.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Qwen 3.6 27B	$0.014	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
26	o4 Mini	$0.0078	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Qwen 3.5 Flash	$0.0022	39.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 3 Flash (Preview)	$0.0004	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemma 4 26B	$0.0000	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Qwen 3.5 9B	$0.0012	1.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.4 Mini (Reasoning, Low)	$0.0021	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Nemotron 3 Super	$0.0000	20.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5 Nano	$0.0008	23.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 Nano (Reasoning)	$0.0008	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 Nano (Reasoning, Low)	$0.0007	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-5	$0.027	47.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
22	GPT-5 Mini	$0.0037	22.9s	98%	100	100	100	100	100	100	100	100	100	97	100%
19	Claude Opus 4.5	$0.0051	6.4s	98%	100	100	100	100	100	100	100	100	100	97	100%
12	Gemma 4 31B	$0.0001	13.0s	98%	100	100	100	100	100	100	100	100	100	97	100%
112	Z.AI GLM 5.1	$0.018	2.1m	99%	100	100	100	100	100	100	100	100	98	98	100%
16	GPT-OSS 120B	$0.0003	16.2s	98%	100	100	100	100	100	100	100	100	100	96	100%
9	Inception Mercury 2	$0.0006	1.2s	97%	100	100	100	100	100	100	100	100	100	96	100%
54	ByteDance Seed 2.0 Lite	$0.0056	1.1m	98%	100	100	100	100	100	100	100	100	98	97	100%
39	Grok 4.20 (Beta, Reasoning)	$0.012	7.0s	97%	100	100	100	100	100	100	100	100	100	95	99%
115	Claude Opus 4.6 (Reasoning)	$0.043	23.2s	97%	100	100	100	100	100	100	100	100	98	94	99%
10	Inception Mercury	$0.0001	1.5s	97%	100	100	100	100	100	100	100	100	96	96	99%
70	Qwen 3.6 35B	$0.0100	56.4s	95%	100	100	100	100	100	100	100	100	100	91	99%
131	Nemotron 3 Nano	$0.0035	3.8m	95%	100	100	100	100	100	100	100	100	100	91	99%
96	ByteDance Seed 2.0 Mini	$0.0023	2.4m	97%	100	100	100	100	100	100	100	97	97	97	99%
67	Qwen 3.5 35B	$0.012	36.8s	94%	100	100	100	100	100	100	100	100	100	90	99%
55	Claude Opus 4	$0.015	11.7s	93%	100	100	100	100	100	100	100	100	100	88	99%
41	MiniMax M2.5	$0.0030	36.5s	93%	100	100	100	100	100	100	100	100	100	88	99%
35	Aion 2.0	$0.0023	36.3s	94%	100	100	100	100	100	100	100	100	97	90	99%
14	Llama 3.1 Nemotron 70B	$0.0001	6.0s	97%	100	100	100	100	100	100	97	97	97	95	99%
27	Claude Opus 4.7	$0.0074	4.9s	95%	100	100	100	100	100	98	98	98	95	94	98%
56	MiniMax M2.7	$0.0040	48.4s	91%	100	100	100	100	100	100	100	100	89	89	98%
50	DeepSeek V4 Pro (Reasoning)	$0.0022	48.6s	92%	100	100	100	100	100	100	100	98	91	88	98%
18	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0012	1.6s	94%	100	100	100	100	100	100	98	94	94	92	98%
118	Z.AI GLM 5	$0.011	2.0m	84%	100	100	100	100	100	100	100	100	100	74	97%
24	Claude Sonnet 4.5	$0.0029	5.4s	91%	100	100	100	100	100	100	98	97	90	87	97%
21	Llama 3.1 70B	$0.0002	1.9s	89%	100	100	100	100	100	100	97	95	87	84	96%
29	Llama 3.1 8B	$0.0000	824ms	83%	100	100	100	100	97	96	95	95	91	77	95%
83	Qwen 3.6 Flash	$0.0049	14.4s	69%	100	100	100	100	100	100	100	100	100	48	95%
59	Claude Opus 4.6	$0.0058	7.5s	80%	100	100	100	100	100	100	99	98	76	74	95%
25	GPT-4o, Aug. 6th (temp=1)	$0.0015	2.4s	89%	100	97	95	95	95	95	95	95	90	90	95%
40	GPT-5.4	$0.0021	4.7s	85%	100	100	100	97	95	95	94	90	87	84	94%
92	Gemini 2.5 Pro	$0.021	17.6s	85%	100	100	100	96	96	95	91	90	85	84	94%
32	GPT-4o, Aug. 6th (temp=0)	$0.0015	2.4s	87%	100	95	95	95	92	92	92	92	90	90	93%
46	Claude 3.7 Sonnet	$0.0035	5.8s	85%	100	96	95	94	94	93	93	93	91	81	93%
36	GPT-4o Mini (temp=1)	$0.0001	4.2s	85%	97	95	95	95	92	92	92	92	90	83	92%
34	GPT-4.1 Mini	$0.0002	2.3s	85%	97	97	95	92	92	92	91	90	88	84	92%
47	GPT-4.1	$0.0013	2.9s	81%	100	97	97	95	92	92	92	90	83	79	92%
60	Claude Sonnet 4	$0.0025	4.9s	77%	100	100	100	100	100	97	90	88	74	69	92%
57	Claude 3.5 Sonnet	$0.0027	4.3s	79%	100	100	97	95	92	92	90	86	83	78	91%
53	Grok 4.1 Fast	$0.0006	12.5s	80%	100	100	97	94	92	91	87	85	84	82	91%
63	GPT-5.5	$0.0032	4.5s	78%	100	100	100	95	94	90	90	84	80	79	91%
65	DeepSeek V4 Pro	$0.0004	10.6s	76%	100	100	97	95	94	93	92	87	74	72	90%
140	Z.AI GLM 4.7	$0.0065	2.8m	62%	100	100	100	100	100	100	100	90	74	39	90%
44	Gemma 3 27B	$0.0000	4.7s	84%	95	92	92	92	92	90	90	87	84	83	90%
94	Z.AI GLM 4.7 Flash	$0.0014	1.0m	75%	100	100	100	100	96	96	79	77	74	74	90%
82	Xiaomi MIMO v2.5 Pro	$0.0027	14.0s	72%	100	100	100	100	91	87	87	79	77	74	90%
78	DeepSeek V3.2	$0.0002	11.4s	69%	100	100	97	95	95	90	90	90	72	59	89%
52	GPT-4o Mini (temp=0)	$0.0001	21.1s	85%	92	90	90	90	90	90	90	87	84	84	89%
77	GPT-4o, May 13th (temp=0)	$0.0023	4.8s	71%	97	97	97	97	92	92	87	87	70	63	88%
74	Hermes 3 405B	$0.0000	14.4s	73%	97	97	92	92	88	87	87	87	84	67	88%
114	ByteDance Seed 1.6	$0.0031	35.6s	54%	100	100	100	100	100	100	100	95	42	41	88%
58	Gemma 3 12B	$0.0000	4.4s	79%	95	92	92	90	90	87	87	85	84	74	88%
64	GPT-5.4 Nano	$0.0002	1.4s	75%	97	95	92	92	90	87	84	84	81	71	87%
66	GPT-5.4 Mini	$0.0005	1.2s	75%	94	94	93	91	89	89	87	86	85	65	87%
72	GPT-4o, May 13th (temp=1)	$0.0022	4.8s	76%	95	92	92	91	90	87	83	80	80	72	86%
104	Stealth: Hunter Alpha	$0.0000	13.0s	51%	100	100	99	93	92	90	90	90	49	32	83%
95	Qwen 2.5 72B	$0.0001	3.3s	57%	100	100	92	91	90	88	85	83	65	37	83%
85	Mistral Medium 3.1	$0.0003	5.7s	70%	95	92	90	90	90	79	79	77	72	68	83%
87	DeepSeek V3 (2025-03-24)	$0.0001	4.6s	63%	97	97	92	92	84	74	74	74	72	72	83%
120	ByteDance Seed 1.6 Flash	$0.0009	18.6s	41%	100	100	100	100	95	94	83	77	76	3	83%
103	Grok 4	$0.0071	14.4s	63%	100	97	87	87	84	81	77	77	74	56	82%
89	Gemini 2.5 Flash (Reasoning)	$0.0036	6.9s	69%	97	89	87	86	85	84	78	75	71	65	82%
110	Stealth: Healer Alpha	$0.0000	9.7s	48%	100	100	100	100	100	95	79	71	39	30	81%
105	Mistral Small 4 (Reasoning)	$0.0012	11.9s	55%	100	100	97	90	87	80	75	65	58	50	80%
88	DeepSeek V3 (2024-12-26)	$0.0002	5.1s	66%	92	90	89	87	87	82	77	70	65	59	80%
86	Claude Haiku 4.5	$0.0008	2.8s	68%	89	89	86	86	82	77	74	74	71	67	80%
100	Claude Sonnet 4.6	$0.0021	4.1s	60%	100	97	74	74	74	74	74	74	74	74	79%
90	Mistral Small Creative	$0.0001	1.1s	64%	90	90	90	87	80	79	75	70	65	63	79%
91	Mistral Large 3	$0.0002	3.3s	64%	90	90	90	84	84	84	82	66	59	59	79%
108	Grok 4 Fast	$0.0004	4.3s	53%	97	93	92	90	87	84	72	68	48	39	77%
93	GPT-4.1 Nano	$0.0001	2.5s	65%	84	84	83	83	82	77	75	72	66	55	76%
98	Ministral 3 14B	$0.0000	1.3s	59%	92	88	85	80	76	75	72	71	69	52	76%
101	Gemma 3 4B	$0.0000	1.6s	58%	88	88	87	80	77	75	72	65	63	52	75%
106	Grok 4.20 (Beta)	$0.0005	757ms	55%	96	94	79	79	74	70	67	67	62	62	75%
109	Writer: Palmyra X5	$0.0011	5.0s	56%	89	87	87	78	76	75	73	73	54	48	74%
119	Qwen3 235B A22B Instruct 2507	$0.0001	4.6s	45%	95	92	90	87	85	79	73	62	43	23	73%
117	Claude 3 Haiku	$0.0002	2.7s	50%	97	84	83	82	78	75	74	63	61	31	73%
111	Ministral 3 8B	$0.0000	1.2s	53%	90	87	85	84	80	72	72	63	50	42	73%
113	Grok 4.20	$0.0003	2.1s	53%	95	87	84	84	77	73	63	57	53	49	72%
121	Qwen 3.5 Plus (2026-02-15)	$0.0003	5.3s	47%	100	84	84	74	72	72	70	65	52	35	71%
125	Xiaomi MIMO v2.5	$0.0020	9.8s	46%	100	91	84	76	75	74	62	51	49	37	70%
116	Mistral Small 4	$0.0001	1.5s	53%	95	80	80	78	76	75	61	59	48	45	70%
123	Gemini 2.5 Flash Lite (Reasoning)	$0.0006	5.7s	44%	95	87	87	84	83	75	68	43	40	30	69%
144	DeepSeek V4 Flash (Reasoning)	$0.0002	2.0m	37%	100	95	78	77	77	73	71	40	37	18	67%
126	DeepSeek V3.1	$0.0001	7.7s	45%	84	84	83	82	79	75	67	39	37	31	66%
129	Cydonia 24B V4.1	$0.0001	3.9s	40%	92	90	85	81	80	74	63	36	34	25	66%
141	Z.AI GLM 4.6	$0.0026	43.7s	35%	100	93	87	80	74	70	55	42	35	18	65%
124	Mistral Small 3.2 24B	$0.0000	2.1s	47%	80	79	77	70	64	59	57	52	51	48	64%
128	DeepSeek V4 Flash	$0.0000	7.8s	46%	90	78	76	70	69	67	58	48	45	35	63%
122	LFM2 24B	$0.0000	2.7s	50%	76	75	75	68	67	58	57	57	53	46	63%
133	Grok 4.3	$0.0002	1.1s	37%	100	83	74	74	74	68	52	30	30	24	61%
137	Cohere Command R+ (Aug. 2024)	$0.0008	1.6s	31%	95	84	81	70	70	59	56	56	18	10	60%
135	WizardLM 2 8x22b	$0.0002	7.5s	40%	77	74	66	66	59	57	54	52	46	20	57%
134	Gemini 2.5 Flash Lite	$0.0001	770ms	38%	85	74	73	61	61	60	50	39	37	22	56%
138	Ministral 3 3B	$0.0000	935ms	30%	82	78	65	64	58	56	54	53	15	7	53%
136	Arcee AI: Trinity Large (Preview)	$0.0000	3.8s	40%	71	67	65	59	58	50	45	41	39	32	53%
139	Gemini 2.5 Flash	$0.0003	1.2s	35%	69	62	62	54	52	50	45	41	27	14	48%
143	Qwen 3 32B	$0.0003	14.1s	26%	73	66	63	46	45	37	34	27	24	16	43%
145	Mistral Large 2	$0.0007	3.0s	19%	81	73	57	46	43	28	19	19	17	14	40%
147	Hermes 3 70B	$0.0001	6.1s	21%	81	57	42	41	40	36	30	8	7	6	35%
149	Mistral Large	$0.0039	5.7s	20%	65	51	51	42	38	26	21	21	16	3	33%
146	Z.AI GLM 4.5	$0.0003	5.2s	25%	56	54	48	39	39	39	25	11	8	5	33%
148	Arcee AI: Trinity Mini	$0.0001	3.3s	20%	64	52	51	38	34	31	24	15	7	7	32%
151	Z.AI GLM 4.5 Air	$0.0005	13.2s	21%	43	37	37	36	30	26	24	14	11	4	26%
152	Mistral NeMO	$0.0000	1.5s	13%	57	48	45	24	24	15	14	11	10	9	26%
150	Ministral 3B	$0.0000	831ms	21%	39	32	31	30	27	26	26	21	7	6	24%
154	Rocinante 12B	$0.0001	9.4s	15%	56	43	35	31	26	21	14	3	1	0	23%
153	Ministral 8B	$0.0000	820ms	15%	49	36	34	28	28	16	15	10	0	0	22%
155	Skyfall 36B V2	$0.0002	2.6s	12%	38	33	30	20	18	16	15	2	1	0	17%
156	DeepSeek-V2 Chat	$0.0000	6.8s	12%	25	23	18	18	15	13	10	8	7	4	14%
84.45%

Median	Evaluator	Top 3	Flop 3
93.6%	Matches word count	100Qwen3.7 Max 100Claude Opus 4.8 (Reasoning) 100Qwen 3.6 27B	14DeepSeek-V2 Chat 17Skyfall 36B V2 22Ministral 8B

Write sentences with 20 words each

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
MoonshotAI: Kimi K2.5	100%
GPT-5.1	100%
Qwen 3.5 122B	100%
Qwen 3.5 27B	100%

N-Length Sentences

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write sentences with 5 words each

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write sentences with 10 words each

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write sentences with 20 words each

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
60	Claude Opus 4.6 (Reasoning)	$0.087	39.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen3.7 Max	$0.034	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Gemini 3.1 Pro (Preview)	$0.060	51.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Z.AI GLM 5.1	$0.019	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Qwen3.6 Max Preview	$0.048	2.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Claude Sonnet 4.6 (Reasoning)	$0.159	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Z.AI GLM 5.2 (Reasoning, High)	$0.015	40.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemini 3.5 Flash (Reasoning)	$0.033	14.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Z.AI GLM 5 Turbo	$0.016	39.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	MoonshotAI: Kimi K2.6	$0.015	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Claude Opus 4.8 (Reasoning)	$0.079	28.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Claude Opus 4.8 (Reasoning, Low)	$0.073	27.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-5	$0.030	49.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen 3.5 397B A17B	$0.026	3.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Grok 4.3 (Reasoning)	$0.0081	42.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 (Reasoning, Low)	$0.014	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	MoonshotAI: Kimi K2.5	$0.011	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.1	$0.015	24.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen 3.5 122B	$0.023	50.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Qwen 3.5 27B	$0.019	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 3 Flash (Preview, Reasoning)	$0.012	19.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Mini (Reasoning)	$0.0060	10.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemma 4 31B (Reasoning)	$0.0016	3.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	ByteDance Seed 1.6	$0.0032	36.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5.2	$0.015	18.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	o4 Mini High	$0.014	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Qwen 3.5 35B	$0.015	44.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	o4 Mini	$0.011	25.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	MiniMax M2.7	$0.0040	44.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	ByteDance Seed 2.0 Mini	$0.0025	2.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Qwen 3.5 Flash	$0.0027	40.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite (Preview)	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 3.1 Flash Lite	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-OSS 120B	$0.0005	20.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Qwen 3.5 9B	$0.0013	2.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-5.4 Mini (Reasoning, Low)	$0.0040	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0008	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Nemotron 3 Super	$0.0000	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5 Nano	$0.0014	37.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning)	$0.0013	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Nemotron 3 Nano	$0.0005	31.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-5.5 (Reasoning)	$0.039	18.6s	97%	100	100	100	100	100	100	100	100	100	96	100%
29	GPT-5.5 (Reasoning, Low)	$0.029	14.9s	97%	100	100	100	100	100	100	100	100	100	95	100%
26	GPT-5.4 (Reasoning)	$0.021	23.3s	97%	100	100	100	100	100	100	100	100	100	94	99%
43	ByteDance Seed 2.0 Lite	$0.0062	1.2m	96%	100	100	100	100	100	100	100	100	100	93	99%
10	GPT-5.4 Nano (Reasoning, Low)	$0.0011	6.7s	91%	100	100	100	100	100	100	100	100	100	86	99%
50	Claude Opus 4.7 (Reasoning)	$0.064	14.5s	90%	100	100	100	100	100	100	100	100	100	83	98%
30	Grok 4.20 (Reasoning)	$0.0078	26.8s	90%	100	100	100	100	100	100	100	100	100	83	98%
64	Gemma 4 26B (Reasoning)	$0.0023	2.3m	90%	100	100	100	100	100	100	100	100	100	83	98%
33	GPT-5 Mini	$0.0056	32.6s	90%	100	100	100	100	100	100	100	100	100	83	98%
70	Z.AI GLM 5	$0.017	2.3m	88%	100	100	100	100	100	100	100	100	100	80	98%
32	Grok 4.20 (Beta, Reasoning)	$0.018	9.7s	87%	100	100	100	100	100	100	100	100	100	78	98%
68	Qwen 3.5 Plus (2026-04-20)	$0.016	2.1m	86%	100	100	100	100	100	100	100	100	100	76	98%
44	MiniMax M2.5	$0.0038	56.4s	85%	100	100	100	100	100	100	100	100	100	75	98%
22	Stealth: Aurora Alpha	—	2.1s	85%	100	100	100	100	100	100	100	100	100	75	98%
9	Gemini 3 Flash (Preview)	$0.0005	2.3s	93%	100	100	100	100	100	100	95	95	94	90	97%
35	Gemini 3 Pro (Preview)	$0.019	12.7s	88%	100	100	100	100	100	100	100	100	93	80	97%
41	Qwen 3.6 Flash	$0.011	31.6s	83%	100	100	100	100	100	100	100	100	100	72	97%
53	MiniMax M3	$0.0046	1.3m	82%	100	100	100	100	100	100	100	100	100	70	97%
46	Qwen 3.6 35B	$0.0060	35.6s	76%	100	100	100	100	100	100	100	100	100	61	96%
18	Inception Mercury	$0.0001	2.0s	85%	100	100	100	100	100	100	100	84	84	84	95%
96	Z.AI GLM 4.7	$0.0092	3.5m	71%	100	100	100	100	100	100	100	100	100	51	95%
67	Qwen 3.6 27B	$0.022	1.6m	81%	100	100	100	100	100	100	100	92	90	69	95%
39	Mistral Small 4 (Reasoning)	$0.0026	29.2s	84%	100	100	100	100	94	93	90	90	89	84	94%
34	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	4.1s	76%	100	100	100	100	100	100	100	100	70	70	94%
66	Aion 2.0	$0.0066	1.6m	73%	100	100	100	100	100	100	100	93	92	54	94%
36	ByteDance Seed 1.6 Flash	$0.0009	16.4s	80%	100	100	100	100	100	100	87	83	78	75	92%
76	Z.AI GLM 4.7 Flash	$0.0027	1.9m	70%	100	100	100	100	100	93	90	74	74	60	89%
45	Gemma 4 26B	$0.0001	3.3s	66%	100	100	100	100	100	92	92	74	61	61	88%
54	Claude Opus 4.5	$0.0061	7.6s	64%	100	96	88	88	84	80	75	75	74	60	82%
55	GPT-5.4 Mini	$0.0007	1.4s	60%	100	92	87	83	78	76	74	74	70	59	79%
51	GPT-4.1	$0.0014	3.1s	64%	93	92	85	84	84	80	72	72	67	57	79%
73	Stealth: Healer Alpha	$0.0000	16.6s	36%	100	100	100	100	100	100	92	37	34	20	78%
61	Claude Opus 4.7	$0.010	6.0s	62%	83	80	80	80	77	76	73	70	66	50	73%
71	GPT-4o, May 13th (temp=0)	$0.0032	5.0s	41%	100	100	88	85	80	80	73	64	43	18	73%
52	GPT-4o Mini (temp=0)	$0.0002	3.4s	70%	72	72	72	72	72	72	72	72	72	68	71%
72	GPT-5.4	$0.0019	4.5s	44%	100	90	80	70	67	66	59	59	51	40	68%
65	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0015	1.8s	53%	92	74	74	70	69	65	61	61	56	55	68%
69	Gemma 4 31B	$0.0001	8.0s	48%	90	84	66	65	61	61	61	61	61	61	67%
75	Grok 4	$0.0091	19.2s	51%	84	78	76	69	68	68	67	61	54	39	66%
79	Claude Opus 4	$0.017	15.3s	52%	83	75	70	66	66	61	61	61	56	53	65%
80	GPT-4o Mini (temp=1)	$0.0001	6.3s	39%	100	80	76	72	70	65	59	55	34	23	63%
117	DeepSeek V4 Pro (Reasoning)	$0.0058	1.9m	12%	100	100	100	100	93	70	63	0	0	0	63%
85	Gemini 2.5 Pro	$0.018	16.0s	40%	83	80	80	80	78	59	57	51	38	20	63%
74	Mistral Medium 3.1	$0.0005	5.4s	48%	76	72	68	68	67	61	58	57	54	29	61%
77	GPT-4.1 Nano	$0.0001	3.4s	43%	76	76	76	65	64	59	59	57	38	30	60%
78	Qwen 2.5 72B	$0.0000	2.2s	41%	100	61	61	61	61	61	61	61	40	35	60%
87	Claude Opus 4.6	$0.0071	9.1s	27%	100	93	80	61	55	47	47	37	37	32	59%
86	GPT-4o, May 13th (temp=1)	$0.0027	5.0s	30%	92	87	75	67	64	54	48	39	30	11	57%
82	Llama 3.1 70B	$0.0002	2.9s	42%	74	69	60	58	54	53	50	46	43	38	55%
88	Claude Sonnet 4.5	$0.0045	7.7s	29%	92	72	69	65	59	58	49	42	20	2	53%
92	Claude Sonnet 4	$0.0038	6.2s	23%	91	78	76	72	66	49	32	17	12	3	50%
90	GPT-4.1 Mini	$0.0003	2.3s	25%	87	82	59	59	51	42	38	34	32	4	49%
89	Llama 3.1 Nemotron 70B	$0.0001	7.4s	32%	66	60	53	52	45	39	39	37	29	29	45%
109	Xiaomi MIMO v2.5 Pro	$0.0059	27.0s	3%	100	100	92	88	23	20	19	1	0	0	44%
94	Llama 3.1 8B	$0.0000	1.0s	20%	84	74	74	48	45	33	27	24	21	5	44%
91	Gemini 2.5 Flash Lite (Reasoning)	$0.0005	5.2s	31%	67	65	55	53	52	49	35	25	13	10	42%
93	Claude 3.7 Sonnet	$0.0037	5.1s	31%	59	53	52	47	47	45	45	27	24	2	40%
95	Ministral 3 14B	$0.0001	3.5s	27%	65	51	49	46	44	42	32	32	4	3	37%
100	Qwen3 235B A22B Instruct 2507	$0.0002	10.1s	19%	75	58	57	39	39	31	24	13	12	0	35%
98	GPT-5.5	$0.0041	4.9s	25%	59	59	43	42	42	37	31	18	10	2	34%
101	Writer: Palmyra X5	$0.0020	12.9s	21%	71	58	51	44	38	37	22	14	8	0	34%
111	Grok 4.1 Fast	$0.0010	13.8s	3%	100	95	85	21	19	15	2	0	0	0	34%
99	GPT-4o, Aug. 6th (temp=1)	$0.0020	2.9s	19%	59	57	52	46	34	27	22	14	12	9	33%
103	Qwen 3 32B	$0.0004	14.3s	21%	56	55	48	47	38	28	24	20	7	3	33%
114	DeepSeek V4 Flash (Reasoning)	$0.0004	23.4s	0%	100	100	100	20	0	0	0	0	0	0	32%
106	Claude Sonnet 4.6	$0.0037	6.4s	10%	87	77	34	32	23	23	22	15	1	0	31%
104	DeepSeek V3 (2025-03-24)	$0.0002	12.0s	14%	74	58	51	39	27	24	18	11	8	0	31%
102	Gemma 3 27B	$0.0001	7.9s	20%	60	56	53	47	44	28	17	2	2	2	31%
112	Stealth: Hunter Alpha	$0.0000	10.0s	4%	83	72	66	56	25	0	0	0	0	0	30%
105	Claude Haiku 4.5	$0.0011	3.3s	10%	67	66	57	50	36	10	0	0	0	0	29%
108	Claude 3.5 Sonnet	$0.0038	5.5s	11%	51	47	45	40	19	16	13	13	6	1	25%
110	DeepSeek V3 (2024-12-26)	$0.0003	10.4s	14%	49	44	35	21	21	19	18	10	2	0	22%
107	Mistral Small Creative	$0.0001	1.8s	14%	44	40	28	27	22	18	16	13	3	0	21%
118	Xiaomi MIMO v2.5	$0.0016	8.3s	0%	100	83	21	5	1	0	0	0	0	0	21%
116	Mistral Small 3.2 24B	$0.0001	4.0s	4%	51	47	27	19	7	5	1	0	0	0	16%
113	GPT-4o, Aug. 6th (temp=0)	$0.0016	2.5s	12%	25	19	17	15	13	13	12	12	12	11	15%
115	Mistral Small 4	$0.0001	1.9s	8%	49	25	19	16	13	9	6	0	0	0	14%
119	Grok 4.20	$0.0004	2.7s	0%	47	42	34	11	0	0	0	0	0	0	14%
120	Gemini 2.5 Flash (Reasoning)	$0.0041	7.5s	5%	51	34	12	10	9	6	3	1	0	0	13%
156	Z.AI GLM 4.6	$0.0053	1.3m	3%	59	36	7	6	5	3	2	0	0	0	12%
129	Z.AI GLM 4.5 Air	$0.0007	17.7s	3%	37	32	31	7	7	2	0	0	0	0	12%
121	Grok 4.20 (Beta)	$0.0008	1.2s	2%	66	15	11	5	3	3	2	0	0	0	10%
125	Gemini 2.5 Flash Lite	$0.0001	1.0s	1%	47	34	4	2	2	0	0	0	0	0	9%
130	WizardLM 2 8x22b	$0.0003	12.0s	2%	41	21	14	5	5	1	1	0	0	0	9%
124	Grok 4 Fast	$0.0003	4.1s	3%	33	23	15	8	7	1	0	0	0	0	9%
122	Hermes 3 70B	$0.0001	7.6s	5%	27	16	15	8	7	6	0	0	0	0	8%
123	GPT-5.4 Nano	$0.0002	1.7s	3%	47	11	4	4	4	3	3	1	0	0	8%
126	Ministral 3B	$0.0000	1.0s	2%	23	19	15	11	4	0	0	0	0	0	7%
127	Claude 3 Haiku	$0.0002	2.7s	2%	27	15	13	10	4	0	0	0	0	0	7%
128	Ministral 3 3B	$0.0000	1.4s	1%	23	19	10	4	2	2	0	0	0	0	6%
131	Gemma 3 12B	$0.0000	6.7s	2%	13	13	9	9	2	2	2	0	0	0	5%
132	Cohere Command R+ (Aug. 2024)	$0.0010	2.6s	0%	25	19	0	0	0	0	0	0	0	0	4%
137	Qwen 3.5 Plus (2026-02-15)	$0.0004	9.5s	1%	23	12	3	3	2	0	0	0	0	0	4%
135	Skyfall 36B V2	$0.0002	3.2s	0%	24	11	4	0	0	0	0	0	0	0	4%
147	Hermes 3 405B	$0.0000	13.7s	0%	20	16	0	0	0	0	0	0	0	0	4%
134	Grok 4.3	$0.0002	1.6s	0%	30	1	0	0	0	0	0	0	0	0	3%
139	Cydonia 24B V4.1	$0.0001	5.7s	0%	13	10	6	2	0	0	0	0	0	0	3%
144	DeepSeek V4 Pro	$0.0003	8.6s	0%	12	6	6	4	0	0	0	0	0	0	3%
136	Gemma 3 4B	$0.0000	2.5s	0%	12	10	2	1	0	0	0	0	0	0	3%
133	Ministral 8B	$0.0000	1.4s	1%	13	7	2	2	1	0	0	0	0	0	2%
138	Arcee AI: Trinity Mini	$0.0001	3.5s	0%	8	8	7	0	0	0	0	0	0	0	2%
151	DeepSeek V3.1	$0.0001	11.1s	0%	7	6	0	0	0	0	0	0	0	0	1%
140	Ministral 3 8B	$0.0001	2.5s	0%	9	1	0	0	0	0	0	0	0	0	1%
141	LFM2 24B	$0.0000	3.5s	0%	6	2	0	0	0	0	0	0	0	0	1%
154	Mistral Large	$0.0048	6.2s	0%	6	0	0	0	0	0	0	0	0	0	1%
150	Mistral Large 3	$0.0006	8.3s	0%	2	1	1	1	0	0	0	0	0	0	0%
148	DeepSeek V4 Flash	$0.0000	6.4s	0%	2	0	0	0	0	0	0	0	0	0	0%
143	Mistral NeMO	$0.0000	2.7s	0%	2	0	0	0	0	0	0	0	0	0	0%
153	DeepSeek V3.2	$0.0001	10.2s	0%	1	0	0	0	0	0	0	0	0	0	0%
142	Gemini 2.5 Flash	$0.0005	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Arcee AI: Trinity Large (Preview)	$0.0000	3.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
152	Rocinante 12B	$0.0001	9.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
155	DeepSeek-V2 Chat	$0.0001	18.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
149	Z.AI GLM 4.5	$0.0004	5.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	Mistral Large 2	$0.0009	4.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
59.61%