Write N of X

Write exactly N words/sentences/paragraphs...

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Grok 4.3 (Reasoning)	100%
Qwen 3.5 397B A17B	100%
Gemma 4 26B (Reasoning)	100%
Z.AI GLM 5	100%
Qwen 3.5 35B	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5.1	100%
Qwen 3.5 Flash	100%
Gemma 4 31B (Reasoning)	100%
Gemini 3 Flash (Preview, Reasoning)	100%
Z.AI GLM 4.7	100%
Claude Opus 4.6 (Reasoning)	100%
Gemini 3 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 Mini (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
MoonshotAI: Kimi K2.5	100%
GPT-5.4 (Reasoning)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	99%	—	3.7s
Ministral 3 3B	72%	$0.0002	1.2s
Inception Mercury	99%	$0.0003	1.8s
Gemini 2.5 Flash Lite	77%	$0.0003	1.3s
Inception Mercury 2	99%	$0.0008	1.2s
Llama 3.1 8B	74%	$0.0004	1.2s
Gemini 3.1 Flash Lite (Preview)	96%	$0.0007	1.6s
Gemini 3.1 Flash Lite	95%	$0.0007	1.8s
Gemini 3.1 Flash Lite (Reasoning)	93%	$0.0007	2.2s
GPT-5.4 Nano	86%	$0.0006	2.3s
GPT-4.1 Nano	82%	$0.0002	4.4s
Mistral Small Creative	75%	$0.0003	1.9s
GPT-5.4 Nano (Reasoning)	98%	$0.0009	3.7s
GPT-5.4 Nano (Reasoning, Low)	92%	$0.0007	2.6s
Mistral Small 3.2 24B	81%	$0.0002	5.2s
Ministral 3 14B	83%	$0.0004	2.7s
DeepSeek V4 Flash	87%	$0.0001	7.8s
Grok 4 Fast	88%	$0.0005	3.9s
GPT-4.1 Mini	84%	$0.0006	3.8s
Stealth: Healer Alpha	87%	$0.0000	10.8s

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Qwen 3.5 35B	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen 3.5 Flash	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%
Z.AI GLM 4.7	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	99%	99%
MoonshotAI: Kimi K2.5	100%	99%	99%
GPT-5.4 (Reasoning)	100%	99%	99%

	Score	Cost	Speed	Stability
GPT-5.4 Mini (Reasoning)	100%	$0.0028	3.9s	100%
Inception Mercury 2	99%	$0.0008	1.2s	88%
GPT-5 Mini	100%	$0.0022	10.4s	96%
Stealth: Aurora Alpha	99%	—	3.7s	89%
Inception Mercury	99%	$0.0003	1.8s	83%
GPT-5.2	100%	$0.0076	8.5s	98%
GPT-5.1	100%	$0.0075	10.8s	98%
Nemotron 3 Super	99%	$0.0000	12.8s	83%
Z.AI GLM 5 Turbo	100%	$0.0071	17.7s	100%
GPT-5.4 Nano (Reasoning)	98%	$0.0009	3.7s	78%
GPT-5.4 (Reasoning)	100%	$0.010	10.5s	99%
Qwen 3.5 Flash	100%	$0.0025	39.9s	100%
Grok 4.3 (Reasoning)	100%	$0.0066	29.0s	100%
Gemini 3 Flash (Preview)	97%	$0.0015	2.6s	73%
o4 Mini	99%	$0.0058	13.2s	87%
GPT-5 Nano	99%	$0.0008	21.9s	83%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.011	18.1s	100%
o4 Mini High	100%	$0.0083	23.8s	96%
GPT-5	99%	$0.010	16.5s	94%
GPT-OSS 120B	99%	$0.0004	28.1s	82%

		words	sentences	paragraphs
Gemini 3.1 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 35B	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 Flash	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 4.7	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%

1 paragraph summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	3.9s
Arcee AI: Trinity Mini	100%	$0.0001	880ms
Ministral 3B	100%	$0.0001	2.1s
Inception Mercury	100%	$0.0003	845ms
Gemini 2.5 Flash Lite	100%	$0.0002	688ms
Nemotron 3 Super	100%	$0.0000	3.6s
Ministral 8B	100%	$0.0002	988ms
Ministral 3 3B	100%	$0.0002	1.0s
Gemma 3 4B	100%	$0.0001	2.2s
Arcee AI: Trinity Large (Preview)	100%	$0.0000	5.5s
GPT-4.1 Nano	100%	$0.0001	2.3s
LFM2 24B	100%	$0.0001	2.7s
Inception Mercury 2	100%	$0.0004	820ms
DeepSeek V4 Flash	100%	$0.0001	3.7s
Mistral Small Creative	100%	$0.0002	1.4s
Ministral 3 8B	100%	$0.0003	1.3s
Llama 3.1 8B	100%	$0.0003	709ms
Stealth: Healer Alpha	100%	$0.0000	3.9s
Mistral NeMO	100%	$0.0003	1.8s
Mistral Small 3.2 24B	100%	$0.0002	2.5s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Arcee AI: Trinity Mini	100%	$0.0001	880ms	100%
Gemini 2.5 Flash Lite	100%	$0.0002	688ms	100%
Ministral 8B	100%	$0.0002	988ms	100%
Inception Mercury	100%	$0.0003	845ms	100%
Llama 3.1 8B	100%	$0.0003	709ms	100%
Ministral 3 3B	100%	$0.0002	1.0s	100%
Inception Mercury 2	100%	$0.0004	820ms	100%
Ministral 3 8B	100%	$0.0003	1.3s	100%
Mistral Small Creative	100%	$0.0002	1.4s	100%
Ministral 3B	100%	$0.0001	2.1s	100%
Mistral NeMO	100%	$0.0003	1.8s	100%
Gemma 3 4B	100%	$0.0001	2.2s	100%
Gemini 2.5 Flash	100%	$0.0006	1.3s	100%
GPT-5.4 Nano	100%	$0.0005	1.5s	100%
GPT-4.1 Nano	100%	$0.0001	2.3s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0005	1.5s	100%
Gemini 3.1 Flash Lite	100%	$0.0006	1.3s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0005	1.6s	100%
Mistral Small 4	100%	$0.0003	2.0s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0006	1.4s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
125	Claude Opus 4.6 (Reasoning)	$0.015	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
143	Qwen3.6 Max Preview	$0.012	42.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemini 3.1 Pro (Preview)	$0.014	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Z.AI GLM 5.1	$0.0059	35.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Z.AI GLM 5 Turbo	$0.0033	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Claude Sonnet 4.6 (Reasoning)	$0.0087	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Grok 4.3 (Reasoning)	$0.0032	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	GPT-5.4 (Reasoning)	$0.0051	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Claude Opus 4.7 (Reasoning)	$0.020	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	GPT-5.5 (Reasoning)	$0.012	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-5 Mini	$0.0013	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	GPT-5.5 (Reasoning, Low)	$0.012	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	GPT-5.1	$0.0030	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Claude Opus 4.6	$0.014	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	MoonshotAI: Kimi K2.6	$0.0043	21.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	GPT-5	$0.0058	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Qwen 3.5 397B A17B	$0.0071	48.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Gemma 4 31B (Reasoning)	$0.0004	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Qwen 3.5 122B	$0.0054	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Qwen 3.5 Plus (2026-04-20)	$0.0040	25.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Gemma 4 26B (Reasoning)	$0.0004	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Grok 4.20 (Beta, Reasoning)	$0.0036	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	GPT-5.4 (Reasoning, Low)	$0.0042	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Grok 4.20 (Reasoning)	$0.0028	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Z.AI GLM 5	$0.0047	35.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Claude Sonnet 4.6	$0.0081	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	MoonshotAI: Kimi K2.5	$0.0023	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Qwen 3.5 27B	$0.0051	21.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	ByteDance Seed 1.6	$0.0030	31.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Qwen 3.6 Flash	$0.0023	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5.4 Mini (Reasoning)	$0.0010	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Gemini 3 Flash (Preview, Reasoning)	$0.0031	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	o4 Mini High	$0.0048	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.2	$0.0036	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	DeepSeek V4 Pro (Reasoning)	$0.0020	37.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Claude Opus 4.7	$0.021	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Qwen 3.6 27B	$0.0055	23.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Claude Opus 4.5	$0.013	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4.1 Fast	$0.0004	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Aion 2.0	$0.0019	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Z.AI GLM 4.6	$0.0026	35.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	MiniMax M2.7	$0.0011	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	GPT-5.5	$0.012	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Qwen 3.6 35B	$0.0015	10.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	DeepSeek V4 Flash (Reasoning)	$0.0001	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.016	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Claude Sonnet 4	$0.0082	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	MiniMax M2.5	$0.0006	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Z.AI GLM 4.7	$0.0025	50.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-4.1	$0.0028	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Gemini 2.5 Pro	$0.0085	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	o4 Mini	$0.0023	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Grok 4	$0.0089	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Claude Sonnet 4.5	$0.0079	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Qwen 3.5 35B	$0.0046	15.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
145	Claude Opus 4	$0.041	11.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Xiaomi MIMO v2.5 Pro	$0.0012	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Stealth: Hunter Alpha	$0.0000	9.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	ByteDance Seed 2.0 Mini	$0.0010	57.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Gemma 4 31B	$0.0003	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Gemini 2.5 Flash (Reasoning)	$0.0017	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	GPT-OSS 120B	$0.0003	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemini 3.1 Flash Lite (Reasoning)	$0.0006	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Qwen 3.5 Flash	$0.0010	16.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Z.AI GLM 4.5	$0.0008	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4 Fast	$0.0004	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Qwen 3.5 9B	$0.0005	41.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Qwen 3.5 Plus (2026-02-15)	$0.0011	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Stealth: Healer Alpha	$0.0000	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Gemini 3.1 Flash Lite (Preview)	$0.0006	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Gemma 4 26B	$0.0002	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemini 3.1 Flash Lite	$0.0006	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5.4 Mini (Reasoning, Low)	$0.0012	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Gemini 2.5 Flash Lite (Reasoning)	$0.0004	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Mistral Large 3	$0.0010	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
146	GPT-4o, May 13th (temp=0)	$0.0098	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Gemini 3 Flash (Preview)	$0.0013	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Xiaomi MIMO v2.5	$0.0008	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	DeepSeek-V2 Chat	$0.0003	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Z.AI GLM 4.7 Flash	$0.0005	17.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	ByteDance Seed 2.0 Lite	$0.0032	32.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Nemotron 3 Super	$0.0000	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-5.4	$0.0031	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Claude 3.5 Sonnet	$0.0074	11.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Grok 4.20 (Beta)	$0.0016	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Inception Mercury 2	$0.0004	820ms	100%	100	100	100	100	100	100	100	100	100	100	100%
140	GPT-4o, May 13th (temp=1)	$0.0099	41.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Stealth: Aurora Alpha	—	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V3 (2024-12-26)	$0.0007	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Claude 3.7 Sonnet	$0.0076	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-4.1 Mini	$0.0006	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Z.AI GLM 4.5 Air	$0.0005	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Hermes 3 405B	$0.0000	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	DeepSeek V4 Pro	$0.0021	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	GPT-4o, Aug. 6th (temp=1)	$0.0055	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	GPT-5 Nano	$0.0004	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	GPT-4o, Aug. 6th (temp=0)	$0.0056	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-5.4 Mini	$0.0011	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Mistral Large 2	$0.0044	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Mistral Small 4 (Reasoning)	$0.0005	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	DeepSeek V3.1	$0.0006	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	DeepSeek V3.2	$0.0005	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen 3 32B	$0.0003	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	DeepSeek V4 Flash	$0.0001	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	DeepSeek V3 (2025-03-24)	$0.0005	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Grok 4.20	$0.0023	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 Nano (Reasoning)	$0.0005	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0002	688ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash	$0.0006	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Mistral Large	$0.018	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Qwen3 235B A22B Instruct 2507	$0.0002	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Writer: Palmyra X5	$0.0020	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Inception Mercury	$0.0003	845ms	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 Nano (Reasoning, Low)	$0.0005	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	GPT-4o Mini (temp=1)	$0.0003	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Grok 4.3	$0.0021	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Mistral Small 3.2 24B	$0.0002	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Gemma 3 12B	$0.0001	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Llama 3.1 70B	$0.0016	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	GPT-4o Mini (temp=0)	$0.0003	43.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Gemma 3 27B	$0.0002	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Mistral Medium 3.1	$0.0010	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Nemotron 3 Nano	$0.0001	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Mistral Small 4	$0.0003	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen 2.5 72B	$0.0007	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Llama 3.1 Nemotron 70B	$0.0006	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5.4 Nano	$0.0005	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Arcee AI: Trinity Large (Preview)	$0.0000	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	ByteDance Seed 1.6 Flash	$0.0003	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Mistral Small Creative	$0.0002	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Hermes 3 70B	$0.0007	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Ministral 3 14B	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-4.1 Nano	$0.0001	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Ministral 3 8B	$0.0003	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Claude 3 Haiku	$0.0006	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	WizardLM 2 8x22b	$0.0014	22.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Arcee AI: Trinity Mini	$0.0001	880ms	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Cohere Command R+ (Aug. 2024)	$0.0053	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemma 3 4B	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Ministral 3 3B	$0.0002	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral NeMO	$0.0003	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 8B	$0.0002	988ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Llama 3.1 8B	$0.0003	709ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Ministral 3B	$0.0001	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	LFM2 24B	$0.0001	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Claude Haiku 4.5	$0.0025	3.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
147	Rocinante 12B	$0.0005	11.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
99.66%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches paragraph count	100Hermes 3 405B 100GPT-5 100Mistral Small 4 (Reasoning)	60Rocinante 12B 90Claude Haiku 4.5

3 paragraph summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.4s
Ministral 3 3B	100%	$0.0002	1.3s
Gemini 2.5 Flash Lite	100%	$0.0003	1.4s
Arcee AI: Trinity Mini	100%	$0.0001	2.8s
Llama 3.1 8B	90%	$0.0004	1.4s
Mistral Small Creative	100%	$0.0003	2.3s
Inception Mercury	100%	$0.0004	1.9s
Ministral 3 8B	100%	$0.0003	2.7s
Gemma 3 4B	60%	$0.0001	3.7s
Mistral Small 3.2 24B	100%	$0.0002	4.4s
Stealth: Healer Alpha	100%	$0.0000	13.5s
Arcee AI: Trinity Large (Preview)	100%	$0.0000	6.9s
Ministral 3 14B	100%	$0.0004	4.1s
Nemotron 3 Super	100%	$0.0000	8.4s
DeepSeek V4 Flash	100%	$0.0002	14.4s
Inception Mercury 2	100%	$0.0007	1.1s
Mistral Small 4	100%	$0.0004	3.4s
GPT-5.4 Nano (Reasoning)	100%	$0.0006	2.1s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.0s
GPT-4.1 Nano	100%	$0.0002	4.8s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.4s	100%
Ministral 3 3B	100%	$0.0002	1.3s	100%
Gemini 2.5 Flash Lite	100%	$0.0003	1.4s	100%
Inception Mercury 2	100%	$0.0007	1.1s	100%
Inception Mercury	100%	$0.0004	1.9s	100%
Mistral Small Creative	100%	$0.0003	2.3s	100%
GPT-5.4 Nano	100%	$0.0007	1.9s	100%
Arcee AI: Trinity Mini	100%	$0.0001	2.8s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.0s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0006	2.1s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	1.8s	100%
Gemini 3.1 Flash Lite	100%	$0.0008	1.8s	100%
Ministral 3 8B	100%	$0.0003	2.7s	100%
Gemini 2.5 Flash	100%	$0.0010	2.0s	100%
GPT-5.4 Mini	100%	$0.0014	1.8s	100%
Mistral Small 4	100%	$0.0004	3.4s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0008	3.1s	100%
GPT-4.1 Mini	100%	$0.0007	3.4s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0018	1.7s	100%
Ministral 3 14B	100%	$0.0004	4.1s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
114	Claude Opus 4.6 (Reasoning)	$0.018	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Qwen3.6 Max Preview	$0.015	52.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Gemini 3.1 Pro (Preview)	$0.018	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Z.AI GLM 5.1	$0.0076	34.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Z.AI GLM 5 Turbo	$0.0042	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Claude Sonnet 4.6 (Reasoning)	$0.011	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Grok 4.3 (Reasoning)	$0.0030	16.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-5.4 (Reasoning)	$0.0064	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Claude Opus 4.7 (Reasoning)	$0.025	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	GPT-5.5 (Reasoning)	$0.013	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5 Mini	$0.0016	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	GPT-5.5 (Reasoning, Low)	$0.014	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	GPT-5.1	$0.0048	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Claude Opus 4.6	$0.017	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	MoonshotAI: Kimi K2.6	$0.0058	37.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	GPT-5	$0.0077	15.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Qwen 3.5 397B A17B	$0.0074	52.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Gemma 4 31B (Reasoning)	$0.0005	39.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Qwen 3.5 122B	$0.0068	17.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Qwen 3.5 Plus (2026-04-20)	$0.0049	29.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Gemma 4 26B (Reasoning)	$0.0005	22.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Grok 4.20 (Beta, Reasoning)	$0.0037	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	GPT-5.4 (Reasoning, Low)	$0.0055	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Grok 4.20 (Reasoning)	$0.0026	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Z.AI GLM 5	$0.0056	46.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Claude Sonnet 4.6	$0.0097	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	MoonshotAI: Kimi K2.5	$0.0035	26.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Qwen 3.5 27B	$0.0046	22.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	ByteDance Seed 1.6	$0.0028	29.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Qwen 3.6 Flash	$0.0028	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.4 Mini (Reasoning)	$0.0019	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Gemini 3 Flash (Preview, Reasoning)	$0.0047	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	o4 Mini High	$0.0052	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	GPT-5.2	$0.0044	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	DeepSeek V4 Pro (Reasoning)	$0.0040	47.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Claude Opus 4.7	$0.026	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Qwen 3.6 27B	$0.0063	26.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Claude Opus 4.5	$0.016	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Grok 4.1 Fast	$0.0004	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Aion 2.0	$0.0021	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Z.AI GLM 4.6	$0.0034	51.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	MiniMax M2.7	$0.0016	23.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	GPT-5.5	$0.014	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Qwen 3.6 35B	$0.0028	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	DeepSeek V4 Flash (Reasoning)	$0.0002	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Gemini 3 Pro (Preview)	$0.019	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Claude Sonnet 4	$0.010	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	MiniMax M2.5	$0.0010	18.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Z.AI GLM 4.7	$0.0034	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
52	GPT-4.1	$0.0036	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Gemini 2.5 Pro	$0.012	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	o4 Mini	$0.0027	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Grok 4	$0.011	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Claude Sonnet 4.5	$0.0100	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Qwen 3.5 35B	$0.0041	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Claude Opus 4	$0.051	14.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Xiaomi MIMO v2.5 Pro	$0.0016	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Stealth: Hunter Alpha	$0.0000	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	ByteDance Seed 2.0 Mini	$0.0012	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Gemma 4 31B	$0.0003	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 2.5 Flash (Reasoning)	$0.0018	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-OSS 120B	$0.0004	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Qwen 3.5 Flash	$0.0010	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Z.AI GLM 4.5	$0.0012	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Grok 4 Fast	$0.0005	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.5 9B	$0.0006	49.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Qwen 3.5 Plus (2026-02-15)	$0.0015	25.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Stealth: Healer Alpha	$0.0000	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite (Preview)	$0.0008	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Gemma 4 26B	$0.0003	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 3.1 Flash Lite	$0.0008	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.4 Mini (Reasoning, Low)	$0.0018	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Gemini 2.5 Flash Lite (Reasoning)	$0.0006	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Mistral Large 3	$0.0013	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	GPT-4o, May 13th (temp=0)	$0.012	17.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemini 3 Flash (Preview)	$0.0017	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Claude Haiku 4.5	$0.0033	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Xiaomi MIMO v2.5	$0.0010	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	DeepSeek-V2 Chat	$0.0003	14.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Z.AI GLM 4.7 Flash	$0.0006	25.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	ByteDance Seed 2.0 Lite	$0.0045	48.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Nemotron 3 Super	$0.0000	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	GPT-5.4	$0.0046	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Claude 3.5 Sonnet	$0.0090	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Grok 4.20 (Beta)	$0.0021	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Inception Mercury 2	$0.0007	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	GPT-4o, May 13th (temp=1)	$0.012	17.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	DeepSeek V3 (2024-12-26)	$0.0008	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-4.1 Mini	$0.0007	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Z.AI GLM 4.5 Air	$0.0008	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	DeepSeek V4 Pro	$0.0008	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-4o, Aug. 6th (temp=1)	$0.0076	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	GPT-5 Nano	$0.0008	21.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-4o, Aug. 6th (temp=0)	$0.0072	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 Mini	$0.0014	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Mistral Large 2	$0.0053	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Mistral Small 4 (Reasoning)	$0.0007	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	DeepSeek V3.1	$0.0007	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	DeepSeek V3.2	$0.0005	19.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen 3 32B	$0.0004	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	DeepSeek V4 Flash	$0.0002	14.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Grok 4.20	$0.0024	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.4 Nano (Reasoning)	$0.0006	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0003	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 2.5 Flash	$0.0010	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Mistral Large	$0.022	45.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Qwen3 235B A22B Instruct 2507	$0.0004	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Writer: Palmyra X5	$0.0032	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	GPT-4o Mini (temp=1)	$0.0004	46.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Grok 4.3	$0.0022	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Mistral Small 3.2 24B	$0.0002	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Gemma 3 12B	$0.0001	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Llama 3.1 70B	$0.0017	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	GPT-4o Mini (temp=0)	$0.0004	50.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Gemma 3 27B	$0.0002	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Mistral Medium 3.1	$0.0013	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Nemotron 3 Nano	$0.0002	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral Small 4	$0.0004	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Qwen 2.5 72B	$0.0008	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Llama 3.1 Nemotron 70B	$0.0007	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 Nano	$0.0007	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Arcee AI: Trinity Large (Preview)	$0.0000	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	ByteDance Seed 1.6 Flash	$0.0003	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Mistral Small Creative	$0.0003	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Ministral 3 14B	$0.0004	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-4.1 Nano	$0.0002	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Ministral 3 8B	$0.0003	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	WizardLM 2 8x22b	$0.0017	30.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Arcee AI: Trinity Mini	$0.0001	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	LFM2 24B	$0.0001	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Hermes 3 405B	$0.0000	16.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
136	Claude 3 Haiku	$0.0008	22.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
133	Cohere Command R+ (Aug. 2024)	$0.0063	5.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
130	Llama 3.1 8B	$0.0004	1.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
139	DeepSeek V3 (2025-03-24)	$0.0005	8.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
141	Hermes 3 70B	$0.0007	9.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
142	Gemma 3 4B	$0.0001	3.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
143	Rocinante 12B	$0.0006	16.2s	0%	100	100	100	0	0	0	0	0	0	0	30%
144	Mistral NeMO	$0.0003	2.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
147	Claude 3.7 Sonnet	$0.010	8.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	Ministral 8B	$0.0002	2.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Ministral 3B	$0.0001	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
95.99%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches paragraph count	100Claude Opus 4.5 100Arcee AI: Trinity Large (Preview) 100Z.AI GLM 5.1	0Claude 3.7 Sonnet 0Ministral 8B 0Ministral 3B

5 paragraph summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	5.5s
Ministral 3 3B	100%	$0.0002	1.8s
Gemini 2.5 Flash Lite	100%	$0.0003	2.0s
Llama 3.1 8B	80%	$0.0004	1.6s
Inception Mercury	100%	$0.0005	1.8s
Ministral 3 8B	100%	$0.0003	2.9s
Inception Mercury 2	100%	$0.0006	1.2s
Mistral Small Creative	100%	$0.0003	3.5s
Stealth: Healer Alpha	80%	$0.0000	6.3s
Nemotron 3 Super	100%	$0.0000	7.6s
GPT-4.1 Nano	100%	$0.0002	5.6s
GPT-5.4 Nano (Reasoning)	100%	$0.0008	2.5s
GPT-5.4 Nano	100%	$0.0008	2.4s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0008	2.5s
Ministral 3 14B	100%	$0.0004	4.7s
Mistral Small 3.2 24B	100%	$0.0003	5.8s
Grok 4 Fast	100%	$0.0005	4.6s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	6.7s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	2.3s
DeepSeek V4 Flash	100%	$0.0002	30.5s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 3 3B	100%	$0.0002	1.8s	100%
Inception Mercury 2	100%	$0.0006	1.2s	100%
Gemini 2.5 Flash Lite	100%	$0.0003	2.0s	100%
Inception Mercury	100%	$0.0005	1.8s	100%
Ministral 3 8B	100%	$0.0003	2.9s	100%
GPT-5.4 Nano	100%	$0.0008	2.4s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0008	2.5s	100%
Mistral Small Creative	100%	$0.0003	3.5s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0008	2.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	2.3s	100%
Gemini 3.1 Flash Lite	100%	$0.0010	2.5s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0010	2.8s	100%
Ministral 3 14B	100%	$0.0004	4.7s	100%
Grok 4 Fast	100%	$0.0005	4.6s	100%
Gemini 2.5 Flash	100%	$0.0013	2.9s	100%
GPT-4.1 Nano	100%	$0.0002	5.6s	100%
GPT-5.4 Mini	100%	$0.0019	2.2s	100%
Mistral Small 3.2 24B	100%	$0.0003	5.8s	100%
Mistral Small 4	100%	$0.0005	5.3s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0020	2.1s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
108	Claude Opus 4.6 (Reasoning)	$0.021	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen3.6 Max Preview	$0.016	57.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Gemini 3.1 Pro (Preview)	$0.022	19.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Z.AI GLM 5.1	$0.0089	52.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Z.AI GLM 5 Turbo	$0.0054	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Claude Sonnet 4.6 (Reasoning)	$0.014	11.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Grok 4.3 (Reasoning)	$0.0036	17.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	GPT-5.4 (Reasoning)	$0.0083	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Claude Opus 4.7 (Reasoning)	$0.031	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	GPT-5.5 (Reasoning)	$0.018	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-5 Mini	$0.0019	10.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-5.5 (Reasoning, Low)	$0.017	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	GPT-5.1	$0.0058	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Claude Opus 4.6	$0.021	11.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	GPT-5	$0.0094	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Qwen 3.5 397B A17B	$0.0085	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Gemma 4 31B (Reasoning)	$0.0006	56.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Qwen 3.5 122B	$0.0079	17.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Qwen 3.5 Plus (2026-04-20)	$0.0056	33.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Gemma 4 26B (Reasoning)	$0.0006	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Grok 4.20 (Beta, Reasoning)	$0.0049	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	GPT-5.4 (Reasoning, Low)	$0.0079	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Grok 4.20 (Reasoning)	$0.0032	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Z.AI GLM 5	$0.0070	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Claude Sonnet 4.6	$0.011	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	MoonshotAI: Kimi K2.5	$0.0044	32.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Qwen 3.5 27B	$0.0053	23.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	ByteDance Seed 1.6	$0.0032	36.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Qwen 3.6 Flash	$0.0032	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5.4 Mini (Reasoning)	$0.0022	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Gemini 3 Flash (Preview, Reasoning)	$0.0051	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	o4 Mini High	$0.0051	11.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-5.2	$0.0060	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	DeepSeek V4 Pro (Reasoning)	$0.0039	37.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Claude Opus 4.7	$0.031	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Qwen 3.6 27B	$0.0075	33.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Claude Opus 4.5	$0.019	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Grok 4.1 Fast	$0.0005	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Aion 2.0	$0.0024	18.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Z.AI GLM 4.6	$0.0039	53.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	MiniMax M2.7	$0.0022	23.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	GPT-5.5	$0.017	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Qwen 3.6 35B	$0.0029	14.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	DeepSeek V4 Flash (Reasoning)	$0.0002	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Gemini 3 Pro (Preview)	$0.024	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Claude Sonnet 4	$0.013	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	MiniMax M2.5	$0.0010	10.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Z.AI GLM 4.7	$0.0036	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
52	GPT-4.1	$0.0050	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Gemini 2.5 Pro	$0.016	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	o4 Mini	$0.0042	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Grok 4	$0.013	21.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Claude Sonnet 4.5	$0.012	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Qwen 3.5 35B	$0.0059	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Claude Opus 4	$0.061	24.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Xiaomi MIMO v2.5 Pro	$0.0019	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	ByteDance Seed 2.0 Mini	$0.0015	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Gemma 4 31B	$0.0004	23.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Gemini 2.5 Flash (Reasoning)	$0.0031	17.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	GPT-OSS 120B	$0.0003	15.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Qwen 3.5 Flash	$0.0012	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Z.AI GLM 4.5	$0.0014	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Grok 4 Fast	$0.0005	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Qwen 3.5 9B	$0.0008	52.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Qwen 3.5 Plus (2026-02-15)	$0.0018	20.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Preview)	$0.0010	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemma 4 26B	$0.0003	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite	$0.0010	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini (Reasoning, Low)	$0.0020	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemini 2.5 Flash Lite (Reasoning)	$0.0008	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Mistral Large 3	$0.0016	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	GPT-4o, May 13th (temp=0)	$0.014	18.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Gemini 3 Flash (Preview)	$0.0021	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	DeepSeek-V2 Chat	$0.0003	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Z.AI GLM 4.7 Flash	$0.0007	32.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	ByteDance Seed 2.0 Lite	$0.0055	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Nemotron 3 Super	$0.0000	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	GPT-5.4	$0.0057	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Claude 3.5 Sonnet	$0.010	41.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0006	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	GPT-4o, May 13th (temp=1)	$0.015	33.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Stealth: Aurora Alpha	—	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	DeepSeek V3 (2024-12-26)	$0.0010	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-4.1 Mini	$0.0009	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Z.AI GLM 4.5 Air	$0.0009	17.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	DeepSeek V4 Pro	$0.0020	25.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-4o, Aug. 6th (temp=1)	$0.0090	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5 Nano	$0.0009	25.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	GPT-4o, Aug. 6th (temp=0)	$0.0084	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Mini	$0.0019	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Mistral Large 2	$0.0059	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Mistral Small 4 (Reasoning)	$0.0007	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	DeepSeek V3.2	$0.0006	19.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Qwen 3 32B	$0.0005	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	DeepSeek V4 Flash	$0.0002	30.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	DeepSeek V3 (2025-03-24)	$0.0007	18.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Grok 4.20	$0.0024	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 Nano (Reasoning)	$0.0008	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0003	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Gemini 2.5 Flash	$0.0013	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Mistral Large	$0.025	45.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Qwen3 235B A22B Instruct 2507	$0.0004	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Writer: Palmyra X5	$0.0039	15.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Inception Mercury	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-5.4 Nano (Reasoning, Low)	$0.0008	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	GPT-4o Mini (temp=1)	$0.0005	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Mistral Small 3.2 24B	$0.0003	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Gemma 3 12B	$0.0002	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Llama 3.1 70B	$0.0018	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	GPT-4o Mini (temp=0)	$0.0005	27.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Gemma 3 27B	$0.0003	16.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Mistral Medium 3.1	$0.0015	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Nemotron 3 Nano	$0.0002	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Mistral Small 4	$0.0005	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Qwen 2.5 72B	$0.0008	14.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Llama 3.1 Nemotron 70B	$0.0007	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Nano	$0.0008	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	ByteDance Seed 1.6 Flash	$0.0004	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Mistral Small Creative	$0.0003	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Ministral 3 14B	$0.0004	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-4.1 Nano	$0.0002	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Ministral 3 8B	$0.0003	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Claude 3 Haiku	$0.0009	31.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 3 3B	$0.0002	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	LFM2 24B	$0.0001	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	MoonshotAI: Kimi K2.6	$0.0071	38.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
126	Stealth: Hunter Alpha	$0.0000	27.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
125	Grok 4.20 (Beta)	$0.0024	2.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
128	Stealth: Healer Alpha	$0.0000	6.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
130	Xiaomi MIMO v2.5	$0.0012	7.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
134	DeepSeek V3.1	$0.0006	26.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
133	Cohere Command R+ (Aug. 2024)	$0.0078	8.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
127	Llama 3.1 8B	$0.0004	1.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
135	Hermes 3 405B	$0.0000	21.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
139	WizardLM 2 8x22b	$0.0020	1.4m	8%	100	100	100	100	100	100	100	0	0	0	70%
136	Grok 4.3	$0.0023	4.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
137	Arcee AI: Trinity Mini	$0.0002	3.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
138	Hermes 3 70B	$0.0007	12.3s	0%	100	100	100	0	0	0	0	0	0	0	30%
141	Claude Haiku 4.5	$0.0039	6.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
140	Arcee AI: Trinity Large (Preview)	$0.0000	8.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
146	Rocinante 12B	$0.0008	36.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
142	Mistral NeMO	$0.0003	3.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
147	Claude 3.7 Sonnet	$0.013	11.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Gemma 3 4B	$0.0001	5.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
144	Ministral 8B	$0.0002	3.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
143	Ministral 3B	$0.0001	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
92.59%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches paragraph count	100GPT-5.4 Nano (Reasoning) 100Claude Opus 4.7 (Reasoning) 100o4 Mini High	0Gemma 3 4B 0Claude 3.7 Sonnet 0Ministral 3B

1 sentence summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	3.0s
Ministral 3B	100%	$0.0001	474ms
Inception Mercury	100%	$0.0001	547ms
Gemma 3 4B	100%	$0.0001	756ms
LFM2 24B	100%	$0.0001	1.9s
Ministral 3 3B	100%	$0.0002	530ms
Arcee AI: Trinity Large (Preview)	100%	$0.0000	2.2s
Gemini 2.5 Flash Lite	100%	$0.0002	536ms
DeepSeek V4 Flash	100%	$0.0001	3.7s
Ministral 8B	90%	$0.0002	800ms
Arcee AI: Trinity Mini	100%	$0.0001	1.5s
Gemma 3 12B	100%	$0.0001	1.6s
GPT-4.1 Nano	100%	$0.0001	1.6s
Mistral Small Creative	100%	$0.0002	758ms
Mistral Small 3.2 24B	100%	$0.0002	1.2s
Ministral 3 8B	100%	$0.0003	648ms
Stealth: Healer Alpha	100%	$0.0000	3.1s
Nemotron 3 Super	100%	$0.0000	4.7s
Mistral Small 4	100%	$0.0003	872ms
Llama 3.1 8B	100%	$0.0003	524ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 3B	100%	$0.0001	474ms	100%
Inception Mercury	100%	$0.0001	547ms	100%
Gemma 3 4B	100%	$0.0001	756ms	100%
Ministral 3 3B	100%	$0.0002	530ms	100%
Gemini 2.5 Flash Lite	100%	$0.0002	536ms	100%
Mistral Small Creative	100%	$0.0002	758ms	100%
Ministral 3 8B	100%	$0.0003	648ms	100%
Llama 3.1 8B	100%	$0.0003	524ms	100%
Mistral Small 4	100%	$0.0003	872ms	100%
Mistral Small 3.2 24B	100%	$0.0002	1.2s	100%
GPT-4.1 Nano	100%	$0.0001	1.6s	100%
Arcee AI: Trinity Mini	100%	$0.0001	1.5s	100%
Inception Mercury 2	100%	$0.0004	561ms	100%
Gemma 3 12B	100%	$0.0001	1.6s	100%
Gemini 2.5 Flash	100%	$0.0004	796ms	100%
LFM2 24B	100%	$0.0001	1.9s	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	2.2s	100%
Ministral 3 14B	100%	$0.0003	1.2s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0004	1.1s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0004	1.1s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
122	Claude Opus 4.6 (Reasoning)	$0.011	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Qwen3.6 Max Preview	$0.011	36.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Gemini 3.1 Pro (Preview)	$0.014	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Z.AI GLM 5.1	$0.0055	21.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Z.AI GLM 5 Turbo	$0.0030	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Claude Sonnet 4.6 (Reasoning)	$0.0069	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Grok 4.3 (Reasoning)	$0.0028	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
86	GPT-5.4 (Reasoning)	$0.0034	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Claude Opus 4.7 (Reasoning)	$0.015	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	GPT-5.5 (Reasoning)	$0.0099	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-5 Mini	$0.0011	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-5.5 (Reasoning, Low)	$0.0051	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-5.1	$0.0020	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Claude Opus 4.6	$0.011	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	MoonshotAI: Kimi K2.6	$0.0047	17.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	GPT-5	$0.0047	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Qwen 3.5 397B A17B	$0.0082	55.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Gemma 4 31B (Reasoning)	$0.0004	19.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Qwen 3.5 122B	$0.012	28.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Qwen 3.5 Plus (2026-04-20)	$0.0040	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Gemma 4 26B (Reasoning)	$0.0004	21.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Grok 4.20 (Beta, Reasoning)	$0.0027	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5.4 (Reasoning, Low)	$0.0029	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Grok 4.20 (Reasoning)	$0.0026	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Z.AI GLM 5	$0.0042	24.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Claude Sonnet 4.6	$0.0064	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	MoonshotAI: Kimi K2.5	$0.0028	16.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Qwen 3.5 27B	$0.0071	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	ByteDance Seed 1.6	$0.0025	26.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Qwen 3.6 Flash	$0.0022	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-5.4 Mini (Reasoning)	$0.0010	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Gemini 3 Flash (Preview, Reasoning)	$0.0030	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	o4 Mini High	$0.0035	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	GPT-5.2	$0.0019	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	DeepSeek V4 Pro (Reasoning)	$0.0044	35.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Claude Opus 4.7	$0.015	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Qwen 3.6 27B	$0.0048	18.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Claude Opus 4.5	$0.010	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4.1 Fast	$0.0003	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Aion 2.0	$0.0020	11.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Z.AI GLM 4.6	$0.0027	48.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	MiniMax M2.7	$0.0010	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	GPT-5.5	$0.0092	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Qwen 3.6 35B	$0.0017	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	DeepSeek V4 Flash (Reasoning)	$0.0001	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Gemini 3 Pro (Preview)	$0.014	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Claude Sonnet 4	$0.0062	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	MiniMax M2.5	$0.0007	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Z.AI GLM 4.7	$0.0025	58.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	GPT-4.1	$0.0019	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemini 2.5 Pro	$0.012	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	o4 Mini	$0.0025	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Grok 4	$0.0068	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Claude Sonnet 4.5	$0.0061	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.5 35B	$0.0069	21.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Claude Opus 4	$0.031	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Xiaomi MIMO v2.5 Pro	$0.0011	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Stealth: Hunter Alpha	$0.0000	15.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	ByteDance Seed 2.0 Mini	$0.0009	45.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Gemma 4 31B	$0.0002	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Gemini 2.5 Flash (Reasoning)	$0.0014	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	GPT-OSS 120B	$0.0003	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemini 3.1 Flash Lite (Reasoning)	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Qwen 3.5 Flash	$0.0014	27.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Z.AI GLM 4.5	$0.0004	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Grok 4 Fast	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Qwen 3.5 9B	$0.0006	44.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Qwen 3.5 Plus (2026-02-15)	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Stealth: Healer Alpha	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3.1 Flash Lite (Preview)	$0.0005	848ms	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Gemma 4 26B	$0.0002	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemini 3.1 Flash Lite	$0.0005	826ms	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.4 Mini (Reasoning, Low)	$0.0008	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Gemini 2.5 Flash Lite (Reasoning)	$0.0005	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Mistral Large 3	$0.0009	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	GPT-4o, May 13th (temp=0)	$0.0085	38.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Gemini 3 Flash (Preview)	$0.0009	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Claude Haiku 4.5	$0.0020	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Xiaomi MIMO v2.5	$0.0006	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	DeepSeek-V2 Chat	$0.0003	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Z.AI GLM 4.7 Flash	$0.0005	18.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	ByteDance Seed 2.0 Lite	$0.0025	24.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Nemotron 3 Super	$0.0000	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	GPT-5.4	$0.0021	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
143	Claude 3.5 Sonnet	$0.0060	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Grok 4.20 (Beta)	$0.0015	583ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Inception Mercury 2	$0.0004	561ms	100%	100	100	100	100	100	100	100	100	100	100	100%
121	GPT-4o, May 13th (temp=1)	$0.0084	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Stealth: Aurora Alpha	—	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	DeepSeek V3 (2024-12-26)	$0.0006	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Claude 3.7 Sonnet	$0.0060	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-4.1 Mini	$0.0003	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Z.AI GLM 4.5 Air	$0.0005	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Hermes 3 405B	$0.0000	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	DeepSeek V4 Pro	$0.0013	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	GPT-4o, Aug. 6th (temp=1)	$0.0043	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-5 Nano	$0.0003	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	GPT-4o, Aug. 6th (temp=0)	$0.0043	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.4 Mini	$0.0008	771ms	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Mistral Large 2	$0.0039	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Mistral Small 4 (Reasoning)	$0.0005	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	DeepSeek V3.1	$0.0005	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	DeepSeek V3.2	$0.0004	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Qwen 3 32B	$0.0003	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	DeepSeek V4 Flash	$0.0001	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	DeepSeek V3 (2025-03-24)	$0.0004	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Grok 4.20	$0.0019	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Nano (Reasoning)	$0.0004	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 2.5 Flash Lite	$0.0002	536ms	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Gemini 2.5 Flash	$0.0004	796ms	100%	100	100	100	100	100	100	100	100	100	100	100%
146	Mistral Large	$0.016	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Qwen3 235B A22B Instruct 2507	$0.0002	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Writer: Palmyra X5	$0.0014	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0001	547ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.4 Nano (Reasoning, Low)	$0.0004	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	GPT-4o Mini (temp=1)	$0.0003	53.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Grok 4.3	$0.0021	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Mistral Small 3.2 24B	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 3 12B	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Llama 3.1 70B	$0.0015	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	GPT-4o Mini (temp=0)	$0.0003	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemma 3 27B	$0.0002	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Mistral Medium 3.1	$0.0008	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Nemotron 3 Nano	$0.0001	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Mistral Small 4	$0.0003	872ms	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Qwen 2.5 72B	$0.0007	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Llama 3.1 Nemotron 70B	$0.0006	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-5.4 Nano	$0.0004	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Arcee AI: Trinity Large (Preview)	$0.0000	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	ByteDance Seed 1.6 Flash	$0.0003	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Mistral Small Creative	$0.0002	758ms	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Hermes 3 70B	$0.0007	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Ministral 3 14B	$0.0003	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-4.1 Nano	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3 8B	$0.0003	648ms	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Claude 3 Haiku	$0.0005	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	WizardLM 2 8x22b	$0.0014	51.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Arcee AI: Trinity Mini	$0.0001	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Cohere Command R+ (Aug. 2024)	$0.0046	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemma 3 4B	$0.0001	756ms	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Ministral 3 3B	$0.0002	530ms	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Mistral NeMO	$0.0002	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Llama 3.1 8B	$0.0003	524ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	LFM2 24B	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 3B	$0.0001	474ms	100%	100	100	100	100	100	100	100	100	100	100	100%
145	Ministral 8B	$0.0002	800ms	40%	100	100	100	100	100	100	100	100	100	0	90%
147	Rocinante 12B	$0.0005	11.6s	21%	100	100	100	100	100	98	98	92	0	0	79%
99.79%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches sentence count	100DeepSeek V4 Pro 100Stealth: Hunter Alpha 100o4 Mini	79Rocinante 12B 90Ministral 8B 100Ministral 3B

3 sentence summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

	Score	Cost	Time
Ministral 3B	100%	$0.0001	741ms
Stealth: Aurora Alpha	100%	—	3.0s
Gemma 3 4B	100%	$0.0001	1.5s
Ministral 3 3B	100%	$0.0002	737ms
Gemini 2.5 Flash Lite	100%	$0.0002	658ms
Inception Mercury	100%	$0.0003	769ms
Ministral 8B	100%	$0.0002	792ms
Mistral Small Creative	100%	$0.0002	964ms
LFM2 24B	100%	$0.0001	4.9s
GPT-4.1 Nano	100%	$0.0001	2.2s
DeepSeek V4 Flash	100%	$0.0001	3.1s
Arcee AI: Trinity Mini	100%	$0.0001	2.2s
Arcee AI: Trinity Large (Preview)	100%	$0.0000	3.6s
Ministral 3 8B	100%	$0.0003	932ms
Mistral Small 3.2 24B	100%	$0.0002	2.7s
Gemma 3 12B	100%	$0.0001	2.8s
Qwen3 235B A22B Instruct 2507	100%	$0.0002	3.0s
Nemotron 3 Super	100%	$0.0000	5.0s
Llama 3.1 8B	100%	$0.0003	1.1s
Gemma 4 26B	100%	$0.0002	2.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0002	658ms	100%
Ministral 3 3B	100%	$0.0002	737ms	100%
Inception Mercury	100%	$0.0003	769ms	100%
Mistral Small Creative	100%	$0.0002	964ms	100%
Ministral 3 8B	100%	$0.0003	932ms	100%
Inception Mercury 2	100%	$0.0005	713ms	100%
Ministral 3 14B	100%	$0.0003	1.2s	100%
Gemma 3 4B	100%	$0.0001	1.5s	100%
Mistral Small 4	100%	$0.0003	1.3s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0005	1.1s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0005	1.1s	100%
Gemini 2.5 Flash	100%	$0.0005	978ms	100%
GPT-4.1 Nano	100%	$0.0001	2.2s	100%
GPT-5.4 Nano	100%	$0.0005	1.4s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0005	1.5s	100%
Arcee AI: Trinity Mini	100%	$0.0001	2.2s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0004	1.8s	100%
Gemma 3 12B	100%	$0.0001	2.8s	100%
Ministral 3B	100%	$0.0001	741ms	99%
Gemma 4 26B	100%	$0.0002	2.6s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
123	Claude Opus 4.6 (Reasoning)	$0.013	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Qwen3.6 Max Preview	$0.012	38.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Gemini 3.1 Pro (Preview)	$0.014	12.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Z.AI GLM 5.1	$0.0068	44.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Z.AI GLM 5 Turbo	$0.0030	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Claude Sonnet 4.6 (Reasoning)	$0.0079	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Grok 4.3 (Reasoning)	$0.0027	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	GPT-5.4 (Reasoning)	$0.0049	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	GPT-5 Mini	$0.0014	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	GPT-5.5 (Reasoning, Low)	$0.0077	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Claude Opus 4.6	$0.012	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	MoonshotAI: Kimi K2.6	$0.0044	20.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-5	$0.0054	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Qwen 3.5 397B A17B	$0.0066	40.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Gemma 4 31B (Reasoning)	$0.0005	37.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Qwen 3.5 122B	$0.0074	15.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Qwen 3.5 Plus (2026-04-20)	$0.0044	23.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemma 4 26B (Reasoning)	$0.0007	34.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Grok 4.20 (Beta, Reasoning)	$0.0035	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-5.4 (Reasoning, Low)	$0.0038	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Grok 4.20 (Reasoning)	$0.0027	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Z.AI GLM 5	$0.0049	44.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Claude Sonnet 4.6	$0.0071	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	MoonshotAI: Kimi K2.5	$0.0026	14.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Qwen 3.5 27B	$0.0066	27.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	ByteDance Seed 1.6	$0.0020	20.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Qwen 3.6 Flash	$0.0025	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-5.4 Mini (Reasoning)	$0.0012	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Gemini 3 Flash (Preview, Reasoning)	$0.0039	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	o4 Mini High	$0.0047	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	DeepSeek V4 Pro (Reasoning)	$0.0010	21.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Claude Opus 4.7	$0.018	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Qwen 3.6 27B	$0.0051	19.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Claude Opus 4.5	$0.012	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Grok 4.1 Fast	$0.0004	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Aion 2.0	$0.0020	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Z.AI GLM 4.6	$0.0023	36.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	GPT-5.5	$0.010	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Qwen 3.6 35B	$0.0017	11.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	DeepSeek V4 Flash (Reasoning)	$0.0001	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Gemini 3 Pro (Preview)	$0.018	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Claude Sonnet 4	$0.0072	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Z.AI GLM 4.7	$0.0022	49.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	GPT-4.1	$0.0021	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	o4 Mini	$0.0036	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Grok 4	$0.0086	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Claude Sonnet 4.5	$0.0070	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Qwen 3.5 35B	$0.0060	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
145	Claude Opus 4	$0.035	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Xiaomi MIMO v2.5 Pro	$0.0012	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Stealth: Hunter Alpha	$0.0000	19.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Gemma 4 31B	$0.0003	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	GPT-OSS 120B	$0.0003	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite (Reasoning)	$0.0005	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Qwen 3.5 Flash	$0.0015	25.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Z.AI GLM 4.5	$0.0006	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Grok 4 Fast	$0.0003	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Qwen 3.5 9B	$0.0006	41.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Qwen 3.5 Plus (2026-02-15)	$0.0009	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Stealth: Healer Alpha	$0.0000	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Preview)	$0.0005	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Gemma 4 26B	$0.0002	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemini 3.1 Flash Lite	$0.0005	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-5.4 Mini (Reasoning, Low)	$0.0010	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Mistral Large 3	$0.0010	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	GPT-4o, May 13th (temp=0)	$0.0089	14.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Gemini 3 Flash (Preview)	$0.0011	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Xiaomi MIMO v2.5	$0.0006	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	DeepSeek-V2 Chat	$0.0003	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Z.AI GLM 4.7 Flash	$0.0005	18.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Nemotron 3 Super	$0.0000	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	GPT-5.4	$0.0028	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Claude 3.5 Sonnet	$0.0068	13.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Grok 4.20 (Beta)	$0.0013	865ms	100%	100	100	100	100	100	100	100	100	100	100	100%
146	GPT-4o, May 13th (temp=1)	$0.0091	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
52	DeepSeek V3 (2024-12-26)	$0.0006	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-4.1 Mini	$0.0005	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Z.AI GLM 4.5 Air	$0.0005	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Hermes 3 405B	$0.0000	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	DeepSeek V4 Pro	$0.0016	16.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	GPT-4o, Aug. 6th (temp=1)	$0.0049	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	GPT-5 Nano	$0.0005	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	GPT-4o, Aug. 6th (temp=0)	$0.0049	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini	$0.0010	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Mistral Large 2	$0.0041	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Mistral Small 4 (Reasoning)	$0.0004	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	DeepSeek V3.1	$0.0007	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	DeepSeek V3.2	$0.0005	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Qwen 3 32B	$0.0003	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	DeepSeek V4 Flash	$0.0001	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	DeepSeek V3 (2025-03-24)	$0.0004	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Grok 4.20	$0.0022	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0002	658ms	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Mistral Large	$0.017	33.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Qwen3 235B A22B Instruct 2507	$0.0002	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Writer: Palmyra X5	$0.0017	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury	$0.0003	769ms	100%	100	100	100	100	100	100	100	100	100	100	100%
143	GPT-4o Mini (temp=1)	$0.0003	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Grok 4.3	$0.0022	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Mistral Small 3.2 24B	$0.0002	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Gemma 3 12B	$0.0001	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Llama 3.1 70B	$0.0015	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	GPT-4o Mini (temp=0)	$0.0003	29.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Gemma 3 27B	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Mistral Medium 3.1	$0.0009	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Nemotron 3 Nano	$0.0002	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Qwen 2.5 72B	$0.0007	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Llama 3.1 Nemotron 70B	$0.0006	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	ByteDance Seed 1.6 Flash	$0.0002	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Mistral Small Creative	$0.0002	964ms	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Hermes 3 70B	$0.0007	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3 14B	$0.0003	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-4.1 Nano	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Ministral 3 8B	$0.0003	932ms	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Claude 3 Haiku	$0.0006	31.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Cohere Command R+ (Aug. 2024)	$0.0049	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0002	737ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	LFM2 24B	$0.0001	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-5.1	$0.0027	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	MiniMax M2.7	$0.0006	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Gemini 2.5 Pro	$0.0083	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	ByteDance Seed 2.0 Mini	$0.0008	38.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Gemini 2.5 Flash Lite (Reasoning)	$0.0004	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Claude Haiku 4.5	$0.0024	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	ByteDance Seed 2.0 Lite	$0.0026	26.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Inception Mercury 2	$0.0005	713ms	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Claude 3.7 Sonnet	$0.0071	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 Nano (Reasoning, Low)	$0.0005	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Mistral Small 4	$0.0003	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Arcee AI: Trinity Large (Preview)	$0.0000	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Arcee AI: Trinity Mini	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Claude Opus 4.7 (Reasoning)	$0.018	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Stealth: Aurora Alpha	—	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Nano (Reasoning)	$0.0004	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 2.5 Flash	$0.0005	978ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5.4 Nano	$0.0005	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemma 3 4B	$0.0001	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	MiniMax M2.5	$0.0007	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Gemini 2.5 Flash (Reasoning)	$0.0014	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Mistral NeMO	$0.0003	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	WizardLM 2 8x22b	$0.0015	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Llama 3.1 8B	$0.0003	1.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
116	GPT-5.5 (Reasoning)	$0.011	4.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
19	Ministral 3B	$0.0001	741ms	99%	100	100	100	100	100	100	100	100	100	98	100%
40	Ministral 8B	$0.0002	792ms	99%	100	100	100	100	100	100	100	100	98	98	100%
86	GPT-5.2	$0.0031	2.9s	99%	100	100	100	100	100	100	100	100	98	98	100%
147	Rocinante 12B	$0.0005	9.5s	41%	100	100	100	100	100	100	98	98	77	2	88%
99.90%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches sentence count	100Grok 4 Fast 100Qwen 3.5 Flash 100Gemma 4 31B (Reasoning)	88Rocinante 12B 100GPT-5.2 100Ministral 8B

10 sentence summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%

	Score	Cost	Time
Stealth: Aurora Alpha	99%	—	5.6s
Ministral 3 3B	100%	$0.0002	1.4s
GPT-4.1 Nano	100%	$0.0002	3.0s
Mistral Small Creative	100%	$0.0003	1.9s
Inception Mercury	100%	$0.0004	1.4s
Gemma 3 4B	100%	$0.0001	3.2s
Llama 3.1 8B	98%	$0.0004	1.4s
LFM2 24B	100%	$0.0001	4.8s
Mistral Small 3.2 24B	100%	$0.0002	3.4s
DeepSeek V4 Flash	100%	$0.0001	5.8s
Stealth: Healer Alpha	100%	$0.0000	5.6s
Ministral 3 14B	100%	$0.0004	2.6s
DeepSeek V4 Flash (Reasoning)	100%	$0.0001	4.7s
Gemini 2.5 Flash Lite	84%	$0.0003	1.5s
Grok 4.1 Fast	100%	$0.0004	3.6s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	1.8s
Nemotron 3 Super	100%	$0.0000	9.1s
Gemma 4 26B	100%	$0.0003	6.5s
GPT-5.4 Nano	100%	$0.0006	1.9s
Gemini 3.1 Flash Lite	100%	$0.0007	1.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%

	Score	Cost	Speed	Stability
Mistral Small Creative	100%	$0.0003	1.9s	100%
Ministral 3 3B	100%	$0.0002	1.4s	99%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0007	1.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0007	1.6s	100%
Inception Mercury	100%	$0.0004	1.4s	99%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	1.8s	100%
GPT-4.1 Nano	100%	$0.0002	3.0s	100%
Mistral Small 3.2 24B	100%	$0.0002	3.4s	100%
Grok 4.1 Fast	100%	$0.0004	3.6s	100%
Gemma 3 4B	100%	$0.0001	3.2s	99%
Grok 4 Fast	100%	$0.0005	3.8s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	1.8s	99%
GPT-4.1 Mini	100%	$0.0006	3.8s	100%
Ministral 3 14B	100%	$0.0004	2.6s	99%
GPT-5.4 Nano	100%	$0.0006	1.9s	99%
Stealth: Healer Alpha	100%	$0.0000	5.6s	100%
GPT-5.4 Mini	100%	$0.0017	2.2s	100%
Grok 4.20 (Beta)	100%	$0.0020	1.5s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0007	2.8s	99%
LFM2 24B	100%	$0.0001	4.8s	99%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
110	Claude Opus 4.6 (Reasoning)	$0.018	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Qwen3.6 Max Preview	$0.017	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemini 3.1 Pro (Preview)	$0.026	22.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Z.AI GLM 5.1	$0.011	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Z.AI GLM 5 Turbo	$0.0048	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Grok 4.3 (Reasoning)	$0.0041	18.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5.4 (Reasoning)	$0.0089	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	GPT-5.5 (Reasoning)	$0.020	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-5.5 (Reasoning, Low)	$0.016	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	GPT-5	$0.0084	16.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Qwen 3.5 397B A17B	$0.011	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Gemma 4 31B (Reasoning)	$0.0007	56.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Qwen 3.5 122B	$0.010	23.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen 3.5 Plus (2026-04-20)	$0.0060	34.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Gemma 4 26B (Reasoning)	$0.0011	51.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Grok 4.20 (Beta, Reasoning)	$0.0053	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-5.4 (Reasoning, Low)	$0.0060	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Grok 4.20 (Reasoning)	$0.0037	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Z.AI GLM 5	$0.0062	31.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Claude Sonnet 4.6	$0.0098	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	MoonshotAI: Kimi K2.5	$0.0046	36.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Qwen 3.5 27B	$0.0077	30.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Qwen 3.6 Flash	$0.0038	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-5.4 Mini (Reasoning)	$0.0023	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	o4 Mini High	$0.0079	18.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	DeepSeek V4 Pro (Reasoning)	$0.0033	32.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Claude Opus 4.7	$0.023	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Qwen 3.6 27B	$0.0079	36.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Claude Opus 4.5	$0.016	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Qwen 3.6 35B	$0.0030	16.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Gemini 3 Pro (Preview)	$0.019	11.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-4.1	$0.0030	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Grok 4	$0.011	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Qwen 3.5 35B	$0.0085	28.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Gemma 4 31B	$0.0003	32.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Qwen 3.5 Flash	$0.0017	28.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Grok 4 Fast	$0.0005	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.5 9B	$0.0008	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Qwen 3.5 Plus (2026-02-15)	$0.0012	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Stealth: Healer Alpha	$0.0000	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-5.4 Mini (Reasoning, Low)	$0.0019	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Nemotron 3 Super	$0.0000	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	GPT-5.4	$0.0054	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Grok 4.20 (Beta)	$0.0020	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-4.1 Mini	$0.0006	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	GPT-5 Nano	$0.0008	23.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Mini	$0.0017	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4.20	$0.0022	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Qwen3 235B A22B Instruct 2507	$0.0003	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	GPT-4o Mini (temp=1)	$0.0004	50.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Mistral Small 3.2 24B	$0.0002	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	GPT-4o Mini (temp=0)	$0.0004	52.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Claude Sonnet 4.6 (Reasoning)	$0.016	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	GPT-5 Mini	$0.0020	10.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Claude Opus 4.6	$0.017	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	MoonshotAI: Kimi K2.6	$0.0070	36.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	ByteDance Seed 1.6	$0.0030	31.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Gemini 3 Flash (Preview, Reasoning)	$0.0055	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Grok 4.1 Fast	$0.0004	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Aion 2.0	$0.0026	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	GPT-5.5	$0.015	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Z.AI GLM 4.7	$0.0036	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Gemini 2.5 Pro	$0.011	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Claude Opus 4	$0.047	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite (Reasoning)	$0.0007	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite	$0.0007	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Claude Haiku 4.5	$0.0033	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Xiaomi MIMO v2.5	$0.0010	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Z.AI GLM 4.7 Flash	$0.0007	34.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	ByteDance Seed 2.0 Lite	$0.0047	51.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Grok 4.3	$0.0024	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Claude Opus 4.7 (Reasoning)	$0.023	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Z.AI GLM 4.6	$0.0029	41.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Claude Sonnet 4	$0.0096	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Xiaomi MIMO v2.5 Pro	$0.0017	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Z.AI GLM 4.5 Air	$0.0006	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Llama 3.1 Nemotron 70B	$0.0007	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Stealth: Hunter Alpha	$0.0000	29.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Gemini 2.5 Flash Lite (Reasoning)	$0.0006	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	DeepSeek V4 Pro	$0.0007	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	DeepSeek V3.2	$0.0005	22.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Z.AI GLM 4.5	$0.0008	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Claude 3.5 Sonnet	$0.0087	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-4o, Aug. 6th (temp=1)	$0.0062	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-4.1 Nano	$0.0002	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	GPT-4o, May 13th (temp=0)	$0.011	42.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	DeepSeek V3.1	$0.0006	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Mistral Small Creative	$0.0003	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3 Flash (Preview)	$0.0015	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	GPT-4o, Aug. 6th (temp=0)	$0.0063	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	ByteDance Seed 1.6 Flash	$0.0004	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemma 4 26B	$0.0003	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemma 3 12B	$0.0002	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Gemma 3 27B	$0.0002	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Mistral Small 4 (Reasoning)	$0.0007	6.7s	99%	100	100	100	100	100	100	100	100	100	98	100%
27	DeepSeek V4 Flash	$0.0001	5.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
59	DeepSeek V3 (2025-03-24)	$0.0006	15.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
126	ByteDance Seed 2.0 Mini	$0.0012	1.1m	99%	100	100	100	100	100	100	100	100	100	98	100%
86	GPT-5.1	$0.0082	14.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
21	DeepSeek V4 Flash (Reasoning)	$0.0001	4.7s	99%	100	100	100	100	100	100	100	100	100	98	100%
69	o4 Mini	$0.0053	10.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
48	Writer: Palmyra X5	$0.0026	5.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
64	GPT-5.2	$0.0055	6.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
94	GPT-4o, May 13th (temp=1)	$0.011	13.7s	99%	100	100	100	100	100	100	100	100	100	98	100%
20	LFM2 24B	$0.0001	4.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
52	Nemotron 3 Nano	$0.0002	12.5s	99%	100	100	100	100	100	100	100	100	100	98	100%
10	Gemma 3 4B	$0.0001	3.2s	99%	100	100	100	100	100	100	100	100	100	98	100%
50	Gemini 2.5 Flash (Reasoning)	$0.0029	4.9s	99%	100	100	100	100	100	100	100	100	100	98	100%
5	Inception Mercury	$0.0004	1.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
33	Mistral Large 3	$0.0012	5.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
2	Ministral 3 3B	$0.0002	1.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
19	GPT-5.4 Nano (Reasoning)	$0.0007	2.8s	99%	100	100	100	100	100	100	100	100	98	98	100%
12	GPT-5.4 Nano (Reasoning, Low)	$0.0006	1.8s	99%	100	100	100	100	100	100	100	100	98	98	100%
14	Ministral 3 14B	$0.0004	2.6s	99%	100	100	100	100	100	100	100	100	98	98	100%
88	GPT-OSS 120B	$0.0004	32.0s	99%	100	100	100	100	100	100	100	98	98	98	100%
15	GPT-5.4 Nano	$0.0006	1.9s	99%	100	100	100	100	100	100	100	98	98	98	100%
39	Mistral Medium 3.1	$0.0012	4.6s	98%	100	100	100	100	100	100	100	98	98	98	99%
65	DeepSeek-V2 Chat	$0.0003	17.1s	98%	100	100	100	100	100	100	98	98	98	98	99%
83	Claude Sonnet 4.5	$0.0090	6.8s	95%	100	100	100	100	100	100	100	100	100	92	99%
49	Llama 3.1 70B	$0.0016	2.9s	95%	100	100	100	100	100	100	100	100	100	92	99%
92	MiniMax M2.7	$0.0027	25.8s	95%	100	100	100	100	100	100	100	100	98	92	99%
34	Inception Mercury 2	$0.0008	1.1s	95%	100	100	100	100	100	100	100	100	98	92	99%
75	MiniMax M2.5	$0.0011	17.4s	95%	100	100	100	100	100	100	100	98	98	92	99%
55	Stealth: Aurora Alpha	—	5.6s	95%	100	100	100	100	100	100	98	98	98	92	99%
43	Llama 3.1 8B	$0.0004	1.4s	94%	100	100	100	100	100	100	100	100	92	92	98%
63	Qwen 2.5 72B	$0.0007	6.4s	93%	100	98	98	98	98	98	98	92	92	92	97%
72	Mistral Small 4	$0.0004	3.5s	85%	100	100	100	100	98	98	98	98	92	77	96%
107	Qwen 3 32B	$0.0004	12.1s	72%	100	100	100	100	100	100	100	100	98	54	95%
98	Cohere Command R+ (Aug. 2024)	$0.0058	3.7s	82%	100	98	98	98	98	98	92	92	77	77	93%
102	Mistral Large 2	$0.0047	4.9s	80%	100	100	98	98	98	92	92	92	77	77	93%
136	Mistral Large	$0.019	25.6s	76%	100	98	98	92	92	92	92	77	77	77	90%
129	DeepSeek V3 (2024-12-26)	$0.0008	9.7s	41%	100	100	100	100	100	100	100	100	92	2	89%
142	WizardLM 2 8x22b	$0.0017	57.7s	45%	100	100	100	98	98	98	98	98	77	9	88%
127	Ministral 3 8B	$0.0003	2.2s	52%	100	98	98	98	98	98	98	92	54	27	86%
123	Arcee AI: Trinity Large (Preview)	$0.0000	6.8s	63%	100	98	92	92	77	77	77	77	77	77	85%
130	Gemini 2.5 Flash Lite	$0.0003	1.5s	38%	100	100	100	100	100	98	92	92	54	0	84%
134	Hermes 3 405B	$0.0000	14.4s	42%	98	98	92	92	92	92	77	77	77	2	80%
131	Hermes 3 70B	$0.0007	8.8s	47%	100	100	100	100	92	92	77	54	54	27	80%
139	Claude 3 Haiku	$0.0007	29.1s	41%	100	100	100	100	77	77	77	54	54	27	77%
140	Claude 3.7 Sonnet	$0.0090	6.8s	43%	98	92	92	92	77	77	54	54	54	27	72%
141	Ministral 3B	$0.0001	1.8s	18%	100	100	98	98	92	77	77	27	0	0	67%
146	Rocinante 12B	$0.0006	22.8s	6%	100	100	92	92	77	27	2	0	0	0	49%
143	Ministral 8B	$0.0002	1.9s	13%	92	77	77	77	54	27	27	9	0	0	44%
145	Gemini 2.5 Flash	$0.0011	2.4s	7%	98	92	77	54	27	27	9	2	2	0	39%
144	Mistral NeMO	$0.0003	2.4s	19%	77	77	54	54	54	27	9	9	9	9	38%
147	Arcee AI: Trinity Mini	$0.0002	5.3s	0%	100	98	0	0	0	0	0	0	0	0	20%
96.23%

Median	Evaluator	Top 3	Flop 3
100.0%	Matches sentence count	100Grok 4.20 100GPT-5.4 100Qwen 3.5 397B A17B	20Arcee AI: Trinity Mini 38Mistral NeMO 39Gemini 2.5 Flash

20 sentence summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%

	Score	Cost	Time
Mistral Small 3.2 24B	100%	$0.0003	5.5s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	2.3s
DeepSeek V4 Flash	100%	$0.0002	5.3s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0010	3.3s
GPT-5.4 Nano	99%	$0.0009	2.8s
Gemini 3.1 Flash Lite	99%	$0.0010	3.4s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	6.2s
Gemma 3 4B	100%	$0.0001	6.6s
Grok 4 Fast	100%	$0.0005	5.3s
Grok 4.20 (Beta)	100%	$0.0025	1.6s
Gemma 4 26B	99%	$0.0003	8.1s
GPT-5.4 Nano (Reasoning)	99%	$0.0013	6.1s
GPT-5.4 Mini	100%	$0.0027	2.8s
Llama 3.1 8B	90%	$0.0004	2.3s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0029	3.0s
Grok 4.1 Fast	88%	$0.0006	7.5s
Gemini 3 Flash (Preview)	100%	$0.0021	3.9s
Stealth: Hunter Alpha	90%	$0.0000	10.4s
Xiaomi MIMO v2.5	91%	$0.0016	8.2s
Stealth: Healer Alpha	94%	$0.0000	9.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%

	Score	Cost	Speed	Stability
DeepSeek V4 Flash	100%	$0.0002	5.3s	100%
Mistral Small 3.2 24B	100%	$0.0003	5.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	2.3s	99%
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	6.2s	100%
Gemma 3 4B	100%	$0.0001	6.6s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0010	3.3s	99%
Grok 4.20 (Beta)	100%	$0.0025	1.6s	100%
Gemini 3.1 Flash Lite	99%	$0.0010	3.4s	99%
Grok 4 Fast	100%	$0.0005	5.3s	99%
Gemini 3 Flash (Preview)	100%	$0.0021	3.9s	100%
GPT-5.4 Mini	100%	$0.0027	2.8s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0029	3.0s	100%
Mistral Large 3	100%	$0.0014	7.7s	100%
Grok 4.3	100%	$0.0027	4.7s	99%
GPT-5.4 Nano	99%	$0.0009	2.8s	95%
Grok 4.20	100%	$0.0027	5.4s	99%
Gemma 4 26B	99%	$0.0003	8.1s	95%
Llama 3.1 Nemotron 70B	100%	$0.0007	14.8s	100%
GPT-5.4 Nano (Reasoning)	99%	$0.0013	6.1s	95%
GPT-5.4 Mini (Reasoning)	100%	$0.0044	7.9s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
92	Claude Opus 4.6 (Reasoning)	$0.040	21.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen3.6 Max Preview	$0.026	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Gemini 3.1 Pro (Preview)	$0.039	33.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Z.AI GLM 5.1	$0.013	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Z.AI GLM 5 Turbo	$0.0065	16.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Grok 4.3 (Reasoning)	$0.0067	39.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-5.4 (Reasoning)	$0.017	16.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5 Mini	$0.0029	16.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	GPT-5.5 (Reasoning, Low)	$0.021	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	MoonshotAI: Kimi K2.6	$0.0087	51.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	GPT-5	$0.012	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Qwen 3.5 397B A17B	$0.017	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen 3.5 122B	$0.041	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Qwen 3.5 Plus (2026-04-20)	$0.0088	51.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	Gemma 4 26B (Reasoning)	$0.0013	2.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Grok 4.20 (Beta, Reasoning)	$0.0065	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	GPT-5.4 (Reasoning, Low)	$0.0091	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Grok 4.20 (Reasoning)	$0.0038	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Z.AI GLM 5	$0.0081	41.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Claude Sonnet 4.6	$0.013	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Qwen 3.5 27B	$0.011	56.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	ByteDance Seed 1.6	$0.0040	40.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Qwen 3.6 Flash	$0.0055	18.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini (Reasoning)	$0.0044	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Gemini 3 Flash (Preview, Reasoning)	$0.0098	16.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	DeepSeek V4 Pro (Reasoning)	$0.0086	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Qwen 3.6 27B	$0.012	53.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	GPT-5.5	$0.020	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Qwen 3.6 35B	$0.0070	29.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	DeepSeek V4 Flash (Reasoning)	$0.0002	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Gemini 3 Pro (Preview)	$0.029	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Qwen 3.5 35B	$0.011	35.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen 3.5 Flash	$0.0024	41.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Qwen 3.5 9B	$0.0011	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Qwen 3.5 Plus (2026-02-15)	$0.0016	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 Mini (Reasoning, Low)	$0.0029	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Mistral Large 3	$0.0014	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	DeepSeek-V2 Chat	$0.0004	27.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	ByteDance Seed 2.0 Lite	$0.0070	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.4	$0.0081	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Grok 4.20 (Beta)	$0.0025	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.4 Mini	$0.0027	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	DeepSeek V4 Flash	$0.0002	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Mistral Small 3.2 24B	$0.0003	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Claude Sonnet 4.6 (Reasoning)	$0.022	19.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Gemma 4 31B (Reasoning)	$0.0010	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
44	MoonshotAI: Kimi K2.5	$0.0047	32.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	o4 Mini	$0.0078	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 3 Flash (Preview)	$0.0021	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Z.AI GLM 4.7 Flash	$0.0010	37.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-5 Nano	$0.0011	31.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	DeepSeek V3 (2025-03-24)	$0.0007	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Z.AI GLM 4.7	$0.0042	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
85	ByteDance Seed 2.0 Mini	$0.0017	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Gemma 4 31B	$0.0004	39.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Gemini 2.5 Pro	$0.018	14.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Claude Opus 4.7 (Reasoning)	$0.026	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Aion 2.0	$0.0031	28.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Claude Opus 4.5	$0.019	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Llama 3.1 Nemotron 70B	$0.0007	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Claude Opus 4.7	$0.026	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemma 3 4B	$0.0001	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	GPT-5.5 (Reasoning)	$0.030	13.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
16	Grok 4.20	$0.0027	5.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
21	Nemotron 3 Super	$0.0000	17.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
14	Grok 4.3	$0.0027	4.7s	99%	100	100	100	100	100	100	100	100	100	98	100%
42	o4 Mini High	$0.0084	19.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0010	2.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
6	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	3.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
66	Claude Opus 4.6	$0.021	14.2s	99%	100	100	100	100	100	100	100	100	98	98	100%
9	Grok 4 Fast	$0.0005	5.3s	99%	100	100	100	100	100	100	100	100	98	98	100%
8	Gemini 3.1 Flash Lite	$0.0010	3.4s	99%	100	100	100	100	100	100	100	98	98	98	99%
31	GPT-5.2	$0.0074	9.0s	98%	100	100	100	100	100	100	98	98	98	98	99%
58	GPT-5.1	$0.014	18.4s	95%	100	100	100	100	100	100	100	100	100	92	99%
17	Gemma 4 26B	$0.0003	8.1s	95%	100	100	100	100	100	100	100	100	100	92	99%
19	GPT-5.4 Nano (Reasoning)	$0.0013	6.1s	95%	100	100	100	100	100	100	100	100	98	92	99%
23	Gemini 2.5 Flash Lite (Reasoning)	$0.0009	10.2s	95%	100	100	100	100	100	100	100	100	98	92	99%
68	Z.AI GLM 4.6	$0.0031	54.3s	95%	100	100	100	100	100	100	98	98	98	92	99%
15	GPT-5.4 Nano	$0.0009	2.8s	95%	100	100	100	100	100	100	98	98	98	92	99%
64	GPT-OSS 120B	$0.0006	51.1s	94%	100	100	100	100	100	100	98	98	92	92	98%
47	GPT-4o Mini (temp=1)	$0.0005	34.2s	94%	100	100	100	100	100	100	98	98	92	92	98%
65	GPT-4o Mini (temp=0)	$0.0004	52.5s	93%	100	100	98	98	98	98	98	98	92	92	97%
45	Qwen 3 32B	$0.0005	21.0s	87%	100	100	100	100	100	100	98	98	98	77	97%
52	Claude Sonnet 4.5	$0.011	9.0s	92%	100	100	98	98	98	98	98	92	92	92	97%
30	Inception Mercury	$0.0005	2.1s	85%	100	100	100	100	98	98	98	98	92	77	96%
34	Inception Mercury 2	$0.0012	1.7s	85%	100	100	100	100	98	98	98	92	92	77	96%
61	Mistral Small 4 (Reasoning)	$0.0011	11.3s	72%	100	100	100	100	100	100	100	100	98	54	95%
121	Claude Opus 4	$0.060	20.1s	82%	100	100	100	100	100	100	98	92	77	77	95%
55	Stealth: Healer Alpha	$0.0000	9.4s	72%	100	100	100	100	100	100	100	98	92	54	94%
74	Stealth: Aurora Alpha	—	9.2s	72%	100	100	100	100	100	100	100	92	92	54	94%
49	GPT-5.4 Nano (Reasoning, Low)	$0.0009	3.2s	77%	100	100	100	98	92	92	92	92	77	77	92%
86	Xiaomi MIMO v2.5	$0.0016	8.2s	46%	100	100	100	100	100	100	100	100	98	9	91%
87	GPT-4.1	$0.0045	5.8s	46%	100	100	100	100	100	100	98	98	98	9	90%
101	Claude Sonnet 4	$0.013	13.2s	45%	100	100	100	100	100	98	98	98	98	9	90%
89	Stealth: Hunter Alpha	$0.0000	10.4s	41%	100	100	100	100	100	100	100	100	100	2	90%
75	Llama 3.1 8B	$0.0004	2.3s	56%	100	100	100	100	100	98	98	98	77	27	90%
90	DeepSeek V3.1	$0.0010	8.1s	40%	100	100	100	100	100	100	100	98	98	0	90%
91	ByteDance Seed 1.6 Flash	$0.0007	10.2s	41%	100	100	100	100	100	100	98	98	92	0	89%
84	Grok 4.1 Fast	$0.0006	7.5s	51%	100	100	100	100	100	100	100	100	54	27	88%
98	DeepSeek V3.2	$0.0007	26.4s	41%	100	100	100	100	100	100	100	98	77	2	88%
99	DeepSeek V4 Pro	$0.0020	40.4s	51%	100	100	100	100	98	98	98	92	54	27	87%
93	Mistral Medium 3.1	$0.0017	10.2s	40%	100	100	100	100	100	98	98	92	77	0	87%
107	MiniMax M2.7	$0.0038	49.3s	45%	100	100	100	98	98	92	92	92	77	9	86%
95	Z.AI GLM 4.5 Air	$0.0009	13.8s	41%	100	100	100	100	98	98	92	92	77	0	86%
96	Gemma 3 27B	$0.0003	16.4s	42%	100	100	100	100	98	98	98	92	54	9	85%
88	Mistral Small Creative	$0.0003	2.7s	43%	100	100	100	98	98	98	92	92	54	9	84%
94	DeepSeek V3 (2024-12-26)	$0.0009	12.7s	43%	100	100	100	100	98	98	92	92	27	27	84%
100	Nemotron 3 Nano	$0.0004	27.1s	43%	100	100	100	100	100	100	98	77	27	27	83%
119	Grok 4	$0.012	18.0s	20%	100	100	100	100	100	100	100	100	0	0	80%
109	Writer: Palmyra X5	$0.0034	7.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
102	Xiaomi MIMO v2.5 Pro	$0.0020	11.0s	36%	100	100	100	100	100	98	77	54	54	0	78%
129	Claude 3.5 Sonnet	$0.011	53.6s	27%	100	100	100	100	100	100	100	27	27	9	76%
114	Gemma 3 12B	$0.0002	14.1s	21%	100	100	100	100	100	100	98	54	2	0	75%
104	Ministral 3 8B	$0.0003	3.1s	27%	100	100	100	100	92	77	77	77	9	9	74%
103	Llama 3.1 70B	$0.0018	3.9s	32%	100	100	98	92	92	92	77	54	27	2	73%
115	Gemini 2.5 Flash (Reasoning)	$0.0053	10.0s	30%	100	100	98	92	92	92	77	27	27	9	72%
112	GPT-4o, Aug. 6th (temp=1)	$0.0073	4.4s	31%	100	100	98	92	77	77	77	54	27	9	71%
130	GPT-4o, May 13th (temp=1)	$0.013	51.2s	28%	100	100	100	98	92	77	54	54	27	2	70%
110	GPT-4o, Aug. 6th (temp=0)	$0.0069	4.1s	32%	100	98	98	98	92	77	54	27	27	27	70%
122	Hermes 3 405B	$0.0000	24.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
120	WizardLM 2 8x22b	$0.0019	30.9s	22%	100	100	98	98	92	92	77	27	9	2	70%
113	GPT-4.1 Mini	$0.0010	6.7s	26%	100	100	92	92	92	77	54	27	27	0	66%
118	Z.AI GLM 4.5	$0.0012	9.2s	14%	100	100	100	100	98	77	77	9	0	0	66%
117	Ministral 3 3B	$0.0002	2.3s	12%	100	100	100	100	100	92	54	2	2	0	65%
116	Ministral 3 14B	$0.0004	4.2s	23%	100	92	92	77	77	54	54	54	9	0	61%
127	GPT-4o, May 13th (temp=0)	$0.012	15.2s	22%	98	92	92	92	54	54	27	27	27	27	59%
131	MiniMax M2.5	$0.0018	28.7s	3%	100	100	100	100	98	92	0	0	0	0	59%
128	Qwen3 235B A22B Instruct 2507	$0.0004	10.4s	3%	100	100	100	100	100	27	2	0	0	0	53%
125	Mistral Small 4	$0.0006	5.3s	9%	100	100	98	92	54	54	27	0	0	0	52%
124	Claude Haiku 4.5	$0.0036	5.5s	16%	98	92	77	77	77	27	27	27	9	0	51%
126	Gemini 2.5 Flash	$0.0016	3.2s	15%	92	92	54	54	54	27	27	9	9	0	42%
137	Rocinante 12B	$0.0007	32.3s	4%	100	100	92	54	54	0	0	0	0	0	40%
133	Qwen 2.5 72B	$0.0008	9.8s	8%	98	98	54	54	27	27	9	0	0	0	37%
132	Ministral 3B	$0.0001	1.9s	4%	100	98	77	27	27	9	0	0	0	0	34%
134	GPT-4.1 Nano	$0.0003	6.7s	3%	100	77	54	54	9	9	2	0	0	0	30%
146	Claude 3 Haiku	$0.0009	1.3m	0%	100	100	100	0	0	0	0	0	0	0	30%
147	Mistral Large	$0.023	49.1s	12%	92	54	54	27	27	27	9	2	0	0	29%
135	Ministral 8B	$0.0002	3.5s	0%	100	98	54	27	0	0	0	0	0	0	28%
136	Gemini 2.5 Flash Lite	$0.0004	2.6s	0%	100	100	54	2	0	0	0	0	0	0	26%
138	LFM2 24B	$0.0001	12.9s	0%	100	98	0	0	0	0	0	0	0	0	20%
139	Hermes 3 70B	$0.0007	10.6s	0%	100	9	2	0	0	0	0	0	0	0	11%
143	Cohere Command R+ (Aug. 2024)	$0.0065	5.2s	0%	77	9	2	2	0	0	0	0	0	0	9%
144	Mistral Large 2	$0.0050	6.6s	0%	9	2	2	0	0	0	0	0	0	0	1%
141	Arcee AI: Trinity Large (Preview)	$0.0000	7.3s	0%	9	2	0	0	0	0	0	0	0	0	1%
145	Claude 3.7 Sonnet	$0.0099	8.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
140	Mistral NeMO	$0.0003	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	Arcee AI: Trinity Mini	$0.0002	6.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
84.07%

Median	Evaluator	Top 3	Flop 3
99.2%	Matches sentence count	100Gemini 3.1 Pro (Preview) 100Claude Opus 4.6 (Reasoning) 100Grok 4.20 (Beta, Reasoning)	0Arcee AI: Trinity Mini 0Mistral NeMO 0Claude 3.7 Sonnet

50 sentence summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Grok 4.3 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
MoonshotAI: Kimi K2.5	100%
ByteDance Seed 1.6	100%
Qwen 3.6 Flash	100%

	Score	Cost	Time
Inception Mercury	88%	$0.0007	3.3s
Mistral Small Creative	100%	$0.0006	6.9s
Ministral 3 14B	100%	$0.0005	9.4s
DeepSeek V4 Flash	97%	$0.0002	11.3s
Grok 4.1 Fast	90%	$0.0008	10.3s
Mistral Small 4	80%	$0.0009	10.1s
Gemini 3.1 Flash Lite	74%	$0.0015	3.9s
Gemma 3 4B	75%	$0.0002	13.1s
Stealth: Aurora Alpha	94%	—	4.8s
Gemini 3.1 Flash Lite (Preview)	93%	$0.0015	3.9s
Mistral Small 3.2 24B	100%	$0.0004	30.4s
Inception Mercury 2	90%	$0.0018	2.6s
DeepSeek V3.2	73%	$0.0006	39.6s
GPT-5.4 Nano (Reasoning)	80%	$0.0022	7.8s
Mistral Large 3	100%	$0.0020	13.8s
Gemma 4 31B	100%	$0.0005	30.6s
DeepSeek V4 Flash (Reasoning)	66%	$0.0004	17.8s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0038	4.0s
Gemini 3 Flash (Preview)	100%	$0.0036	7.1s
Nemotron 3 Super	90%	$0.0000	33.7s

	Score	Consistency	Stability
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
Qwen 3.6 Flash	100%	100%	100%

10 word summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

20 word summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%

50 word summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5 Mini	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Z.AI GLM 5	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
Qwen 3.6 Flash	100%
Gemini 3 Flash (Preview, Reasoning)	100%
o4 Mini High	100%

100 word summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Z.AI GLM 5	100%
Qwen 3.5 27B	100%
Qwen 3.6 Flash	100%
Gemini 3 Flash (Preview, Reasoning)	100%
Gemini 3 Pro (Preview)	100%
Z.AI GLM 4.7	100%
Qwen 3.5 35B	100%
GPT-OSS 120B	100%

200 word summary

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Gemma 4 26B (Reasoning)	100%
Z.AI GLM 5	100%
Qwen 3.5 27B	100%
Gemini 3 Pro (Preview)	100%
Qwen 3.5 35B	100%
Qwen 3.5 Flash	100%
Z.AI GLM 5.1	100%
Gemini 3 Flash (Preview, Reasoning)	100%
Z.AI GLM 4.7	100%
Inception Mercury 2	100%
GPT-5 Nano	100%
Inception Mercury	100%
Nemotron 3 Nano	100%

		words					sentences					paragraphs
Model	Total ▼	10 word summary	20 word summary	50 word summary	100 word summary	200 word summary	1 sentence summary	3 sentence summary	10 sentence summary	20 sentence summary	50 sentence summary	1 paragraph summary	3 paragraph summary	5 paragraph summary
Gemini 3.1 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 35B	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 Flash	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 4.7	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	697ms
Inception Mercury	100%	$0.0002	550ms
Arcee AI: Trinity Large (Preview)	85%	$0.0000	1.1s
Mistral Small Creative	100%	$0.0002	402ms
Gemini 2.5 Flash Lite	100%	$0.0002	432ms
Gemma 3 12B	100%	$0.0001	766ms
GPT-4.1 Nano	100%	$0.0001	1.5s
DeepSeek V4 Flash	99%	$0.0001	955ms
Mistral Small 3.2 24B	100%	$0.0002	759ms
Gemma 4 26B	100%	$0.0002	3.2s
Gemma 3 27B	100%	$0.0002	1.0s
Gemma 4 31B	100%	$0.0003	16.5s
Mistral Small 4	100%	$0.0002	638ms
GPT-5.4 Nano	100%	$0.0003	1.0s
GPT-4.1 Mini	100%	$0.0002	1.7s
Ministral 3 14B	100%	$0.0003	523ms
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0004	1.4s
Gemini 3.1 Flash Lite	100%	$0.0004	777ms
Gemini 3.1 Flash Lite (Preview)	100%	$0.0004	731ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0004	815ms

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	757ms
Inception Mercury	100%	$0.0002	657ms
Ministral 3 3B	100%	$0.0002	393ms
GPT-4.1 Nano	100%	$0.0001	2.3s
Gemma 4 26B	100%	$0.0002	3.8s
Inception Mercury 2	100%	$0.0004	637ms
GPT-4.1 Mini	99%	$0.0002	1.7s
Nemotron 3 Super	100%	$0.0000	5.2s
Stealth: Healer Alpha	99%	$0.0000	12.2s
GPT-5.4 Nano	99%	$0.0003	1.1s
Gemini 3.1 Flash Lite	100%	$0.0004	896ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0004	779ms
Z.AI GLM 4.5	99%	$0.0004	2.1s
GPT-4o Mini (temp=0)	100%	$0.0002	3.0s
DeepSeek-V2 Chat	98%	$0.0002	2.8s
DeepSeek V3 (2025-03-24)	100%	$0.0004	2.4s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0004	866ms
GPT-5.4 Mini	99%	$0.0005	685ms
GPT-5.4 Nano (Reasoning)	100%	$0.0005	2.0s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0005	1.9s

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
99	Claude Opus 4.6 (Reasoning)	$0.022	13.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Qwen3.6 Max Preview	$0.019	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Gemini 3.1 Pro (Preview)	$0.046	35.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Z.AI GLM 5.1	$0.013	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Z.AI GLM 5 Turbo	$0.0066	16.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Grok 4.3 (Reasoning)	$0.0040	13.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-5.4 (Reasoning)	$0.0051	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	GPT-5.5 (Reasoning)	$0.012	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5 Mini	$0.0014	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-5.5 (Reasoning, Low)	$0.012	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	GPT-5.1	$0.0026	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	MoonshotAI: Kimi K2.6	$0.014	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Qwen 3.5 397B A17B	$0.024	2.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Gemma 4 31B (Reasoning)	$0.0013	3.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Qwen 3.5 Plus (2026-04-20)	$0.0073	42.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Gemma 4 26B (Reasoning)	$0.0019	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
44	GPT-5.4 (Reasoning, Low)	$0.0043	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Z.AI GLM 5	$0.013	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
113	MoonshotAI: Kimi K2.5	$0.015	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Qwen 3.5 27B	$0.016	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Qwen 3.6 Flash	$0.0043	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini (Reasoning)	$0.0016	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Gemini 3 Flash (Preview, Reasoning)	$0.012	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	o4 Mini High	$0.0067	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-5.2	$0.0041	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	DeepSeek V4 Pro (Reasoning)	$0.0019	26.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Qwen 3.6 27B	$0.013	56.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	MiniMax M2.7	$0.0013	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Qwen 3.6 35B	$0.0029	17.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Gemini 3 Pro (Preview)	$0.028	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Z.AI GLM 4.7	$0.0075	2.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
37	o4 Mini	$0.0029	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Qwen 3.5 35B	$0.013	38.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	ByteDance Seed 2.0 Mini	$0.0027	2.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-OSS 120B	$0.0002	13.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Qwen 3.5 Flash	$0.0029	42.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	Qwen 3.5 9B	$0.0012	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 Mini (Reasoning, Low)	$0.0011	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Mistral Large 3	$0.0008	998ms	100%	100	100	100	100	100	100	100	100	100	100	100%
66	ByteDance Seed 2.0 Lite	$0.0029	30.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Nemotron 3 Super	$0.0000	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0004	637ms	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	757ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5 Nano	$0.0004	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.4 Nano (Reasoning)	$0.0005	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0002	657ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-4o Mini (temp=0)	$0.0002	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-5	$0.0072	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	ByteDance Seed 1.6	$0.0036	35.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 3.1 Flash Lite	$0.0004	896ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-5.4 Nano (Reasoning, Low)	$0.0005	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	779ms	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Z.AI GLM 4.7 Flash	$0.0022	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Claude Sonnet 4.6 (Reasoning)	$0.011	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemma 4 26B	$0.0002	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	GPT-4o Mini (temp=1)	$0.0002	41.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Gemini 3 Flash (Preview)	$0.0009	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Gemma 4 31B	$0.0003	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite (Preview)	$0.0004	866ms	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Gemini 2.5 Pro	$0.015	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	GPT-4o, May 13th (temp=0)	$0.0082	32.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Grok 4	$0.014	18.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
58	Grok 4.20 (Beta, Reasoning)	$0.0064	3.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
57	Gemini 2.5 Flash (Reasoning)	$0.0050	8.9s	99%	100	100	100	100	100	100	100	100	100	98	100%
80	Claude Opus 4.7	$0.014	1.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
21	Gemini 2.5 Flash Lite (Reasoning)	$0.0006	4.6s	99%	100	100	100	100	100	100	100	100	100	98	100%
72	GPT-4o, May 13th (temp=1)	$0.0081	11.5s	99%	100	100	100	100	100	100	100	100	100	98	100%
17	DeepSeek V3 (2025-03-24)	$0.0004	2.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
7	Ministral 3 3B	$0.0002	393ms	99%	100	100	100	100	100	100	100	100	100	98	100%
64	GPT-5.5	$0.0087	1.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
51	Claude Sonnet 4.6	$0.0058	1.7s	99%	100	100	100	100	100	100	100	100	100	98	100%
13	GPT-4.1 Nano	$0.0001	2.3s	99%	100	100	100	100	100	100	100	100	100	98	100%
26	GPT-5.4	$0.0018	1.2s	99%	100	100	100	100	100	100	100	100	98	98	100%
27	Mistral Small 4 (Reasoning)	$0.0008	6.0s	99%	100	100	100	100	100	100	100	100	98	98	100%
23	Grok 4.1 Fast	$0.0005	4.0s	99%	100	100	100	100	100	100	100	98	98	98	100%
19	Z.AI GLM 4.5	$0.0004	2.1s	98%	100	100	100	100	100	100	100	98	98	98	99%
30	Qwen 3.5 Plus (2026-02-15)	$0.0007	7.4s	98%	100	100	100	100	100	100	100	98	98	98	99%
24	GPT-4.1	$0.0012	1.7s	98%	100	100	100	100	100	100	100	98	98	98	99%
18	GPT-4.1 Mini	$0.0002	1.7s	98%	100	100	100	100	100	100	100	98	98	98	99%
56	Claude 3.7 Sonnet	$0.0058	3.4s	99%	100	100	100	100	100	100	100	98	98	98	99%
47	GPT-4o, Aug. 6th (temp=1)	$0.0041	1.4s	98%	100	100	100	100	100	100	98	98	98	98	99%
54	ByteDance Seed 1.6 Flash	$0.0009	16.4s	95%	100	100	100	100	100	100	100	100	100	92	99%
46	Stealth: Healer Alpha	$0.0000	12.2s	95%	100	100	100	100	100	100	100	100	100	92	99%
35	Grok 4 Fast	$0.0005	3.3s	95%	100	100	100	100	100	100	100	100	100	92	99%
108	Claude Opus 4	$0.029	7.6s	98%	100	100	100	100	100	98	98	98	98	98	99%
85	Claude Opus 4.7 (Reasoning)	$0.014	1.7s	95%	100	100	100	100	100	100	100	100	98	92	99%
34	DeepSeek V3 (2024-12-26)	$0.0006	1.4s	95%	100	100	100	100	100	100	100	100	98	92	99%
28	GPT-5.4 Nano	$0.0003	1.1s	95%	100	100	100	100	100	100	100	100	98	92	99%
50	MiniMax M2.5	$0.0010	11.7s	95%	100	100	100	100	100	100	100	98	98	92	99%
32	GPT-5.4 Mini	$0.0005	685ms	95%	100	100	100	100	100	100	100	98	98	92	99%
38	Grok 4.20	$0.0014	826ms	95%	100	100	100	100	100	100	100	98	98	92	99%
71	Claude 3.5 Sonnet	$0.0058	10.6s	95%	100	100	100	100	100	100	98	98	98	92	99%
45	Xiaomi MIMO v2.5	$0.0009	4.6s	95%	100	100	100	100	100	98	98	98	98	92	99%
36	DeepSeek V4 Flash (Reasoning)	$0.0001	3.3s	95%	100	100	100	100	100	98	98	98	98	92	99%
48	GPT-4o, Aug. 6th (temp=0)	$0.0041	1.2s	98%	98	98	98	98	98	98	98	98	98	98	98%
41	Qwen 2.5 72B	$0.0007	1.3s	94%	100	100	100	100	100	100	100	100	92	92	98%
40	DeepSeek-V2 Chat	$0.0002	2.8s	94%	100	100	100	100	100	100	100	100	92	92	98%
79	Z.AI GLM 4.6	$0.0037	32.6s	94%	100	100	100	98	98	98	98	98	98	92	98%
61	Stealth: Hunter Alpha	$0.0000	21.0s	93%	100	100	100	100	100	98	98	98	92	92	98%
39	Gemini 2.5 Flash Lite	$0.0002	445ms	93%	100	100	100	100	100	98	98	98	92	92	98%
70	Claude Sonnet 4	$0.0058	2.2s	93%	100	100	100	98	98	98	98	98	92	92	98%
67	Xiaomi MIMO v2.5 Pro	$0.0013	6.2s	87%	100	100	100	100	100	100	98	98	98	77	97%
82	Aion 2.0	$0.0028	23.3s	86%	100	100	100	100	100	100	100	100	92	77	97%
60	Gemma 3 12B	$0.0001	1.1s	86%	100	100	100	100	100	98	98	98	92	77	96%
63	Ministral 3 8B	$0.0002	553ms	86%	100	100	98	98	98	98	92	92	92	77	95%
91	Claude Opus 4.6	$0.0097	5.6s	86%	100	98	98	98	98	98	92	92	92	77	95%
84	DeepSeek V4 Flash	$0.0001	3.4s	72%	100	100	100	100	100	98	98	98	92	54	94%
101	Claude Opus 4.5	$0.0097	2.8s	72%	100	100	100	100	98	98	98	98	92	54	94%
78	Mistral Small 3.2 24B	$0.0002	804ms	80%	100	98	98	98	98	98	92	77	77	77	92%
115	Nemotron 3 Nano	$0.0003	21.6s	41%	100	100	100	100	100	100	100	100	100	2	90%
133	Qwen 3.5 122B	$0.023	48.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
92	Cohere Command R+ (Aug. 2024)	$0.0044	999ms	76%	100	98	98	98	98	92	77	77	77	77	90%
88	DeepSeek V4 Pro	$0.0011	5.3s	77%	100	98	92	92	92	92	92	77	77	77	89%
110	Hermes 3 405B	$0.0000	7.1s	41%	100	100	100	100	100	100	98	92	92	0	88%
96	Mistral Medium 3.1	$0.0007	954ms	66%	100	100	98	98	92	92	92	77	77	54	88%
94	Mistral Small 4	$0.0002	752ms	67%	100	100	100	100	98	92	77	77	77	54	88%
102	Claude Sonnet 4.5	$0.0058	2.5s	67%	100	98	98	92	92	92	92	77	77	54	87%
105	DeepSeek V3.1	$0.0004	2.8s	51%	100	100	100	98	98	92	92	77	54	27	84%
98	Ministral 3 14B	$0.0003	589ms	63%	100	98	92	77	77	77	77	77	77	77	83%
111	Llama 3.1 8B	$0.0003	661ms	43%	100	100	100	100	100	98	92	77	27	27	82%
119	Arcee AI: Trinity Large (Preview)	$0.0000	1.4s	31%	100	100	100	100	98	98	92	92	27	0	81%
116	Grok 4.3	$0.0020	1.1s	42%	100	100	98	92	92	92	92	77	27	27	80%
127	Grok 4.20 (Reasoning)	$0.0038	8.7s	20%	100	100	100	100	100	100	100	98	0	0	80%
114	Gemma 3 27B	$0.0002	1.6s	43%	100	98	98	92	92	92	77	77	27	27	78%
103	Mistral Small Creative	$0.0002	432ms	61%	100	77	77	77	77	77	77	77	77	54	77%
122	Qwen 3 32B	$0.0004	7.3s	28%	100	100	100	100	92	92	92	77	9	9	77%
120	Qwen3 235B A22B Instruct 2507	$0.0002	1.7s	35%	100	100	98	92	92	77	77	54	54	2	75%
124	Claude 3 Haiku	$0.0005	11.7s	31%	100	100	100	100	98	77	54	54	27	9	72%
125	Grok 4.20 (Beta)	$0.0008	615ms	26%	100	100	100	98	92	77	54	54	9	9	69%
129	Claude Haiku 4.5	$0.0019	1.6s	22%	100	100	100	98	77	54	54	27	27	9	65%
126	Gemini 2.5 Flash	$0.0003	644ms	31%	98	92	92	77	77	77	54	27	27	9	63%
130	Z.AI GLM 4.5 Air	$0.0005	6.2s	19%	100	100	98	77	77	54	27	27	9	9	58%
132	Llama 3.1 Nemotron 70B	$0.0006	1.3s	6%	100	100	98	98	92	27	9	9	2	0	54%
134	DeepSeek V3.2	$0.0005	4.9s	4%	100	98	92	77	54	2	2	2	0	0	43%
135	Writer: Palmyra X5	$0.0013	9.0s	4%	92	92	77	54	27	9	0	0	0	0	35%
137	WizardLM 2 8x22b	$0.0014	14.8s	0%	100	98	98	0	0	0	0	0	0	0	30%
136	Ministral 3B	$0.0001	557ms	0%	92	92	54	0	0	0	0	0	0	0	24%
139	Hermes 3 70B	$0.0007	3.2s	0%	77	54	0	0	0	0	0	0	0	0	13%
138	Arcee AI: Trinity Mini	$0.0001	522ms	0%	77	54	0	0	0	0	0	0	0	0	13%
140	Ministral 8B	$0.0002	1.2s	0%	100	2	0	0	0	0	0	0	0	0	10%
141	Mistral NeMO	$0.0002	1.9s	0%	92	0	0	0	0	0	0	0	0	0	9%
143	Rocinante 12B	$0.0005	9.3s	0%	92	0	0	0	0	0	0	0	0	0	9%
147	Mistral Large	$0.016	11.8s	0%	54	9	9	0	0	0	0	0	0	0	7%
142	LFM2 24B	$0.0001	827ms	1%	54	2	2	2	2	2	2	0	0	0	6%
145	Llama 3.1 70B	$0.0014	759ms	0%	27	0	0	0	0	0	0	0	0	0	3%
144	Gemma 3 4B	$0.0001	698ms	0%	0	0	0	0	0	0	0	0	0	0	0%
146	Mistral Large 2	$0.0040	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
87.87%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
78	Claude Opus 4.6 (Reasoning)	$0.067	25.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemini 3.1 Pro (Preview)	$0.066	51.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Z.AI GLM 5.1	$0.024	2.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Z.AI GLM 5 Turbo	$0.011	24.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Claude Sonnet 4.6 (Reasoning)	$0.041	24.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4.3 (Reasoning)	$0.011	40.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	MoonshotAI: Kimi K2.6	$0.014	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Qwen 3.5 397B A17B	$0.035	4.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Gemma 4 31B (Reasoning)	$0.0023	4.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Qwen 3.5 122B	$0.031	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Qwen 3.5 Plus (2026-04-20)	$0.014	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Gemma 4 26B (Reasoning)	$0.0034	5.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Z.AI GLM 5	$0.017	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Qwen 3.5 27B	$0.022	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Qwen 3.6 Flash	$0.0080	23.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Gemini 3 Flash (Preview, Reasoning)	$0.025	38.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Gemini 3 Pro (Preview)	$0.044	25.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Z.AI GLM 4.7	$0.010	2.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Qwen 3.5 35B	$0.019	55.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-OSS 120B	$0.0007	57.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Qwen 3.5 9B	$0.0017	2.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Qwen3.6 Max Preview	$0.039	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
40	GPT-5.5 (Reasoning)	$0.026	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Qwen 3.6 35B	$0.0067	39.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	ByteDance Seed 2.0 Mini	$0.0044	4.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Qwen 3.5 Flash	$0.0039	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
32	ByteDance Seed 2.0 Lite	$0.0065	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	MoonshotAI: Kimi K2.5	$0.0098	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
3	GPT-5.4 Nano (Reasoning)	$0.0011	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	o4 Mini	$0.011	25.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	ByteDance Seed 1.6	$0.0078	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Nemotron 3 Super	$0.0000	19.9s	99%	100	100	100	100	100	100	100	100	100	98	100%
9	GPT-5.4 Mini (Reasoning)	$0.0040	4.9s	99%	100	100	100	100	100	100	100	100	100	98	100%
15	GPT-5 Nano	$0.0013	31.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
14	GPT-5 Mini	$0.0033	15.8s	99%	100	100	100	100	100	100	100	100	100	98	100%
5	GPT-4o Mini (temp=0)	$0.0003	15.2s	99%	100	100	100	100	100	100	100	100	100	98	100%
29	GPT-5.4 (Reasoning)	$0.012	22.2s	99%	100	100	100	100	100	100	100	100	98	98	100%
2	Gemini 3.1 Flash Lite (Preview)	$0.0006	1.2s	99%	100	100	100	100	100	100	100	100	98	98	100%
50	o4 Mini High	$0.012	1.6m	99%	100	100	100	100	100	100	100	98	98	98	100%
23	GPT-5.1	$0.011	14.3s	99%	100	100	100	100	100	100	100	98	98	98	100%
12	GPT-4o, Aug. 6th (temp=1)	$0.0051	2.2s	99%	100	100	100	100	100	100	100	98	98	98	100%
22	GPT-5.2	$0.011	9.7s	98%	100	100	100	100	100	100	98	98	98	98	99%
16	GPT-5.5	$0.0070	4.1s	98%	100	100	100	100	100	100	98	98	98	98	99%
4	Gemini 3 Flash (Preview)	$0.0012	1.8s	98%	100	100	100	100	100	100	98	98	98	98	99%
8	Inception Mercury 2	$0.0013	1.6s	95%	100	100	100	100	100	100	100	100	100	92	99%
6	Inception Mercury	$0.0002	4.2s	95%	100	100	100	100	100	100	100	100	100	92	99%
51	Grok 4.20 (Beta, Reasoning)	$0.028	15.1s	95%	100	100	100	100	100	100	100	100	98	92	99%
11	GPT-4.1	$0.0023	3.1s	95%	100	100	100	100	100	100	100	98	98	92	99%
33	Claude Opus 4.7	$0.018	4.1s	95%	100	100	100	100	100	100	98	98	98	92	99%
42	Z.AI GLM 4.7 Flash	$0.0024	1.6m	94%	100	100	100	100	100	100	100	100	92	92	98%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0006	1.2s	94%	100	100	100	98	98	98	98	98	98	92	98%
26	GPT-4o Mini (temp=1)	$0.0003	46.8s	93%	100	100	100	100	100	98	98	98	92	92	98%
45	GPT-5.5 (Reasoning, Low)	$0.021	7.9s	86%	100	100	100	100	100	100	100	100	100	77	98%
13	Gemini 3.1 Flash Lite	$0.0006	1.2s	93%	100	100	100	98	98	98	98	98	92	92	98%
39	Claude Opus 4.7 (Reasoning)	$0.018	7.2s	93%	100	100	100	100	100	100	98	92	92	92	97%
36	Claude Opus 4.5	$0.012	5.1s	87%	100	100	100	100	100	100	100	98	98	77	97%
17	GPT-4o, Aug. 6th (temp=0)	$0.0051	2.4s	92%	100	100	100	100	100	98	98	92	92	92	97%
21	Gemma 4 31B	$0.0003	6.4s	85%	100	100	100	98	98	98	98	98	92	77	96%
18	Gemma 4 26B	$0.0002	10.1s	89%	100	98	98	98	98	92	92	92	92	92	95%
37	GPT-5.4 Mini (Reasoning, Low)	$0.0026	2.6s	72%	100	100	100	100	100	100	100	100	98	54	95%
52	GPT-5	$0.017	21.1s	82%	100	100	100	100	100	100	98	98	77	77	95%
30	GPT-5.4 (Reasoning, Low)	$0.0044	3.4s	86%	100	100	98	98	98	98	92	92	92	77	95%
43	Claude Opus 4.6	$0.012	4.8s	81%	100	100	100	100	98	98	98	92	77	77	94%
41	GPT-4o, May 13th (temp=0)	$0.0096	11.8s	81%	100	100	100	100	98	98	98	92	77	77	94%
48	Claude Sonnet 4.6	$0.0076	4.4s	70%	100	100	98	98	98	92	92	92	92	54	92%
73	Grok 4.20 (Reasoning)	$0.013	40.0s	45%	100	100	100	100	100	100	100	100	100	9	91%
34	GPT-4.1 Mini	$0.0004	2.3s	75%	100	100	98	98	92	92	92	77	77	77	91%
86	Qwen 3.6 27B	$0.021	1.4m	40%	100	100	100	100	100	100	100	100	100	0	90%
63	Nemotron 3 Nano	$0.0003	20.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
69	MiniMax M2.7	$0.0036	38.6s	40%	100	100	100	100	100	100	100	98	98	0	90%
60	GPT-5.4 Nano (Reasoning, Low)	$0.0009	4.3s	40%	100	100	100	100	100	100	98	98	98	0	90%
59	GPT-4o, May 13th (temp=1)	$0.0096	10.7s	62%	100	100	100	100	98	98	77	77	54	54	86%
56	GPT-5.4	$0.0033	3.5s	54%	100	98	98	98	92	92	92	77	77	27	85%
68	Claude 3.7 Sonnet	$0.0074	5.9s	43%	100	100	100	100	100	98	92	77	54	9	83%
65	GPT-5.4 Mini	$0.0011	1.2s	38%	100	100	100	98	98	98	92	77	54	0	82%
64	Gemini 2.5 Pro	$0.012	9.3s	58%	100	98	92	92	92	77	77	77	54	54	81%
72	DeepSeek V3 (2025-03-24)	$0.0007	6.5s	30%	100	100	100	98	92	92	92	92	27	0	79%
79	Claude Sonnet 4	$0.0075	4.5s	22%	100	100	100	98	98	98	98	92	2	0	79%
71	DeepSeek V3 (2024-12-26)	$0.0006	5.0s	35%	100	100	100	98	92	92	77	54	54	0	77%
70	Grok 4 Fast	$0.0004	2.6s	36%	100	100	98	92	92	92	77	77	27	9	77%
129	DeepSeek V4 Pro (Reasoning)	$0.0099	3.4m	21%	100	100	100	100	100	92	92	54	0	0	74%
82	Z.AI GLM 4.6	$0.0043	51.4s	33%	100	100	98	98	92	77	54	54	54	2	73%
75	Llama 3.1 70B	$0.0015	1.7s	31%	100	100	98	98	92	77	54	54	27	9	71%
114	Claude Opus 4	$0.038	10.6s	23%	100	100	100	98	77	77	77	27	27	0	69%
102	Aion 2.0	$0.0060	1.2m	11%	100	100	100	100	100	98	77	0	0	0	68%
80	GPT-4.1 Nano	$0.0001	2.0s	21%	100	100	98	92	77	77	54	54	2	0	65%
84	Grok 4.20	$0.0021	2.4s	18%	100	100	100	98	92	77	54	27	2	0	65%
85	LFM2 24B	$0.0001	5.0s	17%	100	100	92	92	77	54	54	27	0	0	60%
83	GPT-5.4 Nano	$0.0005	1.4s	23%	100	100	92	77	77	54	27	27	27	9	59%
94	Stealth: Healer Alpha	$0.0000	15.1s	5%	100	100	100	100	100	77	2	0	0	0	58%
92	Hermes 3 405B	$0.0000	13.3s	11%	100	100	98	98	77	77	27	0	0	0	58%
89	Stealth: Hunter Alpha	$0.0000	18.4s	18%	100	100	77	77	54	54	54	54	0	0	57%
87	Xiaomi MIMO v2.5	$0.0012	6.1s	19%	100	92	92	77	77	54	27	27	9	0	56%
96	Mistral Large 2	$0.0044	4.0s	7%	100	100	100	92	77	77	0	0	0	0	55%
88	Grok 4.20 (Beta)	$0.0014	947ms	17%	100	98	77	77	54	54	54	27	2	2	54%
130	Mistral Large	$0.018	1.1m	7%	100	100	92	92	92	54	0	0	0	0	53%
98	Grok 4	$0.0085	11.5s	12%	100	92	92	92	77	54	9	9	2	2	53%
93	Gemma 3 12B	$0.0001	3.3s	9%	100	92	92	92	92	54	2	2	0	0	53%
91	Gemini 2.5 Flash Lite	$0.0002	855ms	16%	98	98	77	77	54	54	27	27	0	0	51%
97	Claude 3.5 Sonnet	$0.0074	8.9s	13%	100	98	92	77	54	54	27	9	0	0	51%
109	MiniMax M2.5	$0.0016	33.5s	2%	100	100	100	100	92	9	0	0	0	0	50%
101	Claude Sonnet 4.5	$0.0074	4.6s	8%	100	100	98	77	77	27	9	9	0	0	50%
99	Mistral Medium 3.1	$0.0009	4.0s	4%	100	92	92	92	77	9	0	0	0	0	46%
106	Z.AI GLM 4.5 Air	$0.0007	17.0s	2%	100	98	98	92	54	2	0	0	0	0	44%
100	Gemini 2.5 Flash Lite (Reasoning)	$0.0005	4.3s	5%	98	98	92	77	27	27	9	2	0	0	43%
95	Ministral 3 8B	$0.0003	1.3s	15%	77	77	77	77	77	27	9	0	0	0	42%
105	Llama 3.1 8B	$0.0003	828ms	0%	100	100	100	98	9	2	0	0	0	0	41%
107	Gemini 2.5 Flash	$0.0006	1.4s	0%	100	100	100	92	9	0	0	0	0	0	40%
118	Gemini 2.5 Flash (Reasoning)	$0.0055	10.0s	1%	100	100	100	77	9	9	2	2	0	0	40%
103	Z.AI GLM 4.5	$0.0007	5.9s	6%	100	100	92	27	27	27	9	9	2	0	39%
104	DeepSeek-V2 Chat	$0.0003	8.2s	8%	100	77	77	54	27	27	0	0	0	0	36%
111	Mistral Small 4 (Reasoning)	$0.0012	9.8s	4%	100	92	77	27	27	9	9	2	0	0	34%
110	Mistral Large 3	$0.0010	3.7s	5%	98	77	77	54	27	9	0	0	0	0	34%
116	Qwen 2.5 72B	$0.0007	4.7s	0%	100	100	77	54	2	0	0	0	0	0	33%
113	Ministral 3 3B	$0.0002	1.1s	1%	100	92	77	54	9	0	0	0	0	0	33%
112	Arcee AI: Trinity Large (Preview)	$0.0000	3.9s	2%	100	92	92	27	9	9	2	0	0	0	33%
108	Grok 4.1 Fast	$0.0005	4.7s	8%	92	77	54	54	54	0	0	0	0	0	33%
119	Cohere Command R+ (Aug. 2024)	$0.0055	3.4s	6%	92	77	54	54	27	9	9	0	0	0	32%
115	Ministral 3 14B	$0.0004	1.7s	0%	100	100	100	9	9	0	0	0	0	0	32%
117	DeepSeek V4 Flash	$0.0001	2.4s	0%	100	100	77	27	0	0	0	0	0	0	30%
120	Llama 3.1 Nemotron 70B	$0.0006	4.7s	5%	100	54	54	27	27	2	0	0	0	0	26%
121	Gemma 3 27B	$0.0002	4.7s	1%	98	92	27	27	9	0	0	0	0	0	25%
122	Hermes 3 70B	$0.0007	6.6s	0%	100	100	54	0	0	0	0	0	0	0	25%
126	DeepSeek V3.1	$0.0004	8.9s	0%	100	54	54	0	0	0	0	0	0	0	21%
127	Xiaomi MIMO v2.5 Pro	$0.0015	8.4s	0%	98	54	54	2	0	0	0	0	0	0	21%
125	DeepSeek V3.2	$0.0005	6.1s	0%	100	77	27	2	0	0	0	0	0	0	21%
124	DeepSeek V4 Flash (Reasoning)	$0.0001	3.6s	0%	100	100	2	0	0	0	0	0	0	0	20%
123	Mistral Small 4	$0.0003	2.1s	0%	98	92	9	0	0	0	0	0	0	0	20%
128	Arcee AI: Trinity Mini	$0.0001	2.4s	0%	54	54	27	2	0	0	0	0	0	0	14%
135	Qwen 3 32B	$0.0004	11.6s	0%	100	9	9	2	0	0	0	0	0	0	12%
138	DeepSeek V4 Pro	$0.0013	11.5s	0%	77	27	0	0	0	0	0	0	0	0	10%
134	Qwen3 235B A22B Instruct 2507	$0.0003	6.8s	0%	77	27	0	0	0	0	0	0	0	0	10%
136	Claude Haiku 4.5	$0.0024	2.3s	0%	98	0	0	0	0	0	0	0	0	0	10%
131	Ministral 3B	$0.0001	914ms	0%	98	0	0	0	0	0	0	0	0	0	10%
132	Mistral Small Creative	$0.0002	1.1s	0%	92	0	0	0	0	0	0	0	0	0	9%
133	Ministral 8B	$0.0002	2.6s	0%	92	0	0	0	0	0	0	0	0	0	9%
139	Qwen 3.5 Plus (2026-02-15)	$0.0010	6.9s	0%	77	2	2	0	0	0	0	0	0	0	8%
140	Writer: Palmyra X5	$0.0020	3.9s	0%	27	27	9	2	0	0	0	0	0	0	7%
137	Mistral Small 3.2 24B	$0.0002	3.4s	0%	54	9	2	0	0	0	0	0	0	0	6%
141	ByteDance Seed 1.6 Flash	$0.0004	6.7s	0%	27	0	0	0	0	0	0	0	0	0	3%
144	Grok 4.3	$0.0020	1.9s	0%	2	0	0	0	0	0	0	0	0	0	0%
143	Mistral NeMO	$0.0003	2.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Rocinante 12B	$0.0007	23.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	Gemma 3 4B	$0.0001	2.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
147	Claude 3 Haiku	$0.0005	32.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	WizardLM 2 8x22b	$0.0018	21.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
68.41%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
42	Claude Opus 4.6 (Reasoning)	$0.121	42.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Qwen3.6 Max Preview	$0.069	3.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Gemini 3.1 Pro (Preview)	$0.141	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Claude Sonnet 4.6 (Reasoning)	$0.089	45.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Grok 4.3 (Reasoning)	$0.016	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen 3.5 397B A17B	$0.040	4.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Gemma 4 31B (Reasoning)	$0.0034	6.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Gemma 4 26B (Reasoning)	$0.0045	7.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Z.AI GLM 5	$0.027	2.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Qwen 3.5 27B	$0.026	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Gemini 3 Pro (Preview)	$0.089	52.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Qwen 3.5 35B	$0.027	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Qwen 3.5 Flash	$0.0049	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Z.AI GLM 5.1	$0.049	4.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Gemini 3 Flash (Preview, Reasoning)	$0.026	40.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Z.AI GLM 4.7	$0.019	4.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0017	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5 Nano	$0.0015	35.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Inception Mercury	$0.0004	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Nemotron 3 Nano	$0.0008	51.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.5 (Reasoning, Low)	$0.038	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Qwen 3.6 35B	$0.018	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Nemotron 3 Super	$0.0000	31.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Z.AI GLM 5 Turbo	$0.022	49.1s	99%	100	100	100	100	100	100	100	100	100	98	100%
20	GPT-5.5 (Reasoning)	$0.039	14.9s	99%	100	100	100	100	100	100	100	100	100	98	100%
5	GPT-5.4 Mini (Reasoning)	$0.0063	7.4s	99%	100	100	100	100	100	100	100	100	100	98	100%
35	Qwen 3.6 27B	$0.045	3.2m	99%	100	100	100	100	100	100	100	98	98	98	100%
8	GPT-5.1	$0.014	16.6s	98%	100	100	100	100	100	100	100	98	98	98	99%
3	GPT-5.4 Nano (Reasoning)	$0.0019	9.8s	98%	100	100	100	100	100	100	100	98	98	98	99%
36	MoonshotAI: Kimi K2.5	$0.032	4.3m	98%	100	100	100	100	100	100	98	98	98	98	99%
33	MoonshotAI: Kimi K2.6	$0.029	3.8m	98%	100	100	100	100	100	100	98	98	98	98	99%
9	GPT-OSS 120B	$0.0009	57.4s	95%	100	100	100	100	100	100	100	100	100	92	99%
13	GPT-5.2	$0.019	19.9s	95%	100	100	100	100	100	100	100	100	98	92	99%
11	GPT-5.4 (Reasoning)	$0.018	16.6s	95%	100	100	100	100	100	100	100	100	98	92	99%
12	Stealth: Aurora Alpha	—	6.5s	86%	100	100	100	100	100	100	100	100	100	77	98%
24	o4 Mini High	$0.020	43.8s	87%	100	100	100	100	100	100	100	98	98	77	97%
30	Qwen 3.5 122B	$0.040	1.7m	87%	100	100	100	100	100	100	100	98	98	77	97%
14	o4 Mini	$0.012	25.3s	92%	100	100	100	100	100	98	98	92	92	92	97%
23	GPT-5	$0.025	34.8s	92%	100	100	98	98	98	98	98	92	92	92	97%
15	GPT-5 Mini	$0.0038	20.4s	85%	100	100	100	100	98	98	98	98	92	77	96%
27	ByteDance Seed 1.6	$0.012	2.1m	86%	100	100	100	100	100	98	98	92	92	77	96%
26	Claude Opus 4.7	$0.024	6.7s	77%	100	100	100	98	92	92	92	92	77	77	92%
41	Qwen 3.6 Flash	$0.019	53.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
49	Qwen 3.5 9B	$0.0022	3.1m	40%	100	100	100	100	100	100	100	100	100	0	90%
58	Qwen 3.5 Plus (2026-04-20)	$0.028	2.9m	40%	100	100	100	100	100	100	100	100	98	0	90%
50	DeepSeek V4 Pro (Reasoning)	$0.011	2.8m	40%	100	100	100	100	100	100	100	98	92	0	89%
29	Claude Opus 4.7 (Reasoning)	$0.024	6.1s	69%	100	100	98	98	98	98	77	77	77	54	88%
53	Z.AI GLM 4.7 Flash	$0.0045	3.0m	37%	100	100	100	100	100	100	100	100	54	0	85%
65	ByteDance Seed 2.0 Mini	$0.0041	4.6m	30%	100	100	100	100	100	100	100	100	27	0	83%
46	GPT-4o, Aug. 6th (temp=0)	$0.0062	3.8s	21%	100	98	98	98	98	98	98	92	0	0	78%
38	GPT-4.1	$0.0035	3.5s	36%	100	100	98	98	98	92	77	77	27	9	78%
59	ByteDance Seed 2.0 Lite	$0.011	2.1m	23%	100	100	100	100	100	100	100	54	9	0	76%
47	GPT-4o, Aug. 6th (temp=1)	$0.0063	3.7s	25%	98	98	98	98	92	92	77	54	9	0	72%
52	GPT-5.5	$0.012	7.1s	23%	100	100	100	98	92	77	77	27	9	9	69%
45	Gemini 3.1 Flash Lite	$0.0008	1.9s	31%	98	98	92	77	77	77	54	54	27	2	66%
48	Gemini 3 Flash (Preview)	$0.0015	2.5s	25%	100	92	92	92	92	77	54	54	2	2	66%
57	GPT-5.4 Mini (Reasoning, Low)	$0.0026	2.8s	12%	100	100	100	98	98	77	77	2	0	0	65%
56	Grok 4	$0.010	17.2s	21%	100	100	98	92	92	77	54	27	9	0	65%
54	Mistral Large 3	$0.0012	6.0s	14%	100	100	100	98	92	92	54	9	0	0	65%
51	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.8s	22%	100	92	92	92	92	54	54	27	9	9	62%
69	Grok 4.20 (Reasoning)	$0.017	55.7s	2%	100	100	100	100	100	100	2	0	0	0	60%
61	GPT-4o Mini (temp=1)	$0.0004	57.6s	12%	100	100	98	92	92	54	27	9	2	2	58%
63	Claude Sonnet 4.5	$0.0095	7.7s	7%	100	100	100	98	92	54	9	2	0	0	55%
67	MiniMax M2.7	$0.0031	46.5s	3%	100	100	100	98	98	27	0	0	0	0	52%
70	Gemini 2.5 Pro	$0.016	13.3s	3%	100	100	98	92	92	9	0	0	0	0	49%
60	Gemini 3.1 Flash Lite (Preview)	$0.0008	1.7s	15%	98	92	77	77	54	54	27	9	2	0	49%
62	LFM2 24B	$0.0001	7.9s	8%	98	92	92	92	54	27	27	0	0	0	48%
64	GPT-5.4 (Reasoning, Low)	$0.0064	5.8s	11%	100	100	77	54	54	27	27	9	0	0	45%
91	Grok 4.20 (Beta, Reasoning)	$0.040	25.5s	3%	100	100	100	77	54	0	0	0	0	0	43%
66	GPT-5.4 Nano (Reasoning, Low)	$0.0007	3.2s	4%	100	92	92	77	54	2	0	0	0	0	42%
72	Stealth: Healer Alpha	$0.0000	33.4s	0%	100	100	100	77	0	0	0	0	0	0	38%
68	GPT-4.1 Nano	$0.0002	3.5s	6%	100	98	77	27	27	27	0	0	0	0	36%
71	Ministral 3 14B	$0.0004	2.8s	3%	100	98	77	54	27	0	0	0	0	0	36%
83	GPT-4o, May 13th (temp=1)	$0.011	13.5s	0%	100	100	77	9	2	0	0	0	0	0	29%
74	Gemma 3 12B	$0.0001	8.6s	0%	100	98	77	9	0	0	0	0	0	0	28%
73	Ministral 3 8B	$0.0003	1.8s	0%	100	100	54	27	0	0	0	0	0	0	28%
75	DeepSeek V3 (2024-12-26)	$0.0008	8.4s	0%	100	100	77	0	0	0	0	0	0	0	28%
76	DeepSeek V4 Flash	$0.0001	15.2s	1%	98	92	54	9	9	2	0	0	0	0	26%
80	GPT-5.4	$0.0053	6.5s	0%	77	77	54	54	2	0	0	0	0	0	26%
78	Grok 4.20	$0.0021	3.6s	0%	98	98	54	0	0	0	0	0	0	0	25%
77	Arcee AI: Trinity Large (Preview)	$0.0000	6.4s	0%	98	92	54	0	0	0	0	0	0	0	24%
79	Gemini 2.5 Flash Lite (Reasoning)	$0.0008	6.3s	0%	77	54	54	54	0	0	0	0	0	0	24%
81	Grok 4 Fast	$0.0004	4.2s	0%	98	77	27	9	2	0	0	0	0	0	21%
82	GPT-5.4 Mini	$0.0016	1.8s	0%	100	100	9	2	0	0	0	0	0	0	21%
84	GPT-4o Mini (temp=0)	$0.0004	28.7s	0%	77	77	54	0	0	0	0	0	0	0	21%
90	Aion 2.0	$0.0028	24.0s	0%	100	92	0	0	0	0	0	0	0	0	19%
85	Xiaomi MIMO v2.5	$0.0031	12.5s	0%	100	92	0	0	0	0	0	0	0	0	19%
87	MiniMax M2.5	$0.0014	20.5s	0%	98	92	0	0	0	0	0	0	0	0	19%
147	Claude Opus 4	$0.048	1.3m	0%	98	92	0	0	0	0	0	0	0	0	19%
107	Claude Opus 4.5	$0.016	8.3s	0%	100	77	9	0	0	0	0	0	0	0	19%
88	DeepSeek V3.1	$0.0006	17.9s	0%	100	77	0	0	0	0	0	0	0	0	18%
86	DeepSeek V4 Pro	$0.0004	11.4s	0%	92	77	0	0	0	0	0	0	0	0	17%
110	Claude Opus 4.6	$0.016	8.5s	1%	92	27	27	9	2	2	0	0	0	0	16%
89	DeepSeek V3.2	$0.0005	8.9s	0%	100	54	2	0	0	0	0	0	0	0	16%
95	Writer: Palmyra X5	$0.0027	8.4s	0%	77	27	27	0	0	0	0	0	0	0	13%
93	Qwen3 235B A22B Instruct 2507	$0.0003	12.2s	0%	100	27	2	0	0	0	0	0	0	0	13%
104	DeepSeek V3 (2025-03-24)	$0.0005	16.9s	0%	98	27	0	0	0	0	0	0	0	0	13%
132	Gemini 2.5 Flash (Reasoning)	$0.014	24.7s	0%	92	27	0	0	0	0	0	0	0	0	12%
92	GPT-4.1 Mini	$0.0006	3.6s	0%	77	27	9	2	0	0	0	0	0	0	12%
101	Mistral Medium 3.1	$0.0012	6.6s	0%	77	27	9	0	0	0	0	0	0	0	11%
94	Grok 4.1 Fast	$0.0004	5.7s	0%	100	9	2	0	0	0	0	0	0	0	11%
98	DeepSeek V4 Flash (Reasoning)	$0.0002	6.4s	0%	98	9	2	0	0	0	0	0	0	0	11%
99	Arcee AI: Trinity Mini	$0.0001	3.0s	0%	98	2	0	0	0	0	0	0	0	0	10%
97	Mistral Small Creative	$0.0003	1.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
102	GPT-5.4 Nano	$0.0006	2.3s	0%	100	0	0	0	0	0	0	0	0	0	10%
100	Mistral Small 4	$0.0003	2.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
103	Gemma 3 4B	$0.0001	3.8s	0%	98	0	0	0	0	0	0	0	0	0	10%
96	Ministral 3 3B	$0.0002	1.1s	0%	98	0	0	0	0	0	0	0	0	0	10%
113	Claude Sonnet 4	$0.0098	7.4s	0%	92	0	0	0	0	0	0	0	0	0	9%
106	Claude Haiku 4.5	$0.0030	4.1s	0%	92	0	0	0	0	0	0	0	0	0	9%
105	Gemini 2.5 Flash	$0.0010	2.0s	0%	77	0	0	0	0	0	0	0	0	0	8%
108	Grok 4.20 (Beta)	$0.0024	1.6s	0%	54	9	9	0	0	0	0	0	0	0	7%
109	Gemma 3 27B	$0.0002	8.8s	0%	27	27	2	0	0	0	0	0	0	0	6%
111	Qwen 3 32B	$0.0004	16.4s	0%	54	0	0	0	0	0	0	0	0	0	5%
112	Gemma 4 31B	$0.0003	21.2s	1%	27	9	9	2	2	0	0	0	0	0	5%
131	Cohere Command R+ (Aug. 2024)	$0.0064	5.7s	0%	27	0	0	0	0	0	0	0	0	0	3%
114	DeepSeek-V2 Chat	$0.0003	12.0s	0%	27	0	0	0	0	0	0	0	0	0	3%
124	Gemma 4 26B	$0.0002	13.3s	0%	9	2	2	0	0	0	0	0	0	0	1%
145	Z.AI GLM 4.6	$0.0039	58.3s	0%	9	0	0	0	0	0	0	0	0	0	1%
130	ByteDance Seed 1.6 Flash	$0.0008	15.1s	0%	9	0	0	0	0	0	0	0	0	0	1%
115	Gemini 2.5 Flash Lite	$0.0003	1.2s	0%	2	0	0	0	0	0	0	0	0	0	0%
142	Claude Sonnet 4.6	$0.0098	7.5s	0%	2	0	0	0	0	0	0	0	0	0	0%
144	GPT-4o, May 13th (temp=0)	$0.011	16.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
140	Claude 3.7 Sonnet	$0.0092	7.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
136	Qwen 3.5 Plus (2026-02-15)	$0.0013	13.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
143	Mistral Small 4 (Reasoning)	$0.0028	33.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
129	Z.AI GLM 4.5 Air	$0.0007	10.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
128	Stealth: Hunter Alpha	$0.0000	12.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
138	Rocinante 12B	$0.0006	24.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
123	Qwen 2.5 72B	$0.0007	6.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Claude 3 Haiku	$0.0007	12.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	Grok 4.3	$0.0022	3.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
134	Xiaomi MIMO v2.5 Pro	$0.0017	10.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
121	Z.AI GLM 4.5	$0.0007	4.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
141	Claude 3.5 Sonnet	$0.0084	10.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
135	Hermes 3 405B	$0.0000	16.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	Mistral Large 2	$0.0046	4.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	Mistral Large	$0.019	16.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
120	Mistral Small 3.2 24B	$0.0002	4.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	Llama 3.1 70B	$0.0016	2.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
125	Llama 3.1 Nemotron 70B	$0.0006	7.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
126	Hermes 3 70B	$0.0007	7.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
139	WizardLM 2 8x22b	$0.0017	28.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
119	Mistral NeMO	$0.0003	2.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
117	Ministral 8B	$0.0002	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
118	Llama 3.1 8B	$0.0004	969ms	0%	0	0	0	0	0	0	0	0	0	0	0%
116	Ministral 3B	$0.0001	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
46.46%

Write N of X

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

paragraphs

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

sentences

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

words

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)