Novel outline

Handle questions about the outline of a novel in various formats

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 122B	100%
Qwen 3.5 27B	100%
Gemini 3 Flash (Preview, Reasoning)	100%
Gemini 3 Pro (Preview)	100%
Gemini 2.5 Pro	100%
Qwen 3.6 35B	100%

	Score	Cost	Time
Inception Mercury	73%	$0.0000	679ms
Stealth: Aurora Alpha	88%	—	1.3s
Inception Mercury 2	86%	$0.0003	567ms
Gemini 2.5 Flash Lite	57%	$0.0002	575ms
Ministral 3 3B	57%	$0.0002	1.3s
Gemini 2.5 Flash Lite (Reasoning)	98%	$0.0004	2.5s
Ministral 3 8B	67%	$0.0002	1.8s
Mistral NeMO	68%	$0.0002	2.6s
DeepSeek V4 Flash	63%	$0.0001	3.1s
Mistral Small 4	56%	$0.0002	1.7s
Mistral Small Creative	58%	$0.0003	2.3s
Llama 3.1 8B	54%	$0.0002	2.0s
GPT-5.4 Nano (Reasoning, Low)	88%	$0.0005	3.0s
GPT-4.1 Mini	66%	$0.0003	2.5s
Gemini 3.1 Flash Lite (Preview)	83%	$0.0007	1.2s
Ministral 3 14B	69%	$0.0003	3.3s
Gemini 3.1 Flash Lite	86%	$0.0007	1.5s
Arcee AI: Trinity Mini	59%	$0.0002	3.9s
Gemini 3.1 Flash Lite (Reasoning)	86%	$0.0007	1.2s
GPT-5.4 Nano (Reasoning)	85%	$0.0005	3.1s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%
Gemini 2.5 Pro	100%	100%	100%
Qwen 3.6 35B	100%	100%	100%

	Score	Cost	Speed	Stability
GPT-5.4 (Reasoning, Low)	100%	$0.0030	3.1s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.0027	4.0s	100%
Grok 4.20 (Beta, Reasoning)	100%	$0.0050	3.0s	100%
Qwen 3.6 35B	100%	$0.0019	10.0s	100%
GPT-5.4 (Reasoning)	100%	$0.0034	8.1s	100%
Qwen 3.5 Flash	100%	$0.0009	15.4s	100%
GPT-5.5 (Reasoning, Low)	100%	$0.010	3.1s	100%
Aion 2.0	100%	$0.0021	15.6s	100%
MoonshotAI: Kimi K2.5	100%	$0.0022	15.5s	100%
GPT-5.5 (Reasoning)	100%	$0.011	3.8s	100%
o4 Mini High	99%	$0.0032	7.7s	87%
Qwen 3.5 35B	100%	$0.0045	13.6s	100%
DeepSeek V4 Flash (Reasoning)	98%	$0.0002	8.7s	82%
Gemini 2.5 Pro	100%	$0.0095	6.9s	100%
Qwen 3.5 122B	100%	$0.0057	12.6s	100%
Gemini 2.5 Flash Lite (Reasoning)	98%	$0.0004	2.5s	72%
Gemini 3 Pro (Preview)	100%	$0.011	6.9s	100%
Gemini 2.5 Flash (Reasoning)	97%	$0.0016	3.0s	69%
Gemini 3.1 Pro (Preview)	100%	$0.012	10.0s	100%
MoonshotAI: Kimi K2.6	100%	$0.0033	22.2s	100%

		outline-count	pov-count
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen3.7 Max	100%	100%	100%	100%	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%	100%	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%	100%	100%	100%	100%

Count chapters

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%

	Score	Cost	Time
Inception Mercury	100%	$0.0000	333ms
Gemma 3 4B	100%	$0.0001	335ms
Stealth: Aurora Alpha	100%	—	607ms
LFM2 24B	100%	$0.0000	1.4s
Gemini 2.5 Flash Lite	100%	$0.0001	442ms
Ministral 8B	100%	$0.0001	413ms
Gemma 3 12B	100%	$0.0001	642ms
Ministral 3B	80%	$0.0001	715ms
Inception Mercury 2	100%	$0.0002	400ms
GPT-4.1 Nano	100%	$0.0000	1.2s
Ministral 3 3B	100%	$0.0002	665ms
Gemini 2.5 Flash	100%	$0.0002	487ms
GPT-4o Mini (temp=1)	100%	$0.0002	662ms
Mistral Small 4	100%	$0.0001	947ms
DeepSeek V4 Flash	100%	$0.0001	1.4s
Gemma 3 27B	100%	$0.0001	1.1s
GPT-4o Mini (temp=0)	100%	$0.0002	845ms
Gemma 4 26B	100%	$0.0002	3.2s
Ministral 3 8B	100%	$0.0002	815ms
Llama 3.1 8B	100%	$0.0002	1.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Opus 4.8 (Reasoning, Low)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Inception Mercury	100%	$0.0000	333ms	100%
Gemma 3 4B	100%	$0.0001	335ms	100%
Ministral 8B	100%	$0.0001	413ms	100%
Inception Mercury 2	100%	$0.0002	400ms	100%
Gemini 2.5 Flash Lite	100%	$0.0001	442ms	100%
Gemini 2.5 Flash	100%	$0.0002	487ms	100%
Stealth: Aurora Alpha	100%	—	607ms	100%
Gemma 3 12B	100%	$0.0001	642ms	100%
Ministral 3 3B	100%	$0.0002	665ms	100%
GPT-4o Mini (temp=1)	100%	$0.0002	662ms	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0004	658ms	100%
Ministral 3 8B	100%	$0.0002	815ms	100%
GPT-4o Mini (temp=0)	100%	$0.0002	845ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0004	692ms	100%
Gemini 3.1 Flash Lite	100%	$0.0004	709ms	100%
Mistral Small 4	100%	$0.0001	947ms	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0003	826ms	100%
GPT-5.4 Nano	100%	$0.0003	834ms	100%
Gemma 3 27B	100%	$0.0001	1.1s	100%
GPT-4.1 Nano	100%	$0.0000	1.2s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
142	Claude Opus 4.6 (Reasoning)	$0.015	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Qwen3.7 Max	$0.0081	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Gemini 3.1 Pro (Preview)	$0.0066	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	GPT-5.4 (Reasoning)	$0.0019	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Z.AI GLM 5.1	$0.0028	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
146	Qwen3.6 Max Preview	$0.0060	16.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	GPT-5.5 (Reasoning)	$0.0078	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Claude Sonnet 4.6 (Reasoning)	$0.0081	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	Z.AI GLM 5.2 (Reasoning, High)	$0.0024	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Gemini 3.5 Flash (Reasoning)	$0.0067	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Z.AI GLM 5 Turbo	$0.0011	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	MoonshotAI: Kimi K2.6	$0.0021	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Claude Opus 4.7 (Reasoning)	$0.014	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	GPT-5.5 (Reasoning, Low)	$0.0072	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
143	Claude Opus 4.8 (Reasoning)	$0.018	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Claude Opus 4.6	$0.012	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	Claude Opus 4.8 (Reasoning, Low)	$0.015	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	GPT-5 Mini	$0.0007	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	Qwen 3.5 397B A17B	$0.0027	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	Grok 4.3 (Reasoning)	$0.0027	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Grok 4.20 (Beta, Reasoning)	$0.0034	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-5.4 (Reasoning, Low)	$0.0013	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Grok 4.20 (Reasoning)	$0.0026	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	MoonshotAI: Kimi K2.5	$0.0014	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	GPT-5.1	$0.0012	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	Claude Sonnet 4.6	$0.0062	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	MiniMax M3	$0.0005	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Qwen 3.5 122B	$0.0022	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Qwen 3.5 27B	$0.0015	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Gemini 3 Flash (Preview, Reasoning)	$0.0019	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Claude Opus 4.7	$0.014	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	GPT-5.4 Mini (Reasoning)	$0.0012	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Qwen 3.5 Plus (2026-04-20)	$0.0021	11.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Gemma 4 31B (Reasoning)	$0.0004	16.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Claude Opus 4.5	$0.013	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Z.AI GLM 5	$0.0016	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	ByteDance Seed 1.6	$0.0011	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Grok 4.1 Fast	$0.0004	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.2	$0.0009	848ms	100%	100	100	100	100	100	100	100	100	100	100	100%
93	GPT-5.5	$0.0072	938ms	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Qwen 3.6 Flash	$0.0013	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	DeepSeek V4 Pro (Reasoning)	$0.0011	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
145	Gemma 4 26B (Reasoning)	$0.0002	19.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Gemini 3 Pro (Preview)	$0.0072	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	o4 Mini High	$0.0017	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Gemini 2.5 Pro	$0.0064	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Qwen 3.6 27B	$0.0027	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Grok 4	$0.0098	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	DeepSeek V4 Flash (Reasoning)	$0.0001	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Z.AI GLM 4.7	$0.0011	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Qwen 3.6 35B	$0.0011	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
150	Z.AI GLM 4.6	$0.0016	28.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Claude Sonnet 4	$0.0063	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Claude Sonnet 4.5	$0.0065	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Stealth: Hunter Alpha	$0.0000	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
154	Claude Opus 4	$0.033	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Qwen 3.5 35B	$0.0016	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-4.1	$0.0009	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
82	MiniMax M2.5	$0.0007	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	Aion 2.0	$0.0017	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	o4 Mini	$0.0015	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	MiniMax M2.7	$0.0005	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Qwen 3.5 Plus (2026-02-15)	$0.0008	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Xiaomi MIMO v2.5 Pro	$0.0012	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Stealth: Healer Alpha	$0.0000	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	658ms	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0026	996ms	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Qwen 3.5 Flash	$0.0004	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemini 3 Flash (Preview)	$0.0010	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 3.1 Flash Lite (Preview)	$0.0004	692ms	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Gemma 4 31B	$0.0002	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Gemini 3.1 Flash Lite	$0.0004	709ms	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Z.AI GLM 4.5	$0.0005	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Gemma 4 26B	$0.0002	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	GPT-OSS 120B	$0.0002	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	GPT-4o, May 13th (temp=0)	$0.0070	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.4	$0.0010	841ms	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Mistral Large 3	$0.0008	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	ByteDance Seed 2.0 Lite	$0.0015	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Claude 3.5 Sonnet	$0.0060	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Gemini 2.5 Flash (Reasoning)	$0.0009	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	DeepSeek-V2 Chat	$0.0002	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Qwen 3.5 9B	$0.0003	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Xiaomi MIMO v2.5	$0.0007	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Stealth: Aurora Alpha	—	607ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	GPT-5.4 Mini (Reasoning, Low)	$0.0011	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Claude 3.7 Sonnet	$0.0068	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Claude Haiku 4.5	$0.0020	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-4o, May 13th (temp=1)	$0.0071	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Grok 4.20 (Beta)	$0.0011	718ms	100%	100	100	100	100	100	100	100	100	100	100	100%
64	DeepSeek V3 (2024-12-26)	$0.0006	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	DeepSeek V3.1	$0.0004	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	DeepSeek V3.2	$0.0004	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-4o, Aug. 6th (temp=0)	$0.0035	975ms	100%	100	100	100	100	100	100	100	100	100	100	100%
137	DeepSeek V4 Pro	$0.0008	15.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	DeepSeek V4 Flash	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Inception Mercury 2	$0.0002	400ms	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Nemotron 3 Super	$0.0000	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Mistral Large 2	$0.0041	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	GPT-4.1 Mini	$0.0002	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	GPT-4o, Aug. 6th (temp=1)	$0.0035	967ms	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Grok 4.20	$0.0015	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Hermes 3 405B	$0.0000	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	Z.AI GLM 4.5 Air	$0.0005	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash	$0.0002	487ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini	$0.0011	541ms	100%	100	100	100	100	100	100	100	100	100	100	100%
105	GPT-5 Nano	$0.0002	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Nano (Reasoning)	$0.0003	826ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 2.5 Flash Lite	$0.0001	442ms	100%	100	100	100	100	100	100	100	100	100	100	100%
86	Mistral Large	$0.0039	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Inception Mercury	$0.0000	333ms	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Mistral Small 4 (Reasoning)	$0.0002	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Qwen 3 32B	$0.0003	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-4o Mini (temp=1)	$0.0002	662ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-4o Mini (temp=0)	$0.0002	845ms	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Writer: Palmyra X5	$0.0016	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen3 235B A22B Instruct 2507	$0.0002	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4.3	$0.0014	782ms	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-5.4 Nano (Reasoning, Low)	$0.0003	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Llama 3.1 70B	$0.0011	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Mistral Small 3.2 24B	$0.0002	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Mistral Medium 3.1	$0.0007	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemma 3 12B	$0.0001	642ms	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Gemma 3 27B	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Mistral Small 4	$0.0001	947ms	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Llama 3.1 Nemotron 70B	$0.0005	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Arcee AI: Trinity Large (Preview)	$0.0000	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Mistral Small Creative	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	Qwen 2.5 72B	$0.0006	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Cydonia 24B V4.1	$0.0003	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 Nano	$0.0003	834ms	100%	100	100	100	100	100	100	100	100	100	100	100%
56	WizardLM 2 8x22b	$0.0013	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Ministral 3 14B	$0.0003	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude 3 Haiku	$0.0005	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Ministral 3 8B	$0.0002	815ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-4.1 Nano	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Hermes 3 70B	$0.0006	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Arcee AI: Trinity Mini	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Cohere Command R+ (Aug. 2024)	$0.0046	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemma 3 4B	$0.0001	335ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Ministral 3 3B	$0.0002	665ms	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Mistral NeMO	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 8B	$0.0001	413ms	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Skyfall 36B V2	$0.0005	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Llama 3.1 8B	$0.0002	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	LFM2 24B	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Rocinante 12B	$0.0005	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
148	GPT-5	$0.0021	5.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
149	Z.AI GLM 4.7 Flash	$0.0003	7.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
151	DeepSeek V3 (2025-03-24)	$0.0004	9.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
153	Nemotron 3 Nano	$0.0003	14.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
147	ByteDance Seed 1.6 Flash	$0.0003	3.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
152	Ministral 3B	$0.0001	715ms	20%	100	100	100	100	100	100	100	100	0	0	80%
155	Grok 4 Fast	$0.0003	1.5s	0%	100	100	100	100	0	0	0	0	0	0	40%
156	ByteDance Seed 2.0 Mini	$0.0004	18.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
98.78%

Median	Evaluator	Top 3	Flop 3
100.0%	Contains a count of nouns	100Claude 3.7 Sonnet 100Gemma 3 4B 100Writer: Palmyra X5	40ByteDance Seed 2.0 Mini 40Grok 4 Fast 80Ministral 3B

Count acts

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	752ms
Inception Mercury	100%	$0.0000	334ms
Gemma 3 4B	100%	$0.0001	311ms
Inception Mercury 2	100%	$0.0001	301ms
Ministral 8B	100%	$0.0001	520ms
Gemini 2.5 Flash Lite	100%	$0.0001	429ms
Ministral 3B	100%	$0.0001	718ms
GPT-4.1 Nano	100%	$0.0000	1.0s
Gemini 2.5 Flash	100%	$0.0002	512ms
Mistral Small 4	100%	$0.0001	1.2s
Ministral 3 3B	100%	$0.0002	1.0s
GPT-4o Mini (temp=1)	100%	$0.0002	663ms
GPT-4o Mini (temp=0)	100%	$0.0002	838ms
Mistral Small 4 (Reasoning)	100%	$0.0002	1.1s
Llama 3.1 8B	100%	$0.0002	946ms
LFM2 24B	100%	$0.0001	3.2s
DeepSeek V4 Flash (Reasoning)	100%	$0.0001	1.6s
Arcee AI: Trinity Mini	100%	$0.0001	1.5s
Gemma 3 12B	100%	$0.0001	1.6s
DeepSeek V4 Flash	100%	$0.0001	2.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Opus 4.8 (Reasoning, Low)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemma 3 4B	100%	$0.0001	311ms	100%
Inception Mercury	100%	$0.0000	334ms	100%
Inception Mercury 2	100%	$0.0001	301ms	100%
Gemini 2.5 Flash Lite	100%	$0.0001	429ms	100%
Ministral 8B	100%	$0.0001	520ms	100%
Gemini 2.5 Flash	100%	$0.0002	512ms	100%
Ministral 3B	100%	$0.0001	718ms	100%
GPT-4o Mini (temp=1)	100%	$0.0002	663ms	100%
Gemini 3.1 Flash Lite	100%	$0.0004	657ms	100%
Stealth: Aurora Alpha	100%	—	752ms	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0004	697ms	100%
GPT-4o Mini (temp=0)	100%	$0.0002	838ms	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0004	769ms	100%
GPT-4.1 Nano	100%	$0.0000	1.0s	100%
Llama 3.1 8B	100%	$0.0002	946ms	100%
Ministral 3 3B	100%	$0.0002	1.0s	100%
GPT-5.4 Nano	100%	$0.0003	970ms	100%
Mistral Small 4 (Reasoning)	100%	$0.0002	1.1s	100%
Mistral Small 4	100%	$0.0001	1.2s	100%
GPT-5.4 Mini	100%	$0.0011	595ms	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
138	Claude Opus 4.6 (Reasoning)	$0.012	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Qwen3.7 Max	$0.0063	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
123	Gemini 3.1 Pro (Preview)	$0.0056	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-5.4 (Reasoning)	$0.0016	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
150	Z.AI GLM 5.1	$0.0025	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Qwen3.6 Max Preview	$0.0045	10.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	GPT-5.5 (Reasoning)	$0.0075	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Claude Sonnet 4.6 (Reasoning)	$0.0057	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Z.AI GLM 5.2 (Reasoning, High)	$0.0012	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Gemini 3.5 Flash (Reasoning)	$0.0044	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Z.AI GLM 5 Turbo	$0.0009	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
135	MoonshotAI: Kimi K2.6	$0.0017	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
133	Claude Opus 4.7 (Reasoning)	$0.014	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
97	GPT-5.5 (Reasoning, Low)	$0.0072	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
142	Claude Opus 4.8 (Reasoning)	$0.015	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Claude Opus 4.6	$0.0098	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
141	Claude Opus 4.8 (Reasoning, Low)	$0.015	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	GPT-5 Mini	$0.0005	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
137	Qwen 3.5 397B A17B	$0.0019	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Grok 4.20 (Beta, Reasoning)	$0.0025	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.4 (Reasoning, Low)	$0.0015	700ms	100%	100	100	100	100	100	100	100	100	100	100	100%
90	Grok 4.20 (Reasoning)	$0.0024	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	MoonshotAI: Kimi K2.5	$0.0012	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-5.1	$0.0005	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Claude Sonnet 4.6	$0.0057	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	MiniMax M3	$0.0003	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Qwen 3.5 122B	$0.0017	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen 3.5 27B	$0.0012	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Gemini 3 Flash (Preview, Reasoning)	$0.0013	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
136	Claude Opus 4.7	$0.014	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	GPT-5.4 Mini (Reasoning)	$0.0012	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
127	Qwen 3.5 Plus (2026-04-20)	$0.0014	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
131	Gemma 4 31B (Reasoning)	$0.0003	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
122	Claude Opus 4.5	$0.010	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
121	Z.AI GLM 5	$0.0014	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	ByteDance Seed 1.6	$0.0007	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Grok 4.1 Fast	$0.0003	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-5.2	$0.0016	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	GPT-5.5	$0.0072	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen 3.6 Flash	$0.0009	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	DeepSeek V4 Pro (Reasoning)	$0.0006	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Gemma 4 26B (Reasoning)	$0.0002	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
134	Gemini 3 Pro (Preview)	$0.0059	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
72	o4 Mini High	$0.0011	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
116	Gemini 2.5 Pro	$0.0056	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Qwen 3.6 27B	$0.0020	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
129	Grok 4	$0.0060	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	DeepSeek V4 Flash (Reasoning)	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
151	Z.AI GLM 4.7	$0.0007	22.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Qwen 3.6 35B	$0.0007	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
148	Z.AI GLM 4.6	$0.0011	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	Claude Sonnet 4	$0.0068	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	Claude Sonnet 4.5	$0.0066	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
147	Stealth: Hunter Alpha	$0.0000	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
155	Claude Opus 4	$0.035	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Qwen 3.5 35B	$0.0012	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-4.1	$0.0011	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	MiniMax M2.5	$0.0003	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	Aion 2.0	$0.0015	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	o4 Mini	$0.0011	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	MiniMax M2.7	$0.0003	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Qwen 3.5 Plus (2026-02-15)	$0.0008	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
102	Xiaomi MIMO v2.5 Pro	$0.0009	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	Stealth: Healer Alpha	$0.0000	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	697ms	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0030	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
126	ByteDance Seed 2.0 Mini	$0.0002	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
99	Qwen 3.5 Flash	$0.0003	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 3 Flash (Preview)	$0.0010	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 3.1 Flash Lite (Preview)	$0.0004	769ms	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Gemma 4 31B	$0.0002	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0004	657ms	100%	100	100	100	100	100	100	100	100	100	100	100%
82	Z.AI GLM 4.5	$0.0004	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	Gemma 4 26B	$0.0002	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	GPT-OSS 120B	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	GPT-4o, May 13th (temp=0)	$0.0069	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4	$0.0010	730ms	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Mistral Large 3	$0.0008	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
105	ByteDance Seed 2.0 Lite	$0.0008	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Claude 3.5 Sonnet	$0.0058	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Gemini 2.5 Flash (Reasoning)	$0.0006	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	DeepSeek-V2 Chat	$0.0002	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Qwen 3.5 9B	$0.0002	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Xiaomi MIMO v2.5	$0.0006	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Stealth: Aurora Alpha	—	752ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-5.4 Mini (Reasoning, Low)	$0.0012	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
107	Claude 3.7 Sonnet	$0.0055	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Claude Haiku 4.5	$0.0022	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	GPT-4o, May 13th (temp=1)	$0.0070	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
146	Grok 4.20 (Beta)	$0.0007	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	DeepSeek V3 (2024-12-26)	$0.0006	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	DeepSeek V3.1	$0.0003	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	DeepSeek V3.2	$0.0004	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
100	Z.AI GLM 4.7 Flash	$0.0001	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-4o, Aug. 6th (temp=0)	$0.0035	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	DeepSeek V4 Pro	$0.0013	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V4 Flash	$0.0001	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0001	301ms	100%	100	100	100	100	100	100	100	100	100	100	100%
130	Nemotron 3 Super	$0.0000	10.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Mistral Large 2	$0.0039	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-4.1 Mini	$0.0002	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	GPT-4o, Aug. 6th (temp=1)	$0.0035	849ms	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Grok 4.20	$0.0016	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
124	Hermes 3 405B	$0.0000	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
128	Z.AI GLM 4.5 Air	$0.0004	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash	$0.0002	512ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini	$0.0011	595ms	100%	100	100	100	100	100	100	100	100	100	100	100%
92	GPT-5 Nano	$0.0001	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5.4 Nano (Reasoning)	$0.0003	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 2.5 Flash Lite	$0.0001	429ms	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Mistral Large	$0.0037	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0000	334ms	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Mistral Small 4 (Reasoning)	$0.0002	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
112	Qwen 3 32B	$0.0003	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-4o Mini (temp=1)	$0.0002	663ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-4o Mini (temp=0)	$0.0002	838ms	100%	100	100	100	100	100	100	100	100	100	100	100%
143	Writer: Palmyra X5	$0.0015	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
87	Qwen3 235B A22B Instruct 2507	$0.0003	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Nano (Reasoning, Low)	$0.0003	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	Llama 3.1 70B	$0.0011	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Mistral Small 3.2 24B	$0.0002	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Mistral Medium 3.1	$0.0008	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Gemma 3 12B	$0.0001	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Gemma 3 27B	$0.0001	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Mistral Small 4	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Llama 3.1 Nemotron 70B	$0.0005	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Nemotron 3 Nano	$0.0001	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Arcee AI: Trinity Large (Preview)	$0.0000	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Mistral Small Creative	$0.0002	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen 2.5 72B	$0.0006	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Cydonia 24B V4.1	$0.0003	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.4 Nano	$0.0003	970ms	100%	100	100	100	100	100	100	100	100	100	100	100%
86	WizardLM 2 8x22b	$0.0016	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	ByteDance Seed 1.6 Flash	$0.0002	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Ministral 3 14B	$0.0003	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Claude 3 Haiku	$0.0005	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Ministral 3 8B	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-4.1 Nano	$0.0000	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Hermes 3 70B	$0.0006	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Arcee AI: Trinity Mini	$0.0001	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
110	Cohere Command R+ (Aug. 2024)	$0.0054	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemma 3 4B	$0.0001	311ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Ministral 3 3B	$0.0002	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Mistral NeMO	$0.0002	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Ministral 8B	$0.0001	520ms	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Skyfall 36B V2	$0.0005	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Llama 3.1 8B	$0.0002	946ms	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Ministral 3B	$0.0001	718ms	100%	100	100	100	100	100	100	100	100	100	100	100%
66	LFM2 24B	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
145	Rocinante 12B	$0.0005	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
152	Grok 4.3 (Reasoning)	$0.0017	6.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
153	DeepSeek V3 (2025-03-24)	$0.0005	10.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
149	Grok 4.3	$0.0017	756ms	40%	100	100	100	100	100	100	100	100	100	0	90%
154	Grok 4 Fast	$0.0002	1.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
156	GPT-5	$0.0011	4.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
99.42%

Median	Evaluator	Top 3	Flop 3
100.0%	Contains a count of nouns	100Z.AI GLM 5.2 (Reasoning, High) 100Stealth: Healer Alpha 100Llama 3.1 70B	60GPT-5 80Grok 4 Fast 90Grok 4.3

Count scenes

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Gemini 3.5 Flash (Reasoning)	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

	Score	Cost	Time
Inception Mercury	90%	$0.0000	746ms
Stealth: Aurora Alpha	70%	—	801ms
Inception Mercury 2	60%	$0.0004	610ms
Gemini 2.5 Flash Lite (Reasoning)	90%	$0.0003	2.0s
Arcee AI: Trinity Mini	100%	$0.0001	2.9s
Gemini 3.1 Flash Lite	70%	$0.0008	3.1s
Mistral NeMO	90%	$0.0003	3.1s
Grok 4 Fast	70%	$0.0004	2.6s
Gemini 3.1 Flash Lite (Reasoning)	60%	$0.0008	1.4s
Grok 4.1 Fast	100%	$0.0005	4.5s
Mistral Small 4 (Reasoning)	90%	$0.0005	3.3s
GPT-5.4 Nano (Reasoning, Low)	90%	$0.0005	6.3s
Stealth: Hunter Alpha	80%	$0.0000	6.2s
Grok 4.20 (Beta)	80%	$0.0019	1.1s
ByteDance Seed 1.6 Flash	90%	$0.0004	5.4s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	8.0s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0016	3.6s
Gemini 2.5 Flash (Reasoning)	100%	$0.0016	3.0s
GPT-5.4 Mini (Reasoning)	90%	$0.0017	3.9s
Grok 4.20	80%	$0.0021	2.8s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Opus 4.8 (Reasoning, Low)	100%	100%	100%
GPT-5	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

	Score	Cost	Speed	Stability
Arcee AI: Trinity Mini	100%	$0.0001	2.9s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0016	3.0s	100%
Grok 4.1 Fast	100%	$0.0005	4.5s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0016	3.6s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.0028	4.3s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	8.0s	100%
GPT-5.1	100%	$0.0022	5.6s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0032	4.5s	100%
o4 Mini	100%	$0.0028	5.8s	100%
GPT-5.4 (Reasoning)	100%	$0.0034	5.2s	100%
GPT-5 Mini	100%	$0.0012	9.0s	100%
MiniMax M3	100%	$0.0007	10.2s	100%
Grok 4.20 (Beta, Reasoning)	100%	$0.0061	4.0s	100%
Grok 4.20 (Reasoning)	100%	$0.0034	9.0s	100%
Qwen 3 32B	100%	$0.0004	12.7s	100%
o4 Mini High	100%	$0.0036	8.7s	100%
Qwen 3.6 35B	100%	$0.0024	12.9s	100%
GPT-5.5 (Reasoning, Low)	100%	$0.010	4.0s	100%
GPT-5 Nano	100%	$0.0005	16.7s	100%
Qwen 3.5 35B	100%	$0.0041	12.7s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
38	Claude Opus 4.6 (Reasoning)	$0.016	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Qwen3.7 Max	$0.015	21.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Gemini 3.1 Pro (Preview)	$0.014	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.4 (Reasoning)	$0.0034	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Z.AI GLM 5.1	$0.0058	20.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Qwen3.6 Max Preview	$0.011	33.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	GPT-5.5 (Reasoning)	$0.011	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Gemini 3.5 Flash (Reasoning)	$0.013	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	MoonshotAI: Kimi K2.6	$0.0037	29.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Claude Opus 4.7 (Reasoning)	$0.021	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.5 (Reasoning, Low)	$0.010	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Claude Opus 4.8 (Reasoning)	$0.025	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Claude Opus 4.6	$0.013	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Claude Opus 4.8 (Reasoning, Low)	$0.025	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-5	$0.0057	12.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5 Mini	$0.0012	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Qwen 3.5 397B A17B	$0.0085	52.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Grok 4.3 (Reasoning)	$0.0036	19.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Grok 4.20 (Beta, Reasoning)	$0.0061	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 (Reasoning, Low)	$0.0032	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Grok 4.20 (Reasoning)	$0.0034	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	MoonshotAI: Kimi K2.5	$0.0027	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.1	$0.0022	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	MiniMax M3	$0.0007	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Qwen 3.5 122B	$0.0054	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen 3.5 27B	$0.0042	40.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Gemini 3 Flash (Preview, Reasoning)	$0.0028	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Qwen 3.5 Plus (2026-04-20)	$0.0039	21.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemma 4 31B (Reasoning)	$0.0005	22.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Grok 4.1 Fast	$0.0005	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	DeepSeek V4 Pro (Reasoning)	$0.0011	16.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Gemma 4 26B (Reasoning)	$0.0003	26.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Gemini 3 Pro (Preview)	$0.013	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	o4 Mini High	$0.0036	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Gemini 2.5 Pro	$0.0100	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Qwen 3.6 27B	$0.0064	23.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4	$0.011	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	DeepSeek V4 Flash (Reasoning)	$0.0002	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Qwen 3.6 35B	$0.0024	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Qwen 3.5 35B	$0.0041	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Aion 2.0	$0.0021	16.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	o4 Mini	$0.0028	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Qwen 3.5 Flash	$0.0009	18.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash (Reasoning)	$0.0016	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Mini (Reasoning, Low)	$0.0016	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Nemotron 3 Super	$0.0000	18.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5 Nano	$0.0005	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Qwen 3 32B	$0.0004	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Arcee AI: Trinity Mini	$0.0001	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Claude Sonnet 4.6 (Reasoning)	$0.010	7.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
59	Z.AI GLM 5.2 (Reasoning, High)	$0.0033	9.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
52	GPT-5.4 Mini (Reasoning)	$0.0017	3.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
57	Qwen 3.6 Flash	$0.0025	6.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
81	Z.AI GLM 4.7	$0.0020	40.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
80	Z.AI GLM 4.6	$0.0024	37.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
56	MiniMax M2.5	$0.0009	8.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
55	Xiaomi MIMO v2.5 Pro	$0.0018	7.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
66	Qwen 3.5 9B	$0.0004	25.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
47	Gemini 2.5 Flash Lite (Reasoning)	$0.0003	2.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
60	Z.AI GLM 4.7 Flash	$0.0004	15.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
61	DeepSeek V3 (2025-03-24)	$0.0006	16.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
45	Inception Mercury	$0.0000	746ms	40%	100	100	100	100	100	100	100	100	100	0	90%
50	Mistral Small 4 (Reasoning)	$0.0005	3.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
53	GPT-5.4 Nano (Reasoning, Low)	$0.0005	6.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
51	ByteDance Seed 1.6 Flash	$0.0004	5.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
48	Mistral NeMO	$0.0003	3.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
77	Claude Opus 4.5	$0.013	3.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
72	Claude Sonnet 4	$0.0080	5.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
69	Claude Sonnet 4.5	$0.0079	3.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
65	Stealth: Hunter Alpha	$0.0000	6.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
68	GPT-OSS 120B	$0.0002	11.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
62	Grok 4.20 (Beta)	$0.0019	1.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
74	Mistral Large 2	$0.0052	9.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
64	Grok 4.20	$0.0021	2.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
83	Qwen3 235B A22B Instruct 2507	$0.0005	26.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
71	Llama 3.1 Nemotron 70B	$0.0006	13.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
93	Z.AI GLM 5	$0.0033	18.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
94	ByteDance Seed 1.6	$0.0022	21.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
75	GPT-5.2	$0.0036	3.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
76	MiniMax M2.7	$0.0007	7.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
70	Grok 4 Fast	$0.0004	2.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
73	Gemini 3.1 Flash Lite	$0.0008	3.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
90	Stealth: Aurora Alpha	—	801ms	8%	100	100	100	100	100	100	100	0	0	0	70%
85	DeepSeek V3.2	$0.0005	16.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
82	Z.AI GLM 5 Turbo	$0.0020	5.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
86	GPT-4.1	$0.0035	5.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
79	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
149	ByteDance Seed 2.0 Mini	$0.0008	40.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
78	Inception Mercury 2	$0.0004	610ms	2%	100	100	100	100	100	100	0	0	0	0	60%
88	Xiaomi MIMO v2.5	$0.0011	4.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
89	Claude Haiku 4.5	$0.0029	2.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
87	GPT-5.4 Nano (Reasoning)	$0.0005	4.2s	0%	100	100	100	100	100	0	0	0	0	0	50%
92	Nemotron 3 Nano	$0.0002	7.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
84	Ministral 3 3B	$0.0002	1.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
96	Stealth: Healer Alpha	$0.0000	8.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
91	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
99	Gemma 4 31B	$0.0002	10.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
104	Claude 3.5 Sonnet	$0.0075	5.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
97	DeepSeek V3 (2024-12-26)	$0.0008	8.8s	0%	100	100	100	100	0	0	0	0	0	0	40%
105	Claude Sonnet 4.6	$0.0063	2.2s	0%	100	100	100	0	0	0	0	0	0	0	30%
156	Claude Opus 4	$0.042	12.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
155	ByteDance Seed 2.0 Lite	$0.0034	35.6s	0%	100	100	100	0	0	0	0	0	0	0	30%
118	DeepSeek-V2 Chat	$0.0003	13.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
114	Claude 3.7 Sonnet	$0.0067	5.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
117	Z.AI GLM 4.5 Air	$0.0007	13.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
95	Mistral Small 4	$0.0003	1.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
98	Cydonia 24B V4.1	$0.0003	4.5s	0%	100	100	100	0	0	0	0	0	0	0	30%
101	GPT-5.4 Nano	$0.0005	6.6s	0%	100	100	100	0	0	0	0	0	0	0	30%
153	Claude Opus 4.7	$0.018	3.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
124	Z.AI GLM 4.5	$0.0009	9.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
107	Gemma 4 26B	$0.0002	5.8s	0%	100	100	0	0	0	0	0	0	0	0	20%
150	GPT-4o, May 13th (temp=1)	$0.013	6.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
102	DeepSeek V4 Flash	$0.0001	2.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
106	Arcee AI: Trinity Large (Preview)	$0.0000	5.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
121	WizardLM 2 8x22b	$0.0016	8.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
103	Ministral 3 14B	$0.0004	3.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
100	Claude 3 Haiku	$0.0005	1.1s	0%	100	100	0	0	0	0	0	0	0	0	20%
142	GPT-5.5	$0.0072	1.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
145	Qwen 3.5 Plus (2026-02-15)	$0.0014	9.0s	0%	100	0	0	0	0	0	0	0	0	0	10%
129	GPT-5.4	$0.0034	2.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
122	Mistral Large 3	$0.0011	3.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
137	DeepSeek V3.1	$0.0005	7.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
131	DeepSeek V4 Pro	$0.0013	5.0s	0%	100	0	0	0	0	0	0	0	0	0	10%
109	GPT-4.1 Mini	$0.0002	1.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
135	Mistral Large	$0.0038	2.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
108	GPT-4o Mini (temp=1)	$0.0002	827ms	0%	100	0	0	0	0	0	0	0	0	0	10%
151	Writer: Palmyra X5	$0.0030	14.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
119	Llama 3.1 70B	$0.0012	3.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
115	Mistral Medium 3.1	$0.0009	2.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
116	Gemma 3 12B	$0.0001	3.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
112	Mistral Small Creative	$0.0003	2.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
110	Ministral 3 8B	$0.0002	1.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
123	Hermes 3 70B	$0.0006	4.3s	0%	100	0	0	0	0	0	0	0	0	0	10%
139	Cohere Command R+ (Aug. 2024)	$0.0051	2.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
111	Ministral 8B	$0.0002	2.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
126	Skyfall 36B V2	$0.0006	5.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
113	Llama 3.1 8B	$0.0002	2.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
120	LFM2 24B	$0.0001	4.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
146	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0038	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
136	Gemini 3 Flash (Preview)	$0.0010	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
154	GPT-4o, May 13th (temp=0)	$0.012	6.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
143	GPT-4o, Aug. 6th (temp=0)	$0.0035	986ms	0%	0	0	0	0	0	0	0	0	0	0	0%
144	GPT-4o, Aug. 6th (temp=1)	$0.0035	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
147	Hermes 3 405B	$0.0000	8.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	Gemini 2.5 Flash	$0.0002	641ms	0%	0	0	0	0	0	0	0	0	0	0	0%
134	GPT-5.4 Mini	$0.0011	716ms	0%	0	0	0	0	0	0	0	0	0	0	0%
125	Gemini 2.5 Flash Lite	$0.0001	404ms	0%	0	0	0	0	0	0	0	0	0	0	0%
128	GPT-4o Mini (temp=0)	$0.0002	692ms	0%	0	0	0	0	0	0	0	0	0	0	0%
140	Grok 4.3	$0.0016	2.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
138	Mistral Small 3.2 24B	$0.0002	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
141	Gemma 3 27B	$0.0002	4.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
148	Qwen 2.5 72B	$0.0007	7.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	GPT-4.1 Nano	$0.0000	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
130	Gemma 3 4B	$0.0001	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Ministral 3B	$0.0001	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
152	Rocinante 12B	$0.0005	13.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
58.97%

Median	Evaluator	Top 3	Flop 3
70.0%	Contains a count of nouns	100GPT-5.4 (Reasoning, Low) 100Gemini 2.5 Flash (Reasoning) 100Qwen 3.5 35B	0GPT-5.4 Mini 0Rocinante 12B 0Gemini 3 Flash (Preview)

Count point of views for Jack Harper

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

	Score	Cost	Time
Inception Mercury	80%	$0.0000	817ms
Stealth: Aurora Alpha	100%	—	4.2s
Inception Mercury 2	100%	$0.0004	638ms
Ministral 3 8B	60%	$0.0003	2.4s
Mistral Small Creative	90%	$0.0003	2.7s
GPT-5.4 Nano (Reasoning, Low)	90%	$0.0005	2.2s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0004	2.4s
DeepSeek V4 Flash	70%	$0.0001	3.8s
GPT-5.4 Nano (Reasoning)	70%	$0.0006	2.3s
Gemini 3.1 Flash Lite	90%	$0.0009	1.5s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.7s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s
Stealth: Healer Alpha	70%	$0.0000	5.2s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	7.9s
Ministral 3 14B	60%	$0.0004	4.0s
Arcee AI: Trinity Large (Preview)	70%	$0.0000	5.2s
Grok 4.1 Fast	90%	$0.0006	5.0s
Stealth: Hunter Alpha	70%	$0.0000	13.5s
Gemma 3 12B	100%	$0.0001	8.6s
DeepSeek V3.2	100%	$0.0005	17.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

	Score	Cost	Speed	Stability
Inception Mercury 2	100%	$0.0004	638ms	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0004	2.4s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.7s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s	100%
Stealth: Aurora Alpha	100%	—	4.2s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0021	2.9s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	7.9s	100%
Gemma 3 12B	100%	$0.0001	8.6s	100%
Mistral Medium 3.1	100%	$0.0012	6.3s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0023	4.0s	100%
GPT-4.1	100%	$0.0029	4.7s	100%
GPT-5 Mini	100%	$0.0012	8.8s	100%
Z.AI GLM 5 Turbo	100%	$0.0027	5.6s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.0032	4.6s	100%
GPT-5.2	100%	$0.0039	4.8s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0044	4.0s	100%
o4 Mini	100%	$0.0031	7.5s	100%
GPT-5.4 (Reasoning)	100%	$0.0043	4.8s	100%
Llama 3.1 Nemotron 70B	100%	$0.0007	13.8s	100%
Qwen 3.6 Flash	100%	$0.0033	8.9s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
50	Claude Opus 4.6 (Reasoning)	$0.018	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Qwen3.7 Max	$0.017	25.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Gemini 3.1 Pro (Preview)	$0.015	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 (Reasoning)	$0.0043	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Z.AI GLM 5.1	$0.0065	31.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Qwen3.6 Max Preview	$0.014	45.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-5.5 (Reasoning)	$0.014	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Claude Sonnet 4.6 (Reasoning)	$0.014	10.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Z.AI GLM 5.2 (Reasoning, High)	$0.0032	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Gemini 3.5 Flash (Reasoning)	$0.014	5.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Z.AI GLM 5 Turbo	$0.0027	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	MoonshotAI: Kimi K2.6	$0.0043	34.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Claude Opus 4.7 (Reasoning)	$0.023	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-5.5 (Reasoning, Low)	$0.012	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Claude Opus 4.8 (Reasoning)	$0.031	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Claude Opus 4.6	$0.013	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5 Mini	$0.0012	8.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Qwen 3.5 397B A17B	$0.011	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Grok 4.20 (Beta, Reasoning)	$0.0059	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 (Reasoning, Low)	$0.0044	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Grok 4.20 (Reasoning)	$0.0036	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	MoonshotAI: Kimi K2.5	$0.0026	17.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Qwen 3.5 122B	$0.0097	20.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Qwen 3.5 27B	$0.0068	34.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 3 Flash (Preview, Reasoning)	$0.0032	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Claude Opus 4.7	$0.022	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Qwen 3.5 Plus (2026-04-20)	$0.0058	37.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Gemma 4 31B (Reasoning)	$0.0005	40.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.2	$0.0039	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Qwen 3.6 Flash	$0.0033	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Gemma 4 26B (Reasoning)	$0.0004	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Gemini 3 Pro (Preview)	$0.014	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	o4 Mini High	$0.0041	9.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemini 2.5 Pro	$0.011	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Grok 4	$0.016	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	DeepSeek V4 Flash (Reasoning)	$0.0002	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Qwen 3.6 35B	$0.0023	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Z.AI GLM 4.6	$0.0026	44.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Claude Sonnet 4	$0.0080	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Sonnet 4.5	$0.0080	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Claude Opus 4	$0.042	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Qwen 3.5 35B	$0.0079	26.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-4.1	$0.0029	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Aion 2.0	$0.0025	21.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	o4 Mini	$0.0031	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	ByteDance Seed 2.0 Mini	$0.0011	57.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Qwen 3.5 Flash	$0.0015	26.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-OSS 120B	$0.0003	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	ByteDance Seed 2.0 Lite	$0.0030	31.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 2.5 Flash (Reasoning)	$0.0023	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Qwen 3.5 9B	$0.0012	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Stealth: Aurora Alpha	—	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Mini (Reasoning, Low)	$0.0021	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite (Reasoning)	$0.0004	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	DeepSeek V3.2	$0.0005	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Inception Mercury 2	$0.0004	638ms	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5 Nano	$0.0006	18.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Qwen3 235B A22B Instruct 2507	$0.0004	21.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Mistral Medium 3.1	$0.0012	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemma 3 12B	$0.0001	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Llama 3.1 Nemotron 70B	$0.0007	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Claude Opus 4.8 (Reasoning, Low)	$0.031	8.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
68	GPT-5.1	$0.0029	4.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
63	GPT-5.4 Mini (Reasoning)	$0.0022	3.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
72	ByteDance Seed 1.6	$0.0022	20.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
62	Grok 4.1 Fast	$0.0006	5.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
74	DeepSeek V4 Pro (Reasoning)	$0.0032	24.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
77	Qwen 3.6 27B	$0.0060	24.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
81	Z.AI GLM 4.7	$0.0025	38.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
69	MiniMax M2.5	$0.0009	9.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
60	Gemini 3.1 Flash Lite	$0.0009	1.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
65	Xiaomi MIMO v2.5	$0.0015	6.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
66	Claude Haiku 4.5	$0.0030	3.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
70	DeepSeek V3.1	$0.0006	10.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
58	GPT-5.4 Nano (Reasoning, Low)	$0.0005	2.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
59	Mistral Small Creative	$0.0003	2.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
82	MiniMax M3	$0.0010	14.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
99	Z.AI GLM 5	$0.0032	26.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
84	Qwen 3.5 Plus (2026-02-15)	$0.0021	16.4s	20%	100	100	100	100	100	100	100	100	0	0	80%
79	Xiaomi MIMO v2.5 Pro	$0.0018	7.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
80	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0045	1.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
86	Claude 3.5 Sonnet	$0.0074	4.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
85	Claude 3.7 Sonnet	$0.0073	4.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
93	GPT-4o, May 13th (temp=1)	$0.011	4.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
91	Z.AI GLM 4.7 Flash	$0.0006	25.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
73	Inception Mercury	$0.0000	817ms	20%	100	100	100	100	100	100	100	100	0	0	80%
95	Qwen 3 32B	$0.0007	29.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
83	Writer: Palmyra X5	$0.0039	10.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
78	ByteDance Seed 1.6 Flash	$0.0007	9.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
117	Claude Opus 4.5	$0.014	4.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
100	Stealth: Hunter Alpha	$0.0000	13.5s	8%	100	100	100	100	100	100	100	0	0	0	70%
98	MiniMax M2.7	$0.0010	9.4s	8%	100	100	100	100	100	100	100	0	0	0	70%
89	Stealth: Healer Alpha	$0.0000	5.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
96	Z.AI GLM 4.5	$0.0009	8.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
97	GPT-5.4	$0.0037	2.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
102	DeepSeek-V2 Chat	$0.0003	13.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
88	DeepSeek V4 Flash	$0.0001	3.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
104	Mistral Large 2	$0.0048	7.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
103	Z.AI GLM 4.5 Air	$0.0007	13.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
87	GPT-5.4 Nano (Reasoning)	$0.0006	2.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
94	Mistral Small 4 (Reasoning)	$0.0008	7.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
101	Llama 3.1 70B	$0.0012	10.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
90	Arcee AI: Trinity Large (Preview)	$0.0000	5.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
92	Cydonia 24B V4.1	$0.0003	6.5s	8%	100	100	100	100	100	100	100	0	0	0	70%
131	Grok 4.3 (Reasoning)	$0.0043	25.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
108	Gemma 4 31B	$0.0002	7.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
107	Mistral Large 3	$0.0012	4.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
111	DeepSeek V3 (2024-12-26)	$0.0008	9.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
110	Nemotron 3 Super	$0.0000	10.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
109	Grok 4.20	$0.0021	3.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
114	Mistral Large	$0.0045	5.2s	2%	100	100	100	100	100	100	0	0	0	0	60%
112	Nemotron 3 Nano	$0.0002	11.8s	2%	100	100	100	100	100	100	0	0	0	0	60%
106	Ministral 3 14B	$0.0004	4.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
105	Ministral 3 8B	$0.0003	2.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
115	Gemini 3 Flash (Preview)	$0.0014	1.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
116	Gemma 4 26B	$0.0003	9.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
119	DeepSeek V3 (2025-03-24)	$0.0008	9.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
133	GPT-5.5	$0.0074	1.5s	0%	100	100	100	100	0	0	0	0	0	0	40%
118	Gemini 2.5 Flash Lite	$0.0002	602ms	0%	100	100	100	100	0	0	0	0	0	0	40%
123	Mistral Small 4	$0.0002	2.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
127	Qwen 2.5 72B	$0.0007	10.8s	0%	100	100	100	100	0	0	0	0	0	0	40%
121	Claude 3 Haiku	$0.0006	1.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
120	Ministral 3 3B	$0.0002	1.7s	0%	100	100	100	100	0	0	0	0	0	0	40%
124	Mistral NeMO	$0.0003	3.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
122	Ministral 8B	$0.0002	2.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
130	Rocinante 12B	$0.0004	11.8s	0%	100	100	100	100	0	0	0	0	0	0	40%
138	Claude Sonnet 4.6	$0.0075	2.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
132	Grok 4.20 (Beta)	$0.0020	1.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
135	DeepSeek V4 Pro	$0.0006	12.5s	0%	100	100	100	0	0	0	0	0	0	0	30%
126	GPT-4.1 Mini	$0.0004	1.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
134	GPT-4o, Aug. 6th (temp=1)	$0.0043	1.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
129	GPT-5.4 Nano	$0.0006	1.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
128	Llama 3.1 8B	$0.0002	2.4s	0%	100	100	100	0	0	0	0	0	0	0	30%
125	Ministral 3B	$0.0001	1.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
154	GPT-5	$0.0074	13.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
139	GPT-4o, Aug. 6th (temp=0)	$0.0041	1.6s	0%	100	100	0	0	0	0	0	0	0	0	20%
140	WizardLM 2 8x22b	$0.0015	7.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
136	Hermes 3 70B	$0.0006	3.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
137	Skyfall 36B V2	$0.0006	5.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
144	Hermes 3 405B	$0.0000	7.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
142	Grok 4.3	$0.0010	1.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
143	Arcee AI: Trinity Mini	$0.0002	4.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
141	Gemma 3 4B	$0.0001	2.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
150	Grok 4 Fast	$0.0004	3.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
156	GPT-4o, May 13th (temp=0)	$0.011	5.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Gemini 2.5 Flash	$0.0003	531ms	0%	0	0	0	0	0	0	0	0	0	0	0%
149	GPT-5.4 Mini	$0.0011	541ms	0%	0	0	0	0	0	0	0	0	0	0	0%
147	GPT-4o Mini (temp=1)	$0.0002	904ms	0%	0	0	0	0	0	0	0	0	0	0	0%
148	GPT-4o Mini (temp=0)	$0.0002	914ms	0%	0	0	0	0	0	0	0	0	0	0	0%
151	Mistral Small 3.2 24B	$0.0002	4.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
152	Gemma 3 27B	$0.0002	5.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	GPT-4.1 Nano	$0.0001	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
155	Cohere Command R+ (Aug. 2024)	$0.0046	2.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
153	LFM2 24B	$0.0001	8.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
71.99%

Median	Evaluator	Top 3	Flop 3
85.0%	Contains a count of nouns	100Qwen 3.6 Flash 100Gemma 4 26B (Reasoning) 100Z.AI GLM 5.1	0Gemma 3 27B 0Mistral Small 3.2 24B 0Grok 4 Fast

Count point of views for Olivia

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	764ms
Inception Mercury 2	100%	$0.0003	618ms
Ministral 3 8B	80%	$0.0003	2.4s
GPT-4.1 Mini	90%	$0.0003	2.0s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0004	2.4s
Ministral 3 14B	100%	$0.0003	3.3s
Gemini 3.1 Flash Lite (Preview)	80%	$0.0007	1.2s
Stealth: Hunter Alpha	80%	$0.0000	23.6s
Grok 4.1 Fast	80%	$0.0004	3.2s
Nemotron 3 Super	90%	$0.0000	10.7s
Gemini 3.1 Flash Lite	80%	$0.0007	1.3s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	21.4s
Gemini 3.1 Flash Lite (Reasoning)	80%	$0.0008	1.4s
GPT-5.4 Nano (Reasoning)	90%	$0.0005	5.3s
DeepSeek V3.2	80%	$0.0004	10.0s
Gemma 4 31B	90%	$0.0003	8.5s
Qwen3 235B A22B Instruct 2507	70%	$0.0003	6.0s
GPT-OSS 120B	100%	$0.0003	8.7s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0014	3.2s
GPT-5.4 Mini (Reasoning)	100%	$0.0015	3.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.7 Max	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Opus 4.8 (Reasoning, Low)	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	764ms	100%
Inception Mercury 2	100%	$0.0003	618ms	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0004	2.4s	100%
Ministral 3 14B	100%	$0.0003	3.3s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0014	3.2s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0015	3.6s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0022	3.0s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0021	3.4s	100%
GPT-5.1	100%	$0.0018	4.7s	100%
GPT-5.2	100%	$0.0025	3.7s	100%
GPT-OSS 120B	100%	$0.0003	8.7s	100%
Xiaomi MIMO v2.5 Pro	100%	$0.0014	6.6s	100%
GPT-5.4 (Reasoning)	100%	$0.0031	3.3s	100%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.0031	4.4s	100%
Z.AI GLM 5 Turbo	100%	$0.0025	6.3s	100%
o4 Mini	100%	$0.0027	6.6s	100%
Grok 4.20 (Beta, Reasoning)	100%	$0.0047	2.7s	100%
Grok 4.20 (Reasoning)	100%	$0.0029	6.5s	100%
o4 Mini High	100%	$0.0032	6.8s	100%
MiniMax M3	100%	$0.0008	11.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
47	Claude Opus 4.6 (Reasoning)	$0.015	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Qwen3.7 Max	$0.012	16.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Gemini 3.1 Pro (Preview)	$0.013	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-5.4 (Reasoning)	$0.0031	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 5.1	$0.0051	20.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen3.6 Max Preview	$0.0092	25.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.5 (Reasoning)	$0.0092	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Claude Sonnet 4.6 (Reasoning)	$0.0089	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Gemini 3.5 Flash (Reasoning)	$0.011	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Z.AI GLM 5 Turbo	$0.0025	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	MoonshotAI: Kimi K2.6	$0.0029	11.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Claude Opus 4.7 (Reasoning)	$0.023	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.5 (Reasoning, Low)	$0.0089	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Claude Opus 4.8 (Reasoning)	$0.023	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Claude Opus 4.6	$0.011	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Claude Opus 4.8 (Reasoning, Low)	$0.023	5.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Qwen 3.5 397B A17B	$0.0049	28.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Grok 4.20 (Beta, Reasoning)	$0.0047	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 (Reasoning, Low)	$0.0022	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Grok 4.20 (Reasoning)	$0.0029	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	MoonshotAI: Kimi K2.5	$0.0023	17.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-5.1	$0.0018	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Claude Sonnet 4.6	$0.0063	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	MiniMax M3	$0.0008	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Qwen 3.5 122B	$0.0058	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Qwen 3.5 27B	$0.0044	24.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 3 Flash (Preview, Reasoning)	$0.0031	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Claude Opus 4.7	$0.017	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Mini (Reasoning)	$0.0015	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen 3.5 Plus (2026-04-20)	$0.0038	21.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Gemma 4 31B (Reasoning)	$0.0005	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Claude Opus 4.5	$0.012	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Z.AI GLM 5	$0.0025	17.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.2	$0.0025	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	DeepSeek V4 Pro (Reasoning)	$0.0016	37.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemma 4 26B (Reasoning)	$0.0004	16.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Gemini 3 Pro (Preview)	$0.012	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	o4 Mini High	$0.0032	6.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Gemini 2.5 Pro	$0.011	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Grok 4	$0.013	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	DeepSeek V4 Flash (Reasoning)	$0.0002	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Z.AI GLM 4.7	$0.0021	47.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Qwen 3.6 35B	$0.0021	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Qwen 3.5 35B	$0.0046	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	MiniMax M2.5	$0.0009	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Aion 2.0	$0.0022	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	o4 Mini	$0.0027	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Qwen 3.5 Plus (2026-02-15)	$0.0029	25.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Xiaomi MIMO v2.5 Pro	$0.0014	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Qwen 3.5 Flash	$0.0011	17.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-OSS 120B	$0.0003	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemini 2.5 Flash (Reasoning)	$0.0021	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	764ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-5.4 Mini (Reasoning, Low)	$0.0014	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite (Reasoning)	$0.0004	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Z.AI GLM 4.7 Flash	$0.0005	23.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0003	618ms	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5 Nano	$0.0005	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Ministral 3 14B	$0.0003	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-5 Mini	$0.0012	8.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
67	Qwen 3.6 Flash	$0.0027	7.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
76	Qwen 3.6 27B	$0.0048	18.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
78	Z.AI GLM 4.6	$0.0020	29.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
70	Claude Sonnet 4	$0.0082	4.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
116	Claude Opus 4	$0.035	8.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
65	MiniMax M2.7	$0.0009	9.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
62	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0038	1.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
61	Gemma 4 31B	$0.0003	8.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
84	Qwen 3.5 9B	$0.0007	55.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
64	Nemotron 3 Super	$0.0000	10.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
56	GPT-4.1 Mini	$0.0003	2.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
60	GPT-5.4 Nano (Reasoning)	$0.0005	5.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
68	DeepSeek V3 (2025-03-24)	$0.0006	14.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
66	Llama 3.1 Nemotron 70B	$0.0006	10.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
75	Grok 4.1 Fast	$0.0004	3.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
80	Stealth: Hunter Alpha	$0.0000	23.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
73	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.4s	20%	100	100	100	100	100	100	100	100	0	0	80%
142	ByteDance Seed 2.0 Mini	$0.0014	1.2m	20%	100	100	100	100	100	100	100	100	0	0	80%
71	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
72	Gemini 3.1 Flash Lite	$0.0007	1.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
82	GPT-4o, May 13th (temp=0)	$0.011	6.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
77	DeepSeek V3.2	$0.0004	10.0s	20%	100	100	100	100	100	100	100	100	0	0	80%
74	Ministral 3 8B	$0.0003	2.4s	20%	100	100	100	100	100	100	100	100	0	0	80%
81	GPT-4.1	$0.0027	4.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
85	ByteDance Seed 2.0 Lite	$0.0019	18.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
83	Z.AI GLM 4.5 Air	$0.0007	18.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
79	Qwen3 235B A22B Instruct 2507	$0.0003	6.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
90	Grok 4.3 (Reasoning)	$0.0027	8.8s	2%	100	100	100	100	100	100	0	0	0	0	60%
100	Claude 3.7 Sonnet	$0.0075	4.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
87	DeepSeek V4 Pro	$0.0012	9.5s	2%	100	100	100	100	100	100	0	0	0	0	60%
91	Mistral Large 2	$0.0043	6.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
99	Z.AI GLM 5.2 (Reasoning, High)	$0.0020	6.4s	0%	100	100	100	100	100	0	0	0	0	0	50%
113	Claude Sonnet 4.5	$0.0080	4.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
97	Stealth: Healer Alpha	$0.0000	9.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
92	DeepSeek V3 (2024-12-26)	$0.0007	6.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
88	Mistral Small 4 (Reasoning)	$0.0004	3.2s	0%	100	100	100	100	100	0	0	0	0	0	50%
111	Qwen 3 32B	$0.0006	17.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
89	GPT-5.4 Nano (Reasoning, Low)	$0.0005	3.1s	0%	100	100	100	100	100	0	0	0	0	0	50%
93	Llama 3.1 70B	$0.0011	5.2s	0%	100	100	100	100	100	0	0	0	0	0	50%
96	Qwen 2.5 72B	$0.0006	7.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
86	Llama 3.1 8B	$0.0002	1.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
114	ByteDance Seed 1.6	$0.0013	11.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
106	Z.AI GLM 4.5	$0.0008	7.6s	0%	100	100	100	100	0	0	0	0	0	0	40%
104	Claude Haiku 4.5	$0.0026	2.6s	0%	100	100	100	100	0	0	0	0	0	0	40%
94	Gemini 2.5 Flash	$0.0003	506ms	0%	100	100	100	100	0	0	0	0	0	0	40%
105	Writer: Palmyra X5	$0.0021	4.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
101	Cydonia 24B V4.1	$0.0003	4.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
102	ByteDance Seed 1.6 Flash	$0.0004	5.5s	0%	100	100	100	100	0	0	0	0	0	0	40%
98	Mistral NeMO	$0.0002	2.1s	0%	100	100	100	100	0	0	0	0	0	0	40%
95	Ministral 3B	$0.0001	1.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
112	Gemini 3 Flash (Preview)	$0.0017	2.6s	0%	100	100	100	0	0	0	0	0	0	0	30%
117	Gemma 4 26B	$0.0002	8.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
108	DeepSeek V4 Flash	$0.0001	2.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
103	Inception Mercury	$0.0000	598ms	0%	100	100	100	0	0	0	0	0	0	0	30%
110	Mistral Medium 3.1	$0.0009	2.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
115	Gemma 3 27B	$0.0002	7.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
120	Nemotron 3 Nano	$0.0003	12.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
109	Arcee AI: Trinity Large (Preview)	$0.0000	4.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
107	GPT-5.4 Nano	$0.0005	1.4s	0%	100	100	100	0	0	0	0	0	0	0	30%
146	GPT-5	$0.0049	10.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
126	DeepSeek-V2 Chat	$0.0003	8.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
119	Grok 4.20 (Beta)	$0.0013	883ms	0%	100	100	0	0	0	0	0	0	0	0	20%
151	DeepSeek V3.1	$0.0004	23.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
122	Grok 4.20	$0.0017	2.9s	0%	100	100	0	0	0	0	0	0	0	0	20%
118	GPT-4o Mini (temp=1)	$0.0002	1.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
132	WizardLM 2 8x22b	$0.0016	9.1s	0%	100	100	0	0	0	0	0	0	0	0	20%
121	Hermes 3 70B	$0.0006	4.7s	0%	100	100	0	0	0	0	0	0	0	0	20%
125	Rocinante 12B	$0.0004	8.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
130	Grok 4 Fast	$0.0003	2.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
155	GPT-4o, May 13th (temp=1)	$0.0098	3.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
140	Hermes 3 405B	$0.0000	9.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
128	Mistral Small 3.2 24B	$0.0002	2.3s	0%	100	0	0	0	0	0	0	0	0	0	10%
131	Gemma 3 12B	$0.0001	5.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
127	Mistral Small Creative	$0.0002	1.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
129	Claude 3 Haiku	$0.0006	1.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
133	Arcee AI: Trinity Mini	$0.0002	5.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
147	Cohere Command R+ (Aug. 2024)	$0.0050	3.3s	0%	100	0	0	0	0	0	0	0	0	0	10%
123	Ministral 3 3B	$0.0002	1.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
124	Ministral 8B	$0.0002	1.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
134	Skyfall 36B V2	$0.0005	4.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
154	GPT-5.5	$0.0074	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
144	GPT-5.4	$0.0019	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
143	Mistral Large 3	$0.0009	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
156	Claude 3.5 Sonnet	$0.0066	5.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Xiaomi MIMO v2.5	$0.0008	3.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
150	GPT-4o, Aug. 6th (temp=0)	$0.0041	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
152	GPT-4o, Aug. 6th (temp=1)	$0.0044	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
141	GPT-5.4 Mini	$0.0011	860ms	0%	0	0	0	0	0	0	0	0	0	0	0%
135	Gemini 2.5 Flash Lite	$0.0002	532ms	0%	0	0	0	0	0	0	0	0	0	0	0%
153	Mistral Large	$0.0040	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
136	GPT-4o Mini (temp=0)	$0.0002	765ms	0%	0	0	0	0	0	0	0	0	0	0	0%
148	Grok 4.3	$0.0015	3.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
139	Mistral Small 4	$0.0002	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
138	GPT-4.1 Nano	$0.0001	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	Gemma 3 4B	$0.0001	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
149	LFM2 24B	$0.0001	6.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
63.59%

Median	Evaluator	Top 3	Flop 3
80.0%	Contains a count of nouns	100Gemini 2.5 Flash (Reasoning) 100Gemini 3.5 Flash (Reasoning) 100Claude Sonnet 4.6	0Gemini 2.5 Flash Lite 0GPT-4o, Aug. 6th (temp=0) 0GPT-4.1 Nano

Count point of views for Jack and Olivia

Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.8 (Reasoning)	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 122B	100%
Qwen 3.5 27B	100%
Gemini 3 Flash (Preview, Reasoning)	100%

Novel outline

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

outline-count

Count chapters

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Count acts

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Count scenes

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

pov-count

Count point of views for Jack Harper

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Count point of views for Olivia

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Count point of views for Jack and Olivia

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

		outline-count			pov-count
Model	Total ▼	Count chapters	Count acts	Count scenes	Count point of views for Jack Harper	Count point of views for Olivia	Count point of views for Jack and Olivia
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen3.7 Max	100%	100%	100%	100%	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%	100%	100%	100%	100%
Claude Opus 4.8 (Reasoning)	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%	100%	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%	100%	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%	100%	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%	100%	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%	100%	100%	100%	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
35	Claude Opus 4.6 (Reasoning)	$0.019	10.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Qwen3.7 Max	$0.017	26.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemini 3.1 Pro (Preview)	$0.016	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.4 (Reasoning)	$0.0062	18.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Qwen3.6 Max Preview	$0.017	52.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-5.5 (Reasoning)	$0.017	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Claude Sonnet 4.6 (Reasoning)	$0.014	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Z.AI GLM 5.2 (Reasoning, High)	$0.0038	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Z.AI GLM 5 Turbo	$0.0030	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	MoonshotAI: Kimi K2.6	$0.0050	39.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Claude Opus 4.7 (Reasoning)	$0.023	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5.5 (Reasoning, Low)	$0.015	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Claude Opus 4.8 (Reasoning)	$0.029	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Qwen 3.5 397B A17B	$0.0077	48.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Grok 4.20 (Beta, Reasoning)	$0.0072	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 (Reasoning, Low)	$0.0051	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	MoonshotAI: Kimi K2.5	$0.0033	23.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Qwen 3.5 122B	$0.0091	21.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen 3.5 27B	$0.0062	59.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Gemini 3 Flash (Preview, Reasoning)	$0.0041	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Claude Opus 4.7	$0.027	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Z.AI GLM 5	$0.0032	21.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.2	$0.0055	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Qwen 3.6 Flash	$0.0035	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Gemini 3 Pro (Preview)	$0.015	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Gemini 2.5 Pro	$0.013	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Qwen 3.6 35B	$0.0030	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Z.AI GLM 4.6	$0.0023	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Qwen 3.5 35B	$0.0078	23.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Aion 2.0	$0.0028	24.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Qwen 3.5 Plus (2026-02-15)	$0.0021	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Qwen 3.5 Flash	$0.0011	20.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Z.AI GLM 4.5	$0.0009	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-4o, May 13th (temp=0)	$0.013	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	GPT-5.4 Nano (Reasoning)	$0.0008	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Writer: Palmyra X5	$0.0039	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Qwen3 235B A22B Instruct 2507	$0.0004	16.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	ByteDance Seed 1.6 Flash	$0.0010	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Gemini 3.5 Flash (Reasoning)	$0.018	6.9s	70%	100	100	100	100	100	100	100	100	100	50	95%
47	GPT-5	$0.0093	14.9s	70%	100	100	100	100	100	100	100	100	100	50	95%
54	Qwen 3.5 Plus (2026-04-20)	$0.0058	36.0s	70%	100	100	100	100	100	100	100	100	100	50	95%
49	Gemma 4 31B (Reasoning)	$0.0005	45.5s	70%	100	100	100	100	100	100	100	100	100	50	95%
41	o4 Mini High	$0.0054	13.6s	70%	100	100	100	100	100	100	100	100	100	50	95%
55	Qwen 3.6 27B	$0.0081	32.0s	70%	100	100	100	100	100	100	100	100	100	50	95%
104	Claude Opus 4	$0.047	11.4s	70%	100	100	100	100	100	100	100	100	100	50	95%
103	ByteDance Seed 2.0 Mini	$0.0024	2.3m	70%	100	100	100	100	100	100	100	100	100	50	95%
53	ByteDance Seed 2.0 Lite	$0.0039	41.7s	70%	100	100	100	100	100	100	100	100	100	50	95%
36	DeepSeek-V2 Chat	$0.0003	17.9s	70%	100	100	100	100	100	100	100	100	100	50	95%
70	Qwen 3.5 9B	$0.0011	1.5m	70%	100	100	100	100	100	100	100	100	100	50	95%
32	Gemini 2.5 Flash Lite (Reasoning)	$0.0009	5.1s	70%	100	100	100	100	100	100	100	100	100	50	95%
30	GPT-5.4 Nano (Reasoning, Low)	$0.0007	3.2s	70%	100	100	100	100	100	100	100	100	100	50	95%
34	Llama 3.1 Nemotron 70B	$0.0006	14.0s	70%	100	100	100	100	100	100	100	100	100	50	95%
74	Z.AI GLM 5.1	$0.0060	29.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
85	Claude Opus 4.8 (Reasoning, Low)	$0.029	7.2s	60%	100	100	100	100	100	100	100	100	50	50	90%
45	GPT-5 Mini	$0.0016	11.1s	60%	100	100	100	100	100	100	100	100	50	50	90%
46	MiniMax M3	$0.0011	17.6s	60%	100	100	100	100	100	100	100	100	50	50	90%
75	Gemma 4 26B (Reasoning)	$0.0005	1.3m	60%	100	100	100	100	100	100	100	100	50	50	90%
42	DeepSeek V4 Flash (Reasoning)	$0.0003	10.5s	60%	100	100	100	100	100	100	100	100	50	50	90%
62	Z.AI GLM 4.7	$0.0029	51.1s	60%	100	100	100	100	100	100	100	100	50	50	90%
43	MiniMax M2.7	$0.0009	11.7s	60%	100	100	100	100	100	100	100	100	50	50	90%
58	Mistral Large 3	$0.0012	4.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
68	GPT-5.1	$0.0056	9.0s	36%	100	100	100	100	100	100	100	100	50	0	85%
51	GPT-5.4 Mini (Reasoning)	$0.0032	5.8s	54%	100	100	100	100	100	100	100	50	50	50	85%
71	DeepSeek V4 Pro (Reasoning)	$0.0027	46.4s	54%	100	100	100	100	100	100	100	50	50	50	85%
63	GPT-4.1	$0.0046	7.3s	36%	100	100	100	100	100	100	100	100	50	0	85%
57	MiniMax M2.5	$0.0010	16.4s	54%	100	100	100	100	100	100	100	50	50	50	85%
69	o4 Mini	$0.0049	11.6s	36%	100	100	100	100	100	100	100	100	50	0	85%
50	Mistral Large	$0.0037	2.0s	54%	100	100	100	100	100	100	100	50	50	50	85%
89	Claude Sonnet 4.6	$0.0087	3.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
72	ByteDance Seed 1.6	$0.0034	34.0s	51%	100	100	100	100	100	100	50	50	50	50	80%
56	Stealth: Hunter Alpha	$0.0000	7.5s	51%	100	100	100	100	100	100	50	50	50	50	80%
61	Gemini 3.1 Flash Lite (Preview)	$0.0010	1.7s	34%	100	100	100	100	100	100	100	50	50	0	80%
64	Gemini 2.5 Flash (Reasoning)	$0.0024	3.9s	34%	100	100	100	100	100	100	100	50	50	0	80%
60	Nemotron 3 Super	$0.0000	13.6s	51%	100	100	100	100	100	100	50	50	50	50	80%
76	Grok 4.20 (Reasoning)	$0.0045	12.1s	38%	100	100	100	100	100	50	50	50	50	50	75%
66	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.6s	33%	100	100	100	100	100	100	50	50	50	0	75%
79	Gemini 3.1 Flash Lite	$0.0009	1.6s	19%	100	100	100	100	100	100	100	50	0	0	75%
81	Xiaomi MIMO v2.5	$0.0013	5.9s	19%	100	100	100	100	100	100	100	50	0	0	75%
67	GPT-4o, Aug. 6th (temp=0)	$0.0037	1.1s	38%	100	100	100	100	100	50	50	50	50	50	75%
77	GPT-4o, Aug. 6th (temp=1)	$0.0059	3.9s	33%	100	100	100	100	100	100	50	50	50	0	75%
88	Qwen 3 32B	$0.0010	36.8s	33%	100	100	100	100	100	100	50	50	50	0	75%
65	Gemma 3 12B	$0.0002	9.5s	38%	100	100	100	100	100	50	50	50	50	50	75%
131	Grok 4	$0.017	20.2s	25%	100	100	100	100	100	50	50	50	50	0	70%
97	Claude Sonnet 4	$0.0099	5.6s	25%	100	100	100	100	100	50	50	50	50	0	70%
78	Stealth: Healer Alpha	$0.0000	5.0s	25%	100	100	100	100	100	50	50	50	50	0	70%
99	Z.AI GLM 4.7 Flash	$0.0010	39.3s	25%	100	100	100	100	100	50	50	50	50	0	70%
94	GPT-5 Nano	$0.0009	26.9s	26%	100	100	100	100	50	50	50	50	50	50	70%
84	Mistral Small 4 (Reasoning)	$0.0013	10.5s	25%	100	100	100	100	100	50	50	50	50	0	70%
93	Llama 3.1 70B	$0.0012	17.6s	20%	100	100	100	100	100	100	50	50	0	0	70%
86	Qwen 2.5 72B	$0.0008	14.9s	25%	100	100	100	100	100	50	50	50	50	0	70%
136	Grok 4.3 (Reasoning)	$0.0058	36.0s	10%	100	100	100	100	100	100	50	0	0	0	65%
98	Claude Haiku 4.5	$0.0032	3.1s	10%	100	100	100	100	100	100	50	0	0	0	65%
124	GPT-4o, May 13th (temp=1)	$0.014	7.2s	16%	100	100	100	100	100	50	50	50	0	0	65%
92	GPT-4.1 Mini	$0.0007	5.8s	16%	100	100	100	100	100	50	50	50	0	0	65%
87	Mistral Small 4	$0.0003	2.8s	18%	100	100	100	100	50	50	50	50	50	0	65%
80	GPT-4.1 Nano	$0.0001	4.1s	27%	100	100	100	50	50	50	50	50	50	50	65%
108	Xiaomi MIMO v2.5 Pro	$0.0024	11.9s	10%	100	100	100	100	100	50	50	0	0	0	60%
101	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0041	1.5s	13%	100	100	100	100	50	50	50	50	0	0	60%
91	Gemma 4 31B	$0.0002	2.8s	20%	100	100	100	50	50	50	50	50	50	0	60%
128	Gemma 4 26B	$0.0003	20.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
117	Stealth: Aurora Alpha	—	937ms	30%	100	100	50	50	50	50	50	50	50	50	60%
100	DeepSeek V4 Flash	$0.0001	5.3s	10%	100	100	100	100	100	50	50	0	0	0	60%
90	Gemini 2.5 Flash	$0.0005	886ms	20%	100	100	100	50	50	50	50	50	50	0	60%
82	GPT-4o Mini (temp=1)	$0.0003	1.9s	30%	100	100	50	50	50	50	50	50	50	50	60%
135	Claude Opus 4.5	$0.016	4.9s	23%	100	100	50	50	50	50	50	50	50	0	55%
96	GPT-OSS 120B	$0.0003	22.8s	35%	100	50	50	50	50	50	50	50	50	50	55%
123	Grok 4.20 (Beta)	$0.0023	13.5s	8%	100	100	100	100	50	50	50	0	0	0	55%
119	DeepSeek V3 (2024-12-26)	$0.0008	10.1s	4%	100	100	100	100	100	50	0	0	0	0	55%
116	DeepSeek V3.1	$0.0005	13.6s	8%	100	100	100	100	50	50	50	0	0	0	55%
83	Inception Mercury 2	$0.0005	836ms	35%	100	50	50	50	50	50	50	50	50	50	55%
114	Z.AI GLM 4.5 Air	$0.0009	12.3s	8%	100	100	100	100	50	50	50	0	0	0	55%
107	WizardLM 2 8x22b	$0.0019	11.7s	15%	100	100	100	50	50	50	50	50	0	0	55%
121	Hermes 3 70B	$0.0006	10.8s	4%	100	100	100	100	100	50	0	0	0	0	55%
141	Claude Sonnet 4.5	$0.0094	4.5s	5%	100	100	100	100	50	50	0	0	0	0	50%
120	DeepSeek V3.2	$0.0005	13.5s	11%	100	100	100	50	50	50	50	0	0	0	50%
102	Mistral Large 2	$0.0048	7.9s	28%	100	50	50	50	50	50	50	50	50	0	50%
73	GPT-4o Mini (temp=0)	$0.0002	1.5s	50%	50	50	50	50	50	50	50	50	50	50	50%
95	Ministral 3 8B	$0.0003	2.3s	28%	100	50	50	50	50	50	50	50	50	0	50%
127	DeepSeek V4 Pro	$0.0006	6.3s	8%	100	100	100	50	50	50	0	0	0	0	45%
115	Grok 4.20	$0.0019	3.6s	15%	100	100	50	50	50	50	50	0	0	0	45%
118	GPT-5.4 Nano	$0.0006	1.9s	8%	100	100	100	50	50	50	0	0	0	0	45%
113	Skyfall 36B V2	$0.0006	5.4s	15%	100	100	50	50	50	50	50	0	0	0	45%
122	Ministral 3B	$0.0001	3.9s	8%	100	100	100	50	50	50	0	0	0	0	45%
150	Claude Opus 4.6	$0.012	5.5s	0%	100	100	100	100	0	0	0	0	0	0	40%
111	Gemini 3 Flash (Preview)	$0.0013	1.7s	20%	100	50	50	50	50	50	50	0	0	0	40%
105	Inception Mercury	$0.0001	1.2s	20%	100	50	50	50	50	50	50	0	0	0	40%
133	Gemma 3 27B	$0.0002	9.7s	13%	100	100	50	50	50	50	0	0	0	0	40%
109	Mistral Small Creative	$0.0003	3.6s	20%	100	50	50	50	50	50	50	0	0	0	40%
125	Cohere Command R+ (Aug. 2024)	$0.0046	2.4s	20%	100	50	50	50	50	50	50	0	0	0	40%
106	Ministral 3 3B	$0.0002	1.5s	20%	100	50	50	50	50	50	50	0	0	0	40%
112	Grok 4.1 Fast	$0.0006	7.0s	27%	50	50	50	50	50	50	50	0	0	0	35%
143	GPT-5.4	$0.0035	2.7s	5%	100	100	50	50	50	0	0	0	0	0	35%
130	GPT-5.4 Mini (Reasoning, Low)	$0.0021	3.2s	18%	100	50	50	50	50	50	0	0	0	0	35%
138	Nemotron 3 Nano	$0.0005	32.9s	27%	50	50	50	50	50	50	50	0	0	0	35%
126	Ministral 3 14B	$0.0004	5.0s	18%	100	50	50	50	50	50	0	0	0	0	35%
142	Claude 3 Haiku	$0.0006	1.6s	0%	100	100	100	50	0	0	0	0	0	0	35%
110	Arcee AI: Trinity Mini	$0.0002	6.7s	27%	50	50	50	50	50	50	50	0	0	0	35%
139	Mistral NeMO	$0.0003	3.5s	5%	100	100	50	50	50	0	0	0	0	0	35%
137	Llama 3.1 8B	$0.0002	2.6s	5%	100	100	50	50	50	0	0	0	0	0	35%
132	LFM2 24B	$0.0001	9.9s	18%	100	50	50	50	50	50	0	0	0	0	35%
134	Rocinante 12B	$0.0005	13.5s	18%	100	50	50	50	50	50	0	0	0	0	35%
129	Hermes 3 405B	$0.0000	11.9s	26%	50	50	50	50	50	50	0	0	0	0	30%
147	GPT-5.5	$0.0083	1.4s	13%	50	50	50	50	50	0	0	0	0	0	25%
145	Grok 4 Fast	$0.0005	3.8s	0%	100	50	50	50	0	0	0	0	0	0	25%
140	GPT-5.4 Mini	$0.0013	851ms	13%	50	50	50	50	50	0	0	0	0	0	25%
149	DeepSeek V3 (2025-03-24)	$0.0008	9.5s	0%	100	50	50	50	0	0	0	0	0	0	25%
144	Arcee AI: Trinity Large (Preview)	$0.0000	2.1s	0%	100	50	50	50	0	0	0	0	0	0	25%
146	Cydonia 24B V4.1	$0.0003	6.4s	0%	100	50	50	50	0	0	0	0	0	0	25%
153	Claude 3.7 Sonnet	$0.0062	3.5s	0%	100	50	50	0	0	0	0	0	0	0	20%
148	Gemma 3 4B	$0.0001	3.5s	0%	50	50	50	50	0	0	0	0	0	0	20%
151	Grok 4.3	$0.0017	955ms	0%	50	50	50	0	0	0	0	0	0	0	15%
152	Ministral 8B	$0.0002	8.4s	0%	100	50	0	0	0	0	0	0	0	0	15%
156	Claude 3.5 Sonnet	$0.0062	5.2s	0%	50	50	0	0	0	0	0	0	0	0	10%
154	Mistral Medium 3.1	$0.0013	5.3s	0%	50	50	0	0	0	0	0	0	0	0	10%
155	Mistral Small 3.2 24B	$0.0002	3.0s	0%	50	0	0	0	0	0	0	0	0	0	5%
70.87%