Tool usage within Novelcrafter

Output messages that are related to tool usage within Novelcrafter

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

Price-Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	3.3s
Ministral 3B	80%	$0.0000	2.1s
Gemini 2.5 Flash Lite	100%	$0.0002	1.5s
Inception Mercury	97%	$0.0003	1.3s
Inception Mercury 2	97%	$0.0004	1.1s
Mistral NeMO	97%	$0.0001	3.2s
Ministral 8B	80%	$0.0001	6.9s
Ministral 3 3B	90%	$0.0001	3.6s
Mistral Small 3.2 24B	100%	$0.0001	4.9s
Llama 3.1 8B	60%	$0.0001	4.1s
GPT-4.1 Nano	90%	$0.0001	4.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	2.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	5.1s
Gemini 3.1 Flash Lite	100%	$0.0007	5.6s
Gemini 2.5 Flash	100%	$0.0010	2.4s
GPT-4.1 Mini	97%	$0.0006	4.3s
GPT-4o Mini (temp=0)	100%	$0.0003	5.5s
Arcee AI: Trinity Mini	97%	$0.0002	6.4s
Claude 3 Haiku	100%	$0.0007	4.2s
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s

Cost vs Performance

Compares total cost for this test against the test score. Quadrant lines are drawn at the median values. Only models with available cost data are shown.

22 low-scoring outliers hidden: Z.AI GLM 5 Turbo (90.0%), Qwen 3.5 35B (90.0%), Z.AI GLM 4.7 Flash (90.0%), Nemotron 3 Super (90.0%), DeepSeek V3 (2025-03-24) (90.0%), Grok 4.20 (90.0%), Grok 4.3 (90.0%), Ministral 3 14B (90.0%), GPT-4.1 Nano (90.0%), Cohere Command R+ (Aug. 2024) (90.0%), Ministral 3 3B (90.0%), Llama 3.1 70B (86.7%), Qwen 3.5 Flash (80.0%), Mistral Small Creative (80.0%), Ministral 8B (80.0%), Ministral 3B (80.0%), Nemotron 3 Nano (73.3%), Qwen 3.6 35B (66.7%), Llama 3.1 8B (60.0%), Rocinante 12B (20.0%), ByteDance Seed 1.6 Flash (0.0%), LFM2 24B (0.0%).

Most Stable Models (Top 20)

Ranked by stability (median × consistency). Click a model name to view its detail page.

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

Top Overall Models (Top 20)

Ranked by composite score (performance, cost, speed & stability). Click a model name to view its detail page.

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0002	1.5s	100%
Stealth: Aurora Alpha	100%	—	3.3s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	2.6s	100%
Gemini 2.5 Flash	100%	$0.0010	2.4s	100%
Mistral Small 3.2 24B	100%	$0.0001	4.9s	100%
Claude 3 Haiku	100%	$0.0007	4.2s	100%
GPT-4o Mini (temp=0)	100%	$0.0003	5.5s	100%
Stealth: Healer Alpha	100%	$0.0000	6.7s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	5.1s	100%
Ministral 3 8B	100%	$0.0002	6.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0007	5.6s	100%
Grok 4 Fast	100%	$0.0004	6.6s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0007	6.0s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0017	3.7s	100%
GPT-5.4 Nano	100%	$0.0014	5.1s	100%
Gemma 3 4B	100%	$0.0001	8.0s	100%
Grok 4.20 (Beta)	100%	$0.0026	2.5s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0013	5.5s	100%
GPT-5.4 Mini	100%	$0.0024	3.2s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s	100%

Model	Total ▼	Create alternate prose sections
Claude Opus 4.6 (Reasoning)	100%	100%
Qwen3.6 Max Preview	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%
Z.AI GLM 5.1	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%
Grok 4.3 (Reasoning)	100%	100%
GPT-5.4 (Reasoning)	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%
GPT-5.5 (Reasoning)	100%	100%
GPT-5 Mini	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%
Claude Opus 4.6	100%	100%
MoonshotAI: Kimi K2.6	100%	100%
GPT-5	100%	100%
Qwen 3.5 397B A17B	100%	100%

1–15 of 147

Page 1 / 10

Rows:

Create alternate prose sections

Tooling

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

Price-Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	3.3s
Ministral 3B	80%	$0.0000	2.1s
Gemini 2.5 Flash Lite	100%	$0.0002	1.5s
Inception Mercury	97%	$0.0003	1.3s
Inception Mercury 2	97%	$0.0004	1.1s
Mistral NeMO	97%	$0.0001	3.2s
Ministral 8B	80%	$0.0001	6.9s
Ministral 3 3B	90%	$0.0001	3.6s
Mistral Small 3.2 24B	100%	$0.0001	4.9s
Llama 3.1 8B	60%	$0.0001	4.1s
GPT-4.1 Nano	90%	$0.0001	4.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	2.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	5.1s
Gemini 3.1 Flash Lite	100%	$0.0007	5.6s
Gemini 2.5 Flash	100%	$0.0010	2.4s
GPT-4.1 Mini	97%	$0.0006	4.3s
GPT-4o Mini (temp=0)	100%	$0.0003	5.5s
Arcee AI: Trinity Mini	97%	$0.0002	6.4s
Claude 3 Haiku	100%	$0.0007	4.2s
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s

Most Stable Models (Top 20)

Ranked by stability (median × consistency). Click a model name to view its detail page.

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

Top Overall Models (Top 20)

Ranked by composite score (performance, cost, speed & stability). Click a model name to view its detail page.

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0002	1.5s	100%
Stealth: Aurora Alpha	100%	—	3.3s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	2.6s	100%
Gemini 2.5 Flash	100%	$0.0010	2.4s	100%
Mistral Small 3.2 24B	100%	$0.0001	4.9s	100%
Claude 3 Haiku	100%	$0.0007	4.2s	100%
GPT-4o Mini (temp=0)	100%	$0.0003	5.5s	100%
Stealth: Healer Alpha	100%	$0.0000	6.7s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	5.1s	100%
Ministral 3 8B	100%	$0.0002	6.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0007	5.6s	100%
Grok 4 Fast	100%	$0.0004	6.6s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0007	6.0s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0017	3.7s	100%
GPT-5.4 Nano	100%	$0.0014	5.1s	100%
Gemma 3 4B	100%	$0.0001	8.0s	100%
Grok 4.20 (Beta)	100%	$0.0026	2.5s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0013	5.5s	100%
GPT-5.4 Mini	100%	$0.0024	3.2s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
129	Claude Opus 4.6 (Reasoning)	$0.029	27.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
144	Qwen3.6 Max Preview	$0.023	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
101	Gemini 3.1 Pro (Preview)	$0.018	18.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
76	Z.AI GLM 5.1	$0.0037	26.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Claude Sonnet 4.6 (Reasoning)	$0.011	13.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
111	Grok 4.3 (Reasoning)	$0.0094	53.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
109	GPT-5.4 (Reasoning)	$0.018	31.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
132	Claude Opus 4.7 (Reasoning)	$0.036	16.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
118	GPT-5.5 (Reasoning)	$0.027	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-5 Mini	$0.0023	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
115	GPT-5.5 (Reasoning, Low)	$0.026	19.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
119	Claude Opus 4.6	$0.026	23.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
120	MoonshotAI: Kimi K2.6	$0.0093	59.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
130	GPT-5	$0.022	45.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen 3.5 397B A17B	$0.0066	54.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Gemma 4 31B (Reasoning)	$0.0004	43.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Qwen 3.5 122B	$0.0055	14.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Gemma 4 26B (Reasoning)	$0.0004	26.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
88	Grok 4.20 (Beta, Reasoning)	$0.014	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
103	GPT-5.4 (Reasoning, Low)	$0.016	23.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
94	Grok 4.20 (Reasoning)	$0.0073	32.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Z.AI GLM 5	$0.0023	25.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Claude Sonnet 4.6	$0.0096	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	MoonshotAI: Kimi K2.5	$0.0039	31.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Qwen 3.5 27B	$0.0040	19.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Qwen 3.6 Flash	$0.0035	14.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0029	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemini 3 Flash (Preview, Reasoning)	$0.0033	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	o4 Mini High	$0.0059	14.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
139	GPT-5.2	$0.028	50.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	DeepSeek V4 Pro (Reasoning)	$0.0017	23.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
125	Claude Opus 4.7	$0.032	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Claude Opus 4.5	$0.016	12.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Grok 4.1 Fast	$0.0005	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	Aion 2.0	$0.0018	23.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
113	Z.AI GLM 4.6	$0.0038	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
45	MiniMax M2.7	$0.0012	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
114	GPT-5.5	$0.025	19.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
98	Gemini 3 Pro (Preview)	$0.017	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Claude Sonnet 4	$0.0094	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
92	Z.AI GLM 4.7	$0.0028	41.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	GPT-4.1	$0.0039	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemini 2.5 Pro	$0.012	11.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	o4 Mini	$0.0053	13.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
96	Grok 4	$0.012	22.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Claude Sonnet 4.5	$0.010	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
140	Claude Opus 4	$0.043	20.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Xiaomi MIMO v2.5 Pro	$0.0025	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Stealth: Hunter Alpha	$0.0000	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
108	ByteDance Seed 2.0 Mini	$0.0011	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Gemma 4 31B	$0.0002	27.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemini 2.5 Flash (Reasoning)	$0.0017	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-OSS 120B	$0.0003	13.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite (Reasoning)	$0.0007	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 4.5	$0.0015	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Grok 4 Fast	$0.0004	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	Qwen 3.5 Plus (2026-02-15)	$0.0014	21.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Stealth: Healer Alpha	$0.0000	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0008	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemini 3.1 Flash Lite	$0.0007	5.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Mini (Reasoning, Low)	$0.0025	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash Lite (Reasoning)	$0.0007	6.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Mistral Large 3	$0.0012	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	GPT-4o, May 13th (temp=0)	$0.0084	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Haiku 4.5	$0.0031	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Xiaomi MIMO v2.5	$0.0014	8.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	DeepSeek-V2 Chat	$0.0001	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
104	ByteDance Seed 2.0 Lite	$0.0044	50.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Claude 3.5 Sonnet	$0.0094	16.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Grok 4.20 (Beta)	$0.0026	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-4o, May 13th (temp=1)	$0.0085	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Stealth: Aurora Alpha	—	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	DeepSeek V3 (2024-12-26)	$0.0004	12.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Claude 3.7 Sonnet	$0.011	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Z.AI GLM 4.5 Air	$0.0008	17.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Hermes 3 405B	$0.0000	26.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	DeepSeek V4 Pro	$0.0012	22.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-4o, Aug. 6th (temp=1)	$0.0048	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
90	GPT-5 Nano	$0.0016	42.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-4o, Aug. 6th (temp=0)	$0.0046	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.4 Mini	$0.0024	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Mistral Large 2	$0.0029	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Mistral Small 4 (Reasoning)	$0.0006	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	DeepSeek V3.1	$0.0005	22.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	DeepSeek V3.2	$0.0003	28.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.4 Nano (Reasoning)	$0.0013	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0002	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 2.5 Flash	$0.0010	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Mistral Large	$0.0026	7.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Qwen3 235B A22B Instruct 2507	$0.0003	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Writer: Palmyra X5	$0.0037	13.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-5.4 Nano (Reasoning, Low)	$0.0014	12.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-4o Mini (temp=1)	$0.0003	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Mistral Small 3.2 24B	$0.0001	4.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Gemma 3 12B	$0.0002	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-4o Mini (temp=0)	$0.0003	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	Gemma 3 27B	$0.0002	25.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Qwen 2.5 72B	$0.0003	10.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Llama 3.1 Nemotron 70B	$0.0003	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 Nano	$0.0014	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Hermes 3 70B	$0.0003	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Ministral 3 8B	$0.0002	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Claude 3 Haiku	$0.0007	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Gemma 3 4B	$0.0001	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
138	GPT-5.1	$0.020	43.1s	80%	100	100	100	100	100	100	100	100	100	67	97%
110	ByteDance Seed 1.6	$0.0033	43.2s	80%	100	100	100	100	100	100	100	100	100	67	97%
131	Qwen 3.6 27B	$0.0089	51.9s	80%	100	100	100	100	100	100	100	100	100	67	97%
93	MiniMax M2.5	$0.0012	23.7s	80%	100	100	100	100	100	100	100	100	100	67	97%
100	Qwen 3.5 9B	$0.0004	33.1s	80%	100	100	100	100	100	100	100	100	100	67	97%
72	Gemini 3 Flash (Preview)	$0.0015	4.6s	80%	100	100	100	100	100	100	100	100	100	67	97%
124	GPT-5.4	$0.017	26.6s	80%	100	100	100	100	100	100	100	100	100	67	97%
52	Inception Mercury 2	$0.0004	1.1s	80%	100	100	100	100	100	100	100	100	100	67	97%
65	GPT-4.1 Mini	$0.0006	4.3s	80%	100	100	100	100	100	100	100	100	100	67	97%
86	Qwen 3 32B	$0.0005	17.2s	80%	100	100	100	100	100	100	100	100	100	67	97%
53	Inception Mercury	$0.0003	1.3s	80%	100	100	100	100	100	100	100	100	100	67	97%
84	Mistral Medium 3.1	$0.0014	14.3s	80%	100	100	100	100	100	100	100	100	100	67	97%
82	WizardLM 2 8x22b	$0.0008	13.8s	80%	100	100	100	100	100	100	100	100	100	67	97%
70	Arcee AI: Trinity Mini	$0.0002	6.4s	80%	100	100	100	100	100	100	100	100	100	67	97%
57	Mistral NeMO	$0.0001	3.2s	80%	100	100	100	100	100	100	100	100	100	67	97%
133	Qwen 3.5 Plus (2026-04-20)	$0.0053	40.2s	60%	100	100	100	100	100	100	100	100	100	33	93%
102	Gemma 4 26B	$0.0002	12.9s	60%	100	100	100	100	100	100	100	100	100	33	93%
105	DeepSeek V4 Flash	$0.0002	23.3s	60%	100	100	100	100	100	100	100	100	100	33	93%
97	Mistral Small 4	$0.0004	6.2s	60%	100	100	100	100	100	100	100	100	100	33	93%
83	DeepSeek V4 Flash (Reasoning)	$0.0001	7.5s	73%	100	100	100	100	100	100	100	100	67	67	93%
87	Arcee AI: Trinity Large (Preview)	$0.0000	10.9s	73%	100	100	100	100	100	100	100	100	67	67	93%
123	Z.AI GLM 5 Turbo	$0.0023	9.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
127	Qwen 3.5 35B	$0.0040	14.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
128	Z.AI GLM 4.7 Flash	$0.0005	23.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
95	Nemotron 3 Super	$0.0000	10.3s	69%	100	100	100	100	100	100	100	67	67	67	90%
122	DeepSeek V3 (2025-03-24)	$0.0005	13.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
117	Grok 4.20	$0.0015	7.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
112	Grok 4.3	$0.0011	5.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
116	Ministral 3 14B	$0.0003	9.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
99	GPT-4.1 Nano	$0.0001	4.0s	57%	100	100	100	100	100	100	100	100	67	33	90%
126	Cohere Command R+ (Aug. 2024)	$0.0051	10.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
107	Ministral 3 3B	$0.0001	3.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
121	Llama 3.1 70B	$0.0005	8.3s	39%	100	100	100	100	100	100	100	100	67	0	87%
141	Qwen 3.5 Flash	$0.0010	25.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
136	Mistral Small Creative	$0.0004	6.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
135	Ministral 8B	$0.0001	6.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
134	Ministral 3B	$0.0000	2.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
137	Nemotron 3 Nano	$0.0001	7.3s	22%	100	100	100	100	100	100	67	67	0	0	73%
143	Qwen 3.6 35B	$0.0030	18.5s	11%	100	100	100	100	100	100	67	0	0	0	67%
142	Llama 3.1 8B	$0.0001	4.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
145	Rocinante 12B	$0.0002	12.4s	0%	100	67	33	0	0	0	0	0	0	0	20%
147	ByteDance Seed 1.6 Flash	$0.0006	13.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	LFM2 24B	$0.0001	8.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
95.42%

Median	Evaluator	Top 3	Flop 3
100.0%	Match blue prose section	100GPT-4o, Aug. 6th (temp=1) 100DeepSeek V4 Pro (Reasoning) 100GPT-4o Mini (temp=0)	0LFM2 24B 0ByteDance Seed 1.6 Flash 10Rocinante 12B
100.0%	Match green prose section	100Llama 3.1 Nemotron 70B 100GPT-5.4 Mini 100Stealth: Aurora Alpha	0LFM2 24B 0ByteDance Seed 1.6 Flash 20Rocinante 12B
100.0%	Match red prose section	100Mistral Small 3.2 24B 100Claude 3.7 Sonnet 100GPT-5.4 Mini (Reasoning, Low)	0ByteDance Seed 1.6 Flash 0LFM2 24B 30Rocinante 12B