Match red prose section

Avg. Score

97.4%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0002	1.5s	100%
2	Mistral NeMO	100.0%	$0.0001	3.2s	100%
3	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0008	2.6s	100%
4	GPT-4.1 Nano	100.0%	$0.0001	4.0s	100%
5	Gemini 2.5 Flash	100.0%	$0.0010	2.4s	100%
6	Mistral Small 3.2 24B	100.0%	$0.0001	4.9s	100%
7	GPT-4.1 Mini	100.0%	$0.0006	4.3s	100%
8	GPT-4o Mini (temp=0)	100.0%	$0.0003	5.5s	100%
9	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0007	5.1s	100%
10	Ministral 3 8B	100.0%	$0.0002	6.6s	100%
11	Mistral Small 4	100.0%	$0.0004	6.2s	100%
12	Gemini 3.1 Flash Lite	100.0%	$0.0007	5.6s	100%
13	Gemini 2.5 Flash Lite (Reasoning)	100.0%	$0.0007	6.0s	100%
14	Gemini 2.5 Flash (Reasoning)	100.0%	$0.0017	3.7s	100%
15	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0001	7.5s	100%
16	Gemini 3 Flash (Preview)	100.0%	$0.0015	4.6s	100%
17	GPT-5.4 Nano	100.0%	$0.0014	5.1s	100%
18	Gemma 3 4B	100.0%	$0.0001	8.0s	100%
19	GPT-5.4 Nano (Reasoning)	100.0%	$0.0013	5.5s	100%
20	GPT-5.4 Mini	100.0%	$0.0024	3.2s	100%
21	GPT-4o Mini (temp=1)	100.0%	$0.0003	8.0s	100%
22	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.0025	3.2s	100%
23	Mistral Small 4 (Reasoning)	100.0%	$0.0006	7.7s	100%
24	GPT-5.4 Mini (Reasoning)	100.0%	$0.0029	3.8s	100%
25	Nemotron 3 Super	100.0%	$0.0000	10.3s	100%
26	Qwen 2.5 72B	100.0%	$0.0003	10.8s	100%
27	Xiaomi MIMO v2.5	100.0%	$0.0014	8.4s	100%
28	Claude Haiku 4.5	100.0%	$0.0031	5.9s	100%
29	Gemma 4 26B	100.0%	$0.0002	12.9s	100%
30	DeepSeek V3 (2024-12-26)	100.0%	$0.0004	12.7s	100%
31	Qwen3 235B A22B Instruct 2507	100.0%	$0.0003	13.2s	100%
32	GPT-OSS 120B	100.0%	$0.0003	13.4s	100%
33	GPT-4.1	100.0%	$0.0039	6.3s	100%
34	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.0033	7.8s	100%
35	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0046	5.3s	100%
36	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0048	4.8s	100%
37	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0052	3.9s	100%
38	WizardLM 2 8x22b	100.0%	$0.0008	13.8s	100%
39	Gemma 3 12B	100.0%	$0.0002	15.4s	100%
40	DeepSeek-V2 Chat	100.0%	$0.0001	15.5s	100%
41	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0014	12.8s	100%
42	Hermes 3 70B	100.0%	$0.0003	15.3s	100%
43	GPT-5 Mini	100.0%	$0.0023	12.2s	100%
44	Mistral Medium 3.1	100.0%	$0.0014	14.3s	100%
45	Z.AI GLM 4.5	100.0%	$0.0015	14.7s	100%
46	Qwen 3 32B	100.0%	$0.0005	17.2s	100%
47	Mistral Large 2	100.0%	$0.0029	11.7s	100%
48	MiniMax M2.7	100.0%	$0.0012	15.6s	100%
49	Mistral Large 3	100.0%	$0.0012	16.3s	100%
50	Z.AI GLM 4.5 Air	100.0%	$0.0008	17.5s	100%
51	Writer: Palmyra X5	100.0%	$0.0037	13.0s	100%
52	Qwen 3.6 Flash	100.0%	$0.0035	14.0s	100%
53	Xiaomi MIMO v2.5 Pro	100.0%	$0.0025	16.3s	100%
54	DeepSeek V4 Flash	100.0%	$0.0002	23.3s	100%
55	Grok 4.5 (Reasoning, High)	100.0%	$0.0050	12.7s	100%
56	DeepSeek V3.1	100.0%	$0.0005	22.7s	100%
57	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0014	21.3s	100%
58	DeepSeek V4 Pro	100.0%	$0.0012	22.0s	100%
59	MiniMax M3	100.0%	$0.0007	23.3s	100%
60	o4 Mini	100.0%	$0.0053	13.5s	100%
61	Gemma 3 27B	100.0%	$0.0002	25.3s	100%
62	MiniMax M2.5	100.0%	$0.0012	23.7s	100%
63	Qwen 3.5 122B	100.0%	$0.0055	14.2s	100%
64	Hermes 3 405B	100.0%	$0.0000	26.6s	100%
65	Gemma 4 26B (Reasoning)	100.0%	$0.0004	26.0s	100%
66	DeepSeek V4 Pro (Reasoning)	100.0%	$0.0017	23.7s	100%
67	o4 Mini High	100.0%	$0.0059	14.9s	100%
68	Aion 2.0	100.0%	$0.0018	23.9s	100%
69	Qwen 3.5 27B	100.0%	$0.0040	19.2s	100%
70	Gemma 4 31B	100.0%	$0.0002	27.9s	100%
71	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0039	20.6s	100%
72	DeepSeek V3.2	100.0%	$0.0003	28.8s	100%
73	Z.AI GLM 5	100.0%	$0.0023	25.8s	100%
74	Claude Sonnet 4	100.0%	$0.0094	11.4s	100%
75	Claude Sonnet 4.6	100.0%	$0.0096	11.3s	100%
76	Qwen 3.5 9B	100.0%	$0.0004	33.1s	100%
77	Z.AI GLM 5.1	100.0%	$0.0037	26.7s	100%
78	Claude Sonnet 4.5	100.0%	$0.010	12.4s	100%
79	Gemini 3.5 Flash (Reasoning)	100.0%	$0.013	7.6s	100%
80	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.011	13.1s	100%
81	Gemini 2.5 Pro	100.0%	$0.012	11.2s	100%
82	Claude Sonnet 5 (Reasoning)	100.0%	$0.011	14.5s	100%
83	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.011	14.9s	100%
84	Aion 3.0	100.0%	$0.0074	22.5s	100%
85	MoonshotAI: Kimi K2.5	100.0%	$0.0039	31.8s	100%
86	Claude Sonnet 5	100.0%	$0.012	15.8s	100%
87	Grok 4.5 (Reasoning, Low)	100.0%	$0.0045	31.8s	100%
88	Gemma 4 31B (Reasoning)	100.0%	$0.0004	43.6s	100%
89	GPT-5 Nano	100.0%	$0.0016	42.4s	100%
90	Claude Opus 4.5	100.0%	$0.016	12.8s	100%
91	Z.AI GLM 4.7	100.0%	$0.0028	41.8s	100%
92	Grok 4.20 (Reasoning)	100.0%	$0.0073	32.7s	100%
93	ByteDance Seed 1.6	100.0%	$0.0033	43.2s	100%
94	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.0053	40.2s	100%
95	Gemini 3.1 Pro (Preview)	100.0%	$0.018	18.9s	100%
96	GPT-5.4 (Reasoning, Low)	100.0%	$0.016	23.6s	100%
97	ByteDance Seed 2.0 Lite	100.0%	$0.0044	50.6s	100%
98	GPT-5.4	100.0%	$0.017	26.6s	100%
99	Qwen3.7 Max	100.0%	$0.016	32.8s	100%
100	Qwen 3.5 397B A17B	100.0%	$0.0066	54.0s	100%
101	Inception Mercury 2	90.0%	$0.0004	1.1s	40%
102	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.025	15.2s	100%
103	Claude Opus 4.8 (Reasoning)	100.0%	$0.024	15.8s	100%
104	Ministral 3 3B	90.0%	$0.0001	3.6s	40%
105	ByteDance Seed 2.0 Mini	100.0%	$0.0011	1.1m	100%
106	Qwen 3.6 27B	100.0%	$0.0089	51.9s	100%
107	GPT-5.4 (Reasoning)	100.0%	$0.018	31.7s	100%
108	Arcee AI: Trinity Mini	90.0%	$0.0002	6.4s	40%
109	Grok 4.3 (Reasoning)	100.0%	$0.0094	53.3s	100%
110	Grok 4.3	90.0%	$0.0011	5.7s	40%
111	Z.AI GLM 4.6	100.0%	$0.0038	1.1m	100%
112	GPT-5.5	100.0%	$0.025	19.6s	100%
113	Llama 3.1 70B	90.0%	$0.0005	8.3s	40%
114	GPT-5.5 (Reasoning, Low)	100.0%	$0.026	19.5s	100%
115	Ministral 3 14B	90.0%	$0.0003	9.7s	40%
116	Grok 4.20	90.0%	$0.0015	7.8s	40%
117	GPT-5.5 (Reasoning)	100.0%	$0.027	20.7s	100%
118	Claude Opus 4.6	100.0%	$0.026	23.1s	100%
119	MoonshotAI: Kimi K2.6	100.0%	$0.0093	59.5s	100%
120	DeepSeek V3 (2025-03-24)	90.0%	$0.0005	13.1s	40%
121	Z.AI GLM 5 Turbo	90.0%	$0.0023	9.4s	40%
122	Cydonia 24B V4.1	90.0%	$0.0004	15.4s	40%
123	Claude Opus 4.7	100.0%	$0.032	15.4s	100%
124	GPT-5.1	100.0%	$0.020	43.1s	100%
125	Cohere Command R+ (Aug. 2024)	90.0%	$0.0051	10.5s	40%
126	Qwen 3.5 35B	90.0%	$0.0040	14.6s	40%
127	Z.AI GLM 4.7 Flash	90.0%	$0.0005	23.1s	40%
128	Claude Opus 4.6 (Reasoning)	100.0%	$0.029	27.5s	100%
129	GPT-5	100.0%	$0.022	45.8s	100%
130	Claude Opus 4.7 (Reasoning)	100.0%	$0.036	16.6s	100%
131	Ministral 3B	80.0%	$0.0000	2.1s	20%
132	Ministral 8B	80.0%	$0.0001	6.9s	20%
133	Nemotron 3 Nano	80.0%	$0.0001	7.3s	20%
134	GPT-5.2	100.0%	$0.028	50.8s	100%
135	Aion 3.0 Mini	80.0%	$0.0011	17.5s	20%
136	Claude Opus 4	100.0%	$0.043	20.4s	100%
137	Qwen 3.5 Flash	80.0%	$0.0010	25.2s	20%
138	Qwen 3.6 35B	70.0%	$0.0030	18.5s	8%
139	Qwen3.6 Max Preview	100.0%	$0.023	1.6m	100%
140	ByteDance Seed 1.6 Flash	0.0%	$0.0006	13.5s	0%
97.43%

Individual Scenarios

▼

Create alternate prose sections

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.20	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.3	100	100	100	100	100	100	100	100	100	0	90.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	0	90.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100	100	0	90.0%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	0	90.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100	100	0	90.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	0	90.0%
Ministral 3 3B	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	0	0	80.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100	0	0	80.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	0	0	80.0%
Ministral 8B	100	100	100	100	100	100	100	100	0	0	80.0%
Ministral 3B	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	0	0	0	70.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0	0	0	0	0	0.0%

Match red prose section

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Create alternate prose sections