Non-passive narration preserved

Test: Text Replacement

Avg. Score

88.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Claude Haiku 4.5	100.0%	$0.0051	5.8s	100%
2	Gemma 4 26B	100.0%	$0.0003	27.1s	100%
3	Claude Sonnet 4.6	100.0%	$0.015	7.5s	100%
4	Claude Sonnet 4	100.0%	$0.015	9.4s	100%
5	Qwen 3.5 Plus (2026-02-15)	99.1%	$0.0022	10.2s	94%
6	Gemini 2.5 Flash Lite	98.2%	$0.0004	2.5s	91%
7	Claude Opus 4.5	100.0%	$0.026	8.1s	100%
8	Claude Opus 4.6	100.0%	$0.026	8.7s	100%
9	Gemma 4 31B	99.1%	$0.0004	44.2s	94%
10	Gemini 2.5 Flash	95.5%	$0.0021	3.0s	88%
11	Claude Opus 4.7	100.0%	$0.036	7.3s	100%
12	Xiaomi MIMO v2.5	94.6%	$0.0040	15.0s	88%
13	Claude Sonnet 4.5	96.4%	$0.015	7.2s	89%
14	Qwen 2.5 72B	94.6%	$0.0004	16.3s	84%
15	Z.AI GLM 5.2 (Reasoning, High)	98.2%	$0.013	44.0s	91%
16	Claude Sonnet 5	95.5%	$0.014	11.8s	88%
17	Mistral Small 3.2 24B	93.8%	$0.0003	6.9s	82%
18	Gemini 3 Flash (Preview)	93.8%	$0.0027	4.3s	82%
19	DeepSeek V3.2	95.5%	$0.0007	53.2s	88%
20	Grok 4.20	93.8%	$0.0029	6.5s	82%
21	Mistral Large 3	93.8%	$0.0016	10.5s	82%
22	Writer: Palmyra X5	93.8%	$0.0050	13.7s	84%
23	MiniMax M2.5	97.3%	$0.0021	1.3m	90%
24	Gemini 3.5 Flash (Reasoning, Minimal)	93.8%	$0.0081	3.5s	82%
25	Mistral Large 2	93.8%	$0.0062	10.5s	82%
26	Ministral 3 14B	92.9%	$0.0003	5.7s	79%
27	GPT-4o Mini (temp=1)	87.5%	$0.0006	12.4s	88%
28	GPT-4o Mini (temp=0)	87.5%	$0.0006	13.8s	88%
29	ByteDance Seed 1.6 Flash	92.9%	$0.0012	21.9s	82%
30	DeepSeek V4 Pro	92.9%	$0.0020	22.3s	82%
31	Gemma 3 12B	92.9%	$0.0001	12.8s	77%
32	Gemini 3.1 Flash Lite (Preview)	89.3%	$0.0013	2.4s	80%
33	Gemini 3.1 Flash Lite	89.3%	$0.0013	2.4s	80%
34	Gemini 3.1 Flash Lite (Reasoning)	88.4%	$0.0013	8.2s	82%
35	Xiaomi MIMO v2.5 Pro	93.8%	$0.0073	32.3s	82%
36	Hermes 3 405B	87.5%	$0.0017	31.7s	88%
37	GPT-4.1 Mini	88.4%	$0.0015	10.3s	82%
38	Cydonia 24B V4.1	92.0%	$0.0006	18.0s	78%
39	Grok 4.5 (Reasoning, Low)	93.8%	$0.014	21.2s	82%
40	GPT-5.6 Luna (Reasoning)	92.9%	$0.010	10.6s	79%
41	GPT-5.5 (Reasoning, Low)	94.6%	$0.032	11.5s	88%
42	GPT-5.4 Mini (Reasoning, Low)	91.1%	$0.0052	7.9s	78%
43	DeepSeek V3 (2024-12-26)	91.1%	$0.0012	23.1s	78%
44	GPT-5.4 (Reasoning, Low)	93.8%	$0.020	14.1s	82%
45	GPT-5.4 Mini	87.5%	$0.0040	3.2s	79%
46	GPT-5 Mini	93.8%	$0.0082	50.8s	82%
47	GPT-5.6 Terra	92.9%	$0.013	4.2s	77%
48	Claude Sonnet 5 (Reasoning, Low)	95.5%	$0.034	26.8s	88%
49	Gemma 3 27B	86.6%	$0.0003	24.0s	82%
50	GPT-5.5	93.8%	$0.026	6.8s	82%
51	Z.AI GLM 4.6	93.8%	$0.0078	57.8s	82%
52	Gemini 2.5 Flash Lite (Reasoning)	92.0%	$0.0033	32.9s	77%
53	GPT-5.6 Terra (Reasoning)	93.8%	$0.026	12.5s	82%
54	Claude Opus 4.8 (Reasoning)	100.0%	$0.072	24.8s	100%
55	Claude Sonnet 5 (Reasoning)	94.6%	$0.034	26.1s	88%
56	Qwen3 235B A22B Instruct 2507	91.1%	$0.0004	19.2s	73%
57	Mistral Small 4	84.8%	$0.0006	4.5s	79%
58	Claude Opus 4.7 (Reasoning)	99.1%	$0.064	13.9s	94%
59	GPT-5.4	91.1%	$0.013	8.3s	75%
60	Arcee AI: Trinity Mini	86.6%	$0.0003	11.2s	75%
61	Gemini 2.5 Flash (Reasoning)	90.2%	$0.014	22.4s	79%
62	Z.AI GLM 4.5	92.0%	$0.0063	52.4s	77%
63	Z.AI GLM 5 Turbo	93.8%	$0.022	50.4s	82%
64	Gemma 3 4B	88.4%	$0.0001	10.1s	70%
65	GPT-5.6 Luna	88.4%	$0.0053	5.4s	71%
66	Grok 4.20 (Reasoning)	93.8%	$0.018	1.1m	82%
67	Claude Opus 4.8 (Reasoning, Low)	99.1%	$0.071	24.9s	94%
68	Mistral Medium 3.1	82.1%	$0.0018	6.3s	77%
69	ByteDance Seed 1.6	87.5%	$0.0077	1.4m	88%
70	Qwen 3.6 Flash	89.3%	$0.014	45.2s	80%
71	GPT-5.4 Mini (Reasoning)	89.3%	$0.018	37.8s	80%
72	Gemini 3 Flash (Preview, Reasoning)	88.4%	$0.022	36.9s	82%
73	GPT-5.6 Sol	90.2%	$0.026	6.5s	75%
74	Z.AI GLM 4.5 Air	91.1%	$0.0059	1.5m	78%
75	GPT-5.1	92.0%	$0.029	34.1s	77%
76	GPT-5.2	88.4%	$0.025	22.2s	77%
77	DeepSeek V4 Flash (Reasoning)	92.0%	$0.0013	2.3m	77%
78	GPT-5.6 Sol (Reasoning)	93.8%	$0.058	22.4s	82%
79	DeepSeek V4 Flash	92.0%	$0.0003	10.6s	49%
80	Ministral 3 8B	83.9%	$0.0002	4.2s	57%
81	Grok 4.5 (Reasoning, High)	93.8%	$0.045	1.3m	82%
82	GPT-4.1	80.4%	$0.0076	6.4s	66%
83	Ministral 8B	83.0%	$0.0002	3.9s	57%
84	GPT-5.5 (Reasoning)	93.8%	$0.068	25.1s	82%
85	Qwen 3 32B	87.5%	$0.0010	43.4s	58%
86	Gemma 4 26B (Reasoning)	93.8%	$0.0042	3.4m	82%
87	Qwen 3.5 Plus (2026-04-20)	88.4%	$0.020	2.1m	82%
88	GPT-5.4 Nano	80.4%	$0.0011	3.8s	59%
89	GPT-5.4 (Reasoning)	92.9%	$0.052	47.2s	77%
90	DeepSeek V3.1	88.4%	$0.0009	35.4s	52%
91	Grok 4.3 (Reasoning)	91.1%	$0.019	1.5m	70%
92	Gemini 2.5 Pro	92.9%	$0.056	41.9s	77%
93	GPT-5.4 Nano (Reasoning)	79.5%	$0.0034	22.3s	63%
94	Mistral Small 4 (Reasoning)	86.6%	$0.0036	34.3s	55%
95	Grok 4.3	87.5%	$0.0030	6.0s	47%
96	Qwen 3.5 35B	89.3%	$0.025	1.3m	71%
97	ByteDance Seed 2.0 Lite	85.7%	$0.0085	1.6m	69%
98	Llama 3.1 70B	77.7%	$0.0007	18.9s	61%
99	Qwen 3.5 Flash	87.5%	$0.0050	1.4m	61%
100	GPT-5	92.0%	$0.050	1.3m	77%
101	GPT-5.4 Nano (Reasoning, Low)	77.7%	$0.0014	7.4s	56%
102	Qwen 3.6 35B	84.8%	$0.011	1.0m	61%
103	Claude Opus 4	91.1%	$0.077	13.4s	78%
104	GPT-OSS 120B	84.8%	$0.0010	46.5s	52%
105	Z.AI GLM 4.7	92.0%	$0.017	3.0m	77%
106	Qwen 3.5 122B	90.2%	$0.041	1.9m	79%
107	Aion 3.0	94.6%	$0.054	2.9m	88%
108	DeepSeek V4 Pro (Reasoning)	92.0%	$0.013	3.5m	77%
109	Gemini 3.5 Flash (Reasoning)	89.3%	$0.077	33.0s	80%
110	Qwen 3.5 397B A17B	90.2%	$0.011	3.7m	79%
111	Z.AI GLM 5	91.1%	$0.023	3.2m	78%
112	GPT-4o, Aug. 6th (temp=0)	81.3%	$0.0091	3.9s	46%
113	DeepSeek V3 (2025-03-24)	82.1%	$0.0008	42.6s	46%
114	Qwen 3.5 27B	91.1%	$0.037	2.9m	78%
115	ByteDance Seed 2.0 Mini	89.3%	$0.0036	4.0m	74%
116	Aion 2.0	85.7%	$0.0069	1.5m	45%
117	Z.AI GLM 4.7 Flash	84.8%	$0.0034	2.4m	55%
118	GPT-4.1 Nano	75.0%	$0.0004	5.0s	39%
119	Z.AI GLM 5.1	92.9%	$0.044	3.4m	77%
120	WizardLM 2 8x22b	82.1%	$0.0014	1.5m	45%
121	o4 Mini	83.0%	$0.026	39.2s	44%
122	Qwen3.7 Max	88.4%	$0.072	2.1m	77%
123	GPT-5 Nano	78.6%	$0.0052	1.9m	52%
124	DeepSeek-V2 Chat	75.9%	$0.0011	21.5s	33%
125	Ministral 3B	71.4%	$0.0001	2.9s	32%
126	Gemma 4 31B (Reasoning)	92.9%	$0.0027	6.3m	77%
127	Inception Mercury 2	67.9%	$0.0027	3.7s	38%
128	Claude Sonnet 4.6 (Reasoning)	93.8%	$0.123	1.5m	82%
129	MiniMax M3	92.9%	$0.017	6.0m	77%
130	GPT-4o, Aug. 6th (temp=1)	71.4%	$0.0086	4.1s	31%
131	Aion 3.0 Mini	86.6%	$0.010	2.9m	44%
132	o4 Mini High	83.9%	$0.056	1.4m	54%
133	MiniMax M2.7	85.7%	$0.014	3.1m	49%
134	Claude Opus 4.6 (Reasoning)	91.1%	$0.129	1.1m	78%
135	Qwen3.6 Max Preview	92.0%	$0.066	4.0m	77%
136	Qwen 3.5 9B	76.8%	$0.0020	2.9m	45%
137	Qwen 3.6 27B	82.1%	$0.027	1.9m	32%
138	Ministral 3 3B	60.7%	$0.0002	2.9s	25%
139	MoonshotAI: Kimi K2.5	91.1%	$0.029	6.5m	70%
140	Gemini 3.1 Pro (Preview)	93.8%	$0.168	2.6m	82%
141	Mistral NeMO	53.6%	$0.0002	3.1s	14%
142	Nemotron 3 Super	61.6%	$0.0000	2.5m	24%
143	MoonshotAI: Kimi K2.6	92.9%	$0.072	7.6m	77%
144	Nemotron 3 Nano	63.4%	$0.0034	4.0m	27%
145	Cohere Command R+ (Aug. 2024)	36.6%	$0.0092	18.4s	17%
146	Hermes 3 70B	57.1%	$0.0022	2.8m	10%
88.72%

Individual Scenarios

Generic Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	88	98.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	88	98.2%
MiniMax M2.5	100	100	100	100	100	100	88	98.2%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	88	98.2%
Gemma 4 31B	100	100	100	100	100	100	88	98.2%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	88	88	96.4%
Gemini 2.5 Flash Lite	100	100	100	100	100	88	88	96.4%
Z.AI GLM 4.6	100	100	100	88	88	88	88	92.9%
Claude Sonnet 4.5	100	100	100	88	88	88	88	92.9%
MiniMax M2.7	100	100	100	88	88	88	88	92.9%
Xiaomi MIMO v2.5	100	100	100	88	88	88	88	92.9%
DeepSeek V3.2	100	100	100	88	88	88	88	92.9%
Claude Sonnet 5 (Reasoning, Low)	100	100	88	88	88	88	88	91.1%
Claude Sonnet 5	100	100	88	88	88	88	88	91.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	88	88	88	88	88	91.1%
Gemini 2.5 Flash	100	100	88	88	88	88	88	91.1%
Qwen 2.5 72B	100	100	100	88	88	88	75	91.1%
GPT-5.5 (Reasoning, Low)	100	88	88	88	88	88	88	89.3%
Claude Sonnet 5 (Reasoning)	100	88	88	88	88	88	88	89.3%
Aion 3.0	100	88	88	88	88	88	88	89.3%
Xiaomi MIMO v2.5 Pro	100	88	88	88	88	88	88	89.3%
DeepSeek V3 (2024-12-26)	100	88	88	88	88	88	88	89.3%
GPT-5.4 Mini	100	88	88	88	88	88	88	89.3%
GPT-5.6 Sol (Reasoning)	88	88	88	88	88	88	88	87.5%
Claude Opus 4.6 (Reasoning)	88	88	88	88	88	88	88	87.5%
Grok 4.5 (Reasoning, High)	88	88	88	88	88	88	88	87.5%
Gemini 3.1 Pro (Preview)	88	88	88	88	88	88	88	87.5%
GPT-5.4 (Reasoning)	88	88	88	88	88	88	88	87.5%
Z.AI GLM 5.1	88	88	88	88	88	88	88	87.5%
Qwen3.6 Max Preview	88	88	88	88	88	88	88	87.5%
GPT-5.5 (Reasoning)	88	88	88	88	88	88	88	87.5%
Claude Sonnet 4.6 (Reasoning)	88	88	88	88	88	88	88	87.5%
Gemini 3.5 Flash (Reasoning)	88	88	88	88	88	88	88	87.5%
Z.AI GLM 5 Turbo	88	88	88	88	88	88	88	87.5%
MoonshotAI: Kimi K2.6	88	88	88	88	88	88	88	87.5%
GPT-5.6 Terra (Reasoning)	88	88	88	88	88	88	88	87.5%
GPT-5	88	88	88	88	88	88	88	87.5%
GPT-5 Mini	88	88	88	88	88	88	88	87.5%
Qwen 3.5 397B A17B	88	88	88	88	88	88	88	87.5%
Grok 4.5 (Reasoning, Low)	88	88	88	88	88	88	88	87.5%
GPT-5.4 (Reasoning, Low)	88	88	88	88	88	88	88	87.5%
Grok 4.20 (Reasoning)	88	88	88	88	88	88	88	87.5%
MoonshotAI: Kimi K2.5	88	88	88	88	88	88	88	87.5%
GPT-5.6 Sol	88	88	88	88	88	88	88	87.5%
GPT-5.1	88	88	88	88	88	88	88	87.5%
MiniMax M3	88	88	88	88	88	88	88	87.5%
Qwen 3.5 122B	88	88	88	88	88	88	88	87.5%
Qwen 3.5 27B	88	88	88	88	88	88	88	87.5%
Gemini 3 Flash (Preview, Reasoning)	88	88	88	88	88	88	88	87.5%
GPT-5.4 Mini (Reasoning)	88	88	88	88	88	88	88	87.5%
Qwen 3.5 Plus (2026-04-20)	88	88	88	88	88	88	88	87.5%
Gemma 4 31B (Reasoning)	88	88	88	88	88	88	88	87.5%
Z.AI GLM 5	88	88	88	88	88	88	88	87.5%
ByteDance Seed 1.6	88	88	88	88	88	88	88	87.5%
GPT-5.5	88	88	88	88	88	88	88	87.5%
Qwen 3.6 Flash	88	88	88	88	88	88	88	87.5%
DeepSeek V4 Pro (Reasoning)	88	88	88	88	88	88	88	87.5%
Gemma 4 26B (Reasoning)	88	88	88	88	88	88	88	87.5%
Gemini 2.5 Pro	88	88	88	88	88	88	88	87.5%
GPT-5.6 Terra	88	88	88	88	88	88	88	87.5%
DeepSeek V4 Flash (Reasoning)	88	88	88	88	88	88	88	87.5%
Z.AI GLM 4.7	88	88	88	88	88	88	88	87.5%
Claude Opus 4	88	88	88	88	88	88	88	87.5%
Aion 2.0	88	88	88	88	88	88	88	87.5%
Gemini 3.1 Flash Lite (Reasoning)	88	88	88	88	88	88	88	87.5%
Gemini 3.5 Flash (Reasoning, Minimal)	88	88	88	88	88	88	88	87.5%
Qwen 3.5 Flash	88	88	88	88	88	88	88	87.5%
Gemini 3 Flash (Preview)	88	88	88	88	88	88	88	87.5%
Gemini 3.1 Flash Lite (Preview)	88	88	88	88	88	88	88	87.5%
Gemini 3.1 Flash Lite	88	88	88	88	88	88	88	87.5%
Z.AI GLM 4.5	88	88	88	88	88	88	88	87.5%
GPT-OSS 120B	88	88	88	88	88	88	88	87.5%
Mistral Large 3	88	88	88	88	88	88	88	87.5%
ByteDance Seed 2.0 Lite	88	88	88	88	88	88	88	87.5%
Gemini 2.5 Flash (Reasoning)	88	88	88	88	88	88	88	87.5%
DeepSeek-V2 Chat	88	88	88	88	88	88	88	87.5%
Aion 3.0 Mini	88	88	88	88	88	88	88	87.5%
Gemini 2.5 Flash Lite (Reasoning)	88	88	88	88	88	88	88	87.5%
DeepSeek V3.1	100	100	100	100	100	88	25	87.5%
Z.AI GLM 4.7 Flash	100	88	88	88	88	88	75	87.5%
Mistral Large 2	88	88	88	88	88	88	88	87.5%
GPT-4.1 Mini	88	88	88	88	88	88	88	87.5%
Grok 4.20	88	88	88	88	88	88	88	87.5%
Hermes 3 405B	88	88	88	88	88	88	88	87.5%
Z.AI GLM 4.5 Air	88	88	88	88	88	88	88	87.5%
DeepSeek V3 (2025-03-24)	100	88	88	88	88	88	75	87.5%
Mistral Small 4 (Reasoning)	100	88	88	88	88	88	75	87.5%
Writer: Palmyra X5	100	88	88	88	88	88	75	87.5%
GPT-4o Mini (temp=1)	88	88	88	88	88	88	88	87.5%
Mistral Small 3.2 24B	88	88	88	88	88	88	88	87.5%
GPT-4o Mini (temp=0)	88	88	88	88	88	88	88	87.5%
Gemma 3 12B	88	88	88	88	88	88	88	87.5%
Qwen3.7 Max	88	88	88	88	88	88	75	85.7%
GPT-5.6 Luna (Reasoning)	88	88	88	88	88	88	75	85.7%
GPT-5.2	88	88	88	88	88	88	75	85.7%
DeepSeek V4 Pro	100	88	88	88	88	75	75	85.7%
Gemma 3 27B	88	88	88	88	88	88	75	85.7%
ByteDance Seed 1.6 Flash	100	88	88	88	88	75	75	85.7%
Ministral 3 14B	88	88	88	88	88	88	75	85.7%
Hermes 3 70B	100	100	88	88	88	75	63	85.7%
Qwen 3.5 35B	88	88	88	88	88	88	63	83.9%
GPT-4.1	88	88	88	88	88	75	75	83.9%
ByteDance Seed 2.0 Mini	88	88	88	88	88	75	75	83.9%
DeepSeek V4 Flash	100	100	100	100	100	88	0	83.9%
Qwen 3 32B	88	88	88	88	88	88	63	83.9%
Mistral Small 4	88	88	88	88	88	75	75	83.9%
Cydonia 24B V4.1	100	88	88	88	88	75	63	83.9%
Grok 4.3 (Reasoning)	88	88	88	88	88	88	50	82.1%
GPT-5.4	88	88	88	88	75	75	75	82.1%
Qwen3 235B A22B Instruct 2507	88	88	88	88	88	75	63	82.1%
Arcee AI: Trinity Mini	88	88	88	88	75	75	75	82.1%
Qwen 3.5 9B	88	88	88	88	88	75	50	80.4%
Inception Mercury 2	88	88	88	88	88	63	63	80.4%
Qwen 3.6 35B	88	88	88	88	88	50	50	76.8%
GPT-5.6 Luna	88	75	75	75	75	75	75	76.8%
Grok 4.3	100	100	100	88	88	63	0	76.8%
Llama 3.1 70B	88	88	88	75	75	75	50	76.8%
Mistral Medium 3.1	88	75	75	75	75	75	75	76.8%
Gemma 3 4B	88	88	75	75	75	75	63	76.8%
GPT-4o, Aug. 6th (temp=0)	88	88	88	88	88	88	0	75.0%
o4 Mini High	88	88	88	88	75	63	25	73.2%
WizardLM 2 8x22b	100	100	88	88	88	38	13	73.2%
GPT-4o, Aug. 6th (temp=1)	88	88	88	88	88	63	0	71.4%
o4 Mini	88	88	88	88	75	25	25	67.9%
GPT-5.4 Nano (Reasoning)	88	75	63	63	63	63	63	67.9%
GPT-5.4 Nano	75	75	75	63	63	63	63	67.9%
Ministral 3 8B	75	75	75	75	63	63	50	67.9%
GPT-5 Nano	88	88	75	75	50	50	38	66.1%
Ministral 8B	75	75	63	63	63	63	63	66.1%
Qwen 3.6 27B	100	88	88	88	88	0	0	64.3%
GPT-5.4 Nano (Reasoning, Low)	75	75	75	63	63	50	50	64.3%
GPT-4.1 Nano	100	88	75	63	50	38	0	58.9%
Nemotron 3 Super	88	88	50	50	50	50	0	53.6%
Ministral 3B	63	63	50	50	50	38	38	50.0%
Nemotron 3 Nano	88	75	50	38	25	25	13	44.6%
Ministral 3 3B	63	63	50	25	25	25	13	37.5%
Mistral NeMO	38	25	25	13	13	0	0	16.1%
Cohere Command R+ (Aug. 2024)	50	13	13	0	0	0	0	10.7%

Specific Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	88	98.2%
Z.AI GLM 5.1	100	100	100	100	100	100	88	98.2%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	88	98.2%
MiniMax M3	100	100	100	100	100	100	88	98.2%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	88	98.2%
Gemini 2.5 Pro	100	100	100	100	100	100	88	98.2%
GPT-5.6 Terra	100	100	100	100	100	100	88	98.2%
o4 Mini	100	100	100	100	100	100	88	98.2%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	88	98.2%
DeepSeek V3.2	100	100	100	100	100	100	88	98.2%
Grok 4.3	100	100	100	100	100	100	88	98.2%
Gemma 3 12B	100	100	100	100	100	100	88	98.2%
Qwen 2.5 72B	100	100	100	100	100	100	88	98.2%
Qwen3.6 Max Preview	100	100	100	100	100	88	88	96.4%
GPT-5	100	100	100	100	100	88	88	96.4%
GPT-5.1	100	100	100	100	100	88	88	96.4%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	88	88	96.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	88	88	96.4%
Z.AI GLM 4.7	100	100	100	100	100	88	88	96.4%
MiniMax M2.5	100	100	100	100	100	88	88	96.4%
Z.AI GLM 4.5	100	100	100	100	100	88	88	96.4%
Xiaomi MIMO v2.5	100	100	100	100	100	88	88	96.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	88	88	96.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	88	88	88	94.6%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	63	94.6%
Qwen 3.5 27B	100	100	100	100	88	88	88	94.6%
Z.AI GLM 5	100	100	100	100	88	88	88	94.6%
o4 Mini High	100	100	100	100	88	88	88	94.6%
Z.AI GLM 4.6	100	100	100	100	88	88	88	94.6%
Claude Opus 4	100	100	100	100	88	88	88	94.6%
Qwen 3.5 35B	100	100	100	100	88	88	88	94.6%
ByteDance Seed 2.0 Mini	100	100	100	100	88	88	88	94.6%
Z.AI GLM 4.5 Air	100	100	100	100	88	88	88	94.6%
Qwen 3.5 397B A17B	100	100	100	88	88	88	88	92.9%
GPT-5.6 Sol	100	100	100	100	88	88	75	92.9%
Qwen 3.5 122B	100	100	100	88	88	88	88	92.9%
Qwen 3.6 35B	100	100	100	88	88	88	88	92.9%
Gemini 2.5 Flash (Reasoning)	100	100	100	88	88	88	88	92.9%
DeepSeek V3 (2024-12-26)	100	100	100	88	88	88	88	92.9%
GPT-5.4 Nano	100	100	100	88	88	88	88	92.9%
Ministral 3B	100	100	100	100	100	88	63	92.9%
Qwen3.7 Max	100	100	88	88	88	88	88	91.1%
Gemini 3.5 Flash (Reasoning)	100	100	88	88	88	88	88	91.1%
GPT-5.4 Mini (Reasoning)	100	100	88	88	88	88	88	91.1%
GPT-5.2	100	100	88	88	88	88	88	91.1%
Qwen 3.6 Flash	100	100	88	88	88	88	88	91.1%
Gemini 3.1 Flash Lite (Preview)	100	100	88	88	88	88	88	91.1%
Gemini 3.1 Flash Lite	100	100	88	88	88	88	88	91.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	88	88	88	88	88	91.1%
GPT-5 Nano	100	100	100	100	88	88	63	91.1%
GPT-5.4 Nano (Reasoning)	100	100	88	88	88	88	88	91.1%
Qwen 3 32B	100	100	100	100	100	100	38	91.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	88	88	88	88	88	91.1%
WizardLM 2 8x22b	100	100	88	88	88	88	88	91.1%
GPT-4.1 Nano	100	100	88	88	88	88	88	91.1%
Arcee AI: Trinity Mini	100	100	88	88	88	88	88	91.1%
Mistral NeMO	100	100	88	88	88	88	88	91.1%
Gemini 3 Flash (Preview, Reasoning)	100	88	88	88	88	88	88	89.3%
Qwen 3.5 Plus (2026-04-20)	100	88	88	88	88	88	88	89.3%
Gemini 3.1 Flash Lite (Reasoning)	100	88	88	88	88	88	88	89.3%
DeepSeek V3.1	100	100	100	100	100	88	38	89.3%
GPT-4.1 Mini	100	88	88	88	88	88	88	89.3%
ByteDance Seed 1.6	88	88	88	88	88	88	88	87.5%
Qwen 3.5 Flash	100	100	100	100	88	88	38	87.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	88	75	75	75	87.5%
Hermes 3 405B	88	88	88	88	88	88	88	87.5%
GPT-4o Mini (temp=1)	88	88	88	88	88	88	88	87.5%
GPT-4o Mini (temp=0)	88	88	88	88	88	88	88	87.5%
Mistral Medium 3.1	88	88	88	88	88	88	88	87.5%
Gemma 3 27B	88	88	88	88	88	88	88	87.5%
Aion 3.0 Mini	100	100	100	100	100	100	0	85.7%
GPT-5.4 Mini	88	88	88	88	88	88	75	85.7%
Mistral Small 4 (Reasoning)	100	100	100	100	88	88	25	85.7%
Mistral Small 4	88	88	88	88	88	88	75	85.7%
Aion 2.0	100	100	100	100	100	88	0	83.9%
ByteDance Seed 2.0 Lite	100	88	88	88	88	88	50	83.9%
Ministral 3 3B	100	100	100	100	63	63	63	83.9%
GPT-OSS 120B	100	100	100	100	100	38	38	82.1%
Z.AI GLM 4.7 Flash	100	100	100	100	88	50	38	82.1%
Nemotron 3 Nano	100	100	100	88	88	63	38	82.1%
MiniMax M2.7	100	100	100	100	88	50	13	78.6%
Llama 3.1 70B	88	88	75	75	75	75	75	78.6%
GPT-4.1	88	75	75	75	75	75	75	76.8%
DeepSeek V3 (2025-03-24)	100	100	88	88	88	75	0	76.8%
Qwen 3.5 9B	100	100	100	100	38	38	38	73.2%
GPT-4o, Aug. 6th (temp=1)	100	100	75	75	75	75	0	71.4%
Nemotron 3 Super	100	100	88	75	63	38	25	69.6%
DeepSeek-V2 Chat	100	88	88	88	88	0	0	64.3%
Cohere Command R+ (Aug. 2024)	88	75	63	63	63	50	38	62.5%
Inception Mercury 2	100	100	38	38	38	38	38	55.4%
Hermes 3 70B	100	100	0	0	0	0	0	28.6%

Non-passive narration preserved

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Passive voice → active voice

Specific Prompt

Passive voice → active voice