Passive → active voice transformations

Test: Text Replacement

Avg. Score

71.2%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.5 Flash (Reasoning, Minimal)	94.5%	$0.0081	3.5s	90%
2	Qwen 3.5 Plus (2026-02-15)	90.7%	$0.0022	10.2s	89%
3	Claude Sonnet 4	95.6%	$0.015	9.4s	91%
4	Claude Sonnet 4.5	95.9%	$0.015	7.2s	88%
5	Gemini 2.5 Flash	90.9%	$0.0021	3.0s	84%
6	Gemini 2.5 Flash (Reasoning)	94.8%	$0.014	22.4s	89%
7	Grok 4.1 Fast	93.1%	$0.0017	22.5s	83%
8	Gemini 2.5 Flash Lite (Reasoning)	92.9%	$0.0033	32.9s	85%
9	DeepSeek V4 Pro	91.2%	$0.0020	22.3s	83%
10	Gemma 4 31B	92.0%	$0.0004	44.2s	85%
11	ByteDance Seed 1.6	95.9%	$0.0077	1.4m	94%
12	GPT-5.4 (Reasoning, Low)	94.2%	$0.020	14.1s	86%
13	DeepSeek V3.2	92.3%	$0.0007	53.2s	85%
14	Gemini 3.1 Flash Lite	88.5%	$0.0013	2.4s	78%
15	Gemini 3 Flash (Preview)	89.0%	$0.0027	4.3s	79%
16	Grok 4.20 (Beta)	86.5%	$0.0047	2.5s	79%
17	GPT-5.5	92.3%	$0.026	6.8s	86%
18	GPT-5.5 (Reasoning, Low)	94.0%	$0.032	11.5s	88%
19	Claude Opus 4.6	90.7%	$0.026	8.7s	87%
20	GPT-5.4	89.0%	$0.013	8.3s	82%
21	Grok 4.20 (Reasoning)	95.6%	$0.018	1.1m	89%
22	GPT-5.1	95.3%	$0.029	34.1s	89%
23	Z.AI GLM 4.5	91.2%	$0.0063	52.4s	83%
24	Claude 3.7 Sonnet	87.9%	$0.015	8.5s	82%
25	GPT-5.2	93.7%	$0.025	22.2s	84%
26	Z.AI GLM 5 Turbo	93.7%	$0.022	50.4s	88%
27	Gemini 3 Flash (Preview, Reasoning)	92.9%	$0.022	36.9s	85%
28	Grok 4.20 (Beta, Reasoning)	95.1%	$0.040	26.6s	89%
29	Claude Opus 4.5	86.8%	$0.026	8.1s	85%
30	Gemini 3.1 Flash Lite (Reasoning)	86.0%	$0.0013	8.2s	71%
31	Mistral Large 3	82.7%	$0.0016	10.5s	74%
32	Z.AI GLM 4.6	90.4%	$0.0078	57.8s	79%
33	Gemini 3.1 Flash Lite (Preview)	83.2%	$0.0013	2.4s	70%
34	GPT-5 Mini	88.5%	$0.0082	50.8s	79%
35	Gemma 4 26B	83.2%	$0.0003	27.1s	75%
36	Mistral Large	82.7%	$0.0062	10.4s	74%
37	Mistral Large 2	83.0%	$0.0062	10.5s	74%
38	Grok 4.3 (Reasoning)	93.7%	$0.019	1.5m	87%
39	Grok 4	94.5%	$0.039	47.6s	87%
40	Grok 4.20	81.3%	$0.0029	6.5s	70%
41	DeepSeek V3 (2024-12-26)	81.0%	$0.0012	23.1s	73%
42	GPT-5.4 Mini (Reasoning)	87.6%	$0.018	37.8s	77%
43	GPT-5.4 (Reasoning)	96.4%	$0.052	47.2s	90%
44	Claude Haiku 4.5	81.9%	$0.0051	5.8s	69%
45	Claude 3.5 Sonnet	86.3%	$0.030	13.8s	78%
46	GPT-5.5 (Reasoning)	96.2%	$0.068	25.1s	91%
47	DeepSeek V4 Flash (Reasoning)	90.4%	$0.0013	2.3m	82%
48	Qwen 3.6 Flash	85.7%	$0.014	45.2s	75%
49	GPT-5	96.4%	$0.050	1.3m	91%
50	GPT-4.1 Mini	79.7%	$0.0015	10.3s	66%
51	Xiaomi MIMO v2.5 Pro	84.9%	$0.0073	32.3s	68%
52	Stealth: Healer Alpha	81.6%	$0.0000	24.2s	65%
53	Claude Opus 4.7	87.1%	$0.036	7.3s	76%
54	Gemini 3 Pro (Preview)	96.7%	$0.064	43.7s	90%
55	Qwen 3.5 Plus (2026-04-20)	93.1%	$0.020	2.1m	84%
56	Gemini 2.5 Pro	94.2%	$0.056	41.9s	85%
57	Grok 4 Fast	86.8%	$0.0014	11.7s	55%
58	GPT-5.4 Mini (Reasoning, Low)	75.8%	$0.0052	7.9s	67%
59	Gemini 3.5 Flash (Reasoning)	97.3%	$0.077	33.0s	91%
60	Xiaomi MIMO v2.5	77.7%	$0.0040	15.0s	61%
61	Qwen 3.5 397B A17B	96.2%	$0.011	3.7m	89%
62	MiniMax M2.5	82.4%	$0.0021	1.3m	67%
63	GPT-5.4 Mini	70.6%	$0.0040	3.2s	64%
64	DeepSeek V4 Pro (Reasoning)	94.5%	$0.013	3.5m	88%
65	Gemma 4 26B (Reasoning)	92.0%	$0.0042	3.4m	84%
66	Stealth: Hunter Alpha	83.2%	$0.0000	29.8s	54%
67	Claude Sonnet 4.6	79.4%	$0.015	7.5s	61%
68	Qwen 3.6 35B	81.3%	$0.011	1.0m	66%
69	Z.AI GLM 5	94.8%	$0.023	3.2m	87%
70	Z.AI GLM 4.7	92.3%	$0.017	3.0m	83%
71	DeepSeek V4 Flash	80.5%	$0.0003	10.6s	50%
72	Qwen 3.5 27B	95.6%	$0.037	2.9m	88%
73	Mistral Small 4	67.9%	$0.0006	4.5s	57%
74	Claude Opus 4.7 (Reasoning)	87.1%	$0.064	13.9s	75%
75	Llama 3.1 70B	70.1%	$0.0007	18.9s	55%
76	Qwen 3.5 35B	84.6%	$0.025	1.3m	66%
77	Mistral Medium 3.1	73.4%	$0.0018	6.3s	48%
78	Z.AI GLM 5.1	96.2%	$0.044	3.4m	91%
79	Gemini 2.5 Flash Lite	70.3%	$0.0004	2.5s	47%
80	ByteDance Seed 1.6 Flash	68.4%	$0.0012	21.9s	52%
81	GPT-4o, Aug. 6th (temp=0)	77.2%	$0.0091	3.9s	43%
82	ByteDance Seed 2.0 Lite	77.7%	$0.0085	1.6m	60%
83	Aion 2.0	87.6%	$0.0069	1.5m	47%
84	Qwen3 235B A22B Instruct 2507	63.7%	$0.0004	19.2s	52%
85	GPT-4o, May 13th (temp=0)	76.1%	$0.015	4.6s	43%
86	GPT-4.1	73.6%	$0.0076	6.4s	41%
87	Qwen3.7 Max	92.3%	$0.072	2.1m	84%
88	DeepSeek V3.1	75.3%	$0.0009	35.4s	41%
89	Arcee AI: Trinity Large (Preview)	65.4%	$0.0000	31.5s	48%
90	Writer: Palmyra X5	64.3%	$0.0050	13.7s	47%
91	Gemma 4 31B (Reasoning)	95.6%	$0.0027	6.3m	90%
92	LFM2 24B	55.8%	$0.0001	15.5s	50%
93	Grok 4.3	67.0%	$0.0030	6.0s	36%
94	Qwen 3.5 Flash	79.1%	$0.0050	1.4m	42%
95	DeepSeek-V2 Chat	68.7%	$0.0011	21.5s	34%
96	Claude Opus 4.6 (Reasoning)	96.2%	$0.129	1.1m	88%
97	Mistral Small 4 (Reasoning)	64.8%	$0.0036	34.3s	40%
98	GPT-OSS 120B	67.6%	$0.0010	46.5s	35%
99	Qwen3.6 Max Preview	94.2%	$0.066	4.0m	86%
100	Claude Opus 4	87.1%	$0.077	13.4s	51%
101	Mistral Small Creative	55.2%	$0.0003	4.1s	37%
102	DeepSeek V3 (2025-03-24)	66.2%	$0.0008	42.6s	33%
103	Z.AI GLM 4.5 Air	73.9%	$0.0059	1.5m	38%
104	Claude Sonnet 4.6 (Reasoning)	92.0%	$0.123	1.5m	85%
105	Mistral Small 3.2 24B	54.4%	$0.0003	6.9s	33%
106	Qwen 3 32B	59.1%	$0.0010	43.4s	35%
107	Qwen 3.5 122B	84.1%	$0.041	1.9m	47%
108	Qwen 2.5 72B	45.1%	$0.0004	16.3s	39%
109	GPT-4o, May 13th (temp=1)	60.2%	$0.015	4.7s	29%
110	MoonshotAI: Kimi K2.5	93.1%	$0.029	6.5m	84%
111	Llama 3.1 Nemotron 70B	48.9%	$0.0021	20.8s	33%
112	Ministral 3 14B	45.6%	$0.0003	5.7s	30%
113	Qwen 3.6 27B	79.4%	$0.027	1.9m	35%
114	WizardLM 2 8x22b	67.0%	$0.0014	1.5m	27%
115	o4 Mini High	75.3%	$0.056	1.4m	46%
116	GPT-4o Mini (temp=1)	42.6%	$0.0006	12.4s	26%
117	ByteDance Seed 2.0 Mini	75.8%	$0.0036	4.0m	43%
118	MiniMax M2.7	69.2%	$0.014	3.1m	40%
119	GPT-4o, Aug. 6th (temp=1)	45.9%	$0.0086	4.1s	20%
120	Nemotron 3 Super	62.9%	$0.0000	2.5m	26%
121	Gemini 3.1 Pro (Preview)	94.2%	$0.168	2.6m	91%
122	o4 Mini	58.2%	$0.026	39.2s	21%
123	Inception Mercury 2	42.6%	$0.0027	3.7s	11%
124	GPT-4o Mini (temp=0)	36.0%	$0.0006	13.8s	12%
125	Gemma 3 12B	38.5%	$0.0001	12.8s	8%
126	Z.AI GLM 4.7 Flash	47.3%	$0.0034	2.4m	26%
127	Claude 3 Haiku	36.0%	$0.0013	6.8s	7%
128	MoonshotAI: Kimi K2.6	93.1%	$0.072	7.6m	82%
129	Cydonia 24B V4.1	34.3%	$0.0006	18.0s	8%
130	Hermes 3 405B	42.6%	$0.0017	31.7s	1%
131	Skyfall 36B V2	23.6%	$0.0010	13.0s	10%
132	GPT-5.4 Nano (Reasoning, Low)	28.0%	$0.0014	7.4s	3%
133	Gemma 3 27B	30.2%	$0.0003	24.0s	2%
134	Inception Mercury	22.3%	$0.0005	3.8s	5%
135	Ministral 3 8B	18.4%	$0.0002	4.2s	8%
136	GPT-5.4 Nano (Reasoning)	22.8%	$0.0034	22.3s	6%
137	Qwen 3.5 9B	47.0%	$0.0020	2.9m	12%
138	Ministral 8B	12.9%	$0.0002	3.9s	4%
139	GPT-4.1 Nano	10.4%	$0.0004	5.0s	4%
140	GPT-5.4 Nano	11.0%	$0.0011	3.8s	4%
141	Arcee AI: Trinity Mini	13.2%	$0.0003	11.2s	1%
142	Nemotron 3 Nano	40.7%	$0.0034	4.0m	19%
143	GPT-5 Nano	23.4%	$0.0052	1.9m	10%
144	Llama 3.1 8B	6.6%	$0.0001	15.3s	3%
145	Gemma 3 4B	7.7%	$0.0001	10.1s	0%
146	Mistral NeMO	5.5%	$0.0002	3.1s	0%
147	Ministral 3B	2.7%	$0.0001	2.9s	0%
148	Cohere Command R+ (Aug. 2024)	6.9%	$0.0092	18.4s	3%
149	Ministral 3 3B	0.8%	$0.0002	2.9s	0%
150	Rocinante 12B	0.5%	$0.0005	10.0s	0%
151	Hermes 3 70B	21.4%	$0.0022	2.8m	3%
71.17%

Individual Scenarios

Generic Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5	100	100	100	100	96	96	92	97.8%
Grok 4.20 (Reasoning)	100	100	100	100	96	96	92	97.8%
Claude Sonnet 4.5	100	100	100	100	96	96	92	97.8%
GPT-5.4 (Reasoning)	100	100	100	96	96	96	92	97.3%
GPT-5.1	100	100	100	96	96	96	92	97.3%
Z.AI GLM 5.1	100	100	96	96	96	96	88	96.2%
Qwen 3.5 27B	100	100	96	96	96	92	92	96.2%
Grok 4.1 Fast	100	100	100	96	92	92	92	96.2%
Gemini 3.5 Flash (Reasoning)	100	100	100	96	96	92	88	96.2%
GPT-5.5 (Reasoning)	100	100	96	96	96	92	92	96.2%
Qwen 3.5 397B A17B	100	100	100	96	96	92	88	96.2%
Grok 4.20 (Beta, Reasoning)	100	100	100	96	96	92	88	96.2%
GPT-5.4 (Reasoning, Low)	100	100	96	96	92	92	92	95.6%
ByteDance Seed 1.6	96	96	96	96	96	96	92	95.6%
Gemini 2.5 Flash (Reasoning)	100	100	96	96	96	96	85	95.6%
Z.AI GLM 5 Turbo	100	96	96	96	96	92	88	95.1%
MoonshotAI: Kimi K2.5	100	96	96	96	96	92	88	95.1%
GPT-5.5 (Reasoning, Low)	100	96	96	96	92	92	92	95.1%
Gemma 4 31B (Reasoning)	100	100	96	96	92	92	88	95.1%
Aion 2.0	100	100	96	92	92	92	92	95.1%
Grok 4	100	100	100	96	96	92	81	95.1%
Qwen 3.5 Plus (2026-04-20)	100	100	96	96	92	92	88	95.1%
Grok 4.3 (Reasoning)	100	96	96	96	96	96	81	94.5%
Gemini 3 Pro (Preview)	100	96	96	92	92	92	92	94.5%
Gemini 2.5 Flash Lite (Reasoning)	100	96	96	96	92	92	88	94.5%
Claude Sonnet 4	96	96	96	92	92	92	92	94.0%
Claude Opus 4.6 (Reasoning)	100	96	96	92	92	88	88	93.4%
DeepSeek V4 Pro (Reasoning)	96	96	96	92	92	92	88	93.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	96	92	92	88	88	93.4%
Gemini 2.5 Flash	96	96	96	92	92	92	88	93.4%
Z.AI GLM 5	100	100	96	92	92	88	85	93.4%
Qwen3.6 Max Preview	100	100	92	92	88	88	88	92.9%
Gemini 3.1 Pro (Preview)	96	96	92	92	92	88	88	92.3%
GPT-5.5	96	96	92	92	92	92	85	92.3%
Z.AI GLM 4.7	96	96	92	92	88	88	88	91.8%
Z.AI GLM 4.5	96	96	96	96	88	85	85	91.8%
DeepSeek V4 Flash (Reasoning)	96	96	92	92	88	88	85	91.2%
GPT-5.4	96	92	92	92	92	88	85	91.2%
MoonshotAI: Kimi K2.6	100	96	92	88	88	88	85	91.2%
GPT-5.2	100	96	96	92	88	88	77	91.2%
Gemini 3 Flash (Preview, Reasoning)	96	92	92	92	92	85	85	90.7%
Gemini 2.5 Pro	100	96	92	88	88	85	85	90.7%
Gemma 4 31B	96	92	92	92	92	88	81	90.7%
Qwen 3.5 Plus (2026-02-15)	92	92	92	92	88	88	88	90.7%
DeepSeek V4 Pro	96	92	92	92	92	85	85	90.7%
Claude Sonnet 4.6 (Reasoning)	96	92	92	92	88	88	85	90.7%
Gemma 4 26B (Reasoning)	96	92	92	92	88	88	85	90.7%
Z.AI GLM 4.6	96	96	92	88	88	88	81	90.1%
DeepSeek V3.2	96	96	92	92	88	85	81	90.1%
Qwen3.7 Max	92	92	92	92	88	85	85	89.6%
Claude Opus 4.6	92	92	92	88	88	85	85	89.0%
GPT-5 Mini	92	92	88	88	88	88	77	87.9%
Claude 3.7 Sonnet	92	88	88	88	88	88	77	87.4%
Claude Opus 4.5	88	88	88	88	88	85	85	87.4%
Qwen 3.5 35B	100	96	92	92	88	85	46	85.7%
Gemma 4 26B	92	88	85	85	85	81	77	84.6%
Gemini 3 Flash (Preview)	88	88	88	85	85	81	77	84.6%
Grok 4.20 (Beta)	96	88	88	85	81	81	73	84.6%
GPT-5.4 Mini (Reasoning)	88	88	88	85	81	77	77	83.5%
Claude Opus 4	100	100	96	96	92	92	8	83.5%
Claude Opus 4.7 (Reasoning)	92	85	85	85	81	77	73	82.4%
Qwen 3.6 Flash	92	88	85	81	81	77	73	82.4%
Gemini 3.1 Flash Lite	92	85	81	81	81	77	77	81.9%
Grok 4 Fast	96	92	92	92	92	88	15	81.3%
MiniMax M2.5	96	88	81	81	77	77	69	81.3%
Claude Haiku 4.5	96	81	81	81	77	77	73	80.8%
Claude Opus 4.7	92	88	85	85	77	73	65	80.8%
Xiaomi MIMO v2.5	92	92	85	85	77	69	62	80.2%
Claude 3.5 Sonnet	92	81	81	77	77	77	73	79.7%
Xiaomi MIMO v2.5 Pro	88	85	85	85	81	69	62	79.1%
Gemini 3.1 Flash Lite (Preview)	85	81	81	81	77	77	73	79.1%
DeepSeek-V2 Chat	85	81	81	77	77	77	77	79.1%
Gemini 3.1 Flash Lite (Reasoning)	88	85	85	77	73	73	69	78.6%
Qwen 3.5 Flash	96	92	92	88	88	85	8	78.6%
Mistral Large	85	81	77	77	77	77	77	78.6%
Qwen 3.6 35B	92	92	85	77	73	73	54	78.0%
Mistral Large 2	81	81	77	77	77	77	77	78.0%
Stealth: Hunter Alpha	96	92	88	88	81	81	15	77.5%
Mistral Large 3	81	77	77	77	77	77	77	77.5%
DeepSeek V3 (2024-12-26)	81	77	77	77	77	77	73	76.9%
Qwen 3.5 122B	100	100	96	92	92	35	15	75.8%
Stealth: Healer Alpha	92	85	77	69	69	69	65	75.3%
ByteDance Seed 2.0 Lite	85	85	81	77	69	69	62	75.3%
Grok 4.20	85	81	77	73	73	69	69	75.3%
ByteDance Seed 1.6 Flash	81	81	81	81	73	65	62	74.7%
GPT-4.1 Mini	81	81	77	77	77	69	58	74.2%
GPT-5.4 Mini	77	77	77	73	73	69	69	73.6%
DeepSeek V3.1	88	88	85	85	81	77	12	73.6%
GPT-5.4 Mini (Reasoning, Low)	81	77	73	73	69	69	62	72.0%
DeepSeek V4 Flash	88	85	85	85	85	73	4	72.0%
MiniMax M2.7	92	81	69	69	69	65	54	71.4%
GPT-OSS 120B	85	81	81	77	73	73	15	69.2%
Mistral Small 4 (Reasoning)	85	77	77	77	77	73	15	68.7%
Qwen 3.6 27B	96	96	96	92	88	4	4	68.1%
Claude Sonnet 4.6	73	69	69	65	65	65	65	67.6%
Z.AI GLM 4.5 Air	96	96	92	88	81	12	8	67.6%
Mistral Small 4	73	69	69	69	65	62	46	64.8%
Llama 3.1 70B	77	73	73	69	65	50	46	64.8%
GPT-4o, May 13th (temp=0)	85	77	73	73	73	69	0	64.3%
ByteDance Seed 2.0 Mini	88	85	85	77	77	27	8	63.7%
DeepSeek V3 (2025-03-24)	77	77	73	73	73	65	8	63.7%
GPT-4o, Aug. 6th (temp=0)	81	77	77	77	73	58	0	63.2%
GPT-4.1	88	85	81	81	77	15	12	62.6%
o4 Mini High	85	85	81	73	50	50	12	62.1%
Gemini 2.5 Flash Lite	81	77	77	73	62	54	8	61.5%
Nemotron 3 Super	92	88	73	69	42	42	4	58.8%
Grok 4.3	92	85	81	81	50	8	4	57.1%
Mistral Medium 3.1	69	69	62	50	50	46	46	56.0%
Qwen3 235B A22B Instruct 2507	65	58	58	54	54	50	46	54.9%
LFM2 24B	58	54	54	54	54	54	50	53.8%
Writer: Palmyra X5	62	62	58	54	50	50	31	52.2%
Arcee AI: Trinity Large (Preview)	65	62	58	50	42	42	42	51.6%
Qwen 3 32B	69	65	62	54	54	46	8	51.1%
Inception Mercury 2	81	73	73	65	46	4	4	49.5%
GPT-4o, Aug. 6th (temp=1)	77	65	65	54	54	12	0	46.7%
WizardLM 2 8x22b	81	81	77	54	23	0	0	45.1%
Qwen 2.5 72B	50	50	46	42	38	38	35	42.9%
Qwen 3.5 9B	92	81	62	23	8	8	0	39.0%
GPT-4o, May 13th (temp=1)	77	65	54	54	8	8	4	38.5%
Mistral Small 3.2 24B	42	42	42	42	38	38	23	38.5%
Mistral Small Creative	50	46	38	38	35	35	27	38.5%
Llama 3.1 Nemotron 70B	54	42	42	35	31	31	31	37.9%
Z.AI GLM 4.7 Flash	73	58	46	31	15	8	0	33.0%
GPT-4o Mini (temp=1)	65	65	62	12	4	4	4	30.8%
Ministral 3 8B	42	38	35	31	31	19	15	30.2%
Ministral 3 14B	54	50	50	12	12	12	8	28.0%
Nemotron 3 Nano	73	46	23	15	12	8	8	26.4%
o4 Mini	65	35	27	15	12	12	8	24.7%
Hermes 3 70B	65	50	15	12	8	8	0	22.5%
Ministral 8B	35	27	27	23	23	19	0	22.0%
GPT-5.4 Nano (Reasoning, Low)	77	50	4	4	4	0	0	19.8%
Gemma 3 4B	31	27	27	15	4	4	0	15.4%
Cydonia 24B V4.1	35	8	8	8	8	8	4	11.0%
GPT-4.1 Nano	23	19	19	12	4	0	0	11.0%
Skyfall 36B V2	35	19	8	4	4	0	0	9.9%
GPT-5 Nano	15	12	8	8	8	8	4	8.8%
GPT-5.4 Nano (Reasoning)	12	12	8	8	8	4	4	7.7%
Gemma 3 27B	8	8	8	8	8	8	8	7.7%
Inception Mercury	8	8	8	8	8	4	0	6.0%
GPT-5.4 Nano	12	8	4	4	4	4	4	5.5%
Ministral 3B	23	4	4	4	0	0	0	4.9%
Hermes 3 405B	8	8	4	4	4	4	0	4.4%
Llama 3.1 8B	15	4	4	4	0	0	0	3.8%
GPT-4o Mini (temp=0)	4	4	4	4	4	0	0	2.7%
Arcee AI: Trinity Mini	15	4	0	0	0	0	0	2.7%
Cohere Command R+ (Aug. 2024)	4	4	4	4	0	0	0	2.2%
Ministral 3 3B	4	4	4	0	0	0	0	1.6%
Mistral NeMO	8	4	0	0	0	0	0	1.6%
Rocinante 12B	4	0	0	0	0	0	0	0.5%
Gemma 3 12B	0	0	0	0	0	0	0	0.0%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%

Specific Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	96	96	98.9%
Gemini 3 Pro (Preview)	100	100	100	100	100	96	96	98.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	96	96	96	98.4%
Gemini 2.5 Pro	100	100	100	100	96	96	92	97.8%
Claude Sonnet 4	100	100	100	96	96	96	92	97.3%
Gemma 4 31B (Reasoning)	100	96	96	96	96	96	92	96.2%
Z.AI GLM 5	100	100	96	96	96	92	92	96.2%
GPT-5.2	100	100	96	96	96	96	88	96.2%
Gemini 3.1 Pro (Preview)	96	96	96	96	96	96	96	96.2%
Z.AI GLM 5.1	100	96	96	96	96	96	92	96.2%
GPT-5.5 (Reasoning)	100	96	96	96	96	96	92	96.2%
Qwen 3.5 397B A17B	100	100	96	96	96	92	92	96.2%
ByteDance Seed 1.6	96	96	96	96	96	96	96	96.2%
Qwen3.6 Max Preview	100	100	96	96	96	92	88	95.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	96	96	88	88	95.6%
GPT-5.4 (Reasoning)	100	100	100	92	92	92	92	95.6%
Gemini 3.5 Flash (Reasoning, Minimal)	96	96	96	96	96	96	92	95.6%
Qwen3.7 Max	100	96	96	96	96	92	88	95.1%
GPT-5	96	96	96	96	96	92	92	95.1%
Qwen 3.5 27B	100	100	96	96	96	92	85	95.1%
Gemini 3 Flash (Preview, Reasoning)	96	96	96	96	96	92	92	95.1%
Gemini 3.1 Flash Lite	96	96	96	96	96	92	92	95.1%
MoonshotAI: Kimi K2.6	100	100	100	100	96	88	81	95.1%
DeepSeek V3.2	96	96	96	96	96	92	88	94.5%
Grok 4.20 (Beta, Reasoning)	96	96	96	96	92	92	88	94.0%
Claude Sonnet 4.5	100	96	96	96	92	92	85	94.0%
Gemini 2.5 Flash (Reasoning)	96	96	96	92	92	92	92	94.0%
Grok 4	96	96	96	96	92	92	88	94.0%
GPT-5.1	100	96	96	92	92	88	88	93.4%
Gemma 4 26B (Reasoning)	96	96	96	96	96	88	85	93.4%
Grok 4.20 (Reasoning)	96	96	96	92	92	92	88	93.4%
Claude Opus 4.7	96	96	92	92	92	92	92	93.4%
Gemma 4 31B	96	96	92	92	92	92	92	93.4%
Gemini 3.1 Flash Lite (Reasoning)	96	96	96	96	92	92	85	93.4%
Gemini 3 Flash (Preview)	96	96	96	92	92	92	88	93.4%
Claude Sonnet 4.6 (Reasoning)	100	96	96	92	92	88	88	93.4%
GPT-5.4 (Reasoning, Low)	96	96	92	92	92	92	88	92.9%
Claude 3.5 Sonnet	96	92	92	92	92	92	92	92.9%
Grok 4.3 (Reasoning)	96	96	96	92	92	88	88	92.9%
GPT-5.5 (Reasoning, Low)	96	96	96	92	92	88	88	92.9%
Z.AI GLM 4.7	100	96	96	96	92	88	81	92.9%
Claude Opus 4.6	92	92	92	92	92	92	92	92.3%
GPT-5.5	96	96	92	92	92	88	88	92.3%
Grok 4 Fast	96	96	92	92	92	88	88	92.3%
Z.AI GLM 5 Turbo	96	96	92	92	92	88	88	92.3%
Qwen 3.5 122B	96	92	92	92	92	92	88	92.3%
Claude Opus 4.7 (Reasoning)	96	96	92	92	92	88	85	91.8%
GPT-5.4 Mini (Reasoning)	96	96	96	92	92	85	85	91.8%
o4 Mini	96	96	92	92	92	88	85	91.8%
DeepSeek V4 Pro	100	96	96	92	88	85	85	91.8%
Qwen 3.5 Plus (2026-04-20)	96	96	92	92	88	88	85	91.2%
Claude Sonnet 4.6	92	92	92	92	92	88	88	91.2%
MoonshotAI: Kimi K2.5	100	96	96	92	92	88	73	91.2%
Gemini 2.5 Flash Lite (Reasoning)	96	96	92	92	88	88	85	91.2%
GPT-4o, Aug. 6th (temp=0)	96	96	96	96	85	85	85	91.2%
Qwen 3.6 27B	96	96	96	92	88	85	81	90.7%
Z.AI GLM 4.6	100	96	92	88	88	88	81	90.7%
Claude Opus 4	96	92	92	92	88	88	85	90.7%
Z.AI GLM 4.5	96	92	92	92	92	88	81	90.7%
Qwen 3.5 Plus (2026-02-15)	92	92	92	92	88	88	88	90.7%
Mistral Medium 3.1	92	92	92	92	92	88	85	90.7%
Xiaomi MIMO v2.5 Pro	100	96	96	88	88	85	81	90.7%
Grok 4.1 Fast	96	96	92	92	85	85	85	90.1%
DeepSeek V4 Flash (Reasoning)	96	96	92	92	88	85	77	89.6%
DeepSeek V4 Flash	92	88	88	88	88	88	88	89.0%
GPT-5 Mini	96	92	92	92	88	85	77	89.0%
Stealth: Hunter Alpha	96	92	88	88	88	85	85	89.0%
WizardLM 2 8x22b	100	92	92	88	88	85	77	89.0%
Qwen 3.6 Flash	96	92	92	88	88	85	81	89.0%
o4 Mini High	96	96	92	88	88	85	73	88.5%
Grok 4.20 (Beta)	92	88	88	88	88	88	85	88.5%
Gemini 2.5 Flash	92	92	92	88	88	85	81	88.5%
Claude 3.7 Sonnet	92	88	88	88	88	88	85	88.5%
ByteDance Seed 2.0 Mini	92	88	88	88	88	85	85	87.9%
Mistral Large 3	88	88	88	88	88	88	85	87.9%
Mistral Large 2	92	88	88	88	88	85	85	87.9%
Stealth: Healer Alpha	96	92	92	92	88	81	73	87.9%
GPT-4o, May 13th (temp=0)	96	92	92	92	85	81	77	87.9%
Gemini 3.1 Flash Lite (Preview)	96	96	88	85	85	81	81	87.4%
Grok 4.20	88	88	88	88	88	88	81	87.4%
GPT-5.4	92	88	88	85	85	85	85	86.8%
Mistral Large	92	88	88	88	85	85	81	86.8%
Claude Opus 4.5	88	88	88	85	85	85	85	86.3%
GPT-4.1 Mini	96	92	85	85	81	81	77	85.2%
DeepSeek V3 (2024-12-26)	88	88	85	85	85	85	81	85.2%
Qwen 3.6 35B	92	88	85	85	81	81	81	84.6%
GPT-4.1	96	88	85	85	85	81	73	84.6%
MiniMax M2.5	96	92	88	81	81	73	73	83.5%
Qwen 3.5 35B	88	88	88	85	85	77	73	83.5%
Claude Haiku 4.5	96	92	85	81	77	77	73	83.0%
GPT-4o, May 13th (temp=1)	88	85	85	85	81	81	69	81.9%
Gemma 4 26B	88	88	88	81	81	77	69	81.9%
Hermes 3 405B	100	100	96	92	88	85	4	80.8%
Aion 2.0	96	96	92	92	92	92	0	80.2%
Z.AI GLM 4.5 Air	92	92	92	88	69	65	62	80.2%
ByteDance Seed 2.0 Lite	92	88	88	88	85	85	35	80.2%
Qwen 3.5 Flash	96	92	92	88	85	81	23	79.7%
GPT-5.4 Mini (Reasoning, Low)	85	85	81	81	81	77	69	79.7%
Gemini 2.5 Flash Lite	88	81	81	77	77	77	73	79.1%
Arcee AI: Trinity Large (Preview)	85	85	85	81	73	73	73	79.1%
DeepSeek V3.1	92	92	88	88	85	77	15	76.9%
Grok 4.3	88	85	81	77	73	73	62	76.9%
Gemma 3 12B	81	81	81	81	73	73	69	76.9%
Writer: Palmyra X5	85	81	77	77	73	73	69	76.4%
Llama 3.1 70B	88	85	81	73	69	69	62	75.3%
Xiaomi MIMO v2.5	92	88	81	81	69	62	54	75.3%
Qwen3 235B A22B Instruct 2507	77	77	73	73	73	69	65	72.5%
Mistral Small Creative	77	73	73	73	73	69	65	72.0%
Claude 3 Haiku	81	77	77	73	73	69	54	72.0%
Mistral Small 4	85	81	69	69	65	65	62	70.9%
Mistral Small 3.2 24B	85	85	77	62	62	62	62	70.3%
GPT-4o Mini (temp=0)	73	73	69	69	69	65	65	69.2%
DeepSeek V3 (2025-03-24)	92	88	85	85	85	46	0	68.7%
GPT-5.4 Mini	73	73	69	69	65	62	62	67.6%
MiniMax M2.7	92	88	85	81	81	38	4	67.0%
Nemotron 3 Super	96	96	92	85	69	15	15	67.0%
Qwen 3 32B	88	81	77	77	69	65	12	67.0%
GPT-OSS 120B	92	88	88	85	77	15	15	65.9%
Ministral 3 14B	69	65	65	62	62	62	58	63.2%
ByteDance Seed 1.6 Flash	81	73	65	65	65	42	42	62.1%
Z.AI GLM 4.7 Flash	81	77	73	69	58	58	15	61.5%
Mistral Small 4 (Reasoning)	73	73	73	73	73	54	8	61.0%
Llama 3.1 Nemotron 70B	73	69	65	62	58	50	42	59.9%
DeepSeek-V2 Chat	85	85	81	81	77	0	0	58.2%
Cydonia 24B V4.1	85	77	73	65	65	31	8	57.7%
LFM2 24B	65	62	58	58	54	54	54	57.7%
Qwen 3.5 9B	96	81	81	77	19	15	15	54.9%
Nemotron 3 Nano	73	73	69	62	62	35	12	54.9%
GPT-4o Mini (temp=1)	69	65	65	62	62	58	0	54.4%
Gemma 3 27B	92	88	81	77	15	8	8	52.7%
Qwen 2.5 72B	62	50	46	46	42	42	42	47.3%
GPT-4o, Aug. 6th (temp=1)	88	85	73	65	4	0	0	45.1%
Inception Mercury	73	73	42	42	15	12	12	38.5%
GPT-5 Nano	54	50	46	38	35	27	15	37.9%
GPT-5.4 Nano (Reasoning)	77	62	35	31	31	27	4	37.9%
Skyfall 36B V2	69	46	42	42	38	15	8	37.4%
GPT-5.4 Nano (Reasoning, Low)	81	77	65	12	8	8	4	36.3%
Inception Mercury 2	88	85	15	15	15	15	15	35.7%
Arcee AI: Trinity Mini	62	31	27	23	23	0	0	23.6%
Hermes 3 70B	73	69	0	0	0	0	0	20.3%
GPT-5.4 Nano	62	19	15	8	8	4	0	16.5%
Cohere Command R+ (Aug. 2024)	23	19	15	12	4	4	4	11.5%
GPT-4.1 Nano	38	19	8	4	0	0	0	9.9%
Mistral NeMO	42	23	0	0	0	0	0	9.3%
Llama 3.1 8B	31	15	12	8	0	0	0	9.3%
Ministral 3 8B	8	8	8	8	8	4	4	6.6%
Ministral 8B	8	4	4	4	4	4	0	3.8%
Ministral 3B	4	0	0	0	0	0	0	0.5%
Rocinante 12B	4	0	0	0	0	0	0	0.5%
Gemma 3 4B	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0.0%

Passive → active voice transformations

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Passive voice → active voice

Specific Prompt

Passive voice → active voice