Structural similarity to original

Test: Text Replacement

Avg. Score

98.7%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0003	2.0s	100%
2	Ministral 8B	100.0%	$0.0001	3.6s	100%
3	Ministral 3 8B	100.0%	$0.0002	3.6s	100%
4	Mistral Small 4	100.0%	$0.0005	3.7s	100%
5	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0011	2.0s	100%
6	GPT-4.1 Nano	100.0%	$0.0003	4.4s	100%
7	Ministral 3 14B	100.0%	$0.0003	4.8s	100%
8	Gemini 3.1 Flash Lite	100.0%	$0.0011	2.6s	100%
9	GPT-5.4 Nano	100.0%	$0.0009	3.5s	100%
10	Mistral Small 3.2 24B	100.0%	$0.0003	6.2s	100%
11	Gemini 2.5 Flash	100.0%	$0.0018	2.5s	100%
12	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0011	5.0s	100%
13	Gemma 3 4B	100.0%	$0.0001	8.0s	100%
14	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0011	5.4s	100%
15	Mistral Medium 3.1	100.0%	$0.0015	5.6s	100%
16	Gemini 3 Flash (Preview)	100.0%	$0.0022	3.9s	100%
17	DeepSeek V4 Flash	100.0%	$0.0002	9.8s	100%
18	Gemma 3 12B	100.0%	$0.0001	10.4s	100%
19	GPT-4.1 Mini	100.0%	$0.0013	8.3s	100%
20	GPT-4o Mini (temp=1)	100.0%	$0.0005	10.7s	100%
21	Grok 4.20	100.0%	$0.0024	5.3s	100%
22	GPT-5.4 Mini	100.0%	$0.0033	2.7s	100%
23	Grok 4.3	100.0%	$0.0025	5.4s	100%
24	Mistral Large 3	100.0%	$0.0013	8.8s	100%
25	GPT-4o Mini (temp=0)	100.0%	$0.0005	11.6s	100%
26	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0018	8.7s	100%
27	Qwen 2.5 72B	100.0%	$0.0003	13.2s	100%
28	Claude Haiku 4.5	100.0%	$0.0042	4.2s	100%
29	Cydonia 24B V4.1	100.0%	$0.0005	15.2s	100%
30	GPT-5.6 Luna	100.0%	$0.0044	4.4s	100%
31	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.0040	5.6s	100%
32	Qwen3 235B A22B Instruct 2507	100.0%	$0.0004	17.0s	100%
33	GPT-5.4 Nano (Reasoning)	100.0%	$0.0022	13.3s	100%
34	Gemma 3 27B	100.0%	$0.0002	19.8s	100%
35	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0067	3.0s	100%
36	Writer: Palmyra X5	100.0%	$0.0042	11.0s	100%
37	GPT-4.1	100.0%	$0.0064	5.3s	100%
38	Mistral Large 2	100.0%	$0.0052	8.8s	100%
39	Gemma 4 26B	100.0%	$0.0003	23.3s	100%
40	DeepSeek V4 Pro	100.0%	$0.0016	19.8s	100%
41	Xiaomi MIMO v2.5	100.0%	$0.0039	15.2s	100%
42	GPT-5.6 Luna (Reasoning)	100.0%	$0.0073	7.0s	100%
43	Gemini 2.5 Flash Lite (Reasoning)	100.0%	$0.0022	21.7s	100%
44	Hermes 3 405B	100.0%	$0.0014	27.5s	100%
45	Gemma 4 31B	100.0%	$0.0004	33.1s	100%
46	GPT-5.6 Terra	100.0%	$0.011	3.7s	100%
47	GPT-5.4	100.0%	$0.011	7.2s	100%
48	Claude Sonnet 4.6	100.0%	$0.013	6.0s	100%
49	Claude Sonnet 4.5	100.0%	$0.013	5.9s	100%
50	Gemini 2.5 Flash (Reasoning)	100.0%	$0.0096	15.1s	100%
51	Claude Sonnet 4	100.0%	$0.013	7.4s	100%
52	Claude Sonnet 5	100.0%	$0.012	10.3s	100%
53	Xiaomi MIMO v2.5 Pro	100.0%	$0.0061	27.2s	100%
54	DeepSeek V3.2	100.0%	$0.0005	49.1s	100%
55	GPT-5.4 (Reasoning, Low)	100.0%	$0.015	9.8s	100%
56	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0085	28.1s	100%
57	GPT-5 Mini	100.0%	$0.0064	39.1s	100%
58	Grok 4.5 (Reasoning, Low)	100.0%	$0.011	26.6s	100%
59	GPT-5.6 Terra (Reasoning)	100.0%	$0.018	8.7s	100%
60	GPT-5.2	100.0%	$0.016	13.8s	100%
61	MiniMax M2.5	100.0%	$0.0019	57.8s	100%
62	Z.AI GLM 4.6	100.0%	$0.0059	46.8s	100%
63	Z.AI GLM 4.5 Air	100.0%	$0.0035	56.7s	100%
64	Claude Opus 4.5	100.0%	$0.021	6.7s	100%
65	Claude Opus 4.6	100.0%	$0.021	7.1s	100%
66	GPT-5.5	100.0%	$0.022	5.8s	100%
67	GPT-5.6 Sol	100.0%	$0.022	6.2s	100%
68	Z.AI GLM 5 Turbo	100.0%	$0.014	32.0s	100%
69	GPT-5.1	100.0%	$0.019	21.1s	100%
70	ByteDance Seed 1.6	100.0%	$0.0057	1.0m	100%
71	DeepSeek V3 (2024-12-26)	98.8%	$0.0010	19.4s	88%
72	GPT-5.5 (Reasoning, Low)	100.0%	$0.025	8.6s	100%
73	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.018	30.3s	100%
74	Claude Sonnet 5 (Reasoning)	100.0%	$0.023	18.5s	100%
75	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.023	18.8s	100%
76	Grok 4.20 (Reasoning)	100.0%	$0.013	47.9s	100%
77	Claude Opus 4.7	100.0%	$0.030	5.7s	100%
78	Ministral 3B	97.6%	$0.0001	2.3s	83%
79	Mistral Small 4 (Reasoning)	98.8%	$0.0028	28.3s	88%
80	Qwen 3 32B	98.8%	$0.0010	40.2s	88%
81	DeepSeek V3 (2025-03-24)	98.8%	$0.0007	41.6s	88%
82	Z.AI GLM 4.5	98.8%	$0.0045	36.8s	88%
83	ByteDance Seed 1.6 Flash	97.6%	$0.0009	16.8s	83%
84	DeepSeek-V2 Chat	97.6%	$0.0009	18.8s	83%
85	Llama 3.1 70B	97.6%	$0.0006	24.7s	83%
86	GPT-5.4 Mini (Reasoning)	98.8%	$0.013	23.6s	88%
87	Ministral 3 3B	96.4%	$0.0001	2.4s	79%
88	Qwen 3.6 Flash	98.8%	$0.011	33.6s	88%
89	GPT-5.4 (Reasoning)	100.0%	$0.033	29.2s	100%
90	GPT-5.6 Sol (Reasoning)	100.0%	$0.038	15.6s	100%
91	GPT-OSS 120B	97.6%	$0.0007	35.0s	83%
92	Claude Opus 4.7 (Reasoning)	100.0%	$0.044	8.9s	100%
93	Grok 4.5 (Reasoning, High)	100.0%	$0.030	53.6s	100%
94	GPT-5.5 (Reasoning)	100.0%	$0.044	15.9s	100%
95	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.016	1.6m	100%
96	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.047	15.9s	100%
97	GPT-5	100.0%	$0.035	51.8s	100%
98	Claude Opus 4.8 (Reasoning)	100.0%	$0.047	16.2s	100%
99	ByteDance Seed 2.0 Lite	98.8%	$0.0068	1.3m	88%
100	Qwen 3.6 35B	97.6%	$0.0082	44.9s	83%
101	Gemini 2.5 Pro	100.0%	$0.046	34.9s	100%
102	Qwen 3.5 35B	98.8%	$0.019	1.0m	88%
103	Inception Mercury 2	94.0%	$0.0018	2.5s	74%
104	o4 Mini	97.6%	$0.019	30.0s	83%
105	Grok 4.3 (Reasoning)	98.8%	$0.015	1.2m	88%
106	Z.AI GLM 5	100.0%	$0.016	2.2m	100%
107	Z.AI GLM 4.7	100.0%	$0.011	2.5m	100%
108	DeepSeek V3.1	95.2%	$0.0008	35.6s	77%
109	Qwen 3.5 27B	100.0%	$0.025	1.9m	100%
110	Cohere Command R+ (Aug. 2024)	95.4%	$0.0079	25.9s	78%
111	Gemma 4 26B (Reasoning)	100.0%	$0.0030	3.0m	100%
112	Claude Opus 4	100.0%	$0.063	10.6s	100%
113	Mistral NeMO	93.2%	$0.0002	3.1s	70%
114	Z.AI GLM 5.1	100.0%	$0.026	2.1m	100%
115	GPT-4o, Aug. 6th (temp=0)	96.4%	$0.0078	3.2s	63%
116	Qwen 3.5 397B A17B	100.0%	$0.010	3.1m	100%
117	Qwen3.7 Max	100.0%	$0.049	1.4m	100%
118	DeepSeek V4 Pro (Reasoning)	100.0%	$0.012	3.2m	100%
119	Qwen 3.5 122B	98.8%	$0.030	1.4m	88%
120	DeepSeek V4 Flash (Reasoning)	95.2%	$0.0009	1.3m	77%
121	MiniMax M3	100.0%	$0.0094	3.4m	100%
122	o4 Mini High	98.8%	$0.039	58.8s	88%
123	Qwen 3.6 27B	97.6%	$0.020	1.4m	83%
124	MiniMax M2.7	97.6%	$0.0084	1.9m	83%
125	GPT-5 Nano	95.2%	$0.0035	1.3m	77%
126	Z.AI GLM 4.7 Flash	96.4%	$0.0024	2.0m	79%
127	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.071	50.0s	100%
128	Qwen 3.5 Flash	96.4%	$0.0039	1.1m	63%
129	Claude Opus 4.6 (Reasoning)	100.0%	$0.076	37.6s	100%
130	Gemma 4 31B (Reasoning)	100.0%	$0.0018	4.2m	100%
131	Aion 2.0	95.2%	$0.0056	1.2m	61%
132	GPT-4o, Aug. 6th (temp=1)	92.9%	$0.0075	3.4s	48%
133	Qwen3.6 Max Preview	100.0%	$0.049	2.9m	100%
134	Nemotron 3 Super	90.5%	$0.0000	1.6m	70%
135	ByteDance Seed 2.0 Mini	96.4%	$0.0030	3.3m	79%
136	WizardLM 2 8x22b	93.1%	$0.0010	1.1m	50%
137	Gemini 3.5 Flash (Reasoning)	96.4%	$0.049	21.0s	63%
138	Aion 3.0 Mini	94.0%	$0.0073	2.0m	60%
139	MoonshotAI: Kimi K2.5	98.8%	$0.020	4.2m	88%
140	Aion 3.0	96.4%	$0.032	1.7m	63%
141	Arcee AI: Trinity Mini	85.7%	$0.0006	23.0s	55%
142	Gemini 3.1 Pro (Preview)	100.0%	$0.099	1.5m	100%
143	Qwen 3.5 9B	91.7%	$0.0017	2.4m	58%
144	Nemotron 3 Nano	87.0%	$0.0022	2.5m	64%
145	MoonshotAI: Kimi K2.6	98.8%	$0.044	4.8m	88%
146	Hermes 3 70B	78.6%	$0.0014	1.8m	18%
98.73%

Individual Scenarios

Generic Prompt

▼

Avoid said/asked/replied/answered

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	67	95.2%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	67	95.2%
DeepSeek V3.1	100	100	100	100	100	100	67	95.2%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	67	95.2%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	67	95.2%
Ministral 3B	100	100	100	100	100	100	67	95.2%
Arcee AI: Trinity Mini	67	67	67	67	67	67	67	66.7%

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	97	94	92	97.5%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	67	95.2%
o4 Mini High	100	100	100	100	100	100	67	95.2%
Qwen 3.5 35B	100	100	100	100	100	100	67	95.2%
DeepSeek V3.1	100	100	100	100	100	100	67	95.2%
Qwen 3.6 27B	100	100	100	100	100	67	67	90.5%
Qwen 3.6 35B	100	100	100	100	100	67	67	90.5%
o4 Mini	100	100	100	100	100	67	67	90.5%
Qwen 3.5 9B	100	100	100	100	100	67	67	90.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	0	85.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	0	85.7%
GPT-5 Nano	100	100	100	100	67	67	67	85.7%
Mistral NeMO	100	100	100	67	67	58	52	77.6%
Nemotron 3 Super	100	100	67	67	67	67	67	76.2%
Nemotron 3 Nano	100	100	67	67	67	67	46	73.2%
WizardLM 2 8x22b	100	100	100	100	100	7	0	72.5%

Specific Prompt

▼

Avoid said/asked/replied/answered

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	67	95.2%
Qwen 3.6 Flash	100	100	100	100	100	100	67	95.2%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	67	95.2%
Aion 2.0	100	100	100	100	100	100	67	95.2%
Z.AI GLM 4.5	100	100	100	100	100	100	67	95.2%
DeepSeek V3.1	100	100	100	100	100	100	67	95.2%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	67	95.2%
Mistral NeMO	100	100	100	100	100	100	67	95.2%
ByteDance Seed 2.0 Mini	100	100	100	100	100	67	67	90.5%
Llama 3.1 70B	100	100	100	100	100	67	67	90.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	0	85.7%
Aion 3.0	100	100	100	100	100	100	0	85.7%
Nemotron 3 Nano	100	100	100	100	67	67	67	85.7%
Hermes 3 70B	100	100	100	100	100	100	0	85.7%
Cohere Command R+ (Aug. 2024)	100	100	100	97	67	64	61	84.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	67	67	67	67	81.0%
Aion 3.0 Mini	100	100	100	100	100	67	0	81.0%
Arcee AI: Trinity Mini	100	100	100	100	67	67	0	76.2%

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	67	95.2%
DeepSeek V3.1	100	100	100	100	100	100	67	95.2%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	67	95.2%
Qwen 3 32B	100	100	100	100	100	100	67	95.2%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	67	95.2%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	67	95.2%
Aion 3.0 Mini	100	100	100	100	100	100	67	95.2%
GPT-5 Nano	100	100	100	100	100	100	67	95.2%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	67	95.2%
Ministral 3B	100	100	100	100	100	100	67	95.2%
MiniMax M2.7	100	100	100	100	100	67	67	90.5%
GPT-OSS 120B	100	100	100	100	100	67	67	90.5%
DeepSeek-V2 Chat	100	100	100	100	100	67	67	90.5%
Z.AI GLM 4.7 Flash	100	100	100	100	100	67	67	90.5%
Nemotron 3 Nano	100	100	100	100	100	67	57	89.1%
Aion 2.0	100	100	100	100	100	100	0	85.7%
Qwen 3.5 Flash	100	100	100	100	100	100	0	85.7%
Nemotron 3 Super	100	100	100	100	67	67	67	85.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	0	85.7%
Ministral 3 3B	100	100	100	100	67	67	67	85.7%
Qwen 3.5 9B	100	100	100	100	67	67	0	76.2%
Inception Mercury 2	100	100	67	67	67	67	67	76.2%
Hermes 3 70B	100	100	0	0	0	0	0	28.6%

Structural similarity to original

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Avoid said/asked/replied/answered

Passive voice → active voice

Specific Prompt

Avoid said/asked/replied/answered

Passive voice → active voice