Forbidden words eliminated

Test: Text Replacement

Avg. Score

96.0%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0003	1.5s	100%
2	Mistral Small 4	100.0%	$0.0004	2.9s	100%
3	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0009	1.7s	100%
4	Inception Mercury 2	100.0%	$0.0010	1.4s	100%
5	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0009	1.8s	100%
6	Gemini 3.1 Flash Lite	100.0%	$0.0009	2.7s	100%
7	Gemma 3 4B	100.0%	$0.0001	5.9s	100%
8	Mistral Small 3.2 24B	100.0%	$0.0002	5.5s	100%
9	Gemini 2.5 Flash	100.0%	$0.0014	2.1s	100%
10	Mistral Medium 3.1	100.0%	$0.0012	4.9s	100%
11	Gemini 3 Flash (Preview)	100.0%	$0.0018	3.5s	100%
12	GPT-4.1 Mini	100.0%	$0.0010	6.3s	100%
13	GPT-4o Mini (temp=1)	100.0%	$0.0004	9.0s	100%
14	GPT-4o Mini (temp=0)	100.0%	$0.0004	9.3s	100%
15	Grok 4.20	100.0%	$0.0019	4.2s	100%
16	Mistral Large 3	100.0%	$0.0010	7.2s	100%
17	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0015	7.1s	100%
18	Claude Haiku 4.5	100.0%	$0.0033	2.7s	100%
19	Gemini 2.5 Flash Lite (Reasoning)	100.0%	$0.0012	10.6s	100%
20	Qwen3 235B A22B Instruct 2507	100.0%	$0.0003	14.7s	100%
21	GPT-5.6 Luna	100.0%	$0.0036	3.3s	100%
22	Gemma 3 27B	100.0%	$0.0002	15.6s	100%
23	GPT-5.6 Luna (Reasoning)	100.0%	$0.0042	3.5s	100%
24	DeepSeek V3 (2024-12-26)	100.0%	$0.0007	15.6s	100%
25	DeepSeek-V2 Chat	100.0%	$0.0007	16.0s	100%
26	Gemma 4 26B	100.0%	$0.0002	19.4s	100%
27	DeepSeek V4 Pro	100.0%	$0.0011	17.3s	100%
28	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0054	2.6s	100%
29	Mistral Large 2	100.0%	$0.0042	7.1s	100%
30	GPT-4.1	100.0%	$0.0052	4.2s	100%
31	Gemma 4 31B	100.0%	$0.0003	22.0s	100%
32	Gemini 2.5 Flash (Reasoning)	100.0%	$0.0049	7.8s	100%
33	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0064	2.5s	100%
34	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0064	2.6s	100%
35	Z.AI GLM 4.5 Air	100.0%	$0.0011	21.6s	100%
36	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0039	12.2s	100%
37	Hermes 3 405B	100.0%	$0.0011	23.2s	100%
38	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0005	25.5s	100%
39	Xiaomi MIMO v2.5	100.0%	$0.0038	15.4s	100%
40	Mistral Small 4 (Reasoning)	100.0%	$0.0021	22.4s	100%
41	Z.AI GLM 4.5	100.0%	$0.0027	21.2s	100%
42	Llama 3.1 70B	100.0%	$0.0005	30.4s	100%
43	GPT-5.2	100.0%	$0.0079	5.5s	100%
44	GPT-5.6 Terra	100.0%	$0.0089	3.2s	100%
45	Z.AI GLM 5 Turbo	100.0%	$0.0062	13.5s	100%
46	Nemotron 3 Super	100.0%	$0.0000	36.7s	100%
47	DeepSeek V3.1	100.0%	$0.0007	35.8s	100%
48	GPT-5.6 Terra (Reasoning)	100.0%	$0.0095	4.8s	100%
49	Xiaomi MIMO v2.5 Pro	100.0%	$0.0048	22.2s	100%
50	WizardLM 2 8x22b	100.0%	$0.0007	36.8s	100%
51	Claude Sonnet 4.6	100.0%	$0.010	4.4s	100%
52	Claude Sonnet 4.5	100.0%	$0.010	4.6s	100%
53	Claude Sonnet 4	100.0%	$0.010	5.5s	100%
54	Claude Sonnet 5	100.0%	$0.0093	8.9s	100%
55	DeepSeek V3 (2025-03-24)	100.0%	$0.0005	40.7s	100%
56	Gemma 3 12B	97.6%	$0.0001	8.1s	83%
57	GPT-5 Mini	100.0%	$0.0047	27.4s	100%
58	DeepSeek V3.2	100.0%	$0.0004	44.9s	100%
59	Qwen 2.5 72B	97.6%	$0.0003	10.1s	83%
60	Qwen 3.6 Flash	100.0%	$0.0070	21.9s	100%
61	Grok 4.3	97.6%	$0.0020	4.8s	83%
62	Hermes 3 70B	100.0%	$0.0007	45.2s	100%
63	Qwen 3.6 35B	100.0%	$0.0054	29.2s	100%
64	ByteDance Seed 1.6 Flash	97.6%	$0.0007	11.7s	83%
65	MiniMax M3	100.0%	$0.0022	41.8s	100%
66	Z.AI GLM 4.6	100.0%	$0.0039	35.8s	100%
67	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.012	10.9s	100%
68	ByteDance Seed 1.6	100.0%	$0.0036	40.0s	100%
69	Claude Sonnet 5 (Reasoning)	100.0%	$0.012	10.8s	100%
70	GPT-5 Nano	100.0%	$0.0019	46.4s	100%
71	Qwen 3.5 Flash	100.0%	$0.0028	48.6s	100%
72	Grok 4.20 (Reasoning)	100.0%	$0.0082	30.3s	100%
73	GPT-5.4 (Reasoning)	100.0%	$0.014	11.3s	100%
74	Nemotron 3 Nano	100.0%	$0.0009	56.9s	100%
75	Grok 4.5 (Reasoning, Low)	100.0%	$0.0085	32.0s	100%
76	Claude Opus 4.5	100.0%	$0.017	5.4s	100%
77	Claude Opus 4.6	100.0%	$0.017	5.4s	100%
78	o4 Mini	100.0%	$0.013	20.7s	100%
79	Aion 3.0	100.0%	$0.010	28.8s	100%
80	Mistral NeMO	92.9%	$0.0002	3.0s	73%
81	GPT-5.6 Sol	100.0%	$0.018	5.9s	100%
82	GPT-5.4 Mini (Reasoning)	97.6%	$0.0076	9.3s	83%
83	GPT-5.5 (Reasoning, Low)	100.0%	$0.019	5.6s	100%
84	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.014	23.7s	100%
85	Aion 2.0	100.0%	$0.0043	58.1s	100%
86	Z.AI GLM 5.1	100.0%	$0.0083	44.3s	100%
87	GPT-5.1	97.6%	$0.0087	8.2s	83%
88	ByteDance Seed 2.0 Lite	100.0%	$0.0051	57.6s	100%
89	GPT-5.6 Sol (Reasoning)	100.0%	$0.019	8.8s	100%
90	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.019	12.0s	100%
91	GPT-5.5 (Reasoning)	100.0%	$0.021	6.8s	100%
92	MiniMax M2.5	97.6%	$0.0016	39.6s	83%
93	Grok 4.5 (Reasoning, High)	100.0%	$0.016	26.6s	100%
94	Gemini 3.5 Flash (Reasoning)	100.0%	$0.021	9.0s	100%
95	Writer: Palmyra X5	92.9%	$0.0034	8.3s	73%
96	Aion 3.0 Mini	100.0%	$0.0040	1.2m	100%
97	Claude Opus 4.7 (Reasoning)	100.0%	$0.023	3.8s	100%
98	Claude Opus 4.7	100.0%	$0.023	4.2s	100%
99	Cydonia 24B V4.1	90.5%	$0.0004	12.3s	70%
100	Qwen 3.5 35B	100.0%	$0.013	40.1s	100%
101	GPT-OSS 120B	92.9%	$0.0004	23.5s	73%
102	Claude Opus 4.6 (Reasoning)	100.0%	$0.023	9.1s	100%
103	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.023	7.0s	100%
104	GPT-5.4 Nano (Reasoning)	88.1%	$0.0010	4.3s	68%
105	Claude Opus 4.8 (Reasoning)	100.0%	$0.023	7.6s	100%
106	Qwen 3 32B	95.2%	$0.0010	36.9s	77%
107	Cohere Command R+ (Aug. 2024)	97.6%	$0.0066	33.5s	83%
108	Z.AI GLM 4.7 Flash	100.0%	$0.0014	1.5m	100%
109	GPT-5.4 Mini (Reasoning, Low)	88.1%	$0.0029	3.3s	68%
110	Grok 4.3 (Reasoning)	100.0%	$0.011	55.1s	100%
111	Qwen 3.6 27B	100.0%	$0.013	51.7s	100%
112	GPT-5	100.0%	$0.020	27.9s	100%
113	Qwen 3.5 27B	100.0%	$0.013	54.9s	100%
114	GPT-5.5	97.6%	$0.018	4.7s	83%
115	Z.AI GLM 5	100.0%	$0.0085	1.2m	100%
116	MiniMax M2.7	95.2%	$0.0031	44.2s	77%
117	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.011	1.2m	100%
118	o4 Mini High	100.0%	$0.022	34.0s	100%
119	GPT-5.4 (Reasoning, Low)	90.5%	$0.0092	5.5s	70%
120	Qwen 3.5 122B	100.0%	$0.018	48.0s	100%
121	DeepSeek V4 Flash	90.5%	$0.0002	9.0s	47%
122	Qwen 3.5 9B	100.0%	$0.0014	2.0m	100%
123	GPT-5.4	85.7%	$0.0089	6.0s	67%
124	Qwen3.7 Max	100.0%	$0.025	45.2s	100%
125	Gemma 4 31B (Reasoning)	100.0%	$0.0009	2.2m	100%
126	Gemini 3.1 Pro (Preview)	100.0%	$0.030	28.5s	100%
127	Ministral 3 14B	81.0%	$0.0002	3.9s	49%
128	Z.AI GLM 4.7	100.0%	$0.0064	1.9m	100%
129	GPT-5.4 Mini	81.0%	$0.0027	2.2s	49%
130	MoonshotAI: Kimi K2.5	100.0%	$0.010	1.8m	100%
131	Gemini 2.5 Pro	100.0%	$0.036	27.8s	100%
132	ByteDance Seed 2.0 Mini	100.0%	$0.0024	2.6m	100%
133	Gemma 4 26B (Reasoning)	100.0%	$0.0018	2.6m	100%
134	MoonshotAI: Kimi K2.6	100.0%	$0.016	2.0m	100%
135	Claude Opus 4	100.0%	$0.050	7.9s	100%
136	Qwen 3.5 397B A17B	100.0%	$0.0093	2.6m	100%
137	Ministral 8B	76.2%	$0.0001	3.2s	23%
138	Ministral 3 8B	71.4%	$0.0002	3.0s	24%
139	DeepSeek V4 Pro (Reasoning)	100.0%	$0.010	3.0m	100%
140	Qwen3.6 Max Preview	100.0%	$0.031	1.8m	100%
141	Arcee AI: Trinity Mini	69.0%	$0.0010	34.9s	18%
142	GPT-4.1 Nano	45.2%	$0.0003	3.8s	11%
143	GPT-5.4 Nano	35.7%	$0.0007	3.1s	16%
144	GPT-5.4 Nano (Reasoning, Low)	38.1%	$0.0008	3.3s	7%
145	Ministral 3B	16.7%	$0.0000	1.8s	11%
146	Ministral 3 3B	19.0%	$0.0001	1.9s	0%
95.99%

Individual Scenarios

Generic Prompt

▼

Avoid said/asked/replied/answered

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	67	95.2%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	67	95.2%
MiniMax M2.5	100	100	100	100	100	100	67	95.2%
Qwen 2.5 72B	100	100	100	100	100	100	67	95.2%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	67	95.2%
MiniMax M2.7	100	100	100	100	100	67	67	90.5%
GPT-5.4	100	100	100	100	100	67	67	90.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	67	67	90.5%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	67	67	90.5%
Qwen 3 32B	100	100	100	100	100	67	67	90.5%
Arcee AI: Trinity Mini	100	100	100	100	100	67	67	90.5%
GPT-OSS 120B	100	100	100	100	67	67	67	85.7%
Cydonia 24B V4.1	100	100	100	100	67	67	67	85.7%
DeepSeek V4 Flash	100	100	100	100	100	100	0	85.7%
GPT-4.1 Nano	100	100	100	67	67	67	0	71.4%
Ministral 3 14B	67	67	67	67	67	67	33	61.9%
Ministral 8B	100	100	100	33	33	0	0	52.4%
Ministral 3 8B	67	67	67	67	33	0	0	42.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	33	33	0	0	0	38.1%
GPT-5.4 Nano	67	67	33	33	33	0	0	33.3%
Ministral 3B	33	33	0	0	0	0	0	9.5%
Ministral 3 3B	33	0	0	0	0	0	0	4.8%

Specific Prompt

▼

Avoid said/asked/replied/answered

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	67	95.2%
DeepSeek V4 Flash	100	100	100	100	100	100	67	95.2%
Grok 4.3	100	100	100	100	100	100	67	95.2%
Gemma 3 12B	100	100	100	100	100	100	67	95.2%
Cydonia 24B V4.1	100	100	100	100	100	100	67	95.2%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	67	95.2%
GPT-5.4 Nano (Reasoning)	100	100	100	100	67	67	67	85.7%
Writer: Palmyra X5	100	100	100	100	67	67	67	85.7%
Mistral NeMO	100	100	100	100	67	67	67	85.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	67	67	85.7%
GPT-5.4	100	100	100	67	67	67	67	81.0%
GPT-5.4 (Reasoning, Low)	100	100	100	67	67	67	67	81.0%
GPT-5.4 Mini	67	67	67	67	67	67	33	61.9%
Arcee AI: Trinity Mini	100	100	100	33	0	0	0	47.6%
GPT-5.4 Nano (Reasoning, Low)	100	67	67	33	0	0	0	38.1%
GPT-5.4 Nano	67	67	67	33	33	0	0	38.1%
Ministral 3 3B	67	67	33	33	33	0	0	33.3%
Ministral 3B	33	33	33	33	33	0	0	23.8%
GPT-4.1 Nano	67	33	33	0	0	0	0	19.0%

Forbidden words eliminated

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Avoid said/asked/replied/answered

Specific Prompt

Avoid said/asked/replied/answered