No hallucinated or fabricated content

Test: Text Replacement

Avg. Score

97.7%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0004	2.5s	100%
2	Ministral 8B	100.0%	$0.0002	3.9s	100%
3	Ministral 3 8B	100.0%	$0.0002	4.2s	100%
4	GPT-4.1 Nano	100.0%	$0.0004	5.0s	100%
5	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0013	2.4s	100%
6	Gemini 3.1 Flash Lite	100.0%	$0.0013	2.4s	100%
7	Mistral Small 4	100.0%	$0.0006	4.5s	100%
8	Ministral 3 14B	100.0%	$0.0003	5.7s	100%
9	GPT-5.4 Nano	100.0%	$0.0011	3.8s	100%
10	Mistral Small 3.2 24B	100.0%	$0.0003	6.9s	100%
11	Gemini 2.5 Flash	100.0%	$0.0021	3.0s	100%
12	Gemma 3 4B	100.0%	$0.0001	10.1s	100%
13	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0014	7.4s	100%
14	Mistral Medium 3.1	100.0%	$0.0018	6.3s	100%
15	DeepSeek V4 Flash	100.0%	$0.0003	10.6s	100%
16	Gemini 3 Flash (Preview)	100.0%	$0.0027	4.3s	100%
17	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0013	8.2s	100%
18	Arcee AI: Trinity Mini	100.0%	$0.0003	11.2s	100%
19	Gemma 3 12B	100.0%	$0.0001	12.8s	100%
20	GPT-5.4 Mini	100.0%	$0.0040	3.2s	100%
21	GPT-4o Mini (temp=1)	100.0%	$0.0006	12.4s	100%
22	Grok 4.3	100.0%	$0.0030	6.0s	100%
23	Grok 4.20	100.0%	$0.0029	6.5s	100%
24	GPT-4.1 Mini	100.0%	$0.0015	10.3s	100%
25	Mistral Large 3	100.0%	$0.0016	10.5s	100%
26	GPT-4o Mini (temp=0)	100.0%	$0.0006	13.8s	100%
27	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0022	10.2s	100%
28	Qwen 2.5 72B	100.0%	$0.0004	16.3s	100%
29	Claude Haiku 4.5	100.0%	$0.0051	5.8s	100%
30	GPT-5.6 Luna	100.0%	$0.0053	5.4s	100%
31	GPT-5.4 Mini (Reasoning, Low)	100.0%	$0.0052	7.9s	100%
32	Gemma 3 27B	100.0%	$0.0003	24.0s	100%
33	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0081	3.5s	100%
34	Xiaomi MIMO v2.5	100.0%	$0.0040	15.0s	100%
35	DeepSeek V3 (2024-12-26)	100.0%	$0.0012	23.1s	100%
36	GPT-4.1	100.0%	$0.0076	6.4s	100%
37	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0086	4.1s	100%
38	Mistral Large 2	100.0%	$0.0062	10.5s	100%
39	DeepSeek V4 Pro	100.0%	$0.0020	22.3s	100%
40	Gemma 4 26B	100.0%	$0.0003	27.1s	100%
41	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0091	3.9s	100%
42	GPT-5.4 Nano (Reasoning)	100.0%	$0.0034	22.3s	100%
43	Hermes 3 405B	100.0%	$0.0017	31.7s	100%
44	DeepSeek V3.1	100.0%	$0.0009	35.4s	100%
45	GPT-5.6 Luna (Reasoning)	100.0%	$0.010	10.6s	100%
46	GPT-5.6 Terra	100.0%	$0.013	4.2s	100%
47	GPT-5.4	100.0%	$0.013	8.3s	100%
48	Gemma 4 31B	100.0%	$0.0004	44.2s	100%
49	Qwen 3 32B	100.0%	$0.0010	43.4s	100%
50	Claude Sonnet 4.6	100.0%	$0.015	7.5s	100%
51	Claude Sonnet 4.5	100.0%	$0.015	7.2s	100%
52	GPT-OSS 120B	100.0%	$0.0010	46.5s	100%
53	Claude Sonnet 5	100.0%	$0.014	11.8s	100%
54	Claude Sonnet 4	100.0%	$0.015	9.4s	100%
55	Xiaomi MIMO v2.5 Pro	100.0%	$0.0073	32.3s	100%
56	DeepSeek V3.2	100.0%	$0.0007	53.2s	100%
57	Grok 4.5 (Reasoning, Low)	100.0%	$0.014	21.2s	100%
58	Gemini 2.5 Flash (Reasoning)	100.0%	$0.014	22.4s	100%
59	GPT-5.4 (Reasoning, Low)	100.0%	$0.020	14.1s	100%
60	Z.AI GLM 4.5	100.0%	$0.0063	52.4s	100%
61	GPT-5 Mini	100.0%	$0.0082	50.8s	100%
62	Claude Opus 4.5	100.0%	$0.026	8.1s	100%
63	Claude Opus 4.6	100.0%	$0.026	8.7s	100%
64	GPT-5.6 Sol	100.0%	$0.026	6.5s	100%
65	GPT-5.5	100.0%	$0.026	6.8s	100%
66	Z.AI GLM 4.6	100.0%	$0.0078	57.8s	100%
67	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.013	44.0s	100%
68	GPT-5.6 Terra (Reasoning)	100.0%	$0.026	12.5s	100%
69	MiniMax M2.5	100.0%	$0.0021	1.3m	100%
70	Qwen 3.6 Flash	100.0%	$0.014	45.2s	100%
71	GPT-5.4 Mini (Reasoning)	100.0%	$0.018	37.8s	100%
72	GPT-5.2	100.0%	$0.025	22.2s	100%
73	Qwen 3.6 35B	100.0%	$0.011	1.0m	100%
74	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.022	36.9s	100%
75	GPT-5.5 (Reasoning, Low)	100.0%	$0.032	11.5s	100%
76	Claude Opus 4.7	100.0%	$0.036	7.3s	100%
77	ByteDance Seed 1.6	100.0%	$0.0077	1.4m	100%
78	Z.AI GLM 4.5 Air	100.0%	$0.0059	1.5m	100%
79	o4 Mini	100.0%	$0.026	39.2s	100%
80	Z.AI GLM 5 Turbo	100.0%	$0.022	50.4s	100%
81	GPT-5.1	100.0%	$0.029	34.1s	100%
82	Grok 4.20 (Reasoning)	100.0%	$0.018	1.1m	100%
83	Claude Sonnet 5 (Reasoning)	100.0%	$0.034	26.1s	100%
84	ByteDance Seed 2.0 Lite	100.0%	$0.0085	1.6m	100%
85	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.034	26.8s	100%
86	Grok 4.3 (Reasoning)	100.0%	$0.019	1.5m	100%
87	Nemotron 3 Super	100.0%	$0.0000	2.5m	100%
88	GPT-5.6 Sol (Reasoning)	100.0%	$0.058	22.4s	100%
89	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.020	2.1m	100%
90	Claude Opus 4.7 (Reasoning)	100.0%	$0.064	13.9s	100%
91	Qwen 3.6 27B	100.0%	$0.027	1.9m	100%
92	GPT-5.4 (Reasoning)	100.0%	$0.052	47.2s	100%
93	Gemini 2.5 Pro	100.0%	$0.056	41.9s	100%
94	Mistral Small 4 (Reasoning)	96.4%	$0.0036	34.3s	74%
95	Grok 4.5 (Reasoning, High)	100.0%	$0.045	1.3m	100%
96	GPT-5.5 (Reasoning)	100.0%	$0.068	25.1s	100%
97	GPT-5	100.0%	$0.050	1.3m	100%
98	Gemma 4 26B (Reasoning)	100.0%	$0.0042	3.4m	100%
99	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.071	24.9s	100%
100	Claude Opus 4.8 (Reasoning)	100.0%	$0.072	24.8s	100%
101	Claude Opus 4	100.0%	$0.077	13.4s	100%
102	MiniMax M2.7	100.0%	$0.014	3.1m	100%
103	Z.AI GLM 4.7	100.0%	$0.017	3.0m	100%
104	Qwen 3.5 122B	100.0%	$0.041	1.9m	100%
105	o4 Mini High	100.0%	$0.056	1.4m	100%
106	Gemini 3.5 Flash (Reasoning)	100.0%	$0.077	33.0s	100%
107	Llama 3.1 70B	92.9%	$0.0007	18.9s	65%
108	Gemini 2.5 Flash Lite (Reasoning)	95.2%	$0.0033	32.9s	66%
109	DeepSeek V4 Pro (Reasoning)	100.0%	$0.013	3.5m	100%
110	Writer: Palmyra X5	92.9%	$0.0050	13.7s	65%
111	Qwen 3.5 397B A17B	100.0%	$0.011	3.7m	100%
112	ByteDance Seed 2.0 Mini	100.0%	$0.0036	4.0m	100%
113	Z.AI GLM 5	100.0%	$0.023	3.2m	100%
114	Qwen 3.5 27B	100.0%	$0.037	2.9m	100%
115	Ministral 3 3B	89.3%	$0.0002	2.9s	59%
116	DeepSeek V4 Flash (Reasoning)	96.4%	$0.0013	2.3m	74%
117	Cydonia 24B V4.1	91.1%	$0.0006	18.0s	55%
118	Aion 3.0	100.0%	$0.054	2.9m	100%
119	DeepSeek-V2 Chat	90.5%	$0.0011	21.5s	53%
120	Qwen3.7 Max	100.0%	$0.072	2.1m	100%
121	Z.AI GLM 5.1	100.0%	$0.044	3.4m	100%
122	Ministral 3B	85.7%	$0.0001	2.9s	55%
123	Qwen 3.5 9B	96.4%	$0.0020	2.9m	74%
124	ByteDance Seed 1.6 Flash	89.9%	$0.0012	21.9s	50%
125	Qwen3 235B A22B Instruct 2507	85.7%	$0.0004	19.2s	55%
126	DeepSeek V3 (2025-03-24)	88.1%	$0.0008	42.6s	54%
127	Qwen 3.5 35B	92.9%	$0.025	1.3m	65%
128	Z.AI GLM 4.7 Flash	92.9%	$0.0034	2.4m	65%
129	Gemma 4 31B (Reasoning)	100.0%	$0.0027	6.3m	100%
130	Qwen 3.5 Flash	92.9%	$0.0050	1.4m	49%
131	Aion 3.0 Mini	95.2%	$0.010	2.9m	66%
132	MiniMax M3	100.0%	$0.017	6.0m	100%
133	Aion 2.0	92.9%	$0.0069	1.5m	49%
134	Claude Opus 4.6 (Reasoning)	100.0%	$0.129	1.1m	100%
135	Qwen3.6 Max Preview	100.0%	$0.066	4.0m	100%
136	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.123	1.5m	100%
137	Inception Mercury 2	81.5%	$0.0027	3.7s	41%
138	GPT-5 Nano	88.1%	$0.0052	1.9m	54%
139	Mistral NeMO	76.2%	$0.0002	3.1s	44%
140	MoonshotAI: Kimi K2.5	100.0%	$0.029	6.5m	100%
141	WizardLM 2 8x22b	85.7%	$0.0014	1.5m	41%
142	Gemini 3.1 Pro (Preview)	100.0%	$0.168	2.6m	100%
143	MoonshotAI: Kimi K2.6	100.0%	$0.072	7.6m	100%
144	Nemotron 3 Nano	82.1%	$0.0034	4.0m	42%
145	Hermes 3 70B	60.8%	$0.0022	2.8m	6%
146	Cohere Command R+ (Aug. 2024)	37.9%	$0.0092	18.4s	7%
97.74%

Individual Scenarios

Generic Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	50	92.9%
Qwen 3.5 9B	100	100	100	100	100	100	50	92.9%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	50	92.9%
GPT-5 Nano	100	100	100	100	100	100	50	92.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	50	92.9%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	50	92.9%
Hermes 3 70B	100	100	100	100	100	100	50	92.9%
Qwen 3.5 35B	100	100	100	100	100	50	50	85.7%
Writer: Palmyra X5	100	100	100	100	100	50	50	85.7%
Llama 3.1 70B	100	100	100	100	100	50	50	85.7%
Nemotron 3 Nano	100	100	100	100	100	50	50	85.7%
Inception Mercury 2	100	100	100	100	100	33	33	81.0%
Ministral 3 3B	100	100	100	100	50	50	50	78.6%
WizardLM 2 8x22b	100	100	100	100	50	50	0	71.5%
Qwen3 235B A22B Instruct 2507	100	100	100	50	50	50	50	71.4%
Ministral 3B	100	100	100	50	50	50	50	71.4%
Mistral NeMO	100	50	50	50	50	33	33	52.4%
Cohere Command R+ (Aug. 2024)	20	20	20	14	13	11	8	15.1%

Specific Prompt

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	50	92.9%
Aion 3.0 Mini	100	100	100	100	100	100	33	90.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	33	90.5%
Qwen 3.5 Flash	100	100	100	100	100	100	1	85.8%
Aion 2.0	100	100	100	100	100	100	0	85.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	50	33	83.3%
GPT-5 Nano	100	100	100	100	100	50	33	83.3%
Inception Mercury 2	100	100	100	100	100	50	25	82.1%
Cydonia 24B V4.1	100	100	100	100	100	50	25	82.1%
DeepSeek-V2 Chat	100	100	100	100	100	33	33	81.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	33	25	79.8%
Nemotron 3 Nano	100	100	100	100	100	33	17	78.6%
Cohere Command R+ (Aug. 2024)	100	100	100	50	25	25	25	60.7%
Hermes 3 70B	100	100	0	0	0	0	0	28.7%

No hallucinated or fabricated content

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Passive voice → active voice

Specific Prompt

Passive voice → active voice