Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Sonnet 4	100%
Gemma 4 31B	100%
Claude Opus 4.6	100%
Claude Sonnet 4.5	100%
Claude Opus 4.6 (Reasoning)	100%
Gemma 4 31B (Reasoning)	100%
Grok 4	100%
Gemini 3 Pro (Preview)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.5	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5.1	100%
Gemma 4 26B (Reasoning)	99%
Z.AI GLM 5	99%
Grok 4.20 (Reasoning)	99%
Gemini 2.5 Pro	99%
GPT-5	99%
MoonshotAI: Kimi K2.6	99%
Qwen 3.5 27B	99%
Qwen3.7 Max	99%

	Score	Cost	Time
Gemini 2.5 Flash Lite	97%	$0.0003	1.7s
Gemini 3.1 Flash Lite (Preview)	99%	$0.0010	1.8s
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0010	3.1s
Mistral Small 4	96%	$0.0004	3.3s
Gemini 3.1 Flash Lite	99%	$0.0010	2.8s
Mistral Small 3.2 24B	97%	$0.0002	5.0s
Gemini 2.5 Flash	99%	$0.0015	2.2s
DeepSeek V4 Flash	97%	$0.0002	8.1s
Grok 4 Fast	99%	$0.0008	6.5s
Gemini 3 Flash (Preview)	99%	$0.0019	3.4s
GPT-4.1 Mini	98%	$0.0011	7.0s
Mistral Large 3	98%	$0.0011	7.7s
Gemma 3 12B	95%	$0.0001	9.0s
Inception Mercury 2	95%	$0.0017	2.3s
Grok 4.20	98%	$0.0020	4.4s
Qwen 2.5 72B	98%	$0.0003	10.9s
Qwen 3.5 Plus (2026-02-15)	99%	$0.0015	7.2s
GPT-4o Mini (temp=1)	95%	$0.0004	9.5s
Grok 4.3	95%	$0.0021	4.7s
Stealth: Hunter Alpha	98%	$0.0000	19.5s

	Score	Consistency	Stability
Claude Opus 4.6	100%	99%	99%
Gemma 4 31B	100%	98%	98%
Claude Opus 4.5	100%	98%	98%
Gemma 4 31B (Reasoning)	100%	98%	98%
Claude Sonnet 4	100%	98%	98%
Gemini 3 Pro (Preview)	100%	98%	98%
Claude Opus 4.6 (Reasoning)	100%	98%	98%
Claude Sonnet 4.5	100%	98%	98%
Grok 4	100%	98%	98%
Claude Sonnet 4.6 (Reasoning)	100%	98%	98%
Qwen3.6 Max Preview	100%	98%	98%
Z.AI GLM 5.1	100%	98%	98%
Qwen 3.5 27B	99%	98%	98%
Z.AI GLM 5	99%	98%	98%
Claude Opus 4.7 (Reasoning)	99%	98%	98%
Gemma 4 26B (Reasoning)	99%	97%	97%
Claude Opus 4.7	99%	97%	97%
Grok 4.20 (Reasoning)	99%	97%	97%
Gemini 2.5 Pro	99%	97%	97%
Qwen3.7 Max	99%	97%	97%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Preview)	99%	$0.0010	1.8s	96%
Gemini 3.1 Flash Lite	99%	$0.0010	2.8s	96%
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0010	3.1s	96%
Gemini 3 Flash (Preview)	99%	$0.0019	3.4s	97%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0015	7.2s	97%
Claude Haiku 4.5	99%	$0.0036	3.2s	97%
Grok 4 Fast	99%	$0.0008	6.5s	95%
Gemini 2.5 Flash	99%	$0.0015	2.2s	92%
Gemma 4 26B	99%	$0.0003	17.1s	97%
GPT-4.1 Mini	98%	$0.0011	7.0s	94%
Grok 4.20	98%	$0.0020	4.4s	92%
Stealth: Healer Alpha	99%	$0.0000	14.3s	94%
DeepSeek V4 Pro	99%	$0.0013	21.1s	97%
Grok 4.1 Fast	99%	$0.0010	12.4s	92%
Gemma 4 31B	100%	$0.0003	30.2s	98%
Mistral Medium 3.1	97%	$0.0013	5.9s	91%
Gemini 2.5 Flash Lite	97%	$0.0003	1.7s	86%
Claude Sonnet 4.5	100%	$0.011	4.9s	98%
Claude Sonnet 4	100%	$0.011	6.1s	98%
GPT-4.1	98%	$0.0054	4.4s	92%

		Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt	Specific Prompt	Generic Prompt
Model	Total ▼	Character rename: Elena->Mirabel, Gregor->Aldric	Character rename: Elena->Mirabel, Gregor->Aldric	Location rename: market square, outer ring, bridge, northern mines	Location rename: market square, outer ring, bridge, northern mines	Expand all contractions	Expand all contractions	Tense rewriting: past to present	Tense rewriting: past to present	POV shift: 3rd person to 1st person (Elena's perspective)	POV shift: 3rd person to 1st person (Elena's perspective)	Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged	Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged	Combined: 3rd person past → 1st person present	Combined: 3rd person past → 1st person present	Passive voice → active voice	Passive voice → active voice	Avoid said/asked/replied/answered	Avoid said/asked/replied/answered
Claude Sonnet 4	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	99%	98%	97%	100%	100%
Gemma 4 31B	100%	100%	100%	100%	100%	100%	100%	100%	98%	100%	100%	100%	100%	100%	99%	99%	98%	100%	100%
Claude Opus 4.6	100%	100%	100%	100%	100%	100%	100%	100%	99%	100%	99%	100%	100%	100%	99%	98%	98%	100%	100%
Claude Sonnet 4.5	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	99%	99%	99%	96%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	100%	100%	100%	100%	99%	100%	100%	100%	99%	99%	96%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%	100%	100%	100%	99%	100%	99%	100%	100%	100%	100%	100%	99%	99%	97%	100%	100%
Grok 4	100%	100%	100%	100%	100%	100%	100%	99%	100%	100%	100%	100%	100%	100%	99%	99%	96%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%	100%	100%	100%	100%	100%	99%	100%	100%	100%	100%	99%	99%	98%	96%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%	99%	100%	99%	100%	100%	100%	100%	100%	99%	99%	96%	100%	100%
Claude Opus 4.5	100%	100%	100%	100%	100%	100%	100%	100%	99%	100%	99%	100%	100%	100%	99%	97%	97%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%	100%	100%	98%	100%	100%	100%	100%	100%	99%	98%	96%	100%	100%
Z.AI GLM 5.1	100%	100%	100%	100%	100%	100%	100%	100%	97%	100%	100%	100%	100%	100%	99%	99%	97%	100%	100%
Gemma 4 26B (Reasoning)	99%	100%	100%	100%	100%	100%	100%	100%	99%	100%	100%	100%	100%	99%	99%	98%	95%	100%	100%
Z.AI GLM 5	99%	100%	100%	100%	100%	100%	100%	100%	98%	100%	100%	100%	100%	100%	99%	98%	96%	100%	100%
Grok 4.20 (Reasoning)	99%	100%	100%	100%	100%	100%	100%	99%	97%	100%	100%	100%	100%	100%	99%	99%	97%	100%	100%

1–15 of 151

Page 1 / 11

Rows:

Character rename: Elena->Mirabel, Gregor->Aldric

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%

	Score	Cost	Time
Inception Mercury	100%	$0.0004	815ms
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s
Inception Mercury 2	100%	$0.0007	971ms
Ministral 8B	100%	$0.0001	3.2s
Ministral 3 8B	100%	$0.0002	2.9s
Mistral Small Creative	100%	$0.0002	2.9s
Mistral Small 4	100%	$0.0004	2.8s
Stealth: Healer Alpha	100%	$0.0000	6.7s
GPT-4.1 Nano	100%	$0.0003	3.7s
Ministral 3 14B	100%	$0.0002	4.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.6s
Grok 4 Fast	100%	$0.0005	3.3s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	4.3s
Gemini 3.1 Flash Lite	100%	$0.0009	1.9s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s
GPT-5.4 Nano	100%	$0.0007	2.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0007	3.2s
Gemma 3 4B	100%	$0.0001	6.1s
Mistral Small 3.2 24B	100%	$0.0002	5.7s
Mistral NeMO	93%	$0.0002	2.3s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Inception Mercury	100%	$0.0004	815ms	100%
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s	100%
Inception Mercury 2	100%	$0.0007	971ms	100%
Ministral 3 8B	100%	$0.0002	2.9s	100%
Mistral Small Creative	100%	$0.0002	2.9s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.6s	100%
Ministral 8B	100%	$0.0001	3.2s	100%
Mistral Small 4	100%	$0.0004	2.8s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	1.9s	100%
GPT-5.4 Nano	100%	$0.0007	2.7s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s	100%
GPT-4.1 Nano	100%	$0.0003	3.7s	100%
Grok 4 Fast	100%	$0.0005	3.3s	100%
Ministral 3 14B	100%	$0.0002	4.0s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0007	3.2s	100%
Gemini 2.5 Flash	100%	$0.0014	2.1s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	4.3s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0007	4.7s	100%
Mistral Small 3.2 24B	100%	$0.0002	5.7s	100%
Gemma 3 4B	100%	$0.0001	6.1s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
138	Qwen3.7 Max	$0.018	34.5s	100%	100	100	100	100	100	100	100	100%
109	Claude Opus 4.6 (Reasoning)	$0.017	5.6s	100%	100	100	100	100	100	100	100	100%
149	Qwen3.6 Max Preview	$0.021	1.1m	100%	100	100	100	100	100	100	100	100%
136	Gemini 3.1 Pro (Preview)	$0.024	22.2s	100%	100	100	100	100	100	100	100	100%
110	Z.AI GLM 5.1	$0.0046	27.9s	100%	100	100	100	100	100	100	100	100%
43	Z.AI GLM 5 Turbo	$0.0023	6.2s	100%	100	100	100	100	100	100	100	100%
115	Gemini 3.5 Flash (Reasoning)	$0.017	7.1s	100%	100	100	100	100	100	100	100	100%
91	Claude Sonnet 4.6 (Reasoning)	$0.011	4.9s	100%	100	100	100	100	100	100	100	100%
95	Grok 4.3 (Reasoning)	$0.0053	18.2s	100%	100	100	100	100	100	100	100	100%
90	GPT-5.4 (Reasoning)	$0.0096	6.6s	100%	100	100	100	100	100	100	100	100%
127	Claude Opus 4.7 (Reasoning)	$0.023	4.9s	100%	100	100	100	100	100	100	100	100%
117	GPT-5.5 (Reasoning)	$0.019	5.0s	100%	100	100	100	100	100	100	100	100%
72	GPT-5 Mini	$0.0023	16.6s	100%	100	100	100	100	100	100	100	100%
112	GPT-5.5 (Reasoning, Low)	$0.018	4.8s	100%	100	100	100	100	100	100	100	100%
57	GPT-5.1	$0.0060	4.2s	100%	100	100	100	100	100	100	100	100%
107	Claude Opus 4.6	$0.017	5.4s	100%	100	100	100	100	100	100	100	100%
142	MoonshotAI: Kimi K2.6	$0.0080	1.1m	100%	100	100	100	100	100	100	100	100%
134	GPT-5	$0.018	26.6s	100%	100	100	100	100	100	100	100	100%
143	Qwen 3.5 397B A17B	$0.0062	1.2m	100%	100	100	100	100	100	100	100	100%
124	Gemma 4 31B (Reasoning)	$0.0006	42.5s	100%	100	100	100	100	100	100	100	100%
116	Qwen 3.5 122B	$0.0095	20.9s	100%	100	100	100	100	100	100	100	100%
131	Qwen 3.5 Plus (2026-04-20)	$0.0070	42.8s	100%	100	100	100	100	100	100	100	100%
140	Gemma 4 26B (Reasoning)	$0.0009	1.1m	100%	100	100	100	100	100	100	100	100%
85	Grok 4.20 (Beta, Reasoning)	$0.010	5.3s	100%	100	100	100	100	100	100	100	100%
75	GPT-5.4 (Reasoning, Low)	$0.0091	5.4s	100%	100	100	100	100	100	100	100	100%
78	Grok 4.20 (Reasoning)	$0.0042	14.8s	100%	100	100	100	100	100	100	100	100%
69	Z.AI GLM 5	$0.0030	14.1s	100%	100	100	100	100	100	100	100	100%
80	Claude Sonnet 4.6	$0.010	4.4s	100%	100	100	100	100	100	100	100	100%
145	MoonshotAI: Kimi K2.5	$0.0055	1.3m	100%	100	100	100	100	100	100	100	100%
118	Qwen 3.5 27B	$0.0059	28.5s	100%	100	100	100	100	100	100	100	100%
99	ByteDance Seed 1.6	$0.0025	26.6s	100%	100	100	100	100	100	100	100	100%
66	Qwen 3.6 Flash	$0.0038	12.4s	100%	100	100	100	100	100	100	100	100%
29	GPT-5.4 Mini (Reasoning)	$0.0028	3.0s	100%	100	100	100	100	100	100	100	100%
67	Gemini 3 Flash (Preview, Reasoning)	$0.0057	9.0s	100%	100	100	100	100	100	100	100	100%
96	o4 Mini High	$0.0084	12.9s	100%	100	100	100	100	100	100	100	100%
71	GPT-5.2	$0.0079	5.2s	100%	100	100	100	100	100	100	100	100%
130	DeepSeek V4 Pro (Reasoning)	$0.0033	43.0s	100%	100	100	100	100	100	100	100	100%
126	Claude Opus 4.7	$0.023	4.2s	100%	100	100	100	100	100	100	100	100%
132	Qwen 3.6 27B	$0.0094	38.9s	100%	100	100	100	100	100	100	100	100%
108	Claude Opus 4.5	$0.017	5.5s	100%	100	100	100	100	100	100	100	100%
36	Grok 4.1 Fast	$0.0007	7.7s	100%	100	100	100	100	100	100	100	100%
103	Aion 2.0	$0.0025	28.3s	100%	100	100	100	100	100	100	100	100%
141	Z.AI GLM 4.6	$0.0043	1.1m	100%	100	100	100	100	100	100	100	100%
59	MiniMax M2.7	$0.0009	13.9s	100%	100	100	100	100	100	100	100	100%
111	GPT-5.5	$0.018	4.7s	100%	100	100	100	100	100	100	100	100%
81	Qwen 3.6 35B	$0.0030	17.5s	100%	100	100	100	100	100	100	100	100%
40	DeepSeek V4 Flash (Reasoning)	$0.0002	9.5s	100%	100	100	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.023	15.1s	100%	100	100	100	100	100	100	100	100%
86	Claude Sonnet 4	$0.010	5.3s	100%	100	100	100	100	100	100	100	100%
129	Z.AI GLM 4.7	$0.0041	40.6s	100%	100	100	100	100	100	100	100	100%
48	GPT-4.1	$0.0051	3.8s	100%	100	100	100	100	100	100	100	100%
128	Gemini 2.5 Pro	$0.019	13.7s	100%	100	100	100	100	100	100	100	100%
83	o4 Mini	$0.0066	11.1s	100%	100	100	100	100	100	100	100	100%
120	Grok 4	$0.014	15.3s	100%	100	100	100	100	100	100	100	100%
82	Claude Sonnet 4.5	$0.010	4.6s	100%	100	100	100	100	100	100	100	100%
123	Qwen 3.5 35B	$0.0085	27.4s	100%	100	100	100	100	100	100	100	100%
148	Claude Opus 4	$0.050	8.2s	100%	100	100	100	100	100	100	100	100%
64	Xiaomi MIMO v2.5 Pro	$0.0023	12.8s	100%	100	100	100	100	100	100	100	100%
77	Stealth: Hunter Alpha	$0.0000	22.5s	100%	100	100	100	100	100	100	100	100%
88	Gemma 4 31B	$0.0003	23.3s	100%	100	100	100	100	100	100	100	100%
39	Gemini 2.5 Flash (Reasoning)	$0.0029	4.3s	100%	100	100	100	100	100	100	100	100%
47	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0054	2.5s	100%	100	100	100	100	100	100	100	100%
102	GPT-OSS 120B	$0.0003	31.2s	100%	100	100	100	100	100	100	100	100%
17	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	4.3s	100%	100	100	100	100	100	100	100	100%
105	Qwen 3.5 Flash	$0.0018	30.3s	100%	100	100	100	100	100	100	100	100%
97	Z.AI GLM 4.5	$0.0031	25.0s	100%	100	100	100	100	100	100	100	100%
13	Grok 4 Fast	$0.0005	3.3s	100%	100	100	100	100	100	100	100	100%
147	Qwen 3.5 9B	$0.0010	1.5m	100%	100	100	100	100	100	100	100	100%
42	Qwen 3.5 Plus (2026-02-15)	$0.0015	7.4s	100%	100	100	100	100	100	100	100	100%
23	Stealth: Healer Alpha	$0.0000	6.7s	100%	100	100	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.6s	100%	100	100	100	100	100	100	100	100%
51	Gemma 4 26B	$0.0002	13.3s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0009	1.9s	100%	100	100	100	100	100	100	100	100%
26	GPT-5.4 Mini (Reasoning, Low)	$0.0027	2.6s	100%	100	100	100	100	100	100	100	100%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0007	4.7s	100%	100	100	100	100	100	100	100	100%
37	Mistral Large 3	$0.0010	7.4s	100%	100	100	100	100	100	100	100	100%
79	GPT-4o, May 13th (temp=0)	$0.010	4.0s	100%	100	100	100	100	100	100	100	100%
21	Gemini 3 Flash (Preview)	$0.0018	3.2s	100%	100	100	100	100	100	100	100	100%
34	Claude Haiku 4.5	$0.0034	2.6s	100%	100	100	100	100	100	100	100	100%
44	Xiaomi MIMO v2.5	$0.0018	7.4s	100%	100	100	100	100	100	100	100	100%
65	DeepSeek-V2 Chat	$0.0008	17.2s	100%	100	100	100	100	100	100	100	100%
98	Z.AI GLM 4.7 Flash	$0.0009	29.2s	100%	100	100	100	100	100	100	100	100%
101	ByteDance Seed 2.0 Lite	$0.0025	27.0s	100%	100	100	100	100	100	100	100	100%
89	Nemotron 3 Super	$0.0000	23.9s	100%	100	100	100	100	100	100	100	100%
73	GPT-5.4	$0.0089	5.2s	100%	100	100	100	100	100	100	100	100%
125	Claude 3.5 Sonnet	$0.020	8.9s	100%	100	100	100	100	100	100	100	100%
28	Grok 4.20 (Beta)	$0.0034	1.9s	100%	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0007	971ms	100%	100	100	100	100	100	100	100	100%
76	GPT-4o, May 13th (temp=1)	$0.010	3.7s	100%	100	100	100	100	100	100	100	100%
60	DeepSeek V3 (2024-12-26)	$0.0007	14.6s	100%	100	100	100	100	100	100	100	100%
87	Claude 3.7 Sonnet	$0.010	5.5s	100%	100	100	100	100	100	100	100	100%
32	GPT-4.1 Mini	$0.0010	6.7s	100%	100	100	100	100	100	100	100	100%
104	Z.AI GLM 4.5 Air	$0.0012	31.2s	100%	100	100	100	100	100	100	100	100%
92	Hermes 3 405B	$0.0011	23.0s	100%	100	100	100	100	100	100	100	100%
122	DeepSeek V4 Pro	$0.0013	39.3s	100%	100	100	100	100	100	100	100	100%
52	GPT-4o, Aug. 6th (temp=1)	$0.0064	2.4s	100%	100	100	100	100	100	100	100	100%
70	GPT-5 Nano	$0.0009	18.0s	100%	100	100	100	100	100	100	100	100%
53	GPT-4o, Aug. 6th (temp=0)	$0.0064	3.0s	100%	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini	$0.0027	1.9s	100%	100	100	100	100	100	100	100	100%
55	Mistral Large 2	$0.0042	7.2s	100%	100	100	100	100	100	100	100	100%
31	Mistral Small 4 (Reasoning)	$0.0009	6.7s	100%	100	100	100	100	100	100	100	100%
100	DeepSeek V3.2	$0.0003	30.9s	100%	100	100	100	100	100	100	100	100%
33	DeepSeek V4 Flash	$0.0002	8.3s	100%	100	100	100	100	100	100	100	100%
27	Grok 4.20	$0.0020	4.3s	100%	100	100	100	100	100	100	100	100%
15	GPT-5.4 Nano (Reasoning)	$0.0007	3.2s	100%	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0003	1.6s	100%	100	100	100	100	100	100	100	100%
16	Gemini 2.5 Flash	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100%
54	Mistral Large	$0.0042	7.1s	100%	100	100	100	100	100	100	100	100%
58	Qwen3 235B A22B Instruct 2507	$0.0003	14.9s	100%	100	100	100	100	100	100	100	100%
63	Writer: Palmyra X5	$0.0033	10.9s	100%	100	100	100	100	100	100	100	100%
1	Inception Mercury	$0.0004	815ms	100%	100	100	100	100	100	100	100	100%
11	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.8s	100%	100	100	100	100	100	100	100	100%
38	GPT-4o Mini (temp=1)	$0.0004	8.7s	100%	100	100	100	100	100	100	100	100%
30	Grok 4.3	$0.0019	4.8s	100%	100	100	100	100	100	100	100	100%
19	Mistral Small 3.2 24B	$0.0002	5.7s	100%	100	100	100	100	100	100	100	100%
35	Gemma 3 12B	$0.0001	8.6s	100%	100	100	100	100	100	100	100	100%
84	Llama 3.1 70B	$0.0004	22.3s	100%	100	100	100	100	100	100	100	100%
45	GPT-4o Mini (temp=0)	$0.0004	10.2s	100%	100	100	100	100	100	100	100	100%
74	Gemma 3 27B	$0.0002	21.0s	100%	100	100	100	100	100	100	100	100%
24	Mistral Medium 3.1	$0.0012	4.8s	100%	100	100	100	100	100	100	100	100%
50	Nemotron 3 Nano	$0.0002	13.1s	100%	100	100	100	100	100	100	100	100%
8	Mistral Small 4	$0.0004	2.8s	100%	100	100	100	100	100	100	100	100%
46	Qwen 2.5 72B	$0.0003	11.8s	100%	100	100	100	100	100	100	100	100%
56	Cydonia 24B V4.1	$0.0004	14.2s	100%	100	100	100	100	100	100	100	100%
61	Llama 3.1 Nemotron 70B	$0.0013	13.5s	100%	100	100	100	100	100	100	100	100%
10	GPT-5.4 Nano	$0.0007	2.7s	100%	100	100	100	100	100	100	100	100%
93	Arcee AI: Trinity Large (Preview)	$0.0000	25.2s	100%	100	100	100	100	100	100	100	100%
25	ByteDance Seed 1.6 Flash	$0.0003	6.6s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small Creative	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100%
62	Hermes 3 70B	$0.0003	15.5s	100%	100	100	100	100	100	100	100	100%
14	Ministral 3 14B	$0.0002	4.0s	100%	100	100	100	100	100	100	100	100%
12	GPT-4.1 Nano	$0.0003	3.7s	100%	100	100	100	100	100	100	100	100%
4	Ministral 3 8B	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100%
106	WizardLM 2 8x22b	$0.0007	34.6s	100%	100	100	100	100	100	100	100	100%
20	Gemma 3 4B	$0.0001	6.1s	100%	100	100	100	100	100	100	100	100%
7	Ministral 8B	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100%
41	Llama 3.1 8B	$0.0000	9.9s	100%	100	100	100	100	100	100	100	100%
114	MiniMax M2.5	$0.0011	33.5s	98%	100	100	100	100	100	100	98	100%
119	ByteDance Seed 2.0 Mini	$0.0006	35.9s	98%	100	100	100	100	100	100	97	100%
139	DeepSeek V3 (2025-03-24)	$0.0006	54.8s	90%	100	100	100	100	100	100	85	98%
121	Qwen 3 32B	$0.0007	26.0s	88%	100	100	100	100	100	100	83	98%
68	Rocinante 12B	$0.0004	6.3s	91%	100	100	100	100	95	94	87	97%
49	Ministral 3 3B	$0.0001	2.2s	95%	95	95	95	95	95	95	95	95%
94	Ministral 3B	$0.0000	1.9s	81%	100	100	95	95	95	95	77	94%
113	Mistral NeMO	$0.0002	2.3s	71%	100	100	100	100	98	98	58	93%
146	DeepSeek V3.1	$0.0005	41.1s	59%	100	100	100	100	100	95	41	91%
137	Skyfall 36B V2	$0.0007	10.6s	53%	100	100	100	100	100	100	33	90%
135	Arcee AI: Trinity Mini	$0.0002	4.9s	55%	100	98	95	95	95	90	36	87%
144	LFM2 24B	$0.0001	10.8s	67%	67	67	67	67	67	67	67	67%
150	Cohere Command R+ (Aug. 2024)	$0.0068	22.4s	22%	100	100	49	47	40	38	33	58%
151	Claude 3 Haiku	$0.0009	4.3s	0%	100	100	0	0	0	0	0	29%
98.64%

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Aion 2.0 100Claude Sonnet 4.6 (Reasoning) 100Claude Sonnet 4	29Claude 3 Haiku 30Cohere Command R+ (Aug. 2024) 80Arcee AI: Trinity Mini
100.0%	No remaining old names	100GPT-5.4 Mini 100Gemma 4 26B 100GPT-5	0LFM2 24B 29Claude 3 Haiku
100.0%	Non-name text preserved	100Stealth: Healer Alpha 100Claude Opus 4.5 100Qwen 3.5 397B A17B	29Claude 3 Haiku 45Cohere Command R+ (Aug. 2024) 81Arcee AI: Trinity Mini

Location rename: market square, outer ring, bridge, northern mines

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	100%	$0.0003	1.5s
GPT-4.1 Nano	98%	$0.0003	3.5s
Mistral Small 4	99%	$0.0004	2.9s
Stealth: Healer Alpha	100%	$0.0000	6.9s
Mistral Small 3.2 24B	100%	$0.0002	4.6s
Inception Mercury	100%	$0.0004	4.0s
Grok 4 Fast	100%	$0.0005	3.8s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s
Gemini 3.1 Flash Lite	100%	$0.0009	10.3s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.8s
ByteDance Seed 1.6 Flash	99%	$0.0003	5.3s
DeepSeek V4 Flash	100%	$0.0002	8.1s
Inception Mercury 2	100%	$0.0010	1.4s
Grok 4.1 Fast	100%	$0.0006	5.2s
Llama 3.1 70B	100%	$0.0005	17.8s
Gemma 3 12B	100%	$0.0001	8.6s
Gemini 2.5 Flash	100%	$0.0014	2.1s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0009	7.3s
Gemma 4 26B	100%	$0.0002	21.8s
GPT-4.1 Mini	100%	$0.0010	5.8s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0003	1.5s	100%
Inception Mercury 2	100%	$0.0010	1.4s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.8s	100%
Gemini 2.5 Flash	100%	$0.0014	2.1s	100%
Grok 4 Fast	100%	$0.0005	3.8s	100%
Inception Mercury	100%	$0.0004	4.0s	100%
Mistral Small 3.2 24B	100%	$0.0002	4.6s	100%
Grok 4.1 Fast	100%	$0.0006	5.2s	100%
Stealth: Healer Alpha	100%	$0.0000	6.9s	100%
GPT-5.4 Mini	100%	$0.0027	2.2s	100%
Grok 4.3	100%	$0.0019	4.2s	100%
Grok 4.20	100%	$0.0020	4.1s	100%
GPT-4.1 Mini	100%	$0.0010	5.8s	100%
Mistral Small 4	99%	$0.0004	2.9s	96%
DeepSeek V4 Flash	100%	$0.0002	8.1s	100%
Gemma 3 12B	100%	$0.0001	8.6s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0009	7.3s	100%
Claude Haiku 4.5	100%	$0.0034	2.8s	100%
ByteDance Seed 1.6 Flash	99%	$0.0003	5.3s	97%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
141	Qwen3.7 Max	$0.027	44.2s	100%	100	100	100	100	100	100	100	100%
107	Claude Opus 4.6 (Reasoning)	$0.019	6.7s	100%	100	100	100	100	100	100	100	100%
147	Qwen3.6 Max Preview	$0.022	1.1m	100%	100	100	100	100	100	100	100	100%
134	Gemini 3.1 Pro (Preview)	$0.027	25.2s	100%	100	100	100	100	100	100	100	100%
133	Z.AI GLM 5.1	$0.0081	59.5s	100%	100	100	100	100	100	100	100	100%
80	Z.AI GLM 5 Turbo	$0.0065	15.2s	100%	100	100	100	100	100	100	100	100%
108	Gemini 3.5 Flash (Reasoning)	$0.019	7.9s	100%	100	100	100	100	100	100	100	100%
89	Claude Sonnet 4.6 (Reasoning)	$0.013	6.4s	100%	100	100	100	100	100	100	100	100%
91	Grok 4.3 (Reasoning)	$0.0056	21.4s	100%	100	100	100	100	100	100	100	100%
85	GPT-5.4 (Reasoning)	$0.011	8.4s	100%	100	100	100	100	100	100	100	100%
92	GPT-5 Mini	$0.0036	26.3s	100%	100	100	100	100	100	100	100	100%
101	GPT-5.5 (Reasoning, Low)	$0.018	4.6s	100%	100	100	100	100	100	100	100	100%
76	GPT-5.1	$0.0087	9.2s	100%	100	100	100	100	100	100	100	100%
98	Claude Opus 4.6	$0.017	5.6s	100%	100	100	100	100	100	100	100	100%
142	MoonshotAI: Kimi K2.6	$0.011	1.3m	100%	100	100	100	100	100	100	100	100%
130	GPT-5	$0.021	32.5s	100%	100	100	100	100	100	100	100	100%
145	Qwen 3.5 397B A17B	$0.0083	1.4m	100%	100	100	100	100	100	100	100	100%
120	Gemma 4 31B (Reasoning)	$0.0006	53.5s	100%	100	100	100	100	100	100	100	100%
103	Qwen 3.5 122B	$0.0097	20.4s	100%	100	100	100	100	100	100	100	100%
137	Qwen 3.5 Plus (2026-04-20)	$0.0090	1.0m	100%	100	100	100	100	100	100	100	100%
138	Gemma 4 26B (Reasoning)	$0.0006	1.3m	100%	100	100	100	100	100	100	100	100%
86	Grok 4.20 (Beta, Reasoning)	$0.012	6.5s	100%	100	100	100	100	100	100	100	100%
67	GPT-5.4 (Reasoning, Low)	$0.0092	5.5s	100%	100	100	100	100	100	100	100	100%
79	Grok 4.20 (Reasoning)	$0.0054	16.9s	100%	100	100	100	100	100	100	100	100%
96	Z.AI GLM 5	$0.0052	26.5s	100%	100	100	100	100	100	100	100	100%
136	MoonshotAI: Kimi K2.5	$0.0051	1.1m	100%	100	100	100	100	100	100	100	100%
123	Qwen 3.5 27B	$0.0095	41.6s	100%	100	100	100	100	100	100	100	100%
104	ByteDance Seed 1.6	$0.0030	32.7s	100%	100	100	100	100	100	100	100	100%
69	Qwen 3.6 Flash	$0.0048	13.7s	100%	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0034	3.7s	100%	100	100	100	100	100	100	100	100%
63	Gemini 3 Flash (Preview, Reasoning)	$0.0063	10.0s	100%	100	100	100	100	100	100	100	100%
106	o4 Mini High	$0.012	19.3s	100%	100	100	100	100	100	100	100	100%
59	GPT-5.2	$0.0080	5.4s	100%	100	100	100	100	100	100	100	100%
110	DeepSeek V4 Pro (Reasoning)	$0.0033	39.4s	100%	100	100	100	100	100	100	100	100%
114	Claude Opus 4.7	$0.024	4.3s	100%	100	100	100	100	100	100	100	100%
124	Qwen 3.6 27B	$0.010	42.0s	100%	100	100	100	100	100	100	100	100%
97	Claude Opus 4.5	$0.017	5.4s	100%	100	100	100	100	100	100	100	100%
9	Grok 4.1 Fast	$0.0006	5.2s	100%	100	100	100	100	100	100	100	100%
105	Aion 2.0	$0.0029	33.2s	100%	100	100	100	100	100	100	100	100%
78	Z.AI GLM 4.6	$0.0029	21.3s	100%	100	100	100	100	100	100	100	100%
102	GPT-5.5	$0.018	4.6s	100%	100	100	100	100	100	100	100	100%
77	Qwen 3.6 35B	$0.0036	19.2s	100%	100	100	100	100	100	100	100	100%
121	DeepSeek V4 Flash (Reasoning)	$0.0003	54.7s	100%	100	100	100	100	100	100	100	100%
132	Gemini 3 Pro (Preview)	$0.029	20.5s	100%	100	100	100	100	100	100	100	100%
75	Claude Sonnet 4	$0.010	5.7s	100%	100	100	100	100	100	100	100	100%
128	MiniMax M2.5	$0.0012	1.0m	100%	100	100	100	100	100	100	100	100%
30	GPT-4.1	$0.0052	4.1s	100%	100	100	100	100	100	100	100	100%
127	Gemini 2.5 Pro	$0.024	17.6s	100%	100	100	100	100	100	100	100	100%
93	o4 Mini	$0.0099	15.0s	100%	100	100	100	100	100	100	100	100%
122	Grok 4	$0.020	22.4s	100%	100	100	100	100	100	100	100	100%
73	Claude Sonnet 4.5	$0.010	4.6s	100%	100	100	100	100	100	100	100	100%
116	Qwen 3.5 35B	$0.0098	33.7s	100%	100	100	100	100	100	100	100	100%
144	Claude Opus 4	$0.050	7.9s	100%	100	100	100	100	100	100	100	100%
43	Xiaomi MIMO v2.5 Pro	$0.0025	10.9s	100%	100	100	100	100	100	100	100	100%
47	Stealth: Hunter Alpha	$0.0000	16.3s	100%	100	100	100	100	100	100	100	100%
84	Gemma 4 31B	$0.0003	27.7s	100%	100	100	100	100	100	100	100	100%
38	Gemini 2.5 Flash (Reasoning)	$0.0044	6.7s	100%	100	100	100	100	100	100	100	100%
88	GPT-OSS 120B	$0.0005	28.9s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.8s	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 Flash	$0.0019	48.2s	100%	100	100	100	100	100	100	100	100%
65	Z.AI GLM 4.5	$0.0023	18.1s	100%	100	100	100	100	100	100	100	100%
6	Grok 4 Fast	$0.0005	3.8s	100%	100	100	100	100	100	100	100	100%
143	Qwen 3.5 9B	$0.0011	1.6m	100%	100	100	100	100	100	100	100	100%
22	Qwen 3.5 Plus (2026-02-15)	$0.0015	6.8s	100%	100	100	100	100	100	100	100	100%
10	Stealth: Healer Alpha	$0.0000	6.9s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
66	Gemma 4 26B	$0.0002	21.8s	100%	100	100	100	100	100	100	100	100%
27	Gemini 3.1 Flash Lite	$0.0009	10.3s	100%	100	100	100	100	100	100	100	100%
23	GPT-5.4 Mini (Reasoning, Low)	$0.0030	4.2s	100%	100	100	100	100	100	100	100	100%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0009	7.3s	100%	100	100	100	100	100	100	100	100%
21	Mistral Large 3	$0.0010	7.3s	100%	100	100	100	100	100	100	100	100%
68	GPT-4o, May 13th (temp=0)	$0.010	3.1s	100%	100	100	100	100	100	100	100	100%
19	Claude Haiku 4.5	$0.0034	2.8s	100%	100	100	100	100	100	100	100	100%
34	Xiaomi MIMO v2.5	$0.0024	9.9s	100%	100	100	100	100	100	100	100	100%
99	ByteDance Seed 2.0 Lite	$0.0029	31.4s	100%	100	100	100	100	100	100	100	100%
87	Nemotron 3 Super	$0.0000	29.8s	100%	100	100	100	100	100	100	100	100%
64	GPT-5.4	$0.0090	5.6s	100%	100	100	100	100	100	100	100	100%
111	Claude 3.5 Sonnet	$0.020	9.6s	100%	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0010	1.4s	100%	100	100	100	100	100	100	100	100%
44	DeepSeek V3 (2024-12-26)	$0.0007	14.5s	100%	100	100	100	100	100	100	100	100%
74	Claude 3.7 Sonnet	$0.010	5.7s	100%	100	100	100	100	100	100	100	100%
14	GPT-4.1 Mini	$0.0010	5.8s	100%	100	100	100	100	100	100	100	100%
56	Z.AI GLM 4.5 Air	$0.0009	17.2s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V4 Pro	$0.0010	16.0s	100%	100	100	100	100	100	100	100	100%
37	GPT-4o, Aug. 6th (temp=1)	$0.0065	2.8s	100%	100	100	100	100	100	100	100	100%
95	GPT-5 Nano	$0.0013	31.2s	100%	100	100	100	100	100	100	100	100%
42	GPT-4o, Aug. 6th (temp=0)	$0.0065	3.3s	100%	100	100	100	100	100	100	100	100%
11	GPT-5.4 Mini	$0.0027	2.2s	100%	100	100	100	100	100	100	100	100%
39	Mistral Large 2	$0.0042	7.2s	100%	100	100	100	100	100	100	100	100%
125	DeepSeek V3.2	$0.0004	1.0m	100%	100	100	100	100	100	100	100	100%
16	DeepSeek V4 Flash	$0.0002	8.1s	100%	100	100	100	100	100	100	100	100%
13	Grok 4.20	$0.0020	4.1s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.5s	100%	100	100	100	100	100	100	100	100%
5	Gemini 2.5 Flash	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100%
40	Mistral Large	$0.0042	7.2s	100%	100	100	100	100	100	100	100	100%
57	Qwen3 235B A22B Instruct 2507	$0.0003	18.4s	100%	100	100	100	100	100	100	100	100%
41	Writer: Palmyra X5	$0.0034	8.9s	100%	100	100	100	100	100	100	100	100%
7	Inception Mercury	$0.0004	4.0s	100%	100	100	100	100	100	100	100	100%
12	Grok 4.3	$0.0019	4.2s	100%	100	100	100	100	100	100	100	100%
8	Mistral Small 3.2 24B	$0.0002	4.6s	100%	100	100	100	100	100	100	100	100%
17	Gemma 3 12B	$0.0001	8.6s	100%	100	100	100	100	100	100	100	100%
55	Llama 3.1 70B	$0.0005	17.8s	100%	100	100	100	100	100	100	100	100%
48	Llama 3.1 Nemotron 70B	$0.0014	13.9s	100%	100	100	100	100	100	100	100	100%
100	WizardLM 2 8x22b	$0.0007	36.2s	100%	100	100	100	100	100	100	100	100%
115	GPT-5.5 (Reasoning)	$0.021	7.5s	97%	100	100	100	100	100	100	96	99%
58	MiniMax M2.7	$0.0014	14.0s	97%	100	100	100	100	100	100	96	99%
146	Z.AI GLM 4.7	$0.0050	1.5m	97%	100	100	100	100	100	100	96	99%
45	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0054	2.6s	97%	100	100	100	100	100	100	96	99%
54	DeepSeek-V2 Chat	$0.0007	14.2s	97%	100	100	100	100	100	100	96	99%
25	Grok 4.20 (Beta)	$0.0032	1.7s	97%	100	100	100	100	100	100	96	99%
109	DeepSeek V3.1	$0.0006	39.4s	97%	100	100	100	100	100	100	96	99%
20	ByteDance Seed 1.6 Flash	$0.0003	5.3s	97%	100	100	100	100	100	100	96	99%
81	GPT-4o, May 13th (temp=1)	$0.010	3.0s	95%	100	100	100	100	100	100	93	99%
53	Llama 3.1 8B	$0.0000	11.9s	94%	100	100	100	100	100	100	92	99%
82	Claude Sonnet 4.6	$0.010	4.5s	96%	100	100	100	100	100	96	96	99%
112	Z.AI GLM 4.7 Flash	$0.0009	40.7s	96%	100	100	100	100	100	96	96	99%
83	Hermes 3 405B	$0.0011	21.4s	96%	100	100	100	100	100	96	96	99%
29	Mistral Small 4 (Reasoning)	$0.0008	7.0s	96%	100	100	100	100	100	96	96	99%
72	Qwen 3 32B	$0.0005	17.2s	96%	100	100	100	100	100	96	96	99%
118	Nemotron 3 Nano	$0.0008	45.9s	96%	100	100	100	100	100	96	96	99%
15	Mistral Small 4	$0.0004	2.9s	96%	100	100	100	100	100	96	96	99%
119	Claude Opus 4.7 (Reasoning)	$0.024	4.5s	96%	100	100	100	100	96	96	96	98%
131	ByteDance Seed 2.0 Mini	$0.0011	1.1m	96%	100	100	100	100	96	96	96	98%
52	Gemma 3 27B	$0.0002	12.0s	96%	100	100	100	100	96	96	96	98%
90	Arcee AI: Trinity Large (Preview)	$0.0000	25.2s	96%	100	100	100	100	96	96	96	98%
70	Hermes 3 70B	$0.0003	16.5s	96%	100	100	100	100	96	96	96	98%
32	GPT-5.4 Nano (Reasoning, Low)	$0.0007	3.1s	92%	100	100	100	96	96	96	96	98%
71	Cydonia 24B V4.1	$0.0004	12.1s	92%	100	100	100	96	96	96	96	98%
33	GPT-4.1 Nano	$0.0003	3.5s	91%	100	100	100	100	100	96	88	98%
49	Gemini 3 Flash (Preview)	$0.0018	3.3s	92%	100	100	96	96	96	96	96	97%
62	GPT-4o Mini (temp=1)	$0.0004	9.9s	92%	100	100	96	96	96	96	96	97%
60	Qwen 2.5 72B	$0.0003	9.9s	92%	100	100	96	96	96	96	96	97%
35	GPT-5.4 Nano	$0.0007	3.1s	92%	100	100	96	96	96	96	96	97%
31	GPT-5.4 Nano (Reasoning)	$0.0007	2.7s	93%	100	96	96	96	96	96	96	96%
50	GPT-4o Mini (temp=0)	$0.0004	8.4s	96%	96	96	96	96	96	96	96	96%
36	Mistral Medium 3.1	$0.0012	4.6s	96%	96	96	96	96	96	96	96	96%
26	Mistral Small Creative	$0.0002	2.9s	96%	96	96	96	96	96	96	96	96%
28	Ministral 3 14B	$0.0002	4.4s	96%	96	96	96	96	96	96	96	96%
46	Gemma 3 4B	$0.0001	8.4s	96%	96	96	96	96	96	96	96	96%
94	Skyfall 36B V2	$0.0007	9.1s	82%	96	96	96	96	96	96	76	93%
61	Arcee AI: Trinity Mini	$0.0002	5.0s	91%	93	93	93	93	91	91	91	92%
113	DeepSeek V3 (2025-03-24)	$0.0006	12.2s	71%	100	100	100	100	95	93	58	92%
129	Ministral 3B	$0.0000	1.8s	54%	96	76	71	70	67	61	61	72%
126	Ministral 3 3B	$0.0001	2.1s	66%	78	71	71	71	67	67	67	71%
140	Mistral NeMO	$0.0002	3.0s	47%	89	67	63	60	60	56	54	64%
149	Cohere Command R+ (Aug. 2024)	$0.0067	38.4s	38%	92	79	71	58	49	47	42	63%
135	Ministral 3 8B	$0.0002	3.0s	60%	65	63	63	63	63	63	58	62%
139	Ministral 8B	$0.0001	3.6s	54%	65	65	63	63	63	56	45	60%
148	Rocinante 12B	$0.0003	8.5s	18%	96	83	74	45	42	42	2	55%
150	LFM2 24B	$0.0001	13.5s	13%	13	13	13	13	13	13	13	13%
151	Claude 3 Haiku	$0.0009	4.5s	0%	0	0	0	0	0	0	0	0%
96.48%

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Gemini 3.1 Flash Lite (Preview) 100o4 Mini High 100Gemma 4 26B	0Claude 3 Haiku 25LFM2 24B 30Ministral 8B
100.0%	No remaining old names	100GPT-5.5 (Reasoning, Low) 100Grok 4 Fast 100DeepSeek V3 (2024-12-26)	0Claude 3 Haiku 0LFM2 24B 86Rocinante 12B
100.0%	Non-name text preserved	100MiniMax M2.5 100GPT-4.1 Mini 100GPT-5.4 Nano (Reasoning)	0Claude 3 Haiku 14LFM2 24B 45Rocinante 12B

Expand all contractions

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
MoonshotAI: Kimi K2.5	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s
Mistral Small 3.2 24B	100%	$0.0002	3.7s
Gemini 3.1 Flash Lite	100%	$0.0007	1.5s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	1.5s
Mistral Small 4	99%	$0.0003	2.4s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0007	1.5s
DeepSeek V4 Flash	100%	$0.0001	5.6s
Stealth: Healer Alpha	99%	$0.0000	7.8s
Mistral NeMO	98%	$0.0001	2.6s
Grok 4 Fast	100%	$0.0007	4.9s
GPT-4o Mini (temp=1)	100%	$0.0003	7.0s
Ministral 8B	95%	$0.0001	2.4s
Gemini 2.5 Flash	100%	$0.0012	1.8s
Stealth: Hunter Alpha	100%	$0.0000	15.8s
Inception Mercury	98%	$0.0003	4.9s
Llama 3.1 8B	98%	$0.0000	6.1s
GPT-4o Mini (temp=0)	100%	$0.0003	8.4s
GPT-5.4 Nano (Reasoning, Low)	98%	$0.0006	2.4s
Ministral 3 14B	98%	$0.0002	3.2s
ByteDance Seed 1.6 Flash	100%	$0.0004	8.4s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s	100%
Gemini 3.1 Flash Lite	100%	$0.0007	1.5s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	1.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0007	1.5s	100%
Mistral Small 3.2 24B	100%	$0.0002	3.7s	100%
Gemini 2.5 Flash	100%	$0.0012	1.8s	100%
Mistral Small 4	99%	$0.0003	2.4s	99%
DeepSeek V4 Flash	100%	$0.0001	5.6s	100%
Gemini 3 Flash (Preview)	100%	$0.0015	2.7s	100%
Grok 4 Fast	100%	$0.0007	4.9s	99%
GPT-4o Mini (temp=1)	100%	$0.0003	7.0s	100%
Mistral Large 3	100%	$0.0008	5.8s	100%
Mistral NeMO	98%	$0.0001	2.6s	97%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0012	5.5s	100%
GPT-4o Mini (temp=0)	100%	$0.0003	8.4s	100%
Gemini 2.5 Flash Lite (Reasoning)	99%	$0.0008	4.6s	99%
GPT-5.4 Nano (Reasoning)	98%	$0.0006	2.5s	97%
Ministral 3 14B	98%	$0.0002	3.2s	97%
GPT-5.4 Nano (Reasoning, Low)	98%	$0.0006	2.4s	97%
ByteDance Seed 1.6 Flash	100%	$0.0004	8.4s	99%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
139	Qwen3.7 Max	$0.030	53.4s	100%	100	100	100	100	100	100	100	100%
101	Claude Opus 4.6 (Reasoning)	$0.014	5.1s	100%	100	100	100	100	100	100	100	100%
147	Qwen3.6 Max Preview	$0.029	1.6m	100%	100	100	100	100	100	100	100	100%
137	Gemini 3.1 Pro (Preview)	$0.033	29.1s	100%	100	100	100	100	100	100	100	100%
114	Z.AI GLM 5.1	$0.0083	46.4s	100%	100	100	100	100	100	100	100	100%
93	Z.AI GLM 5 Turbo	$0.0082	19.2s	100%	100	100	100	100	100	100	100	100%
124	Gemini 3.5 Flash (Reasoning)	$0.025	10.2s	100%	100	100	100	100	100	100	100	100%
111	GPT-5.5 (Reasoning)	$0.019	7.8s	100%	100	100	100	100	100	100	100	100%
102	GPT-5.5 (Reasoning, Low)	$0.015	4.9s	100%	100	100	100	100	100	100	100	100%
81	GPT-5.1	$0.0083	6.9s	100%	100	100	100	100	100	100	100	100%
95	Claude Opus 4.6	$0.013	4.9s	100%	100	100	100	100	100	100	100	100%
146	MoonshotAI: Kimi K2.6	$0.017	1.9m	100%	100	100	100	100	100	100	100	100%
130	GPT-5	$0.022	32.7s	100%	100	100	100	100	100	100	100	100%
144	Qwen 3.5 397B A17B	$0.0094	2.2m	100%	100	100	100	100	100	100	100	100%
128	Qwen 3.5 122B	$0.018	40.6s	100%	100	100	100	100	100	100	100	100%
121	Gemma 4 26B (Reasoning)	$0.0012	1.4m	100%	100	100	100	100	100	100	100	100%
100	Grok 4.20 (Beta, Reasoning)	$0.013	7.2s	100%	100	100	100	100	100	100	100	100%
82	Grok 4.20 (Reasoning)	$0.0052	20.7s	100%	100	100	100	100	100	100	100	100%
83	Z.AI GLM 5	$0.0041	25.1s	100%	100	100	100	100	100	100	100	100%
145	MoonshotAI: Kimi K2.5	$0.010	2.2m	100%	100	100	100	100	100	100	100	100%
116	Qwen 3.5 27B	$0.011	43.0s	100%	100	100	100	100	100	100	100	100%
89	Gemini 3 Flash (Preview, Reasoning)	$0.0091	14.9s	100%	100	100	100	100	100	100	100	100%
64	GPT-5.2	$0.0063	4.3s	100%	100	100	100	100	100	100	100	100%
129	Qwen 3.6 27B	$0.014	55.1s	100%	100	100	100	100	100	100	100	100%
94	Claude Opus 4.5	$0.013	4.5s	100%	100	100	100	100	100	100	100	100%
117	Z.AI GLM 4.6	$0.0052	1.1m	100%	100	100	100	100	100	100	100	100%
99	GPT-5.5	$0.014	3.9s	100%	100	100	100	100	100	100	100	100%
85	Qwen 3.6 35B	$0.0043	25.3s	100%	100	100	100	100	100	100	100	100%
134	Gemini 3 Pro (Preview)	$0.029	19.4s	100%	100	100	100	100	100	100	100	100%
78	Claude Sonnet 4	$0.0080	5.0s	100%	100	100	100	100	100	100	100	100%
122	Z.AI GLM 4.7	$0.0055	1.2m	100%	100	100	100	100	100	100	100	100%
132	Gemini 2.5 Pro	$0.027	19.1s	100%	100	100	100	100	100	100	100	100%
120	Grok 4	$0.019	22.6s	100%	100	100	100	100	100	100	100	100%
74	Claude Sonnet 4.5	$0.0080	3.9s	100%	100	100	100	100	100	100	100	100%
138	Claude Opus 4	$0.040	6.5s	100%	100	100	100	100	100	100	100	100%
54	Gemma 4 31B	$0.0002	19.8s	100%	100	100	100	100	100	100	100	100%
42	Gemini 2.5 Flash (Reasoning)	$0.0035	5.2s	100%	100	100	100	100	100	100	100	100%
40	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0044	2.2s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Reasoning)	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
14	Qwen 3.5 Plus (2026-02-15)	$0.0012	5.5s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
39	Gemma 4 26B	$0.0002	15.5s	100%	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
12	Mistral Large 3	$0.0008	5.8s	100%	100	100	100	100	100	100	100	100%
73	GPT-4o, May 13th (temp=0)	$0.0081	3.2s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3 Flash (Preview)	$0.0015	2.7s	100%	100	100	100	100	100	100	100	100%
21	Claude Haiku 4.5	$0.0027	2.2s	100%	100	100	100	100	100	100	100	100%
36	DeepSeek-V2 Chat	$0.0006	13.8s	100%	100	100	100	100	100	100	100	100%
97	ByteDance Seed 2.0 Lite	$0.0034	38.1s	100%	100	100	100	100	100	100	100	100%
61	Nemotron 3 Super	$0.0000	22.7s	100%	100	100	100	100	100	100	100	100%
108	Claude 3.5 Sonnet	$0.016	6.9s	100%	100	100	100	100	100	100	100	100%
70	GPT-4o, May 13th (temp=1)	$0.0081	2.7s	100%	100	100	100	100	100	100	100	100%
38	DeepSeek V3 (2024-12-26)	$0.0006	13.9s	100%	100	100	100	100	100	100	100	100%
76	Claude 3.7 Sonnet	$0.0080	4.6s	100%	100	100	100	100	100	100	100	100%
60	Z.AI GLM 4.5 Air	$0.0012	18.3s	100%	100	100	100	100	100	100	100	100%
48	Hermes 3 405B	$0.0009	15.8s	100%	100	100	100	100	100	100	100	100%
51	GPT-4o, Aug. 6th (temp=1)	$0.0050	2.5s	100%	100	100	100	100	100	100	100	100%
49	GPT-4o, Aug. 6th (temp=0)	$0.0050	2.3s	100%	100	100	100	100	100	100	100	100%
41	Mistral Large 2	$0.0033	5.8s	100%	100	100	100	100	100	100	100	100%
8	DeepSeek V4 Flash	$0.0001	5.6s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash	$0.0012	1.8s	100%	100	100	100	100	100	100	100	100%
43	Mistral Large	$0.0033	5.9s	100%	100	100	100	100	100	100	100	100%
30	Qwen3 235B A22B Instruct 2507	$0.0003	11.9s	100%	100	100	100	100	100	100	100	100%
63	Writer: Palmyra X5	$0.0027	14.6s	100%	100	100	100	100	100	100	100	100%
11	GPT-4o Mini (temp=1)	$0.0003	7.0s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small 3.2 24B	$0.0002	3.7s	100%	100	100	100	100	100	100	100	100%
15	GPT-4o Mini (temp=0)	$0.0003	8.4s	100%	100	100	100	100	100	100	100	100%
33	Llama 3.1 Nemotron 70B	$0.0011	10.8s	100%	100	100	100	100	100	100	100	100%
28	Hermes 3 70B	$0.0003	11.8s	100%	100	100	100	100	100	100	100	100%
68	WizardLM 2 8x22b	$0.0005	25.2s	100%	100	100	100	100	100	100	100	100%
103	ByteDance Seed 1.6	$0.0038	41.5s	99%	100	100	100	100	100	100	99	100%
86	Qwen 3.6 Flash	$0.0062	19.3s	99%	100	100	100	100	100	100	99	100%
109	o4 Mini High	$0.013	21.5s	99%	100	100	100	100	100	100	99	100%
62	MiniMax M2.7	$0.0015	17.3s	99%	100	100	100	100	100	100	99	100%
53	DeepSeek V4 Flash (Reasoning)	$0.0004	17.6s	99%	100	100	100	100	100	100	99	100%
44	GPT-4.1	$0.0040	3.2s	99%	100	100	100	100	100	100	99	100%
75	GPT-OSS 120B	$0.0010	26.6s	99%	100	100	100	100	100	100	99	100%
10	Grok 4 Fast	$0.0007	4.9s	99%	100	100	100	100	100	100	99	100%
59	Xiaomi MIMO v2.5	$0.0029	11.6s	99%	100	100	100	100	100	100	99	100%
118	Z.AI GLM 4.7 Flash	$0.0014	1.3m	99%	100	100	100	100	100	100	99	100%
57	DeepSeek V3.2	$0.0003	19.0s	99%	100	100	100	100	100	100	99	100%
67	DeepSeek V3 (2025-03-24)	$0.0005	23.6s	99%	100	100	100	100	100	100	99	100%
50	Llama 3.1 70B	$0.0004	16.8s	99%	100	100	100	100	100	100	99	100%
20	ByteDance Seed 1.6 Flash	$0.0004	8.4s	99%	100	100	100	100	100	100	99	100%
126	Qwen 3.5 Plus (2026-04-20)	$0.0099	1.0m	99%	100	100	100	100	100	99	99	100%
77	Claude Sonnet 4.6	$0.0080	3.5s	99%	100	100	100	100	100	99	99	100%
34	GPT-5.4 Mini (Reasoning)	$0.0030	3.6s	99%	100	100	100	100	100	99	99	100%
115	DeepSeek V4 Pro (Reasoning)	$0.0027	1.1m	99%	100	100	100	100	100	100	98	100%
104	Aion 2.0	$0.0034	43.1s	99%	100	100	100	100	100	99	99	100%
88	o4 Mini	$0.0085	14.6s	99%	100	100	100	100	100	99	99	100%
80	DeepSeek V3.1	$0.0005	30.2s	99%	100	100	100	100	100	100	98	100%
72	GPT-5.4 (Reasoning, Low)	$0.0072	4.6s	99%	100	100	100	100	99	99	99	100%
106	Claude Opus 4.7	$0.016	3.6s	99%	100	100	100	100	99	99	99	100%
113	ByteDance Seed 2.0 Mini	$0.0012	1.1m	99%	100	100	100	100	99	99	99	100%
69	GPT-5.4	$0.0070	4.4s	99%	100	100	100	100	99	99	99	100%
84	GPT-5 Nano	$0.0014	33.1s	99%	100	100	100	100	99	99	99	100%
90	GPT-5 Mini	$0.0041	29.2s	99%	100	100	100	100	99	99	98	100%
55	Xiaomi MIMO v2.5 Pro	$0.0023	11.1s	99%	100	100	100	100	99	99	98	100%
52	Stealth: Hunter Alpha	$0.0000	15.8s	98%	100	100	100	100	100	100	97	100%
37	Gemma 3 27B	$0.0001	13.3s	99%	100	100	100	100	99	99	98	100%
25	Qwen 2.5 72B	$0.0002	7.7s	98%	100	100	100	99	99	99	99	100%
136	Claude Sonnet 4.6 (Reasoning)	$0.029	20.3s	99%	100	100	99	99	99	99	99	99%
105	GPT-5.4 (Reasoning)	$0.013	11.3s	98%	100	100	100	99	99	99	98	99%
16	Gemini 2.5 Flash Lite (Reasoning)	$0.0008	4.6s	99%	100	100	99	99	99	99	99	99%
58	DeepSeek V4 Pro	$0.0014	14.6s	99%	100	100	99	99	99	99	99	99%
24	Grok 4.20	$0.0015	3.4s	99%	100	99	99	99	99	99	99	99%
7	Mistral Small 4	$0.0003	2.4s	99%	100	99	99	99	99	99	99	99%
107	Claude Opus 4.7 (Reasoning)	$0.016	3.3s	99%	99	99	99	99	99	99	99	99%
125	Gemma 4 31B (Reasoning)	$0.0007	1.5m	98%	100	99	99	99	99	99	98	99%
22	GPT-4.1 Mini	$0.0008	5.1s	99%	99	99	99	99	99	98	98	99%
45	Stealth: Healer Alpha	$0.0000	7.8s	94%	100	100	100	100	100	99	91	99%
47	Mistral Small 4 (Reasoning)	$0.0010	8.2s	96%	100	100	99	99	98	98	95	99%
29	Mistral Medium 3.1	$0.0010	5.4s	98%	98	98	98	98	98	98	98	98%
13	Mistral NeMO	$0.0001	2.6s	97%	99	98	98	98	98	98	98	98%
17	GPT-5.4 Nano (Reasoning)	$0.0006	2.5s	97%	99	98	98	98	98	98	98	98%
31	Inception Mercury	$0.0003	4.9s	96%	99	99	98	98	98	97	96	98%
19	GPT-5.4 Nano (Reasoning, Low)	$0.0006	2.4s	97%	99	98	98	98	98	98	97	98%
32	Llama 3.1 8B	$0.0000	6.1s	96%	100	98	98	98	97	97	97	98%
35	Gemma 3 12B	$0.0001	7.4s	97%	99	98	98	98	98	98	98	98%
18	Ministral 3 14B	$0.0002	3.2s	97%	98	98	98	98	98	98	98	98%
27	GPT-5.4 Nano	$0.0006	2.5s	96%	98	98	98	98	98	96	96	98%
112	Grok 4.3 (Reasoning)	$0.0067	30.9s	88%	100	100	100	100	100	99	83	98%
26	GPT-4.1 Nano	$0.0002	2.8s	96%	98	98	98	97	97	97	97	97%
127	Qwen 3.5 Flash	$0.0028	1.2m	89%	100	100	100	100	98	98	83	97%
66	Inception Mercury 2	$0.0012	1.6s	87%	100	100	100	99	99	99	83	97%
23	Mistral Small Creative	$0.0002	2.3s	97%	97	97	97	97	97	97	97	97%
65	Cydonia 24B V4.1	$0.0003	9.6s	92%	100	100	100	99	93	93	91	97%
79	Arcee AI: Trinity Mini	$0.0003	12.7s	90%	100	98	98	98	98	98	87	97%
46	Ministral 3 8B	$0.0001	3.2s	93%	98	98	98	98	96	96	91	96%
71	Skyfall 36B V2	$0.0005	7.5s	88%	100	100	100	99	99	89	86	96%
56	Ministral 8B	$0.0001	2.4s	91%	98	98	98	98	96	91	89	95%
98	Grok 4.1 Fast	$0.0006	10.5s	77%	100	100	100	100	100	100	67	95%
91	Grok 4.3	$0.0016	2.9s	77%	100	100	100	100	100	100	67	95%
133	MiniMax M2.5	$0.0014	1.2m	77%	100	100	100	99	99	99	67	95%
131	Qwen 3.5 35B	$0.012	42.7s	85%	100	100	100	100	98	83	83	95%
96	Grok 4.20 (Beta)	$0.0026	1.6s	76%	100	100	100	99	99	99	66	95%
148	Qwen 3.5 9B	$0.0013	2.1m	47%	100	100	99	99	99	99	24	89%
92	GPT-5.4 Mini (Reasoning, Low)	$0.0021	3.0s	85%	91	90	89	89	88	87	84	88%
87	GPT-5.4 Mini	$0.0021	1.8s	87%	90	88	88	88	88	88	88	88%
119	Arcee AI: Trinity Large (Preview)	$0.0000	20.8s	67%	100	98	84	84	84	84	67	86%
123	Rocinante 12B	$0.0003	7.5s	57%	98	95	91	80	74	72	54	81%
110	Gemma 3 4B	$0.0001	4.7s	71%	89	78	78	78	78	77	76	79%
143	Qwen 3 32B	$0.0004	20.5s	20%	99	99	99	99	99	11	11	74%
141	Nemotron 3 Nano	$0.0004	32.3s	34%	100	98	98	92	59	41	16	72%
135	Z.AI GLM 4.5	$0.0013	11.4s	51%	100	67	67	67	67	67	67	71%
140	Ministral 3B	$0.0000	1.6s	35%	59	59	49	42	42	39	39	47%
142	Ministral 3 3B	$0.0001	1.5s	40%	42	42	41	41	40	39	39	41%
149	Cohere Command R+ (Aug. 2024)	$0.0052	18.7s	25%	57	48	33	32	32	29	18	36%
150	Claude 3 Haiku	$0.0007	3.6s	0%	98	98	0	0	0	0	0	28%
151	LFM2 24B	$0.0001	9.8s	1%	2	2	2	1	1	1	1	1%
95.96%

Median	Evaluator	Top 3	Flop 3
99.7%	Name replacement accuracy	100Z.AI GLM 4.7 100Gemini 3.1 Flash Lite 100Gemini 3.5 Flash (Reasoning)	3LFM2 24B 27Claude 3 Haiku 32Ministral 3 3B
100.0%	Non-name text preserved	100ByteDance Seed 2.0 Mini 100Claude Sonnet 4.6 100Gemma 4 26B	0LFM2 24B 29Claude 3 Haiku 40Ministral 3 3B
100.0%	Possessive traps preserved	100GPT-5.4 Mini (Reasoning) 100GPT-5.5 (Reasoning) 100Claude Opus 4.7	0LFM2 24B 14Z.AI GLM 4.5 29Cohere Command R+ (Aug. 2024)

Tense rewriting: past to present

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Sonnet 4.5	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3 235B A22B Instruct 2507	100%
Claude Sonnet 4	100%
Grok 4	100%
DeepSeek V4 Pro	100%
Writer: Palmyra X5	100%
Claude Opus 4.5	99%
Qwen 3.5 Plus (2026-02-15)	99%
Claude Opus 4.6	99%
Gemma 4 31B (Reasoning)	99%
Gemini 3 Pro (Preview)	99%
Gemma 4 26B	99%
Mistral Large 3	99%
Claude 3.7 Sonnet	99%
Mistral Large 2	99%
Mistral Large	99%
Mistral Small 3.2 24B	99%
Arcee AI: Trinity Large (Preview)	99%
Gemini 3.5 Flash (Reasoning)	99%

	Score	Cost	Time
Qwen3 235B A22B Instruct 2507	100%	$0.0003	10.6s
Gemini 2.5 Flash Lite	98%	$0.0003	1.5s
Mistral Small 3.2 24B	99%	$0.0002	5.9s
Mistral Small 4	99%	$0.0004	2.8s
Ministral 3 14B	99%	$0.0002	3.8s
Mistral NeMO	98%	$0.0002	3.0s
DeepSeek V4 Flash	98%	$0.0002	6.8s
Ministral 3 8B	98%	$0.0002	3.7s
Gemma 4 26B	99%	$0.0002	12.9s
Ministral 8B	97%	$0.0001	3.6s
Qwen 2.5 72B	99%	$0.0003	10.4s
Stealth: Hunter Alpha	97%	$0.0000	11.2s
Mistral Large 3	99%	$0.0010	7.4s
DeepSeek V4 Pro	100%	$0.0009	11.9s
Qwen 3.5 Plus (2026-02-15)	99%	$0.0015	6.6s
Cydonia 24B V4.1	98%	$0.0004	11.2s
Skyfall 36B V2	84%	$0.0006	9.1s
Stealth: Healer Alpha	96%	$0.0000	13.0s
Xiaomi MIMO v2.5	99%	$0.0021	9.3s
Rocinante 12B	69%	$0.0004	8.1s

	Score	Consistency	Stability
Claude Sonnet 4.5	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	99%	99%
Qwen3 235B A22B Instruct 2507	100%	99%	99%
Claude Sonnet 4	100%	99%	99%
Claude Opus 4.6	99%	100%	99%
Gemma 4 31B (Reasoning)	99%	100%	99%
Gemini 3 Pro (Preview)	99%	100%	99%
Gemma 4 26B	99%	100%	99%
Mistral Large 3	99%	100%	99%
Claude 3.7 Sonnet	99%	100%	99%
Mistral Large 2	99%	100%	99%
Mistral Large	99%	100%	99%
Mistral Small 3.2 24B	99%	100%	99%
Arcee AI: Trinity Large (Preview)	99%	100%	99%
Gemini 3.5 Flash (Reasoning)	99%	100%	99%
Gemma 4 26B (Reasoning)	99%	100%	99%
Claude Opus 4.5	99%	100%	99%
Qwen 3.5 Plus (2026-02-15)	99%	100%	99%
Writer: Palmyra X5	100%	99%	99%
Claude 3.5 Sonnet	99%	99%	99%

	Score	Cost	Speed	Stability
Mistral Small 3.2 24B	99%	$0.0002	5.9s	99%
Ministral 3 14B	99%	$0.0002	3.8s	99%
Qwen3 235B A22B Instruct 2507	100%	$0.0003	10.6s	99%
Ministral 3 8B	98%	$0.0002	3.7s	98%
Mistral Large 3	99%	$0.0010	7.4s	99%
Gemma 4 26B	99%	$0.0002	12.9s	99%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0015	6.6s	99%
Mistral Small 4	99%	$0.0004	2.8s	97%
Mistral NeMO	98%	$0.0002	3.0s	97%
DeepSeek V4 Pro	100%	$0.0009	11.9s	99%
Gemini 2.5 Flash Lite	98%	$0.0003	1.5s	96%
DeepSeek V4 Flash	98%	$0.0002	6.8s	96%
Arcee AI: Trinity Large (Preview)	99%	$0.0000	21.2s	99%
Qwen 2.5 72B	99%	$0.0003	10.4s	96%
Gemini 3.1 Flash Lite (Reasoning)	96%	$0.0009	1.7s	96%
Gemini 3.1 Flash Lite (Preview)	96%	$0.0009	1.7s	96%
Gemini 3.1 Flash Lite	96%	$0.0009	1.8s	96%
Writer: Palmyra X5	100%	$0.0033	9.2s	99%
Xiaomi MIMO v2.5	99%	$0.0021	9.3s	97%
Mistral Large	99%	$0.0041	7.1s	99%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
38	Claude Sonnet 4.5	$0.0099	4.5s	100%	100	100	100	100	100	100	99	100%
76	Claude Opus 4.6 (Reasoning)	$0.017	5.9s	99%	100	100	100	100	100	99	99	100%
3	Qwen3 235B A22B Instruct 2507	$0.0003	10.6s	99%	100	100	100	100	100	99	99	100%
41	Claude Sonnet 4	$0.0099	5.7s	99%	100	100	100	100	99	99	99	100%
99	Grok 4	$0.021	27.3s	99%	100	100	100	99	99	99	99	100%
10	DeepSeek V4 Pro	$0.0009	11.9s	99%	100	100	100	99	99	99	99	100%
18	Writer: Palmyra X5	$0.0033	9.2s	99%	100	100	99	99	99	99	99	100%
73	Claude Opus 4.5	$0.017	5.1s	99%	100	99	99	99	99	99	99	99%
7	Qwen 3.5 Plus (2026-02-15)	$0.0015	6.6s	99%	100	99	99	99	99	99	99	99%
71	Claude Opus 4.6	$0.017	5.7s	99%	99	99	99	99	99	99	99	99%
120	Gemma 4 31B (Reasoning)	$0.0012	2.8m	99%	99	99	99	99	99	99	99	99%
141	Gemini 3 Pro (Preview)	$0.047	31.9s	99%	99	99	99	99	99	99	99	99%
6	Gemma 4 26B	$0.0002	12.9s	99%	99	99	99	99	99	99	99	99%
5	Mistral Large 3	$0.0010	7.4s	99%	99	99	99	99	99	99	99	99%
43	Claude 3.7 Sonnet	$0.0099	5.5s	99%	99	99	99	99	99	99	99	99%
21	Mistral Large 2	$0.0041	7.2s	99%	99	99	99	99	99	99	99	99%
20	Mistral Large	$0.0041	7.1s	99%	99	99	99	99	99	99	99	99%
1	Mistral Small 3.2 24B	$0.0002	5.9s	99%	99	99	99	99	99	99	99	99%
13	Arcee AI: Trinity Large (Preview)	$0.0000	21.2s	99%	99	99	99	99	99	99	99	99%
112	Gemini 3.5 Flash (Reasoning)	$0.030	13.1s	99%	99	99	99	99	99	99	99	99%
74	Gemma 4 26B (Reasoning)	$0.0017	1.3m	99%	99	99	99	99	99	99	99	99%
84	Claude 3.5 Sonnet	$0.020	8.8s	99%	99	99	99	99	99	99	99	99%
19	Xiaomi MIMO v2.5	$0.0021	9.3s	97%	100	100	100	99	99	99	97	99%
53	Claude Sonnet 4.6 (Reasoning)	$0.011	5.4s	97%	100	100	100	100	99	97	97	99%
147	Gemini 3.1 Pro (Preview)	$0.059	56.1s	99%	99	99	99	99	99	99	99	99%
92	Claude Opus 4.7 (Reasoning)	$0.023	5.9s	99%	99	99	99	99	99	99	99	99%
91	Claude Opus 4.7	$0.023	4.6s	99%	99	99	99	99	99	99	99	99%
2	Ministral 3 14B	$0.0002	3.8s	99%	99	99	99	99	99	99	99	99%
14	Qwen 2.5 72B	$0.0003	10.4s	96%	100	99	99	99	99	97	96	99%
8	Mistral Small 4	$0.0004	2.8s	97%	100	99	99	99	99	99	96	99%
24	Cydonia 24B V4.1	$0.0004	11.2s	94%	99	99	99	99	99	99	93	98%
144	MoonshotAI: Kimi K2.6	$0.032	2.1m	95%	100	100	100	99	97	96	95	98%
35	Xiaomi MIMO v2.5 Pro	$0.0032	15.5s	95%	100	99	99	99	99	97	93	98%
12	DeepSeek V4 Flash	$0.0002	6.8s	96%	100	99	99	99	97	96	96	98%
4	Ministral 3 8B	$0.0002	3.7s	98%	98	98	98	98	98	98	98	98%
79	Z.AI GLM 5	$0.0064	49.9s	96%	100	99	99	99	97	96	96	98%
139	Qwen3.7 Max	$0.036	1.2m	96%	99	99	99	99	96	96	96	98%
150	Qwen3.6 Max Preview	$0.045	2.5m	96%	99	99	99	99	96	96	96	98%
54	Gemma 4 31B	$0.0003	50.7s	96%	99	99	99	99	96	96	96	98%
9	Mistral NeMO	$0.0002	3.0s	97%	99	99	98	98	98	97	96	98%
11	Gemini 2.5 Flash Lite	$0.0003	1.5s	96%	99	99	99	99	96	96	96	98%
86	Gemini 3 Flash (Preview, Reasoning)	$0.014	24.3s	94%	99	99	99	99	99	96	92	98%
114	Z.AI GLM 5.1	$0.015	1.1m	94%	99	99	99	99	96	96	92	97%
65	GPT-4o, May 13th (temp=1)	$0.010	4.1s	94%	100	99	97	97	97	96	96	97%
149	Z.AI GLM 4.7	$0.012	4.7m	92%	100	100	100	99	97	97	89	97%
44	MiniMax M2.7	$0.0022	22.5s	93%	100	99	99	99	95	95	92	97%
22	Ministral 8B	$0.0001	3.6s	93%	99	98	98	98	97	97	91	97%
60	DeepSeek V4 Flash (Reasoning)	$0.0005	23.3s	87%	100	100	99	99	99	99	81	97%
113	Qwen 3.5 27B	$0.014	1.1m	94%	99	97	97	96	96	96	96	97%
55	Claude Sonnet 4.6	$0.0099	4.4s	97%	97	97	97	97	97	97	97	97%
36	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.6s	97%	97	97	97	97	97	97	97	97%
28	Llama 3.1 Nemotron 70B	$0.0013	13.9s	97%	97	97	97	97	97	97	97	97%
32	Stealth: Hunter Alpha	$0.0000	11.2s	91%	100	100	99	99	96	92	89	97%
61	Z.AI GLM 4.5 Air	$0.0015	36.1s	93%	100	97	97	97	97	97	93	97%
59	GPT-4o, May 13th (temp=0)	$0.010	2.9s	96%	97	97	97	97	97	97	96	97%
29	Claude Haiku 4.5	$0.0033	3.3s	96%	97	97	97	97	97	97	96	97%
87	Grok 4.20 (Reasoning)	$0.0091	30.9s	90%	100	100	99	96	96	92	92	97%
126	Gemini 2.5 Pro	$0.032	24.8s	94%	99	96	96	96	96	96	95	96%
85	GPT-5.5	$0.018	5.1s	96%	97	97	97	97	96	96	96	96%
46	GPT-4o, Aug. 6th (temp=1)	$0.0063	2.8s	93%	99	97	97	97	97	96	93	96%
39	Llama 3.1 70B	$0.0007	26.0s	95%	97	97	97	96	96	96	95	96%
33	Llama 3.1 8B	$0.0001	11.5s	91%	99	99	96	95	95	94	94	96%
25	Gemini 3 Flash (Preview)	$0.0018	3.2s	95%	97	97	97	96	96	95	95	96%
15	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.7s	96%	96	96	96	96	96	96	96	96%
16	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	96%	96	96	96	96	96	96	96	96%
17	Gemini 3.1 Flash Lite	$0.0009	1.8s	96%	96	96	96	96	96	96	96	96%
23	LFM2 24B	$0.0001	11.1s	96%	96	96	96	96	96	96	96	96%
142	Claude Opus 4	$0.050	7.7s	95%	97	96	96	96	96	96	95	96%
42	Stealth: Healer Alpha	$0.0000	13.0s	89%	100	100	100	99	97	89	88	96%
138	Qwen 3.5 397B A17B	$0.011	2.7m	90%	99	99	96	96	96	96	89	96%
143	GPT-5	$0.036	59.1s	90%	100	100	100	100	93	89	89	96%
94	ByteDance Seed 2.0 Lite	$0.0047	52.6s	87%	100	100	99	93	93	93	93	96%
123	Qwen 3.5 122B	$0.022	49.6s	90%	99	99	99	96	92	92	92	96%
27	Grok 4.20	$0.0019	4.4s	95%	96	96	96	96	95	95	95	96%
26	Mistral Medium 3.1	$0.0012	6.5s	95%	96	96	96	96	95	95	95	96%
78	GPT-5.4 (Reasoning, Low)	$0.0090	4.9s	88%	100	99	99	96	96	91	88	96%
89	MiniMax M2.5	$0.0015	1.2m	89%	100	99	96	96	95	95	88	96%
30	Mistral Small Creative	$0.0002	2.9s	91%	99	97	96	96	96	96	89	96%
125	DeepSeek V4 Pro (Reasoning)	$0.0058	1.9m	87%	100	100	100	99	97	90	82	95%
45	Mistral Small 4 (Reasoning)	$0.0014	12.6s	89%	100	99	97	96	93	93	90	95%
34	GPT-5.4 Mini (Reasoning, Low)	$0.0027	2.9s	93%	96	96	96	96	96	95	91	95%
31	GPT-5.4 Nano (Reasoning)	$0.0008	3.6s	92%	96	96	96	95	95	95	91	95%
82	Z.AI GLM 5 Turbo	$0.0087	19.4s	89%	100	99	96	96	93	93	89	95%
117	Grok 4.3 (Reasoning)	$0.011	1.2m	88%	100	100	100	99	89	88	88	95%
106	GPT-5.1	$0.016	19.9s	84%	100	100	100	93	93	89	89	95%
57	GPT-5.4 Mini (Reasoning)	$0.0039	5.2s	88%	100	99	97	96	92	91	88	95%
135	MoonshotAI: Kimi K2.5	$0.020	1.8m	89%	99	97	96	96	96	89	89	95%
37	Hermes 3 70B	$0.0003	13.9s	92%	97	96	96	96	93	93	92	95%
49	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0053	2.5s	93%	95	95	95	95	95	92	92	94%
115	Grok 4.20 (Beta, Reasoning)	$0.021	11.6s	87%	100	97	96	93	92	91	91	94%
48	Grok 4.20 (Beta)	$0.0032	1.7s	89%	96	96	95	95	95	95	86	94%
101	GPT-5.5 (Reasoning, Low)	$0.018	5.3s	91%	97	97	96	96	93	93	89	94%
88	Qwen 3.6 35B	$0.0083	37.0s	91%	97	96	96	96	93	92	90	94%
128	ByteDance Seed 2.0 Mini	$0.0024	2.6m	88%	98	97	97	93	93	93	89	94%
40	Inception Mercury 2	$0.0014	1.7s	90%	97	97	95	95	95	92	87	94%
95	Qwen 3.5 Flash	$0.0033	1.0m	90%	97	97	97	97	93	89	88	94%
63	GPT-5.4 Mini	$0.0026	2.1s	85%	99	99	97	96	96	88	82	94%
75	GPT-OSS 120B	$0.0006	36.9s	89%	97	97	95	95	95	89	88	94%
119	Qwen 3.5 35B	$0.015	47.1s	87%	99	97	96	93	93	89	89	94%
47	Grok 4.3	$0.0018	4.8s	88%	97	96	96	95	93	93	85	94%
58	Grok 4 Fast	$0.0009	8.9s	86%	99	97	96	93	91	89	89	93%
70	Grok 4.1 Fast	$0.0011	17.0s	84%	100	99	97	93	89	88	88	93%
102	Z.AI GLM 4.6	$0.0063	32.5s	81%	100	100	99	92	89	86	86	93%
111	Aion 2.0	$0.0050	1.1m	82%	100	97	97	93	92	89	81	93%
66	DeepSeek-V2 Chat	$0.0007	21.4s	88%	96	96	96	95	89	88	88	93%
50	GPT-4.1 Nano	$0.0003	3.5s	86%	97	96	96	93	91	89	86	93%
51	GPT-4.1 Mini	$0.0010	5.9s	88%	95	95	92	92	92	92	88	92%
52	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.9s	86%	96	95	95	91	91	89	89	92%
122	o4 Mini High	$0.020	37.0s	87%	96	96	93	92	92	89	89	92%
56	Gemini 2.5 Flash	$0.0014	2.1s	86%	96	96	93	92	92	92	85	92%
103	GPT-5 Mini	$0.0069	45.4s	86%	97	95	93	91	90	89	89	92%
109	ByteDance Seed 1.6	$0.0063	1.2m	88%	97	93	93	93	92	89	88	92%
81	Z.AI GLM 4.5	$0.0036	28.8s	88%	97	93	93	93	89	89	89	92%
131	Qwen 3.5 Plus (2026-04-20)	$0.014	1.5m	83%	97	96	93	89	89	89	89	91%
136	Qwen 3.6 27B	$0.019	1.3m	79%	99	96	96	89	89	89	81	91%
93	GPT-5.4	$0.0088	6.3s	82%	100	93	91	89	89	89	89	91%
69	Hermes 3 405B	$0.0011	21.1s	88%	93	93	93	93	93	89	85	91%
116	o4 Mini	$0.014	23.0s	82%	97	97	92	91	88	88	82	91%
132	GPT-5.5 (Reasoning)	$0.033	13.6s	85%	93	93	93	93	93	89	81	91%
90	DeepSeek V3.2	$0.0003	39.6s	81%	96	96	93	89	88	87	85	91%
108	Z.AI GLM 4.7 Flash	$0.0016	1.3m	84%	95	95	92	91	91	85	84	90%
67	ByteDance Seed 1.6 Flash	$0.0008	14.5s	88%	92	92	92	92	91	88	85	90%
80	GPT-4.1	$0.0051	4.2s	84%	97	93	89	89	89	89	88	90%
77	DeepSeek V3 (2024-12-26)	$0.0006	15.4s	83%	96	95	95	95	88	81	81	90%
107	Qwen 3 32B	$0.0012	52.4s	77%	96	96	96	93	89	88	70	90%
64	GPT-5.4 Nano	$0.0007	2.8s	85%	91	91	91	88	88	88	88	90%
104	Gemini 2.5 Flash (Reasoning)	$0.0084	14.0s	79%	96	96	93	89	89	81	81	89%
68	GPT-4o Mini (temp=1)	$0.0004	9.7s	86%	93	89	89	89	89	89	89	89%
110	GPT-5.4 (Reasoning)	$0.012	10.8s	79%	99	92	89	88	88	88	81	89%
97	WizardLM 2 8x22b	$0.0007	35.0s	80%	96	95	92	89	85	85	82	89%
83	GPT-5.2	$0.0079	5.7s	89%	89	89	89	89	89	89	89	89%
62	GPT-4o Mini (temp=0)	$0.0004	8.6s	89%	89	89	89	89	89	89	89	89%
72	Gemma 3 12B	$0.0001	8.8s	84%	92	92	92	92	89	81	81	89%
96	GPT-5 Nano	$0.0018	38.0s	84%	93	89	89	89	89	85	82	88%
98	Gemma 3 27B	$0.0002	19.4s	75%	96	91	91	85	84	81	80	87%
105	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	28.4s	76%	97	93	89	85	82	81	81	87%
121	Cohere Command R+ (Aug. 2024)	$0.0066	11.3s	66%	99	97	96	93	85	68	60	85%
134	Qwen 3.5 9B	$0.0014	2.0m	72%	96	89	88	87	81	81	67	84%
129	Skyfall 36B V2	$0.0006	9.1s	43%	99	99	99	99	92	85	16	84%
130	DeepSeek V3 (2025-03-24)	$0.0005	22.6s	46%	96	96	96	95	95	89	20	84%
100	Inception Mercury	$0.0004	2.2s	72%	92	87	84	81	81	80	72	82%
140	Arcee AI: Trinity Mini	$0.0002	7.4s	31%	99	99	93	93	92	86	0	80%
148	Qwen 3.6 Flash	$0.013	35.0s	32%	96	96	93	91	90	89	0	79%
133	Nemotron 3 Super	$0.0000	31.9s	47%	89	89	89	89	89	88	22	79%
137	Nemotron 3 Nano	$0.0004	29.5s	45%	93	92	89	82	82	75	22	76%
118	Ministral 3 3B	$0.0001	2.1s	66%	85	79	79	75	72	71	66	75%
127	Ministral 3B	$0.0000	2.2s	53%	97	78	78	72	64	61	54	72%
145	Rocinante 12B	$0.0004	8.1s	20%	99	99	99	97	71	16	0	69%
146	DeepSeek V3.1	$0.0005	57.1s	36%	88	87	81	81	81	43	9	67%
124	Gemma 3 4B	$0.0001	6.0s	67%	67	67	67	67	67	67	67	67%
151	Claude 3 Haiku	$0.0008	4.6s	0%	0	0	0	0	0	0	0	0%
93.07%

Median	Evaluator	Top 3	Flop 3
90.0%	Dialogue content preserved	100Claude Sonnet 4.5 100Grok 4 100Qwen 3.5 Plus (2026-02-15)	0Claude 3 Haiku 49DeepSeek V3.1 61Nemotron 3 Super
97.8%	Name replacement accuracy	100GPT-4o, Aug. 6th (temp=0) 100Llama 3.1 Nemotron 70B 100Claude Sonnet 4.6	0Gemma 3 4B 0Claude 3 Haiku 54Ministral 3 3B
100.0%	Non-name text preserved	100Qwen 3.5 27B 100Qwen3.7 Max 100Hermes 3 405B	0Claude 3 Haiku 69Rocinante 12B 71Arcee AI: Trinity Mini

POV shift: 3rd person to 1st person (Elena's perspective)

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%

	Score	Cost	Time
Stealth: Healer Alpha	100%	$0.0000	7.4s
Gemini 2.5 Flash Lite	100%	$0.0003	1.7s
Inception Mercury	100%	$0.0004	1.8s
GPT-4.1 Nano	98%	$0.0003	3.5s
Mistral Small 3.2 24B	100%	$0.0002	4.2s
Grok 4 Fast	100%	$0.0004	2.6s
Gemma 3 12B	100%	$0.0001	7.7s
DeepSeek V4 Flash	100%	$0.0002	6.8s
Inception Mercury 2	100%	$0.0007	1.0s
Mistral Small 4	87%	$0.0004	3.3s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.9s
Llama 3.1 8B	99%	$0.0000	5.8s
GPT-5.4 Nano	100%	$0.0007	3.4s
Stealth: Hunter Alpha	100%	$0.0000	23.6s
Qwen 2.5 72B	100%	$0.0003	10.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.2s
GPT-4o Mini (temp=1)	100%	$0.0004	9.2s
Gemma 4 26B	100%	$0.0003	14.2s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s
GPT-4o Mini (temp=0)	100%	$0.0004	9.0s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0003	1.7s	100%
Inception Mercury 2	100%	$0.0007	1.0s	100%
Grok 4 Fast	100%	$0.0004	2.6s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	1.7s	100%
Mistral Small 3.2 24B	100%	$0.0002	4.2s	100%
Inception Mercury	100%	$0.0004	1.8s	99%
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.2s	100%
Gemini 2.5 Flash	100%	$0.0014	2.1s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.9s	99%
GPT-5.4 Nano	100%	$0.0007	3.4s	99%
DeepSeek V4 Flash	100%	$0.0002	6.8s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	3.3s	99%
Stealth: Healer Alpha	100%	$0.0000	7.4s	100%
Gemma 3 12B	100%	$0.0001	7.7s	100%
Ministral 3 14B	99%	$0.0002	3.7s	99%
Gemini 3 Flash (Preview)	100%	$0.0018	3.2s	100%
Grok 4.1 Fast	100%	$0.0006	7.3s	100%
GPT-4o Mini (temp=0)	100%	$0.0004	9.0s	100%
Mistral Large 3	100%	$0.0010	7.3s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
138	Qwen3.7 Max	$0.026	44.2s	100%	100	100	100	100	100	100	100	100%
145	Qwen3.6 Max Preview	$0.027	1.6m	100%	100	100	100	100	100	100	100	100%
140	Gemini 3.1 Pro (Preview)	$0.033	29.6s	100%	100	100	100	100	100	100	100	100%
88	Z.AI GLM 5.1	$0.0055	29.6s	100%	100	100	100	100	100	100	100	100%
40	Z.AI GLM 5 Turbo	$0.0034	9.0s	100%	100	100	100	100	100	100	100	100%
109	Gemini 3.5 Flash (Reasoning)	$0.020	8.3s	100%	100	100	100	100	100	100	100	100%
81	Grok 4.3 (Reasoning)	$0.0056	25.2s	100%	100	100	100	100	100	100	100	100%
70	GPT-5.4 (Reasoning)	$0.0093	6.7s	100%	100	100	100	100	100	100	100	100%
111	Claude Opus 4.7 (Reasoning)	$0.022	3.9s	100%	100	100	100	100	100	100	100	100%
105	GPT-5.5 (Reasoning)	$0.020	6.5s	100%	100	100	100	100	100	100	100	100%
95	GPT-5.5 (Reasoning, Low)	$0.017	4.7s	100%	100	100	100	100	100	100	100	100%
60	GPT-5.1	$0.0072	7.8s	100%	100	100	100	100	100	100	100	100%
139	MoonshotAI: Kimi K2.6	$0.0096	1.5m	100%	100	100	100	100	100	100	100	100%
116	GPT-5	$0.018	24.5s	100%	100	100	100	100	100	100	100	100%
137	Qwen 3.5 397B A17B	$0.0090	1.4m	100%	100	100	100	100	100	100	100	100%
128	Gemma 4 31B (Reasoning)	$0.0009	1.4m	100%	100	100	100	100	100	100	100	100%
121	Qwen 3.5 122B	$0.016	36.0s	100%	100	100	100	100	100	100	100	100%
125	Qwen 3.5 Plus (2026-04-20)	$0.0088	56.8s	100%	100	100	100	100	100	100	100	100%
117	Gemma 4 26B (Reasoning)	$0.0008	1.2m	100%	100	100	100	100	100	100	100	100%
83	Grok 4.20 (Beta, Reasoning)	$0.012	6.5s	100%	100	100	100	100	100	100	100	100%
64	GPT-5.4 (Reasoning, Low)	$0.0090	5.0s	100%	100	100	100	100	100	100	100	100%
62	Grok 4.20 (Reasoning)	$0.0051	15.5s	100%	100	100	100	100	100	100	100	100%
90	Z.AI GLM 5	$0.0044	34.8s	100%	100	100	100	100	100	100	100	100%
67	Claude Sonnet 4.6	$0.0099	4.4s	100%	100	100	100	100	100	100	100	100%
130	MoonshotAI: Kimi K2.5	$0.0076	1.1m	100%	100	100	100	100	100	100	100	100%
118	Qwen 3.5 27B	$0.011	45.1s	100%	100	100	100	100	100	100	100	100%
77	ByteDance Seed 1.6	$0.0030	31.3s	100%	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0030	2.5s	100%	100	100	100	100	100	100	100	100%
57	Gemini 3 Flash (Preview, Reasoning)	$0.0060	9.5s	100%	100	100	100	100	100	100	100	100%
59	GPT-5.2	$0.0078	5.0s	100%	100	100	100	100	100	100	100	100%
144	DeepSeek V4 Pro (Reasoning)	$0.0047	2.3m	100%	100	100	100	100	100	100	100	100%
112	Claude Opus 4.7	$0.022	4.2s	100%	100	100	100	100	100	100	100	100%
18	Grok 4.1 Fast	$0.0006	7.3s	100%	100	100	100	100	100	100	100	100%
102	Z.AI GLM 4.6	$0.0047	44.6s	100%	100	100	100	100	100	100	100	100%
50	MiniMax M2.7	$0.0016	18.5s	100%	100	100	100	100	100	100	100	100%
96	GPT-5.5	$0.017	4.9s	100%	100	100	100	100	100	100	100	100%
80	Qwen 3.6 35B	$0.0047	27.8s	100%	100	100	100	100	100	100	100	100%
34	DeepSeek V4 Flash (Reasoning)	$0.0003	15.7s	100%	100	100	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.027	18.4s	100%	100	100	100	100	100	100	100	100%
72	Claude Sonnet 4	$0.0099	5.4s	100%	100	100	100	100	100	100	100	100%
108	Z.AI GLM 4.7	$0.0063	46.5s	100%	100	100	100	100	100	100	100	100%
41	GPT-4.1	$0.0050	4.5s	100%	100	100	100	100	100	100	100	100%
120	Gemini 2.5 Pro	$0.022	16.7s	100%	100	100	100	100	100	100	100	100%
94	Grok 4	$0.013	14.3s	100%	100	100	100	100	100	100	100	100%
68	Claude Sonnet 4.5	$0.0099	4.5s	100%	100	100	100	100	100	100	100	100%
99	Qwen 3.5 35B	$0.0092	29.6s	100%	100	100	100	100	100	100	100	100%
143	Claude Opus 4	$0.049	7.3s	100%	100	100	100	100	100	100	100	100%
48	Xiaomi MIMO v2.5 Pro	$0.0029	13.5s	100%	100	100	100	100	100	100	100	100%
54	Stealth: Hunter Alpha	$0.0000	23.6s	100%	100	100	100	100	100	100	100	100%
86	Gemma 4 31B	$0.0003	40.8s	100%	100	100	100	100	100	100	100	100%
46	Gemini 2.5 Flash (Reasoning)	$0.0047	7.2s	100%	100	100	100	100	100	100	100	100%
36	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0053	2.6s	100%	100	100	100	100	100	100	100	100%
79	Qwen 3.5 Flash	$0.0022	34.4s	100%	100	100	100	100	100	100	100	100%
3	Grok 4 Fast	$0.0004	2.6s	100%	100	100	100	100	100	100	100	100%
129	Qwen 3.5 9B	$0.0010	1.4m	100%	100	100	100	100	100	100	100	100%
22	Qwen 3.5 Plus (2026-02-15)	$0.0014	6.5s	100%	100	100	100	100	100	100	100	100%
14	Stealth: Healer Alpha	$0.0000	7.4s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
31	Gemma 4 26B	$0.0003	14.2s	100%	100	100	100	100	100	100	100	100%
5	Gemini 3.1 Flash Lite	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
23	GPT-5.4 Mini (Reasoning, Low)	$0.0028	3.1s	100%	100	100	100	100	100	100	100	100%
20	Mistral Large 3	$0.0010	7.3s	100%	100	100	100	100	100	100	100	100%
69	GPT-4o, May 13th (temp=0)	$0.010	4.0s	100%	100	100	100	100	100	100	100	100%
17	Gemini 3 Flash (Preview)	$0.0018	3.2s	100%	100	100	100	100	100	100	100	100%
27	Claude Haiku 4.5	$0.0033	2.9s	100%	100	100	100	100	100	100	100	100%
78	ByteDance Seed 2.0 Lite	$0.0030	32.1s	100%	100	100	100	100	100	100	100	100%
61	GPT-5.4	$0.0087	5.1s	100%	100	100	100	100	100	100	100	100%
110	Claude 3.5 Sonnet	$0.020	9.6s	100%	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0007	1.0s	100%	100	100	100	100	100	100	100	100%
71	Claude 3.7 Sonnet	$0.0099	5.5s	100%	100	100	100	100	100	100	100	100%
45	DeepSeek V4 Pro	$0.0009	17.8s	100%	100	100	100	100	100	100	100	100%
38	Mistral Large 2	$0.0041	6.9s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V3.1	$0.0006	21.6s	100%	100	100	100	100	100	100	100	100%
87	DeepSeek V3.2	$0.0004	42.8s	100%	100	100	100	100	100	100	100	100%
12	DeepSeek V4 Flash	$0.0002	6.8s	100%	100	100	100	100	100	100	100	100%
8	GPT-5.4 Nano (Reasoning)	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100%
9	Gemini 2.5 Flash	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100%
21	GPT-4o Mini (temp=1)	$0.0004	9.2s	100%	100	100	100	100	100	100	100	100%
6	Mistral Small 3.2 24B	$0.0002	4.2s	100%	100	100	100	100	100	100	100	100%
15	Gemma 3 12B	$0.0001	7.7s	100%	100	100	100	100	100	100	100	100%
19	GPT-4o Mini (temp=0)	$0.0004	9.0s	100%	100	100	100	100	100	100	100	100%
35	Gemma 3 27B	$0.0002	16.4s	100%	100	100	100	100	100	100	100	100%
26	Qwen 2.5 72B	$0.0003	10.7s	100%	100	100	100	100	100	100	100	100%
52	Arcee AI: Trinity Large (Preview)	$0.0000	23.3s	100%	100	100	100	100	100	100	100	100%
84	Claude Sonnet 4.6 (Reasoning)	$0.012	5.8s	99%	100	100	100	100	100	100	99	100%
65	GPT-5 Mini	$0.0032	20.5s	99%	100	100	100	100	100	100	99	100%
76	Qwen 3.6 Flash	$0.0065	19.3s	99%	100	100	100	100	100	100	99	100%
85	GPT-OSS 120B	$0.0003	39.0s	99%	100	100	100	100	100	100	99	100%
13	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	3.3s	99%	100	100	100	100	100	100	99	100%
58	Z.AI GLM 4.5	$0.0023	18.3s	99%	100	100	100	100	100	100	99	100%
30	Gemini 2.5 Flash Lite (Reasoning)	$0.0013	9.2s	99%	100	100	100	100	100	100	99	100%
37	DeepSeek V3 (2024-12-26)	$0.0007	14.5s	99%	100	100	100	100	100	100	99	100%
25	GPT-5.4 Mini	$0.0026	2.2s	99%	100	100	100	100	100	100	99	100%
47	Mistral Large	$0.0041	7.4s	99%	100	100	100	100	100	100	99	100%
10	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.9s	99%	100	100	100	100	100	100	99	100%
11	GPT-5.4 Nano	$0.0007	3.4s	99%	100	100	100	100	100	100	99	100%
7	Inception Mercury	$0.0004	1.8s	99%	100	100	100	100	100	100	98	100%
106	Z.AI GLM 4.7 Flash	$0.0010	57.6s	98%	100	100	100	100	100	100	97	100%
63	Nemotron 3 Super	$0.0000	28.0s	99%	100	100	100	100	100	99	99	100%
123	o4 Mini High	$0.017	28.6s	98%	100	100	100	100	100	99	97	99%
113	Aion 2.0	$0.0035	53.9s	97%	100	100	100	100	100	100	96	99%
75	GPT-4o, May 13th (temp=1)	$0.010	3.4s	97%	100	100	100	100	100	99	96	99%
89	GPT-5 Nano	$0.0015	36.4s	97%	100	100	100	100	100	99	96	99%
93	MiniMax M2.5	$0.0018	42.6s	98%	100	100	100	100	98	98	98	99%
33	Grok 4.20	$0.0019	4.1s	96%	100	100	100	100	100	100	94	99%
131	ByteDance Seed 2.0 Mini	$0.0013	1.3m	95%	100	100	100	100	100	100	92	99%
92	o4 Mini	$0.0086	16.7s	96%	100	100	100	99	99	97	97	99%
55	DeepSeek-V2 Chat	$0.0007	15.6s	96%	100	100	100	99	99	97	97	99%
32	GPT-4.1 Mini	$0.0010	6.3s	96%	100	100	100	100	100	97	95	99%
42	Cydonia 24B V4.1	$0.0004	10.7s	96%	100	100	100	100	100	97	95	99%
122	Qwen 3.6 27B	$0.011	43.6s	97%	100	100	100	100	98	98	95	99%
29	Llama 3.1 8B	$0.0000	5.8s	96%	100	100	100	99	99	98	95	99%
39	ByteDance Seed 1.6 Flash	$0.0005	9.5s	96%	100	100	100	99	99	97	96	99%
104	Claude Opus 4.6 (Reasoning)	$0.017	6.3s	99%	99	99	99	99	99	99	99	99%
98	Claude Opus 4.6	$0.016	5.5s	99%	99	99	99	99	99	99	99	99%
97	Claude Opus 4.5	$0.016	5.0s	99%	99	99	99	99	99	99	99	99%
16	Ministral 3 14B	$0.0002	3.7s	99%	99	99	99	99	99	99	99	99%
44	Grok 4.20 (Beta)	$0.0031	1.7s	95%	100	100	100	100	100	94	94	98%
74	Qwen 3 32B	$0.0006	21.1s	92%	100	100	100	100	100	100	88	98%
28	GPT-4.1 Nano	$0.0003	3.5s	96%	100	100	100	100	97	96	95	98%
56	Nemotron 3 Nano	$0.0002	14.4s	95%	100	100	100	99	97	97	94	98%
66	Hermes 3 70B	$0.0003	15.4s	91%	100	100	100	100	99	99	87	98%
73	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.4s	93%	100	96	96	96	96	96	96	97%
43	Arcee AI: Trinity Mini	$0.0002	6.7s	95%	97	97	97	96	95	95	95	96%
82	GPT-4o, Aug. 6th (temp=1)	$0.0063	2.5s	89%	100	100	100	97	96	90	89	96%
103	Llama 3.1 70B	$0.0005	37.7s	90%	100	99	99	97	95	91	91	96%
107	Hermes 3 405B	$0.0011	23.4s	77%	100	100	100	100	100	100	68	95%
49	Gemma 3 4B	$0.0001	5.9s	93%	97	97	95	95	95	95	93	95%
53	Mistral Medium 3.1	$0.0012	4.3s	94%	96	96	95	95	95	95	95	95%
101	Xiaomi MIMO v2.5	$0.0026	11.0s	77%	100	100	100	100	100	99	66	95%
115	Z.AI GLM 4.5 Air	$0.0018	39.7s	84%	100	100	100	100	100	82	82	95%
91	Grok 4.3	$0.0019	4.0s	78%	100	100	100	100	100	91	69	94%
119	DeepSeek V3 (2025-03-24)	$0.0006	32.3s	75%	100	100	100	97	96	96	66	94%
100	Llama 3.1 Nemotron 70B	$0.0013	14.1s	81%	99	96	95	94	92	85	77	91%
114	Mistral Small 4 (Reasoning)	$0.0012	10.4s	71%	100	100	100	99	85	68	68	89%
124	Mistral Small 4	$0.0004	3.3s	58%	100	100	100	100	94	73	40	87%
132	Qwen3 235B A22B Instruct 2507	$0.0003	16.6s	62%	99	99	99	79	78	76	74	86%
127	Writer: Palmyra X5	$0.0032	10.7s	71%	90	88	85	81	77	77	73	81%
126	Mistral Small Creative	$0.0002	3.0s	66%	90	80	77	74	73	73	72	77%
146	WizardLM 2 8x22b	$0.0008	48.7s	31%	100	100	100	100	68	66	0	76%
134	Ministral 3 3B	$0.0001	1.8s	62%	77	77	75	74	60	60	58	69%
135	Ministral 3 8B	$0.0002	3.6s	63%	71	69	66	66	65	65	64	67%
141	Ministral 3B	$0.0000	1.9s	43%	94	79	61	60	60	56	52	66%
136	Ministral 8B	$0.0001	3.2s	61%	71	69	68	66	65	61	60	66%
142	Mistral NeMO	$0.0002	3.9s	45%	85	81	81	68	63	44	41	66%
147	Skyfall 36B V2	$0.0006	9.7s	19%	100	97	68	41	40	39	33	60%
148	Cohere Command R+ (Aug. 2024)	$0.0064	11.6s	31%	95	52	49	49	43	40	37	52%
149	Rocinante 12B	$0.0004	7.9s	15%	100	71	68	43	39	8	0	47%
150	LFM2 24B	$0.0001	13.1s	14%	65	65	27	23	23	23	12	34%
151	Claude 3 Haiku	$0.0008	4.2s	0%	0	0	0	0	0	0	0	0%
95.56%

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Gemini 3.5 Flash (Reasoning) 100Gemini 3.1 Flash Lite (Preview) 100GPT-5.4 Mini (Reasoning, Low)	0Claude 3 Haiku 22Cohere Command R+ (Aug. 2024) 27Ministral 3B
100.0%	No remaining old names	100Grok 4.3 (Reasoning) 100Aion 2.0 100Inception Mercury 2	0LFM2 24B 0Claude 3 Haiku 71Rocinante 12B
100.0%	Non-name text preserved	100GPT-4o, May 13th (temp=1) 100Z.AI GLM 5 Turbo 100Qwen3.6 Max Preview	0Claude 3 Haiku 35Cohere Command R+ (Aug. 2024) 38Rocinante 12B

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
ByteDance Seed 1.6	100%
Gemini 3 Flash (Preview, Reasoning)	100%
DeepSeek V4 Pro (Reasoning)	100%

	Score	Cost	Time
Mistral Small Creative	100%	$0.0002	3.2s
Gemini 3.1 Flash Lite	100%	$0.0010	5.9s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	1.9s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0010	2.0s
Grok 4 Fast	100%	$0.0007	5.0s
GPT-5.4 Nano (Reasoning, Low)	94%	$0.0008	3.3s
Gemma 4 26B	100%	$0.0003	12.6s
Stealth: Hunter Alpha	100%	$0.0000	12.6s
Gemini 2.5 Flash	100%	$0.0017	2.4s
Z.AI GLM 4.5 Air	99%	$0.0016	43.4s
Grok 4.1 Fast	100%	$0.0007	10.2s
Mistral Medium 3.1	100%	$0.0014	6.9s
GPT-4.1 Mini	100%	$0.0012	6.5s
Inception Mercury 2	97%	$0.0014	2.0s
Qwen 2.5 72B	89%	$0.0003	11.6s
Gemini 3 Flash (Preview)	100%	$0.0021	3.5s
Stealth: Healer Alpha	99%	$0.0000	13.9s
ByteDance Seed 1.6 Flash	95%	$0.0007	12.0s
DeepSeek V4 Flash (Reasoning)	100%	$0.0004	16.6s
Qwen 3.5 Plus (2026-02-15)	100%	$0.0017	7.6s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
Gemini 3 Flash (Preview, Reasoning)	100%	100%	100%
DeepSeek V4 Pro (Reasoning)	100%	100%	100%

	Score	Cost	Speed	Stability
Mistral Small Creative	100%	$0.0002	3.2s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0010	1.9s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0010	2.0s	100%
Gemini 2.5 Flash	100%	$0.0017	2.4s	100%
Grok 4 Fast	100%	$0.0007	5.0s	100%
Gemini 3.1 Flash Lite	100%	$0.0010	5.9s	100%
Gemini 3 Flash (Preview)	100%	$0.0021	3.5s	100%
GPT-4.1 Mini	100%	$0.0012	6.5s	100%
Mistral Medium 3.1	100%	$0.0014	6.9s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0017	7.6s	100%
Grok 4.1 Fast	100%	$0.0007	10.2s	100%
Stealth: Hunter Alpha	100%	$0.0000	12.6s	100%
Claude Haiku 4.5	100%	$0.0041	3.1s	100%
Gemma 4 26B	100%	$0.0003	12.6s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0004	16.6s	100%
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0063	2.7s	100%
Stealth: Healer Alpha	99%	$0.0000	13.9s	99%
GPT-4.1	100%	$0.0059	4.6s	100%
Gemma 4 31B	100%	$0.0004	19.1s	100%
Llama 3.1 Nemotron 70B	100%	$0.0015	16.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
105	Qwen3.7 Max	$0.029	50.7s	100%	100	100	100	100	100	100	100	100%
62	Claude Opus 4.6 (Reasoning)	$0.021	7.3s	100%	100	100	100	100	100	100	100	100%
134	Qwen3.6 Max Preview	$0.030	1.6m	100%	100	100	100	100	100	100	100	100%
101	Gemini 3.1 Pro (Preview)	$0.032	31.1s	100%	100	100	100	100	100	100	100	100%
41	Claude Sonnet 4.6 (Reasoning)	$0.013	6.1s	100%	100	100	100	100	100	100	100	100%
56	GPT-5.5 (Reasoning, Low)	$0.021	5.6s	100%	100	100	100	100	100	100	100	100%
47	GPT-5.1	$0.013	13.8s	100%	100	100	100	100	100	100	100	100%
52	Claude Opus 4.6	$0.020	6.4s	100%	100	100	100	100	100	100	100	100%
94	MoonshotAI: Kimi K2.6	$0.012	1.2m	100%	100	100	100	100	100	100	100	100%
106	GPT-5	$0.034	43.1s	100%	100	100	100	100	100	100	100	100%
100	Gemma 4 26B (Reasoning)	$0.0017	1.8m	100%	100	100	100	100	100	100	100	100%
37	Grok 4.20 (Beta, Reasoning)	$0.012	6.4s	100%	100	100	100	100	100	100	100	100%
29	GPT-5.4 (Reasoning, Low)	$0.011	6.5s	100%	100	100	100	100	100	100	100	100%
28	Grok 4.20 (Reasoning)	$0.0060	18.4s	100%	100	100	100	100	100	100	100	100%
48	Z.AI GLM 5	$0.0044	34.8s	100%	100	100	100	100	100	100	100	100%
32	Claude Sonnet 4.6	$0.012	5.1s	100%	100	100	100	100	100	100	100	100%
103	MoonshotAI: Kimi K2.5	$0.0075	1.6m	100%	100	100	100	100	100	100	100	100%
45	ByteDance Seed 1.6	$0.0031	34.1s	100%	100	100	100	100	100	100	100	100%
24	Gemini 3 Flash (Preview, Reasoning)	$0.0065	10.3s	100%	100	100	100	100	100	100	100	100%
86	DeepSeek V4 Pro (Reasoning)	$0.0063	1.3m	100%	100	100	100	100	100	100	100	100%
51	Claude Opus 4.5	$0.020	5.7s	100%	100	100	100	100	100	100	100	100%
11	Grok 4.1 Fast	$0.0007	10.2s	100%	100	100	100	100	100	100	100	100%
61	Aion 2.0	$0.0040	49.3s	100%	100	100	100	100	100	100	100	100%
44	Z.AI GLM 4.6	$0.0051	27.9s	100%	100	100	100	100	100	100	100	100%
25	MiniMax M2.7	$0.0026	22.1s	100%	100	100	100	100	100	100	100	100%
50	GPT-5.5	$0.021	5.2s	100%	100	100	100	100	100	100	100	100%
15	DeepSeek V4 Flash (Reasoning)	$0.0004	16.6s	100%	100	100	100	100	100	100	100	100%
79	Gemini 3 Pro (Preview)	$0.027	17.9s	100%	100	100	100	100	100	100	100	100%
35	Claude Sonnet 4	$0.012	6.4s	100%	100	100	100	100	100	100	100	100%
63	Z.AI GLM 4.7	$0.0055	50.8s	100%	100	100	100	100	100	100	100	100%
18	GPT-4.1	$0.0059	4.6s	100%	100	100	100	100	100	100	100	100%
83	Gemini 2.5 Pro	$0.028	21.0s	100%	100	100	100	100	100	100	100	100%
72	Grok 4	$0.019	23.9s	100%	100	100	100	100	100	100	100	100%
33	Claude Sonnet 4.5	$0.012	5.2s	100%	100	100	100	100	100	100	100	100%
128	Claude Opus 4	$0.061	9.1s	100%	100	100	100	100	100	100	100	100%
12	Stealth: Hunter Alpha	$0.0000	12.6s	100%	100	100	100	100	100	100	100	100%
19	Gemma 4 31B	$0.0004	19.1s	100%	100	100	100	100	100	100	100	100%
16	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0063	2.7s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	2.0s	100%	100	100	100	100	100	100	100	100%
43	Z.AI GLM 4.5	$0.0037	30.4s	100%	100	100	100	100	100	100	100	100%
5	Grok 4 Fast	$0.0007	5.0s	100%	100	100	100	100	100	100	100	100%
10	Qwen 3.5 Plus (2026-02-15)	$0.0017	7.6s	100%	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite (Preview)	$0.0010	1.9s	100%	100	100	100	100	100	100	100	100%
14	Gemma 4 26B	$0.0003	12.6s	100%	100	100	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite	$0.0010	5.9s	100%	100	100	100	100	100	100	100	100%
30	GPT-4o, May 13th (temp=0)	$0.012	4.6s	100%	100	100	100	100	100	100	100	100%
7	Gemini 3 Flash (Preview)	$0.0021	3.5s	100%	100	100	100	100	100	100	100	100%
13	Claude Haiku 4.5	$0.0041	3.1s	100%	100	100	100	100	100	100	100	100%
53	ByteDance Seed 2.0 Lite	$0.0040	46.7s	100%	100	100	100	100	100	100	100	100%
70	Claude 3.5 Sonnet	$0.024	10.3s	100%	100	100	100	100	100	100	100	100%
27	GPT-4o, May 13th (temp=1)	$0.012	3.9s	100%	100	100	100	100	100	100	100	100%
36	Claude 3.7 Sonnet	$0.012	6.6s	100%	100	100	100	100	100	100	100	100%
8	GPT-4.1 Mini	$0.0012	6.5s	100%	100	100	100	100	100	100	100	100%
26	Hermes 3 405B	$0.0013	25.6s	100%	100	100	100	100	100	100	100	100%
39	DeepSeek V4 Pro	$0.0020	32.0s	100%	100	100	100	100	100	100	100	100%
21	GPT-4o, Aug. 6th (temp=0)	$0.0074	2.7s	100%	100	100	100	100	100	100	100	100%
38	Qwen 3 32B	$0.0006	35.1s	100%	100	100	100	100	100	100	100	100%
4	Gemini 2.5 Flash	$0.0017	2.4s	100%	100	100	100	100	100	100	100	100%
20	Llama 3.1 Nemotron 70B	$0.0015	16.8s	100%	100	100	100	100	100	100	100	100%
1	Mistral Small Creative	$0.0002	3.2s	100%	100	100	100	100	100	100	100	100%
77	Z.AI GLM 5.1	$0.011	51.9s	100%	100	100	100	100	100	100	99	100%
74	Gemini 3.5 Flash (Reasoning)	$0.025	10.4s	100%	100	100	100	100	100	100	99	100%
69	GPT-5.5 (Reasoning)	$0.025	7.9s	100%	100	100	100	100	100	100	99	100%
68	o4 Mini High	$0.017	25.4s	100%	100	100	100	100	100	100	99	100%
9	Mistral Medium 3.1	$0.0014	6.9s	100%	100	100	100	100	100	100	99	100%
96	Qwen 3.5 122B	$0.021	49.1s	99%	100	100	100	100	100	99	99	100%
91	Qwen 3.6 27B	$0.013	1.0m	99%	100	100	100	100	100	99	99	100%
49	o4 Mini	$0.012	18.0s	99%	100	100	100	100	100	99	99	100%
59	Grok 4.3 (Reasoning)	$0.0074	38.1s	99%	100	100	100	100	99	99	99	100%
22	GPT-4o, Aug. 6th (temp=1)	$0.0074	3.5s	99%	100	100	100	100	99	99	99	100%
71	Gemma 4 31B (Reasoning)	$0.0007	1.1m	99%	100	100	100	99	99	99	99	100%
46	Qwen 3.6 35B	$0.0048	27.0s	99%	100	100	100	99	99	99	99	100%
76	Claude Opus 4.7 (Reasoning)	$0.028	4.6s	98%	100	100	100	100	100	100	97	100%
42	Qwen 3.6 Flash	$0.0062	18.8s	98%	100	100	99	99	99	99	99	99%
17	Stealth: Healer Alpha	$0.0000	13.9s	99%	100	99	99	99	99	99	99	99%
40	GPT-5.4	$0.010	6.0s	98%	100	100	100	100	99	99	97	99%
82	Qwen 3.5 27B	$0.012	53.2s	99%	99	99	99	99	99	99	99	99%
34	GPT-OSS 120B	$0.0007	29.7s	99%	99	99	99	99	99	99	99	99%
54	Z.AI GLM 4.5 Air	$0.0016	43.4s	97%	100	100	100	100	99	99	95	99%
31	Gemini 2.5 Flash (Reasoning)	$0.0055	8.3s	96%	99	99	99	99	99	99	95	99%
23	Inception Mercury 2	$0.0014	2.0s	95%	99	99	99	99	95	95	95	97%
98	MiniMax M2.5	$0.0017	1.1m	89%	100	99	99	99	99	97	85	97%
89	Claude Opus 4.7	$0.028	5.1s	94%	100	97	97	97	96	96	96	97%
84	Z.AI GLM 5 Turbo	$0.0086	18.8s	82%	100	100	100	100	100	100	74	96%
81	Llama 3.1 70B	$0.0005	34.1s	82%	100	100	100	100	100	100	74	96%
92	GPT-5.4 (Reasoning)	$0.014	11.6s	82%	100	100	100	100	100	99	74	96%
78	GPT-5.2	$0.010	7.0s	82%	100	100	100	100	99	99	74	96%
80	Xiaomi MIMO v2.5	$0.0052	20.7s	82%	100	100	100	100	99	99	74	96%
118	Qwen 3.5 Plus (2026-04-20)	$0.011	1.1m	81%	100	100	100	99	99	99	74	96%
138	Qwen 3.5 9B	$0.0014	2.1m	81%	100	100	100	99	99	99	74	96%
87	GPT-5 Mini	$0.0047	28.0s	81%	100	100	100	99	99	97	74	96%
67	ByteDance Seed 1.6 Flash	$0.0007	12.0s	81%	99	99	99	99	99	99	72	95%
57	Gemma 3 27B	$0.0002	17.7s	89%	98	98	93	93	93	93	93	94%
65	GPT-5.4 Nano (Reasoning, Low)	$0.0008	3.3s	80%	100	99	99	99	99	86	74	94%
73	Grok 4.20	$0.0021	4.5s	80%	100	100	100	100	100	83	74	94%
60	Inception Mercury	$0.0005	3.4s	84%	100	95	95	95	94	92	81	93%
145	Qwen 3.5 397B A17B	$0.010	2.5m	76%	100	100	100	100	100	74	74	92%
90	GPT-5.4 Mini (Reasoning)	$0.0061	5.8s	76%	100	100	100	100	100	74	74	92%
58	Qwen3 235B A22B Instruct 2507	$0.0003	9.7s	91%	91	91	91	91	91	91	91	91%
55	Arcee AI: Trinity Mini	$0.0002	7.4s	90%	91	91	91	91	91	90	90	91%
85	GPT-5.4 Nano	$0.0008	3.7s	75%	99	99	99	93	83	80	75	90%
141	Qwen 3.5 35B	$0.017	53.6s	70%	100	100	99	90	90	73	73	89%
64	Ministral 3 3B	$0.0001	2.2s	87%	91	91	91	91	88	85	85	89%
112	Nemotron 3 Super	$0.0000	47.0s	74%	99	99	95	94	90	73	73	89%
95	GPT-5.4 Mini (Reasoning, Low)	$0.0035	2.9s	74%	100	100	100	100	74	74	74	89%
97	Qwen 2.5 72B	$0.0003	11.6s	74%	100	100	100	100	74	74	74	89%
66	Gemma 3 4B	$0.0001	6.3s	89%	89	89	89	89	89	89	89	89%
125	GPT-5 Nano	$0.0028	58.3s	73%	100	100	99	97	75	75	73	89%
93	Writer: Palmyra X5	$0.0039	12.4s	80%	91	91	91	91	91	91	74	88%
75	Ministral 3B	$0.0001	2.2s	85%	88	88	88	88	85	85	85	87%
109	Grok 4.20 (Beta)	$0.0037	2.0s	62%	100	100	100	80	80	74	74	87%
124	Mistral Small 4 (Reasoning)	$0.0016	14.1s	55%	100	100	99	99	95	73	37	86%
108	Cydonia 24B V4.1	$0.0004	13.1s	65%	100	97	91	80	80	78	74	86%
126	Xiaomi MIMO v2.5 Pro	$0.0026	11.4s	55%	100	100	100	100	100	50	50	86%
104	GPT-5.4 Nano (Reasoning)	$0.0010	3.7s	68%	100	99	92	88	74	74	73	86%
129	DeepSeek-V2 Chat	$0.0009	16.4s	54%	100	100	100	74	74	74	74	85%
130	Mistral Large	$0.0048	8.3s	54%	100	100	100	74	74	74	74	85%
88	Claude 3 Haiku	$0.0010	4.8s	81%	86	86	86	86	86	86	78	85%
140	Qwen 3.5 Flash	$0.0037	57.2s	64%	100	99	91	83	73	73	73	85%
133	DeepSeek V3 (2025-03-24)	$0.0007	21.4s	56%	100	100	91	74	74	74	70	83%
144	Z.AI GLM 4.7 Flash	$0.0018	1.2m	55%	100	99	92	74	74	72	72	83%
135	DeepSeek V3 (2024-12-26)	$0.0008	16.6s	56%	100	100	74	74	74	74	74	81%
136	Hermes 3 70B	$0.0004	22.6s	56%	100	100	74	74	74	74	74	81%
102	GPT-5.4 Mini	$0.0031	2.3s	78%	83	83	83	83	83	80	74	81%
99	Mistral Small 3.2 24B	$0.0002	6.0s	80%	80	80	80	80	80	80	80	80%
107	Mistral Small 4	$0.0004	3.5s	72%	85	85	78	78	78	78	74	79%
111	Ministral 3 14B	$0.0003	4.4s	69%	88	88	78	78	76	74	74	79%
110	Skyfall 36B V2	$0.0007	10.7s	75%	83	80	80	80	78	74	74	78%
142	WizardLM 2 8x22b	$0.0008	42.8s	60%	100	74	74	74	74	74	74	77%
139	Gemini 2.5 Flash Lite (Reasoning)	$0.0026	19.1s	60%	100	74	74	74	74	73	73	77%
123	Llama 3.1 8B	$0.0001	7.1s	67%	86	74	74	74	74	74	73	75%
151	Nemotron 3 Nano	$0.0018	1.7m	42%	99	99	95	87	74	39	33	75%
115	Ministral 3 8B	$0.0002	3.5s	71%	78	78	74	74	74	74	74	75%
114	Ministral 8B	$0.0001	4.0s	73%	75	74	74	74	74	74	74	74%
119	Mistral Large 3	$0.0012	8.4s	74%	74	74	74	74	74	74	74	74%
127	Mistral Large 2	$0.0048	8.3s	74%	74	74	74	74	74	74	74	74%
137	DeepSeek V3.2	$0.0004	38.8s	74%	74	74	74	74	74	74	74	74%
116	DeepSeek V4 Flash	$0.0002	7.9s	74%	74	74	74	74	74	74	74	74%
122	GPT-4o Mini (temp=1)	$0.0004	11.9s	74%	74	74	74	74	74	74	74	74%
117	Gemma 3 12B	$0.0001	8.7s	74%	74	74	74	74	74	74	74	74%
120	GPT-4o Mini (temp=0)	$0.0004	10.7s	74%	74	74	74	74	74	74	74	74%
113	Mistral NeMO	$0.0002	1.8s	74%	74	74	74	74	74	74	74	74%
121	Grok 4.3	$0.0023	5.8s	73%	74	74	74	74	74	74	73	74%
146	ByteDance Seed 2.0 Mini	$0.0018	1.8m	73%	74	74	74	74	74	73	72	73%
143	Cohere Command R+ (Aug. 2024)	$0.0077	41.5s	69%	74	74	74	74	74	74	65	72%
132	LFM2 24B	$0.0001	16.0s	72%	72	72	72	72	72	72	72	72%
131	Gemini 2.5 Flash Lite	$0.0003	2.0s	67%	72	72	72	72	72	72	63	70%
148	DeepSeek V3.1	$0.0006	25.1s	38%	74	74	74	74	74	74	5	64%
149	Rocinante 12B	$0.0004	8.7s	29%	100	79	72	68	63	63	0	63%
150	Arcee AI: Trinity Large (Preview)	$0.0000	26.1s	36%	91	50	50	50	50	50	50	56%
147	GPT-4.1 Nano	$0.0003	4.5s	46%	63	51	51	51	51	51	50	52%
92.13%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100Gemini 2.5 Flash (Reasoning) 100Qwen 3.5 35B 100GPT-5.4 Mini (Reasoning)	83Rocinante 12B 84Nemotron 3 Nano 86DeepSeek V3.1
100.0%	Mara pronouns preserved (coreference test)	100o4 Mini 100Gemini 3.5 Flash (Reasoning) 100Qwen 3.5 Plus (2026-02-15)	0GPT-4.1 Nano 0Gemini 2.5 Flash Lite 0ByteDance Seed 2.0 Mini
99.2%	Name replacement accuracy	100GPT-5 100MiniMax M2.7 100GPT-4.1 Mini	9GPT-4.1 Nano 14Arcee AI: Trinity Large (Preview) 67Rocinante 12B
100.0%	Non-name text preserved	100Gemini 3.5 Flash (Reasoning) 100Claude Haiku 4.5 100Llama 3.1 70B	83Claude 3 Haiku 83Nemotron 3 Nano 86Rocinante 12B

Combined: 3rd person past → 1st person present

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Z.AI GLM 5 Turbo	100%
GPT-5.5	100%
Claude Opus 4.6 (Reasoning)	99%
Qwen3.6 Max Preview	99%
Claude Opus 4.7 (Reasoning)	99%
Claude Opus 4.6	99%
Gemma 4 31B (Reasoning)	99%
GPT-5.4 Mini (Reasoning)	99%
Claude Sonnet 4	99%
Gemma 4 31B	99%
Grok 4.20 (Beta, Reasoning)	99%
Grok 4.20 (Reasoning)	99%
Aion 2.0	99%
DeepSeek V4 Pro (Reasoning)	99%
Claude Haiku 4.5	99%
GPT-5.1	99%
Claude Sonnet 4.6 (Reasoning)	99%
Gemini 2.5 Pro	99%
GPT-5.4	99%
Claude Opus 4.7	99%

	Score	Cost	Time
Gemini 2.5 Flash Lite	99%	$0.0003	1.8s
Grok 4 Fast	98%	$0.0006	5.0s
DeepSeek V4 Flash	98%	$0.0002	8.1s
GPT-5.4 Nano	99%	$0.0007	3.2s
Gemini 3.1 Flash Lite	98%	$0.0009	1.8s
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	1.8s
Stealth: Hunter Alpha	99%	$0.0000	22.8s
Gemini 2.5 Flash	94%	$0.0015	2.1s
Gemma 3 12B	94%	$0.0001	9.3s
GPT-4.1 Nano	98%	$0.0003	3.6s
GPT-5.4 Nano (Reasoning)	97%	$0.0007	3.1s
Stealth: Healer Alpha	97%	$0.0000	11.0s
Gemini 3.1 Flash Lite (Preview)	98%	$0.0009	1.7s
Mistral Small 3.2 24B	98%	$0.0002	4.4s
Gemma 4 26B	99%	$0.0002	11.9s
Mistral Small 4	85%	$0.0004	4.8s
Gemma 4 31B	99%	$0.0003	26.8s
GPT-4.1 Mini	99%	$0.0010	12.0s
Qwen 2.5 72B	98%	$0.0003	9.5s
Gemma 3 27B	98%	$0.0002	13.1s

	Score	Consistency	Stability
Z.AI GLM 5 Turbo	100%	99%	99%
GPT-5.5	100%	99%	99%
Claude Opus 4.6 (Reasoning)	99%	100%	99%
Qwen3.6 Max Preview	99%	100%	99%
Claude Opus 4.7 (Reasoning)	99%	100%	99%
Claude Opus 4.6	99%	100%	99%
Gemma 4 31B (Reasoning)	99%	100%	99%
GPT-5.4 Mini (Reasoning)	99%	100%	99%
Claude Sonnet 4	99%	100%	99%
Gemma 4 31B	99%	100%	99%
Grok 4.20 (Beta, Reasoning)	99%	100%	99%
Grok 4.20 (Reasoning)	99%	100%	99%
Aion 2.0	99%	99%	99%
Gemini 2.5 Pro	99%	99%	99%
GPT-5.4	99%	99%	99%
Gemini 3.1 Pro (Preview)	99%	100%	99%
Z.AI GLM 5.1	99%	100%	99%
Qwen 3.5 397B A17B	99%	100%	99%
Claude Sonnet 4.6	99%	100%	99%
Claude Opus 4.5	99%	100%	99%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	99%	$0.0003	1.8s	98%
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	1.8s	98%
GPT-5.4 Nano	99%	$0.0007	3.2s	98%
Gemini 3.1 Flash Lite	98%	$0.0009	1.8s	98%
Gemini 3.1 Flash Lite (Preview)	98%	$0.0009	1.7s	98%
Mistral Small 3.2 24B	98%	$0.0002	4.4s	97%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0014	6.7s	99%
GPT-4.1 Nano	98%	$0.0003	3.6s	96%
Grok 4 Fast	98%	$0.0006	5.0s	96%
Gemma 4 26B	99%	$0.0002	11.9s	98%
Qwen 2.5 72B	98%	$0.0003	9.5s	98%
Gemini 3 Flash (Preview)	98%	$0.0018	3.1s	97%
Claude Haiku 4.5	99%	$0.0033	2.8s	99%
Hermes 3 70B	99%	$0.0003	13.7s	98%
Mistral Large 3	98%	$0.0010	7.1s	98%
Cydonia 24B V4.1	98%	$0.0004	11.5s	98%
GPT-4.1 Mini	99%	$0.0010	12.0s	98%
Xiaomi MIMO v2.5	99%	$0.0021	9.1s	97%
GPT-5.4 Mini (Reasoning, Low)	98%	$0.0027	3.9s	96%
DeepSeek V4 Pro	99%	$0.0013	16.3s	98%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
49	Z.AI GLM 5 Turbo	$0.0063	16.7s	99%	100	100	100	100	100	99	99	100%
77	GPT-5.5	$0.017	4.7s	99%	100	100	100	100	99	99	99	100%
81	Claude Opus 4.6 (Reasoning)	$0.017	6.1s	99%	99	99	99	99	99	99	99	99%
144	Qwen3.6 Max Preview	$0.033	1.8m	99%	99	99	99	99	99	99	99	99%
99	Claude Opus 4.7 (Reasoning)	$0.022	4.0s	99%	99	99	99	99	99	99	99	99%
74	Claude Opus 4.6	$0.016	5.6s	99%	99	99	99	99	99	99	99	99%
116	Gemma 4 31B (Reasoning)	$0.0008	1.8m	99%	99	99	99	99	99	99	99	99%
23	GPT-5.4 Mini (Reasoning)	$0.0050	6.2s	99%	99	99	99	99	99	99	99	99%
53	Claude Sonnet 4	$0.0099	5.9s	99%	99	99	99	99	99	99	99	99%
30	Gemma 4 31B	$0.0003	26.8s	99%	99	99	99	99	99	99	99	99%
76	Grok 4.20 (Beta, Reasoning)	$0.016	9.2s	99%	99	99	99	99	99	99	99	99%
70	Grok 4.20 (Reasoning)	$0.0078	29.5s	99%	99	99	99	99	99	99	99	99%
79	Aion 2.0	$0.0041	56.1s	99%	99	99	99	99	99	99	99	99%
114	DeepSeek V4 Pro (Reasoning)	$0.0046	1.4m	98%	100	100	99	99	99	99	98	99%
13	Claude Haiku 4.5	$0.0033	2.8s	99%	100	99	99	99	99	99	99	99%
58	GPT-5.1	$0.0087	10.8s	99%	99	99	99	99	99	99	98	99%
130	Claude Sonnet 4.6 (Reasoning)	$0.033	25.1s	98%	100	99	99	99	99	99	99	99%
131	Gemini 2.5 Pro	$0.035	26.1s	99%	99	99	99	99	99	99	99	99%
50	GPT-5.4	$0.0087	5.5s	99%	99	99	99	99	99	99	99	99%
102	Claude Opus 4.7	$0.022	4.2s	99%	99	99	99	99	99	99	98	99%
119	Gemini 3.5 Flash (Reasoning)	$0.028	12.0s	98%	99	99	99	99	99	99	99	99%
140	Gemini 3 Pro (Preview)	$0.044	30.8s	98%	99	99	99	99	99	99	99	99%
55	Claude Sonnet 4.5	$0.0099	4.5s	98%	99	99	99	99	99	99	99	99%
20	DeepSeek V4 Pro	$0.0013	16.3s	98%	99	99	99	99	99	99	99	99%
86	GPT-5.5 (Reasoning, Low)	$0.018	5.4s	98%	99	99	99	99	99	99	97	99%
141	Claude Opus 4	$0.050	7.7s	96%	100	100	100	99	99	99	95	99%
51	DeepSeek V3.1	$0.0007	36.6s	98%	99	99	99	99	99	99	99	99%
123	Grok 4	$0.025	31.8s	98%	99	99	99	99	99	99	97	99%
67	GPT-5.4 (Reasoning)	$0.011	8.5s	97%	100	99	99	99	99	99	96	99%
138	Qwen3.7 Max	$0.034	1.0m	98%	99	99	99	99	99	99	99	99%
100	Gemma 4 26B (Reasoning)	$0.0008	1.4m	98%	99	99	99	99	99	99	98	99%
44	Xiaomi MIMO v2.5 Pro	$0.0034	15.4s	98%	99	99	99	99	99	99	98	99%
24	Stealth: Hunter Alpha	$0.0000	22.8s	98%	99	99	99	99	99	99	99	99%
63	Qwen 3.5 Flash	$0.0026	40.4s	98%	99	99	99	99	99	99	99	99%
10	Gemma 4 26B	$0.0002	11.9s	98%	99	99	99	99	99	99	99	99%
17	GPT-4.1 Mini	$0.0010	12.0s	98%	99	99	99	99	99	99	98	99%
40	Hermes 3 405B	$0.0011	23.7s	98%	99	99	99	99	99	99	99	99%
117	Qwen 3.5 27B	$0.013	57.8s	97%	99	99	99	99	99	99	96	99%
143	Gemini 3.1 Pro (Preview)	$0.047	44.2s	99%	99	99	99	99	99	99	99	99%
83	Z.AI GLM 5.1	$0.0096	35.3s	99%	99	99	99	99	99	99	99	99%
129	Qwen 3.5 397B A17B	$0.0073	2.1m	99%	99	99	99	99	99	99	99	99%
56	Claude Sonnet 4.6	$0.0099	4.8s	99%	99	99	99	99	99	99	99	99%
68	Qwen 3.6 Flash	$0.0077	25.1s	98%	99	99	99	99	99	99	98	99%
75	Claude Opus 4.5	$0.016	5.1s	99%	99	99	99	99	99	99	99	99%
47	MiniMax M2.7	$0.0026	23.8s	98%	99	99	99	99	99	99	98	99%
7	Qwen 3.5 Plus (2026-02-15)	$0.0014	6.7s	99%	99	99	99	99	99	99	99	99%
54	GPT-4o, May 13th (temp=0)	$0.010	3.5s	99%	99	99	99	99	99	99	99	99%
93	Claude 3.5 Sonnet	$0.020	9.2s	99%	99	99	99	99	99	99	99	99%
57	Claude 3.7 Sonnet	$0.0099	5.6s	99%	99	99	99	99	99	99	99	99%
35	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.9s	99%	99	99	99	99	99	99	99	99%
111	DeepSeek V3.2	$0.0003	1.7m	99%	99	99	99	99	99	99	99	99%
64	Gemini 3 Flash (Preview, Reasoning)	$0.0089	14.6s	98%	99	99	99	99	99	99	98	99%
2	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.8s	98%	99	99	99	99	99	99	98	99%
3	GPT-5.4 Nano	$0.0007	3.2s	98%	99	99	99	99	99	99	98	99%
14	Hermes 3 70B	$0.0003	13.7s	98%	99	99	99	99	99	99	98	99%
45	DeepSeek V4 Flash (Reasoning)	$0.0005	23.9s	97%	100	99	99	99	99	99	96	99%
89	Z.AI GLM 5	$0.0055	57.1s	98%	99	99	99	99	99	99	98	99%
18	Xiaomi MIMO v2.5	$0.0021	9.1s	97%	100	99	99	99	99	98	97	99%
148	MoonshotAI: Kimi K2.5	$0.012	3.3m	97%	99	99	99	99	99	99	97	99%
31	GPT-4.1	$0.0050	4.4s	98%	99	99	99	99	98	98	98	99%
1	Gemini 2.5 Flash Lite	$0.0003	1.8s	98%	99	99	99	99	98	98	98	99%
133	Z.AI GLM 4.7	$0.0089	2.4m	97%	99	99	99	99	99	97	96	99%
113	Grok 4.3 (Reasoning)	$0.011	53.3s	96%	100	100	99	99	98	97	96	99%
4	Gemini 3.1 Flash Lite	$0.0009	1.8s	98%	99	99	99	99	98	98	98	98%
11	Qwen 2.5 72B	$0.0003	9.5s	98%	99	99	99	98	98	98	98	98%
112	Qwen 3.5 35B	$0.014	40.4s	96%	99	99	99	99	99	98	95	98%
59	GPT-4o, May 13th (temp=1)	$0.010	3.4s	97%	99	99	99	98	98	98	98	98%
12	Gemini 3 Flash (Preview)	$0.0018	3.1s	97%	99	99	99	98	98	98	98	98%
9	Grok 4 Fast	$0.0006	5.0s	96%	100	100	99	99	97	97	97	98%
145	MoonshotAI: Kimi K2.6	$0.019	2.6m	97%	99	99	99	99	99	99	95	98%
19	GPT-5.4 Mini (Reasoning, Low)	$0.0027	3.9s	96%	99	99	99	99	99	98	95	98%
80	ByteDance Seed 2.0 Lite	$0.0044	48.5s	97%	99	99	99	99	99	99	95	98%
37	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0053	2.5s	97%	99	99	98	98	98	98	98	98%
82	GPT-5 Mini	$0.0066	41.1s	97%	99	99	99	99	98	98	96	98%
48	Gemini 2.5 Flash (Reasoning)	$0.0058	8.8s	97%	99	99	98	98	98	98	98	98%
5	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	98%	98	98	98	98	98	98	98	98%
46	GPT-4o, Aug. 6th (temp=1)	$0.0063	2.6s	97%	99	99	98	98	98	97	97	98%
16	Cydonia 24B V4.1	$0.0004	11.5s	98%	99	98	98	98	98	98	98	98%
120	GPT-5.5 (Reasoning)	$0.027	10.5s	96%	100	99	99	99	97	96	96	98%
126	Qwen 3.5 Plus (2026-04-20)	$0.014	1.4m	96%	99	99	99	99	97	97	95	98%
132	GPT-5	$0.027	42.1s	93%	99	99	99	99	99	99	90	98%
25	Gemma 3 27B	$0.0002	13.1s	95%	99	99	99	98	98	98	94	98%
124	Qwen 3.5 122B	$0.020	48.7s	96%	99	99	99	99	96	96	95	98%
6	Mistral Small 3.2 24B	$0.0002	4.4s	97%	98	98	98	98	98	98	98	98%
8	GPT-4.1 Nano	$0.0003	3.6s	96%	99	98	98	98	98	97	96	98%
96	ByteDance Seed 1.6	$0.0051	57.2s	95%	100	99	99	99	97	96	93	98%
15	Mistral Large 3	$0.0010	7.1s	98%	98	98	98	98	98	98	98	98%
38	Mistral Large 2	$0.0041	7.3s	98%	98	98	98	98	98	98	98	98%
36	Mistral Large	$0.0041	6.7s	98%	98	98	98	98	98	98	98	98%
72	Qwen 3.6 35B	$0.0052	33.0s	95%	99	99	99	99	95	95	95	98%
21	DeepSeek V4 Flash	$0.0002	8.1s	94%	99	99	99	99	99	98	91	98%
97	o4 Mini High	$0.014	24.4s	95%	99	99	98	98	97	96	95	98%
22	Stealth: Healer Alpha	$0.0000	11.0s	95%	99	99	99	99	98	96	93	97%
28	DeepSeek V3 (2024-12-26)	$0.0007	14.3s	97%	98	98	98	98	98	97	96	97%
33	DeepSeek-V2 Chat	$0.0008	15.2s	97%	98	98	98	97	97	97	97	97%
61	DeepSeek V3 (2025-03-24)	$0.0006	38.8s	96%	98	98	97	97	97	97	96	97%
103	GPT-OSS 120B	$0.0005	1.3m	93%	99	99	99	96	96	96	95	97%
98	MiniMax M2.5	$0.0021	1.1m	93%	99	99	96	96	96	95	95	97%
95	o4 Mini	$0.013	22.6s	94%	98	98	98	98	97	96	93	97%
26	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.8s	92%	99	99	99	95	95	95	95	97%
27	GPT-5.4 Nano (Reasoning)	$0.0007	3.1s	93%	99	99	99	98	95	95	90	97%
101	Z.AI GLM 4.7 Flash	$0.0012	1.1m	93%	99	99	98	96	95	95	94	97%
34	LFM2 24B	$0.0001	11.4s	94%	98	98	98	98	96	96	92	97%
41	GPT-5.4 Mini	$0.0026	2.1s	93%	100	96	96	96	96	96	95	97%
69	Z.AI GLM 4.5 Air	$0.0016	32.3s	92%	99	99	95	95	95	95	95	97%
121	Z.AI GLM 4.6	$0.0086	1.2m	92%	99	99	96	96	96	95	93	96%
66	WizardLM 2 8x22b	$0.0007	35.2s	93%	99	98	97	96	96	95	93	96%
29	Mistral Medium 3.1	$0.0012	5.8s	95%	97	97	96	96	96	96	96	96%
43	GPT-4o Mini (temp=1)	$0.0004	9.6s	93%	99	95	95	95	95	95	95	96%
32	GPT-4o Mini (temp=0)	$0.0004	9.6s	95%	95	95	95	95	95	95	95	95%
78	GPT-5.4 (Reasoning, Low)	$0.0089	5.0s	88%	99	99	99	95	93	90	90	95%
73	GPT-5.2	$0.0078	5.2s	89%	99	99	99	96	93	90	90	95%
60	Grok 4.1 Fast	$0.0008	11.0s	86%	100	100	97	97	97	93	83	95%
88	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	31.4s	87%	100	99	99	99	90	90	84	95%
42	Mistral Small Creative	$0.0002	3.4s	92%	98	94	94	94	94	94	94	95%
39	Inception Mercury	$0.0004	2.0s	92%	96	95	95	95	94	94	91	94%
71	Gemma 3 12B	$0.0001	9.3s	79%	99	99	98	98	98	98	70	94%
52	Inception Mercury 2	$0.0013	1.6s	88%	97	96	96	95	95	95	84	94%
84	Gemini 2.5 Flash	$0.0015	2.1s	72%	99	99	99	99	99	98	60	94%
90	Z.AI GLM 4.5	$0.0039	32.3s	88%	96	96	96	93	90	90	90	93%
65	Grok 4.20 (Beta)	$0.0031	1.8s	87%	99	92	92	92	92	91	91	93%
106	GPT-5 Nano	$0.0018	43.9s	85%	96	95	93	90	90	90	89	92%
136	Qwen 3.5 9B	$0.0012	1.9m	72%	99	99	99	96	95	93	61	92%
85	Grok 4.3	$0.0019	4.7s	77%	99	99	97	96	93	84	70	91%
62	Grok 4.20	$0.0018	4.4s	89%	92	92	92	91	91	91	88	91%
108	Arcee AI: Trinity Large (Preview)	$0.0000	26.2s	73%	99	99	99	99	99	70	70	91%
105	Qwen 3 32B	$0.0009	31.4s	79%	98	98	95	94	90	84	75	91%
91	Llama 3.1 70B	$0.0004	14.4s	78%	98	90	88	87	83	83	83	87%
87	Llama 3.1 Nemotron 70B	$0.0013	14.1s	84%	91	89	88	87	85	85	85	87%
92	Skyfall 36B V2	$0.0006	9.7s	76%	94	93	90	89	89	83	71	87%
127	Mistral Small 4 (Reasoning)	$0.0016	13.5s	48%	99	98	98	98	96	96	25	87%
135	ByteDance Seed 2.0 Mini	$0.0017	1.7m	73%	98	93	90	89	85	83	68	86%
104	Qwen3 235B A22B Instruct 2507	$0.0004	16.7s	77%	94	89	86	84	84	82	81	86%
142	Qwen 3.6 27B	$0.013	56.0s	55%	99	99	97	96	96	76	36	86%
94	Llama 3.1 8B	$0.0000	9.8s	77%	92	91	87	86	82	82	77	85%
122	Mistral Small 4	$0.0004	4.8s	55%	98	98	98	98	96	67	38	85%
107	Ministral 3 3B	$0.0001	2.2s	70%	96	91	87	81	81	78	76	84%
109	Writer: Palmyra X5	$0.0032	7.5s	80%	86	84	84	82	82	82	81	83%
128	ByteDance Seed 1.6 Flash	$0.0009	16.7s	52%	98	94	94	91	90	82	32	83%
118	Ministral 3B	$0.0000	2.8s	62%	96	96	90	81	76	69	65	82%
137	Nemotron 3 Super	$0.0000	46.4s	46%	99	97	96	93	93	70	23	82%
110	Mistral NeMO	$0.0002	2.3s	73%	88	86	80	79	79	78	77	81%
115	Ministral 3 14B	$0.0002	3.8s	75%	78	78	78	78	78	76	73	77%
147	Nemotron 3 Nano	$0.0006	36.4s	30%	96	93	93	92	85	22	14	71%
125	Gemma 3 4B	$0.0001	5.1s	68%	70	70	70	70	67	67	67	69%
146	Arcee AI: Trinity Mini	$0.0002	8.0s	21%	94	93	93	92	89	7	6	68%
134	Ministral 8B	$0.0001	4.3s	55%	68	66	63	62	57	54	53	60%
139	Ministral 3 8B	$0.0002	2.9s	53%	64	64	62	61	57	54	44	58%
151	Cohere Command R+ (Aug. 2024)	$0.0062	13.8s	9%	96	27	25	22	18	11	3	29%
150	Claude 3 Haiku	$0.0008	4.3s	0%	93	92	0	0	0	0	0	26%
149	Rocinante 12B	$0.0003	11.7s	8%	90	22	19	17	13	13	0	25%
93.78%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100GPT-5.4 100GPT-4.1 Mini 100Hermes 3 405B	24Rocinante 12B 29Claude 3 Haiku 33Cohere Command R+ (Aug. 2024)
96.5%	Name replacement accuracy	100Grok 4.1 Fast 99Grok 4 Fast 99Z.AI GLM 5 Turbo	11Gemma 3 4B 17Rocinante 12B 18Cohere Command R+ (Aug. 2024)
100.0%	Non-name text preserved	100DeepSeek V4 Flash (Reasoning) 100GPT-5.1 100Qwen 3.5 35B	24Claude 3 Haiku 33Rocinante 12B 37Cohere Command R+ (Aug. 2024)

Passive voice → active voice

Text Editing Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6	98%
Gemma 4 31B	98%
Claude Opus 4.5	97%
GPT-5	97%
GPT-5.4 (Reasoning)	97%
GPT-5.5 (Reasoning, Low)	97%
Claude Sonnet 4	97%
Grok 4.20 (Reasoning)	97%
Z.AI GLM 5.1	97%
Gemini 3.5 Flash (Reasoning)	97%
GPT-5.5 (Reasoning)	97%
Qwen 3.5 397B A17B	97%
Qwen 3.5 27B	97%
GPT-5.4 (Reasoning, Low)	97%
Gemma 4 31B (Reasoning)	97%
Qwen 3.5 Plus (2026-04-20)	97%
Grok 4.1 Fast	96%
Gemini 3 Pro (Preview)	96%
Z.AI GLM 5 Turbo	96%
Claude Opus 4.6 (Reasoning)	96%

	Score	Cost	Time
Gemma 4 31B	98%	$0.0005	39.7s
Grok 4.1 Fast	96%	$0.0014	16.8s
Qwen 3.5 Plus (2026-02-15)	96%	$0.0021	10.9s
DeepSeek V4 Flash	89%	$0.0002	9.5s
Gemma 4 26B	95%	$0.0003	23.2s
Gemini 2.5 Flash	95%	$0.0021	2.9s
Gemini 3.1 Flash Lite	94%	$0.0013	2.5s
Gemini 3.1 Flash Lite (Preview)	93%	$0.0013	2.4s
Gemini 3 Flash (Preview)	94%	$0.0026	4.3s
Grok 4 Fast	93%	$0.0013	11.1s
Gemini 2.5 Flash Lite	90%	$0.0004	2.5s
DeepSeek V3.1	89%	$0.0008	37.0s
Grok 4.20 (Beta)	95%	$0.0047	2.6s
Gemini 3.1 Flash Lite (Reasoning)	93%	$0.0013	2.5s
DeepSeek V3.2	96%	$0.0008	52.0s
Gemini 3.5 Flash (Reasoning, Minimal)	96%	$0.0080	3.5s
Claude Haiku 4.5	95%	$0.0050	5.3s
DeepSeek V4 Flash (Reasoning)	94%	$0.0009	3.2m
Stealth: Hunter Alpha	87%	$0.0000	33.4s
DeepSeek V4 Pro	93%	$0.0019	19.3s

	Score	Consistency	Stability
Claude Opus 4.5	97%	99%	97%
Claude Opus 4.6	98%	99%	96%
GPT-5	97%	99%	96%
Gemma 4 31B	98%	98%	96%
Claude Sonnet 4	97%	99%	96%
GPT-5.4 (Reasoning)	97%	99%	96%
GPT-5.5 (Reasoning)	97%	99%	96%
Qwen 3.5 27B	97%	99%	96%
Grok 4.20 (Reasoning)	97%	98%	96%
Z.AI GLM 5 Turbo	96%	99%	96%
GPT-5.4 (Reasoning, Low)	97%	99%	95%
Z.AI GLM 5.1	97%	99%	95%
Gemma 4 31B (Reasoning)	97%	98%	95%
Qwen 3.5 Plus (2026-04-20)	97%	98%	95%
GPT-5.5 (Reasoning, Low)	97%	98%	95%
Gemini 3.5 Flash (Reasoning)	97%	98%	95%
Qwen 3.5 397B A17B	97%	98%	95%
Gemini 3 Pro (Preview)	96%	99%	95%
Gemini 3.1 Pro (Preview)	96%	99%	95%
Z.AI GLM 4.7	96%	99%	95%

Avoid said/asked/replied/answered

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%

Character rename: Elena->Mirabel, Gregor->Aldric

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%

Location rename: market square, outer ring, bridge, northern mines

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%

Expand all contractions

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

Tense rewriting: past to present

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%
Qwen 3.5 27B	100%

POV shift: 3rd person to 1st person (Elena's perspective)

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%

Combined: 3rd person past → 1st person present

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
Claude Opus 4.5	100%
GPT-4.1	100%
Claude Opus 4	100%
Gemma 4 31B	100%
GPT-4o, Aug. 6th (temp=0)	100%
Gemini 2.5 Flash	100%
Qwen3.7 Max	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Aion 2.0	100%
Z.AI GLM 4.6	100%
Claude Sonnet 4	100%
Z.AI GLM 4.5	100%
Gemma 4 26B	100%

Passive voice → active voice

Text Editing Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	99%
GPT-5.5 (Reasoning)	99%
Gemini 2.5 Pro	99%
Gemini 3.5 Flash (Reasoning, Minimal)	99%
Z.AI GLM 5.1	99%
Gemma 4 31B (Reasoning)	99%
Grok 4.20 (Beta, Reasoning)	99%
Grok 4	99%
Claude Sonnet 4.5	99%
Claude Opus 4.6 (Reasoning)	99%
Claude Sonnet 4.6 (Reasoning)	99%
Grok 4.20 (Reasoning)	99%
Claude Opus 4.7	99%
Gemma 4 31B	99%
Gemini 3 Flash (Preview)	99%
GPT-5.5 (Reasoning, Low)	99%
DeepSeek V3.2	99%
GPT-5.4 (Reasoning)	98%
Z.AI GLM 5 Turbo	98%
Claude Opus 4.6	98%

Avoid said/asked/replied/answered

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%

Median	Evaluator	Top 3	Flop 3
92.9%	Dialogue content preserved	100Claude Sonnet 4.6 100Claude Opus 4.6 (Reasoning) 100Qwen 3.5 122B	0Claude 3 Haiku 14Cohere Command R+ (Aug. 2024) 20Rocinante 12B
100.0%	No hallucinated or fabricated content	100Qwen 3.5 Plus (2026-04-20) 100Grok 4 Fast 100Grok 4	14Rocinante 12B 15Cohere Command R+ (Aug. 2024) 25Claude 3 Haiku
87.5%	Non-passive narration preserved	100Claude Sonnet 4.6 100Claude Sonnet 4 100Claude Opus 4.6	0Claude 3 Haiku 9Rocinante 12B 11Cohere Command R+ (Aug. 2024)
78.0%	Passive → active voice transformations	98Claude Sonnet 4.5 98Grok 4.20 (Reasoning) 98GPT-5	0Gemma 3 12B 0Claude 3 Haiku 1Rocinante 12B
100.0%	Structural similarity to original	100Mistral Small Creative 100Mistral Large 3 100Claude Sonnet 4.6	67Claude 3 Haiku 72WizardLM 2 8x22b 73Nemotron 3 Nano

Median	Evaluator	Top 3	Flop 3
100.0%	Forbidden words eliminated	100Inception Mercury 2 100DeepSeek V4 Flash (Reasoning) 100Gemini 3.1 Pro (Preview)	0LFM2 24B 5Ministral 3 3B 10Ministral 3B
100.0%	Non-name text preserved	100Gemini 3 Pro (Preview) 100Llama 3.1 70B 100Claude Sonnet 4.5	14Arcee AI: Trinity Mini 19LFM2 24B 23Rocinante 12B
100.0%	Structural similarity to original	100Gemini 3.1 Flash Lite (Preview) 100GPT-5.4 Mini (Reasoning, Low) 100Cohere Command R+ (Aug. 2024)	55Rocinante 12B 67Arcee AI: Trinity Mini 72Claude 3 Haiku

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Z.AI GLM 4.5 100Gemini 3.1 Flash Lite (Reasoning) 100Qwen 3.6 35B	71Hermes 3 70B 81Nemotron 3 Nano 86Ministral 3 14B
100.0%	No remaining old names	100GPT-5.4 Mini 100GPT-5 Nano 100MiniMax M2.5	71Hermes 3 70B 86DeepSeek V3 (2025-03-24)
100.0%	Non-name text preserved	100Qwen 2.5 72B 100Mistral Large 100Ministral 3 3B	71Hermes 3 70B 84Nemotron 3 Nano 86Hermes 3 405B

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100ByteDance Seed 2.0 Lite 100Claude Opus 4.5 100Llama 3.1 8B	52Hermes 3 70B 88GPT-4.1 Nano 88LFM2 24B
100.0%	No remaining old names	100Claude Opus 4.6 100Ministral 8B 100Qwen 3.5 397B A17B	43Hermes 3 70B
100.0%	Non-name text preserved	100Claude Sonnet 4.5 100Grok 4.20 (Beta) 100GPT-4o, May 13th (temp=0)	57Hermes 3 70B 92Gemini 3.1 Pro (Preview) 92Nemotron 3 Nano

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
139	Qwen3.7 Max	$0.029	49.4s	100%	100	100	100	100	100	100	100	100%
138	Claude Opus 4.6 (Reasoning)	$0.030	13.9s	100%	100	100	100	100	100	100	100	100%
146	Qwen3.6 Max Preview	$0.031	1.6m	100%	100	100	100	100	100	100	100	100%
145	Gemini 3.1 Pro (Preview)	$0.036	33.8s	100%	100	100	100	100	100	100	100	100%
126	Z.AI GLM 5.1	$0.014	1.0m	100%	100	100	100	100	100	100	100	100%
101	Z.AI GLM 5 Turbo	$0.0094	20.8s	100%	100	100	100	100	100	100	100	100%
143	Gemini 3.5 Flash (Reasoning)	$0.034	14.2s	100%	100	100	100	100	100	100	100	100%
144	Claude Sonnet 4.6 (Reasoning)	$0.034	20.6s	100%	100	100	100	100	100	100	100	100%
117	GPT-5.4 (Reasoning)	$0.015	14.6s	100%	100	100	100	100	100	100	100	100%
119	Claude Opus 4.7 (Reasoning)	$0.017	3.2s	100%	100	100	100	100	100	100	100	100%
135	GPT-5.5 (Reasoning)	$0.024	8.8s	100%	100	100	100	100	100	100	100	100%
128	GPT-5.5 (Reasoning, Low)	$0.020	7.6s	100%	100	100	100	100	100	100	100	100%
118	GPT-5.1	$0.015	15.5s	100%	100	100	100	100	100	100	100	100%
110	Claude Opus 4.6	$0.014	5.0s	100%	100	100	100	100	100	100	100	100%
142	MoonshotAI: Kimi K2.6	$0.018	2.7m	100%	100	100	100	100	100	100	100	100%
140	GPT-5	$0.029	49.9s	100%	100	100	100	100	100	100	100	100%
137	Qwen 3.5 397B A17B	$0.0095	2.5m	100%	100	100	100	100	100	100	100	100%
112	Gemma 4 31B (Reasoning)	$0.0011	2.1m	100%	100	100	100	100	100	100	100	100%
132	Qwen 3.5 122B	$0.018	43.0s	100%	100	100	100	100	100	100	100	100%
125	Qwen 3.5 Plus (2026-04-20)	$0.011	1.2m	100%	100	100	100	100	100	100	100	100%
111	Gemma 4 26B (Reasoning)	$0.0013	2.0m	100%	100	100	100	100	100	100	100	100%
105	Grok 4.20 (Beta, Reasoning)	$0.012	7.3s	100%	100	100	100	100	100	100	100	100%
72	Grok 4.20 (Reasoning)	$0.0051	17.0s	100%	100	100	100	100	100	100	100	100%
129	Z.AI GLM 5	$0.011	1.5m	100%	100	100	100	100	100	100	100	100%
81	Claude Sonnet 4.6	$0.0082	3.7s	100%	100	100	100	100	100	100	100	100%
123	MoonshotAI: Kimi K2.5	$0.011	1.0m	100%	100	100	100	100	100	100	100	100%
76	ByteDance Seed 1.6	$0.0038	38.3s	100%	100	100	100	100	100	100	100	100%
102	Gemini 3 Flash (Preview, Reasoning)	$0.010	16.3s	100%	100	100	100	100	100	100	100	100%
133	o4 Mini High	$0.020	32.3s	100%	100	100	100	100	100	100	100	100%
95	GPT-5.2	$0.0090	6.9s	100%	100	100	100	100	100	100	100	100%
66	DeepSeek V4 Pro (Reasoning)	$0.0014	37.7s	100%	100	100	100	100	100	100	100	100%
121	Claude Opus 4.7	$0.017	3.3s	100%	100	100	100	100	100	100	100	100%
130	Qwen 3.6 27B	$0.015	1.0m	100%	100	100	100	100	100	100	100	100%
109	Claude Opus 4.5	$0.014	4.8s	100%	100	100	100	100	100	100	100	100%
90	Aion 2.0	$0.0038	47.5s	100%	100	100	100	100	100	100	100	100%
113	GPT-5.5	$0.014	4.0s	100%	100	100	100	100	100	100	100	100%
91	Qwen 3.6 35B	$0.0058	31.6s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V4 Flash (Reasoning)	$0.0007	29.8s	100%	100	100	100	100	100	100	100	100%
141	Gemini 3 Pro (Preview)	$0.033	21.2s	100%	100	100	100	100	100	100	100	100%
87	Claude Sonnet 4	$0.0082	4.7s	100%	100	100	100	100	100	100	100	100%
106	Z.AI GLM 4.7	$0.0056	1.1m	100%	100	100	100	100	100	100	100	100%
58	GPT-4.1	$0.0042	3.6s	100%	100	100	100	100	100	100	100	100%
134	Gemini 2.5 Pro	$0.022	15.9s	100%	100	100	100	100	100	100	100	100%
131	Grok 4	$0.019	24.1s	100%	100	100	100	100	100	100	100	100%
85	Claude Sonnet 4.5	$0.0082	4.1s	100%	100	100	100	100	100	100	100	100%
147	Claude Opus 4	$0.041	6.3s	100%	100	100	100	100	100	100	100	100%
100	ByteDance Seed 2.0 Mini	$0.0015	1.5m	100%	100	100	100	100	100	100	100	100%
44	Gemma 4 31B	$0.0002	25.5s	100%	100	100	100	100	100	100	100	100%
80	Gemini 2.5 Flash (Reasoning)	$0.0054	25.3s	100%	100	100	100	100	100	100	100	100%
59	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0045	2.1s	100%	100	100	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.7s	100%	100	100	100	100	100	100	100	100%
68	Z.AI GLM 4.5	$0.0026	29.0s	100%	100	100	100	100	100	100	100	100%
25	Qwen 3.5 Plus (2026-02-15)	$0.0012	5.3s	100%	100	100	100	100	100	100	100	100%
40	Gemma 4 26B	$0.0002	22.5s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0008	1.9s	100%	100	100	100	100	100	100	100	100%
20	Mistral Large 3	$0.0009	5.9s	100%	100	100	100	100	100	100	100	100%
88	GPT-4o, May 13th (temp=0)	$0.0085	2.8s	100%	100	100	100	100	100	100	100	100%
26	Gemini 3 Flash (Preview)	$0.0015	2.8s	100%	100	100	100	100	100	100	100	100%
43	Claude Haiku 4.5	$0.0027	2.2s	100%	100	100	100	100	100	100	100	100%
94	ByteDance Seed 2.0 Lite	$0.0042	49.1s	100%	100	100	100	100	100	100	100	100%
122	Claude 3.5 Sonnet	$0.016	7.2s	100%	100	100	100	100	100	100	100	100%
42	Grok 4.20 (Beta)	$0.0028	1.6s	100%	100	100	100	100	100	100	100	100%
83	GPT-4o, May 13th (temp=1)	$0.0085	1.9s	100%	100	100	100	100	100	100	100	100%
31	DeepSeek V3 (2024-12-26)	$0.0006	13.2s	100%	100	100	100	100	100	100	100	100%
86	Claude 3.7 Sonnet	$0.0082	4.6s	100%	100	100	100	100	100	100	100	100%
16	GPT-4.1 Mini	$0.0008	4.7s	100%	100	100	100	100	100	100	100	100%
55	Z.AI GLM 4.5 Air	$0.0012	28.2s	100%	100	100	100	100	100	100	100	100%
41	Hermes 3 405B	$0.0010	16.7s	100%	100	100	100	100	100	100	100	100%
64	GPT-4o, Aug. 6th (temp=1)	$0.0052	2.0s	100%	100	100	100	100	100	100	100	100%
65	GPT-4o, Aug. 6th (temp=0)	$0.0052	2.3s	100%	100	100	100	100	100	100	100	100%
53	Mistral Large 2	$0.0035	5.8s	100%	100	100	100	100	100	100	100	100%
70	DeepSeek V3.2	$0.0003	56.0s	100%	100	100	100	100	100	100	100	100%
6	DeepSeek V4 Flash	$0.0001	7.1s	100%	100	100	100	100	100	100	100	100%
28	Grok 4.20	$0.0016	3.3s	100%	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100%
17	Gemini 2.5 Flash	$0.0012	1.7s	100%	100	100	100	100	100	100	100	100%
54	Mistral Large	$0.0035	6.2s	100%	100	100	100	100	100	100	100	100%
15	Qwen3 235B A22B Instruct 2507	$0.0003	9.9s	100%	100	100	100	100	100	100	100	100%
56	Writer: Palmyra X5	$0.0028	13.9s	100%	100	100	100	100	100	100	100	100%
12	GPT-4o Mini (temp=1)	$0.0003	7.6s	100%	100	100	100	100	100	100	100	100%
4	Mistral Small 3.2 24B	$0.0002	3.5s	100%	100	100	100	100	100	100	100	100%
11	GPT-4o Mini (temp=0)	$0.0003	7.1s	100%	100	100	100	100	100	100	100	100%
24	Gemma 3 27B	$0.0001	14.6s	100%	100	100	100	100	100	100	100	100%
18	Mistral Medium 3.1	$0.0010	4.3s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small 4	$0.0003	2.6s	100%	100	100	100	100	100	100	100	100%
13	Qwen 2.5 72B	$0.0002	8.5s	100%	100	100	100	100	100	100	100	100%
36	Llama 3.1 Nemotron 70B	$0.0012	10.9s	100%	100	100	100	100	100	100	100	100%
3	Ministral 3 8B	$0.0001	3.0s	100%	100	100	100	100	100	100	100	100%
62	WizardLM 2 8x22b	$0.0007	41.6s	100%	100	100	100	100	100	100	100	100%
1	Ministral 8B	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100%
8	LFM2 24B	$0.0001	8.1s	100%	100	100	100	100	100	100	100	100%
79	GPT-5 Mini	$0.0043	31.7s	99%	100	100	100	100	100	100	99	100%
120	Qwen 3.5 27B	$0.011	50.7s	99%	100	100	100	100	100	100	99	100%
99	Qwen 3.6 Flash	$0.0082	24.1s	99%	100	100	100	100	100	100	99	100%
52	Z.AI GLM 4.6	$0.0024	11.6s	99%	100	100	100	100	100	100	99	100%
124	MiniMax M2.7	$0.0074	1.6m	99%	100	100	100	100	100	100	99	100%
114	o4 Mini	$0.013	20.4s	99%	100	100	100	100	100	100	99	100%
98	Xiaomi MIMO v2.5 Pro	$0.0072	31.0s	99%	100	100	100	100	100	100	99	100%
77	GPT-OSS 120B	$0.0011	1.0m	99%	100	100	100	100	100	100	99	100%
14	Gemini 3.1 Flash Lite (Preview)	$0.0008	1.6s	99%	100	100	100	100	100	100	99	100%
35	DeepSeek-V2 Chat	$0.0007	12.8s	99%	100	100	100	100	100	100	99	100%
78	GPT-5.4	$0.0072	4.5s	99%	100	100	100	100	100	100	99	100%
63	DeepSeek V4 Pro	$0.0015	33.0s	99%	100	100	100	100	100	100	99	100%
10	Gemma 3 12B	$0.0001	5.9s	99%	100	100	100	100	100	100	99	100%
22	Llama 3.1 70B	$0.0005	7.8s	99%	100	100	100	100	100	100	99	100%
30	Stealth: Hunter Alpha	$0.0000	14.6s	99%	100	100	100	100	100	99	99	100%
107	Qwen 3.5 9B	$0.0013	1.7m	99%	100	100	100	100	100	99	99	100%
71	Nemotron 3 Super	$0.0000	55.5s	99%	100	100	100	100	100	99	99	100%
38	Inception Mercury 2	$0.0019	2.7s	99%	100	100	100	100	100	99	99	100%
37	Arcee AI: Trinity Large (Preview)	$0.0000	18.5s	99%	100	100	100	100	100	99	99	100%
19	Claude 3 Haiku	$0.0007	3.7s	99%	100	100	100	100	100	99	99	100%
84	GPT-5.4 (Reasoning, Low)	$0.0077	4.7s	99%	100	100	100	100	99	99	99	100%
32	Grok 4 Fast	$0.0008	7.0s	99%	100	100	100	100	100	99	98	100%
27	Stealth: Healer Alpha	$0.0000	13.3s	99%	100	100	100	100	99	99	99	100%
73	Xiaomi MIMO v2.5	$0.0050	18.6s	99%	100	100	100	100	99	99	99	100%
39	DeepSeek V3 (2025-03-24)	$0.0005	14.0s	99%	100	100	100	100	100	99	98	100%
57	MiniMax M2.5	$0.0017	19.9s	99%	100	100	100	100	99	99	98	100%
104	GPT-5 Nano	$0.0033	1.3m	99%	100	100	100	100	99	99	98	100%
45	Grok 4.1 Fast	$0.0008	13.1s	98%	100	100	100	99	99	99	98	99%
89	Z.AI GLM 4.7 Flash	$0.0015	1.0m	99%	100	100	99	99	99	99	99	99%
61	Qwen 3 32B	$0.0007	30.6s	98%	100	100	100	99	99	99	98	99%
21	Arcee AI: Trinity Mini	$0.0002	4.6s	99%	100	100	99	99	99	99	99	99%
75	Cohere Command R+ (Aug. 2024)	$0.0055	9.9s	98%	100	100	100	99	99	99	98	99%
97	Grok 4.3 (Reasoning)	$0.0068	26.7s	99%	100	99	99	99	99	99	99	99%
46	Gemini 2.5 Flash Lite (Reasoning)	$0.0014	9.7s	99%	100	99	99	99	99	99	99	99%
50	GPT-5.4 Mini	$0.0022	2.1s	98%	100	100	100	100	99	99	97	99%
127	Qwen 3.5 35B	$0.013	59.8s	98%	100	100	99	99	99	99	98	99%
29	Llama 3.1 8B	$0.0000	7.8s	99%	99	99	99	99	99	98	98	99%
34	Ministral 3 14B	$0.0002	3.3s	97%	100	100	98	98	98	98	98	99%
23	GPT-4.1 Nano	$0.0002	3.1s	98%	99	99	99	99	98	98	98	99%
103	Qwen 3.5 Flash	$0.0033	51.7s	94%	100	100	100	100	100	100	91	99%
33	Mistral Small Creative	$0.0002	2.4s	98%	98	98	98	98	98	98	98	98%
47	Mistral NeMO	$0.0001	1.8s	95%	99	99	99	99	99	96	94	98%
60	Inception Mercury	$0.0003	11.3s	95%	98	98	98	98	96	96	95	97%
93	GPT-5.4 Mini (Reasoning, Low)	$0.0030	3.9s	89%	100	100	100	100	99	98	83	97%
74	ByteDance Seed 1.6 Flash	$0.0008	15.6s	91%	100	99	98	98	98	96	88	97%
49	Ministral 3 3B	$0.0001	1.5s	96%	98	97	97	97	97	97	96	97%
67	GPT-5.4 Nano (Reasoning)	$0.0008	3.8s	93%	99	98	98	98	97	97	91	97%
48	Ministral 3B	$0.0000	1.5s	96%	97	97	97	97	96	96	96	97%
108	GPT-5.4 Mini (Reasoning)	$0.0044	7.8s	86%	100	100	100	98	97	95	82	96%
82	Grok 4.3	$0.0016	4.1s	89%	100	100	100	99	90	90	89	95%
69	GPT-5.4 Nano	$0.0006	2.8s	93%	98	97	96	96	95	95	91	95%
115	Mistral Small 4 (Reasoning)	$0.0021	18.9s	78%	100	99	99	99	99	98	69	95%
96	Skyfall 36B V2	$0.0006	7.0s	85%	100	100	98	93	92	91	90	95%
116	Cydonia 24B V4.1	$0.0004	8.3s	72%	100	100	100	100	99	96	59	93%
92	GPT-5.4 Nano (Reasoning, Low)	$0.0006	2.4s	88%	95	94	92	91	91	91	91	92%
149	Nemotron 3 Nano	$0.0029	3.8m	47%	100	99	99	98	69	64	26	79%
136	Gemma 3 4B	$0.0001	6.1s	72%	72	72	72	72	72	72	72	72%
148	DeepSeek V3.1	$0.0004	36.2s	15%	100	100	100	100	38	9	3	64%
150	Rocinante 12B	$0.0003	5.5s	16%	82	81	76	71	0	0	0	44%
151	Hermes 3 70B	$0.0044	6.3m	0%	100	0	0	0	0	0	0	14%
98.01%

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Ministral 8B 100Mistral Medium 3.1 100Gemini 3.5 Flash (Reasoning, Minimal)	14Hermes 3 70B 16Gemma 3 4B 19Rocinante 12B
100.0%	Non-name text preserved	100Claude Sonnet 4.5 100Z.AI GLM 4.5 Air 100Qwen 3.5 122B	14Hermes 3 70B 57Rocinante 12B 63DeepSeek V3.1
100.0%	Possessive traps preserved	100Gemini 3.1 Flash Lite 100Mistral NeMO 100GPT-5.4 Nano	14Hermes 3 70B 57Rocinante 12B 64DeepSeek V3.1

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
132	Qwen3.7 Max	$0.037	1.0m	100%	100	100	100	100	100	100	100	100%
144	Claude Opus 4.6 (Reasoning)	$0.061	28.7s	100%	100	100	100	100	100	100	100	100%
143	Qwen3.6 Max Preview	$0.038	2.1m	100%	100	100	100	100	100	100	100	100%
142	Gemini 3.1 Pro (Preview)	$0.052	50.9s	100%	100	100	100	100	100	100	100	100%
121	Z.AI GLM 5.1	$0.021	1.3m	100%	100	100	100	100	100	100	100	100%
126	Gemini 3.5 Flash (Reasoning)	$0.040	16.6s	100%	100	100	100	100	100	100	100	100%
146	Claude Sonnet 4.6 (Reasoning)	$0.061	33.9s	100%	100	100	100	100	100	100	100	100%
108	Claude Opus 4.7 (Reasoning)	$0.024	4.1s	100%	100	100	100	100	100	100	100	100%
91	GPT-5 Mini	$0.0074	51.5s	100%	100	100	100	100	100	100	100	100%
92	Claude Opus 4.6	$0.017	5.6s	100%	100	100	100	100	100	100	100	100%
140	MoonshotAI: Kimi K2.6	$0.022	2.6m	100%	100	100	100	100	100	100	100	100%
128	GPT-5	$0.035	53.1s	100%	100	100	100	100	100	100	100	100%
139	Qwen 3.5 397B A17B	$0.012	3.2m	100%	100	100	100	100	100	100	100	100%
150	Qwen 3.5 122B	$0.068	2.8m	100%	100	100	100	100	100	100	100	100%
116	Qwen 3.5 Plus (2026-04-20)	$0.014	1.6m	100%	100	100	100	100	100	100	100	100%
133	Gemma 4 26B (Reasoning)	$0.0021	3.8m	100%	100	100	100	100	100	100	100	100%
72	GPT-5.4 (Reasoning, Low)	$0.011	7.0s	100%	100	100	100	100	100	100	100	100%
127	Z.AI GLM 5	$0.015	2.2m	100%	100	100	100	100	100	100	100	100%
61	Claude Sonnet 4.6	$0.010	4.3s	100%	100	100	100	100	100	100	100	100%
120	Qwen 3.5 27B	$0.020	1.4m	100%	100	100	100	100	100	100	100	100%
96	Gemini 3 Flash (Preview, Reasoning)	$0.015	23.9s	100%	100	100	100	100	100	100	100	100%
149	DeepSeek V4 Pro (Reasoning)	$0.026	5.4m	100%	100	100	100	100	100	100	100	100%
109	Claude Opus 4.7	$0.024	4.1s	100%	100	100	100	100	100	100	100	100%
89	Claude Opus 4.5	$0.017	5.1s	100%	100	100	100	100	100	100	100	100%
81	Aion 2.0	$0.0041	52.2s	100%	100	100	100	100	100	100	100	100%
80	Qwen 3.6 35B	$0.0072	37.2s	100%	100	100	100	100	100	100	100	100%
147	Gemini 3 Pro (Preview)	$0.061	40.6s	100%	100	100	100	100	100	100	100	100%
65	Claude Sonnet 4	$0.010	5.8s	100%	100	100	100	100	100	100	100	100%
95	Z.AI GLM 4.7	$0.0100	44.9s	100%	100	100	100	100	100	100	100	100%
42	GPT-4.1	$0.0053	4.0s	100%	100	100	100	100	100	100	100	100%
119	Gemini 2.5 Pro	$0.032	23.2s	100%	100	100	100	100	100	100	100	100%
62	Claude Sonnet 4.5	$0.010	4.6s	100%	100	100	100	100	100	100	100	100%
113	Qwen 3.5 35B	$0.018	56.9s	100%	100	100	100	100	100	100	100	100%
138	Claude Opus 4	$0.052	7.6s	100%	100	100	100	100	100	100	100	100%
50	Xiaomi MIMO v2.5 Pro	$0.0043	18.3s	100%	100	100	100	100	100	100	100	100%
27	Stealth: Hunter Alpha	$0.0000	17.1s	100%	100	100	100	100	100	100	100	100%
43	Gemma 4 31B	$0.0003	29.2s	100%	100	100	100	100	100	100	100	100%
70	Gemini 2.5 Flash (Reasoning)	$0.0064	26.5s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.8s	100%	100	100	100	100	100	100	100	100%
75	Qwen 3.5 Flash	$0.0030	48.0s	100%	100	100	100	100	100	100	100	100%
17	Qwen 3.5 Plus (2026-02-15)	$0.0015	6.4s	100%	100	100	100	100	100	100	100	100%
33	Gemma 4 26B	$0.0003	18.6s	100%	100	100	100	100	100	100	100	100%
16	Mistral Large 3	$0.0011	7.8s	100%	100	100	100	100	100	100	100	100%
67	GPT-4o, May 13th (temp=0)	$0.011	3.8s	100%	100	100	100	100	100	100	100	100%
30	Claude Haiku 4.5	$0.0034	2.8s	100%	100	100	100	100	100	100	100	100%
54	Xiaomi MIMO v2.5	$0.0050	18.4s	100%	100	100	100	100	100	100	100	100%
38	DeepSeek-V2 Chat	$0.0007	23.4s	100%	100	100	100	100	100	100	100	100%
85	ByteDance Seed 2.0 Lite	$0.0049	55.0s	100%	100	100	100	100	100	100	100	100%
59	GPT-5.4	$0.0091	5.7s	100%	100	100	100	100	100	100	100	100%
103	Claude 3.5 Sonnet	$0.021	9.1s	100%	100	100	100	100	100	100	100	100%
26	Grok 4.20 (Beta)	$0.0032	1.6s	100%	100	100	100	100	100	100	100	100%
66	GPT-4o, May 13th (temp=1)	$0.011	3.5s	100%	100	100	100	100	100	100	100	100%
64	Claude 3.7 Sonnet	$0.010	5.4s	100%	100	100	100	100	100	100	100	100%
14	GPT-4.1 Mini	$0.0011	6.5s	100%	100	100	100	100	100	100	100	100%
52	DeepSeek V4 Pro	$0.0014	33.8s	100%	100	100	100	100	100	100	100	100%
47	GPT-4o, Aug. 6th (temp=1)	$0.0066	2.6s	100%	100	100	100	100	100	100	100	100%
48	GPT-4o, Aug. 6th (temp=0)	$0.0066	2.6s	100%	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini	$0.0027	2.3s	100%	100	100	100	100	100	100	100	100%
40	Mistral Large 2	$0.0043	7.5s	100%	100	100	100	100	100	100	100	100%
60	DeepSeek V3.2	$0.0004	50.2s	100%	100	100	100	100	100	100	100	100%
10	DeepSeek V4 Flash	$0.0002	9.8s	100%	100	100	100	100	100	100	100	100%
71	DeepSeek V3 (2025-03-24)	$0.0006	55.8s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.6s	100%	100	100	100	100	100	100	100	100%
9	Gemini 2.5 Flash	$0.0015	2.1s	100%	100	100	100	100	100	100	100	100%
39	Mistral Large	$0.0043	7.3s	100%	100	100	100	100	100	100	100	100%
22	Qwen3 235B A22B Instruct 2507	$0.0004	14.0s	100%	100	100	100	100	100	100	100	100%
41	Writer: Palmyra X5	$0.0035	11.7s	100%	100	100	100	100	100	100	100	100%
2	Mistral Small 3.2 24B	$0.0002	4.6s	100%	100	100	100	100	100	100	100	100%
8	Gemma 3 12B	$0.0001	8.4s	100%	100	100	100	100	100	100	100	100%
58	Llama 3.1 70B	$0.0005	41.1s	100%	100	100	100	100	100	100	100	100%
13	Mistral Medium 3.1	$0.0013	5.3s	100%	100	100	100	100	100	100	100	100%
15	Qwen 2.5 72B	$0.0003	10.7s	100%	100	100	100	100	100	100	100	100%
34	Llama 3.1 Nemotron 70B	$0.0014	14.1s	100%	100	100	100	100	100	100	100	100%
7	Claude 3 Haiku	$0.0009	4.5s	100%	100	100	100	100	100	100	100	100%
56	WizardLM 2 8x22b	$0.0007	38.6s	100%	100	100	100	100	100	100	100	100%
12	Llama 3.1 8B	$0.0001	10.6s	100%	100	100	100	100	100	100	100	100%
94	Z.AI GLM 5 Turbo	$0.013	28.7s	100%	100	100	100	100	100	100	99	100%
93	Grok 4.3 (Reasoning)	$0.0095	40.2s	100%	100	100	100	100	100	100	99	100%
131	Gemma 4 31B (Reasoning)	$0.0020	3.7m	100%	100	100	100	100	100	100	99	100%
90	Grok 4.20 (Beta, Reasoning)	$0.016	8.4s	100%	100	100	100	100	100	100	99	100%
78	GPT-5.4 Mini (Reasoning)	$0.0100	19.2s	100%	100	100	100	100	100	100	99	100%
5	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	99	100%
6	Gemini 3.1 Flash Lite	$0.0009	2.0s	100%	100	100	100	100	100	100	99	100%
31	DeepSeek V3 (2024-12-26)	$0.0007	14.1s	100%	100	100	100	100	100	100	99	100%
18	Grok 4.20	$0.0018	4.3s	100%	100	100	100	100	100	100	99	100%
23	Gemma 3 27B	$0.0002	13.2s	100%	100	100	100	100	100	100	99	100%
3	Mistral Small Creative	$0.0002	2.9s	100%	100	100	100	100	100	100	99	100%
112	GPT-5.5 (Reasoning, Low)	$0.027	12.1s	99%	100	100	100	100	100	99	99	100%
88	GPT-5.2	$0.014	12.2s	99%	100	100	100	100	100	99	99	100%
44	Z.AI GLM 4.6	$0.0029	16.4s	99%	100	100	100	100	100	99	99	100%
97	GPT-5.5	$0.018	4.8s	99%	100	100	100	100	100	99	99	100%
115	ByteDance Seed 2.0 Mini	$0.0023	2.3m	99%	100	100	100	100	100	99	99	100%
24	Grok 4 Fast	$0.0010	8.9s	99%	100	100	100	100	100	99	99	100%
100	Nemotron 3 Super	$0.0000	1.7m	99%	100	100	100	100	100	100	99	100%
36	Arcee AI: Trinity Large (Preview)	$0.0000	21.5s	99%	100	100	100	100	100	99	99	100%
114	GPT-5.4 (Reasoning)	$0.025	22.4s	99%	100	100	100	100	100	99	99	100%
29	Grok 4.3	$0.0020	4.6s	99%	100	100	100	100	100	99	99	100%
32	Cydonia 24B V4.1	$0.0005	13.4s	99%	100	100	100	100	100	99	99	100%
118	Qwen 3.5 9B	$0.0016	2.5m	99%	100	100	100	100	100	100	98	100%
107	GPT-5.1	$0.019	21.2s	99%	100	100	100	100	99	99	99	100%
123	GPT-5.5 (Reasoning)	$0.034	14.0s	99%	100	100	99	99	99	99	99	100%
73	MiniMax M2.5	$0.0018	46.5s	99%	100	99	99	99	99	99	99	99%
21	Mistral Small 4	$0.0004	5.1s	98%	100	100	100	99	99	99	99	99%
49	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0055	2.6s	98%	100	100	100	99	99	99	99	99%
35	Gemini 3 Flash (Preview)	$0.0018	3.1s	98%	100	100	100	99	99	99	97	99%
11	Ministral 3 14B	$0.0002	3.9s	99%	99	99	99	99	99	99	99	99%
82	Grok 4.20 (Reasoning)	$0.0077	24.4s	97%	100	100	100	100	100	99	96	99%
141	MiniMax M2.7	$0.015	3.5m	97%	100	100	100	100	100	99	96	99%
51	Stealth: Healer Alpha	$0.0000	26.5s	97%	100	100	100	100	100	99	96	99%
125	Grok 4	$0.032	41.6s	99%	100	99	99	99	99	99	99	99%
45	Grok 4.1 Fast	$0.0011	12.8s	97%	100	100	100	99	99	99	96	99%
25	Ministral 3B	$0.0000	1.9s	97%	100	100	100	100	99	99	95	99%
135	o4 Mini High	$0.035	53.1s	95%	100	100	100	100	100	100	93	99%
68	Z.AI GLM 4.5 Air	$0.0016	33.2s	97%	100	100	100	100	100	97	97	99%
53	Hermes 3 405B	$0.0012	20.9s	97%	100	100	100	100	100	97	97	99%
46	GPT-5.4 Mini (Reasoning, Low)	$0.0034	4.2s	97%	100	100	100	100	98	98	97	99%
136	MoonshotAI: Kimi K2.5	$0.015	2.5m	97%	100	100	100	100	100	97	96	99%
28	Ministral 3 8B	$0.0002	3.5s	98%	100	99	99	99	99	99	99	99%
63	Mistral Small 4 (Reasoning)	$0.0026	23.1s	96%	100	100	100	100	100	97	95	99%
83	Z.AI GLM 4.5	$0.0042	33.2s	95%	100	100	100	100	99	99	93	99%
19	Mistral NeMO	$0.0002	2.7s	99%	99	99	99	99	99	99	99	99%
77	DeepSeek V4 Flash (Reasoning)	$0.0009	40.4s	96%	100	100	100	100	99	96	95	99%
106	ByteDance Seed 1.6	$0.0058	1.0m	96%	99	99	99	99	99	99	95	98%
37	Ministral 8B	$0.0001	3.2s	96%	99	99	99	99	99	99	95	98%
99	GPT-5 Nano	$0.0031	1.1m	96%	100	100	100	100	96	96	96	98%
104	Qwen 3.6 Flash	$0.010	28.8s	94%	100	100	100	100	100	93	93	98%
117	o4 Mini	$0.019	32.7s	93%	100	100	100	100	100	96	90	98%
87	Qwen 3 32B	$0.0008	37.7s	92%	100	100	100	97	97	96	93	98%
57	Ministral 3 3B	$0.0001	2.2s	92%	99	99	99	96	95	95	95	97%
55	LFM2 24B	$0.0001	12.2s	97%	97	97	97	97	97	97	97	97%
130	Qwen 3.6 27B	$0.018	1.2m	85%	100	100	100	100	99	99	78	97%
79	GPT-5.4 Nano (Reasoning)	$0.0020	10.9s	91%	100	100	100	99	93	93	89	96%
76	Skyfall 36B V2	$0.0007	9.0s	91%	100	99	95	95	95	95	93	96%
74	GPT-5.4 Nano (Reasoning, Low)	$0.0008	3.0s	90%	100	97	97	95	95	92	92	95%
84	ByteDance Seed 1.6 Flash	$0.0010	17.0s	91%	99	97	96	95	93	93	93	95%
69	Gemma 3 4B	$0.0001	5.3s	93%	97	97	97	97	93	93	93	95%
98	Inception Mercury 2	$0.0031	4.2s	83%	100	100	99	93	93	89	87	94%
86	GPT-5.4 Nano	$0.0008	3.2s	87%	100	99	97	95	92	89	89	94%
122	GPT-OSS 120B	$0.0008	1.1m	81%	100	96	96	89	89	89	85	92%
129	Nemotron 3 Nano	$0.0020	1.9m	84%	99	96	95	91	89	89	85	92%
134	Cohere Command R+ (Aug. 2024)	$0.0069	1.6m	80%	100	99	97	93	86	86	82	92%
105	GPT-4o Mini (temp=1)	$0.0004	9.1s	87%	93	93	89	89	89	89	89	90%
137	DeepSeek V3.1	$0.0008	32.4s	53%	100	100	100	100	100	100	32	90%
102	Arcee AI: Trinity Mini	$0.0002	6.7s	87%	93	92	92	91	89	89	85	90%
124	Gemini 2.5 Flash Lite (Reasoning)	$0.0028	21.5s	70%	100	100	100	99	96	67	65	90%
101	GPT-4o Mini (temp=0)	$0.0004	9.8s	89%	89	89	89	89	89	89	89	89%
110	GPT-4.1 Nano	$0.0003	3.5s	83%	93	93	89	89	89	86	83	89%
111	Inception Mercury	$0.0005	6.5s	82%	93	91	90	88	85	85	82	88%
145	Rocinante 12B	$0.0004	9.3s	31%	99	99	99	99	99	98	1	85%
148	Z.AI GLM 4.7 Flash	$0.0022	1.7m	43%	99	96	95	92	92	90	19	83%
151	Hermes 3 70B	$0.0031	4.3m	0%	100	100	100	0	0	0	0	43%
98.26%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100Gemma 3 27B 100GPT-5.5 (Reasoning, Low) 100Z.AI GLM 5 Turbo	43Hermes 3 70B 70GPT-4o Mini (temp=0) 73GPT-4o Mini (temp=1)
100.0%	Name replacement accuracy	100Qwen 3.5 397B A17B 100Gemini 2.5 Pro 100Gemma 4 31B	43Hermes 3 70B 80Gemini 2.5 Flash Lite (Reasoning) 82Rocinante 12B
100.0%	Non-name text preserved	100Arcee AI: Trinity Large (Preview) 100DeepSeek V4 Pro (Reasoning) 100Gemini 2.5 Flash	43Hermes 3 70B 77Arcee AI: Trinity Mini 86Rocinante 12B

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100Claude Sonnet 4 100DeepSeek V3.2 100GPT-5.2	29Hermes 3 70B 62Rocinante 12B 74DeepSeek V3 (2025-03-24)
100.0%	No remaining old names	100Grok 4.20 (Beta) 100Gemma 4 26B (Reasoning) 100Cohere Command R+ (Aug. 2024)	71Hermes 3 70B 71Gemini 3.5 Flash (Reasoning, Minimal) 86DeepSeek V3 (2025-03-24)
100.0%	Non-name text preserved	100Claude Opus 4.6 100Qwen 3.5 Flash 100GPT-4o, Aug. 6th (temp=1)	29Hermes 3 70B 62Rocinante 12B 73DeepSeek V3.1

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
135	Qwen3.7 Max	$0.035	58.9s	100%	100	100	100	100	100	100	100	100%
146	Claude Opus 4.6 (Reasoning)	$0.064	26.3s	100%	100	100	100	100	100	100	100	100%
141	Qwen3.6 Max Preview	$0.036	1.8m	100%	100	100	100	100	100	100	100	100%
139	Gemini 3.1 Pro (Preview)	$0.044	41.3s	100%	100	100	100	100	100	100	100	100%
84	Z.AI GLM 5 Turbo	$0.010	20.7s	100%	100	100	100	100	100	100	100	100%
124	Gemini 3.5 Flash (Reasoning)	$0.033	13.6s	100%	100	100	100	100	100	100	100	100%
148	Claude Sonnet 4.6 (Reasoning)	$0.063	34.1s	100%	100	100	100	100	100	100	100	100%
75	Grok 4.3 (Reasoning)	$0.0078	27.3s	100%	100	100	100	100	100	100	100	100%
116	GPT-5.4 (Reasoning)	$0.025	20.5s	100%	100	100	100	100	100	100	100	100%
140	Claude Opus 4.7 (Reasoning)	$0.058	11.7s	100%	100	100	100	100	100	100	100	100%
132	GPT-5.5 (Reasoning)	$0.037	12.3s	100%	100	100	100	100	100	100	100	100%
118	GPT-5.5 (Reasoning, Low)	$0.029	7.7s	100%	100	100	100	100	100	100	100	100%
105	GPT-5.1	$0.021	19.3s	100%	100	100	100	100	100	100	100	100%
101	Claude Opus 4.6	$0.021	6.5s	100%	100	100	100	100	100	100	100	100%
136	GPT-5	$0.037	56.3s	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 397B A17B	$0.0050	1.8m	100%	100	100	100	100	100	100	100	100%
94	Gemma 4 31B (Reasoning)	$0.0013	1.4m	100%	100	100	100	100	100	100	100	100%
115	Qwen 3.5 122B	$0.019	44.7s	100%	100	100	100	100	100	100	100	100%
120	Qwen 3.5 Plus (2026-04-20)	$0.013	1.3m	100%	100	100	100	100	100	100	100	100%
128	Gemma 4 26B (Reasoning)	$0.0016	2.7m	100%	100	100	100	100	100	100	100	100%
81	Grok 4.20 (Beta, Reasoning)	$0.013	6.4s	100%	100	100	100	100	100	100	100	100%
68	GPT-5.4 (Reasoning, Low)	$0.012	6.8s	100%	100	100	100	100	100	100	100	100%
63	Grok 4.20 (Reasoning)	$0.0059	18.4s	100%	100	100	100	100	100	100	100	100%
108	Z.AI GLM 5	$0.010	1.2m	100%	100	100	100	100	100	100	100	100%
73	Claude Sonnet 4.6	$0.013	5.1s	100%	100	100	100	100	100	100	100	100%
70	ByteDance Seed 1.6	$0.0039	41.3s	100%	100	100	100	100	100	100	100	100%
129	DeepSeek V4 Pro (Reasoning)	$0.0097	2.1m	100%	100	100	100	100	100	100	100	100%
113	Qwen 3.6 27B	$0.015	1.0m	100%	100	100	100	100	100	100	100	100%
100	Claude Opus 4.5	$0.021	5.8s	100%	100	100	100	100	100	100	100	100%
77	Aion 2.0	$0.0036	45.8s	100%	100	100	100	100	100	100	100	100%
99	GPT-5.5	$0.021	5.4s	100%	100	100	100	100	100	100	100	100%
60	DeepSeek V4 Flash (Reasoning)	$0.0006	39.3s	100%	100	100	100	100	100	100	100	100%
133	Gemini 3 Pro (Preview)	$0.036	24.8s	100%	100	100	100	100	100	100	100	100%
80	Claude Sonnet 4	$0.013	6.5s	100%	100	100	100	100	100	100	100	100%
103	Z.AI GLM 4.7	$0.0062	1.3m	100%	100	100	100	100	100	100	100	100%
45	GPT-4.1	$0.0062	4.9s	100%	100	100	100	100	100	100	100	100%
122	Gemini 2.5 Pro	$0.027	19.9s	100%	100	100	100	100	100	100	100	100%
131	Grok 4	$0.031	37.9s	100%	100	100	100	100	100	100	100	100%
74	Claude Sonnet 4.5	$0.013	5.3s	100%	100	100	100	100	100	100	100	100%
144	Claude Opus 4	$0.064	8.8s	100%	100	100	100	100	100	100	100	100%
39	Xiaomi MIMO v2.5 Pro	$0.0032	14.6s	100%	100	100	100	100	100	100	100	100%
51	Gemma 4 31B	$0.0004	35.2s	100%	100	100	100	100	100	100	100	100%
53	Gemini 2.5 Flash (Reasoning)	$0.0064	9.2s	100%	100	100	100	100	100	100	100	100%
43	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0065	3.0s	100%	100	100	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	2.0s	100%	100	100	100	100	100	100	100	100%
88	Qwen 3.5 Flash	$0.0029	1.1m	100%	100	100	100	100	100	100	100	100%
66	Z.AI GLM 4.5	$0.0044	34.4s	100%	100	100	100	100	100	100	100	100%
16	Grok 4 Fast	$0.0010	7.0s	100%	100	100	100	100	100	100	100	100%
21	Gemma 4 26B	$0.0003	14.4s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0011	1.9s	100%	100	100	100	100	100	100	100	100%
71	GPT-4o, May 13th (temp=0)	$0.013	3.5s	100%	100	100	100	100	100	100	100	100%
19	Gemini 3 Flash (Preview)	$0.0022	3.6s	100%	100	100	100	100	100	100	100	100%
30	Claude Haiku 4.5	$0.0043	3.4s	100%	100	100	100	100	100	100	100	100%
40	Xiaomi MIMO v2.5	$0.0035	13.5s	100%	100	100	100	100	100	100	100	100%
32	DeepSeek-V2 Chat	$0.0009	19.1s	100%	100	100	100	100	100	100	100	100%
90	ByteDance Seed 2.0 Lite	$0.0050	57.6s	100%	100	100	100	100	100	100	100	100%
111	Claude 3.5 Sonnet	$0.026	11.2s	100%	100	100	100	100	100	100	100	100%
26	Grok 4.20 (Beta)	$0.0038	1.9s	100%	100	100	100	100	100	100	100	100%
72	GPT-4o, May 13th (temp=1)	$0.013	4.1s	100%	100	100	100	100	100	100	100	100%
33	DeepSeek V3 (2024-12-26)	$0.0009	20.0s	100%	100	100	100	100	100	100	100	100%
79	Claude 3.7 Sonnet	$0.013	6.3s	100%	100	100	100	100	100	100	100	100%
42	Hermes 3 405B	$0.0014	24.6s	100%	100	100	100	100	100	100	100	100%
36	DeepSeek V4 Pro	$0.0017	18.4s	100%	100	100	100	100	100	100	100	100%
52	GPT-4o, Aug. 6th (temp=1)	$0.0078	3.0s	100%	100	100	100	100	100	100	100	100%
50	GPT-4o, Aug. 6th (temp=0)	$0.0078	3.0s	100%	100	100	100	100	100	100	100	100%
61	DeepSeek V3.2	$0.0008	39.0s	100%	100	100	100	100	100	100	100	100%
47	Qwen 3 32B	$0.0006	32.3s	100%	100	100	100	100	100	100	100	100%
15	DeepSeek V4 Flash	$0.0002	9.5s	100%	100	100	100	100	100	100	100	100%
20	Grok 4.20	$0.0024	5.0s	100%	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0003	1.9s	100%	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash	$0.0017	2.4s	100%	100	100	100	100	100	100	100	100%
35	Qwen3 235B A22B Instruct 2507	$0.0006	22.6s	100%	100	100	100	100	100	100	100	100%
44	Writer: Palmyra X5	$0.0041	13.7s	100%	100	100	100	100	100	100	100	100%
24	Grok 4.3	$0.0025	6.0s	100%	100	100	100	100	100	100	100	100%
57	Llama 3.1 70B	$0.0006	38.2s	100%	100	100	100	100	100	100	100	100%
27	Gemma 3 27B	$0.0003	18.4s	100%	100	100	100	100	100	100	100	100%
7	Mistral Small 4	$0.0005	3.3s	100%	100	100	100	100	100	100	100	100%
17	Qwen 2.5 72B	$0.0003	11.4s	100%	100	100	100	100	100	100	100	100%
23	Cydonia 24B V4.1	$0.0005	14.1s	100%	100	100	100	100	100	100	100	100%
37	Arcee AI: Trinity Large (Preview)	$0.0000	28.0s	100%	100	100	100	100	100	100	100	100%
3	Mistral Small Creative	$0.0003	3.2s	100%	100	100	100	100	100	100	100	100%
8	Ministral 3 14B	$0.0003	4.6s	100%	100	100	100	100	100	100	100	100%
6	Ministral 3 8B	$0.0002	3.9s	100%	100	100	100	100	100	100	100	100%
14	Claude 3 Haiku	$0.0011	5.2s	100%	100	100	100	100	100	100	100	100%
58	WizardLM 2 8x22b	$0.0009	37.3s	100%	100	100	100	100	100	100	100	100%
11	Gemma 3 4B	$0.0001	6.6s	100%	100	100	100	100	100	100	100	100%
1	Ministral 3 3B	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100%
5	Mistral NeMO	$0.0002	3.6s	100%	100	100	100	100	100	100	100	100%
4	Ministral 8B	$0.0001	3.8s	100%	100	100	100	100	100	100	100	100%
134	MoonshotAI: Kimi K2.6	$0.017	1.7m	100%	100	100	100	100	100	100	99	100%
126	MoonshotAI: Kimi K2.5	$0.0095	2.0m	100%	100	100	100	100	100	100	99	100%
97	Qwen 3.5 27B	$0.011	45.9s	100%	100	100	100	100	100	100	99	100%
119	Claude Opus 4.7	$0.029	5.1s	100%	100	100	100	100	100	100	99	100%
76	Qwen 3.6 35B	$0.0058	34.3s	100%	100	100	100	100	100	100	99	100%
102	o4 Mini	$0.017	25.0s	100%	100	100	100	100	100	100	99	100%
109	Qwen 3.5 35B	$0.015	51.7s	100%	100	100	100	100	100	100	99	100%
123	ByteDance Seed 2.0 Mini	$0.0022	2.2m	100%	100	100	100	100	100	100	99	100%
25	Stealth: Healer Alpha	$0.0000	15.5s	100%	100	100	100	100	100	100	99	100%
67	GPT-5.4	$0.011	6.2s	100%	100	100	100	100	100	100	99	100%
34	Llama 3.1 Nemotron 70B	$0.0017	15.8s	100%	100	100	100	100	100	100	99	100%
12	GPT-5.4 Nano	$0.0009	3.3s	100%	100	100	100	100	100	100	99	100%
130	Z.AI GLM 5.1	$0.016	1.6m	99%	100	100	100	100	100	100	99	100%
125	o4 Mini High	$0.028	40.6s	99%	100	100	100	100	100	99	99	100%
22	GPT-4.1 Mini	$0.0012	7.8s	99%	100	100	100	100	100	99	99	100%
78	Cohere Command R+ (Aug. 2024)	$0.0081	23.6s	99%	100	100	100	100	100	99	99	100%
46	Mistral Large 2	$0.0051	8.5s	99%	100	100	100	100	99	99	99	100%
18	Gemini 3.1 Flash Lite (Preview)	$0.0011	1.9s	98%	100	100	100	100	100	100	98	100%
86	GPT-5 Mini	$0.0067	37.7s	98%	100	100	100	100	100	100	98	100%
85	Gemini 3 Flash (Preview, Reasoning)	$0.010	16.3s	98%	100	100	100	100	100	100	98	100%
127	MiniMax M2.7	$0.010	1.9m	99%	100	100	100	99	99	99	99	100%
29	Llama 3.1 8B	$0.0000	13.0s	98%	100	100	100	100	100	99	97	100%
54	Mistral Large	$0.0051	8.5s	99%	100	100	99	99	99	99	99	100%
87	Qwen 3.6 Flash	$0.0088	26.1s	97%	100	100	100	100	100	100	96	99%
65	GPT-5.4 Mini (Reasoning)	$0.0081	6.6s	98%	100	100	100	100	99	99	98	99%
41	Grok 4.1 Fast	$0.0011	11.6s	97%	100	100	100	100	100	100	95	99%
114	Z.AI GLM 4.6	$0.0048	1.5m	97%	100	100	100	100	100	100	95	99%
48	Stealth: Hunter Alpha	$0.0000	22.2s	97%	100	100	100	100	100	100	95	99%
49	Mistral Small 4 (Reasoning)	$0.0022	18.3s	98%	100	100	99	99	99	99	99	99%
28	Mistral Large 3	$0.0013	8.3s	99%	99	99	99	99	99	99	99	99%
89	Nemotron 3 Super	$0.0000	1.1m	98%	100	100	99	99	99	99	98	99%
64	DeepSeek V3 (2025-03-24)	$0.0006	31.8s	97%	100	100	100	100	100	100	95	99%
121	MiniMax M2.5	$0.0016	2.0m	99%	99	99	99	99	99	99	99	99%
31	Ministral 3B	$0.0001	2.5s	95%	100	100	100	100	100	100	93	99%
38	Mistral Medium 3.1	$0.0015	6.1s	97%	100	100	100	100	97	97	97	99%
59	ByteDance Seed 1.6 Flash	$0.0007	12.5s	94%	100	100	100	100	100	100	91	99%
62	Qwen 3.5 Plus (2026-02-15)	$0.0018	7.9s	93%	100	100	100	100	100	100	90	99%
55	GPT-5.4 Nano (Reasoning, Low)	$0.0009	13.4s	96%	100	100	99	99	99	95	95	98%
91	GPT-5.2	$0.0099	7.1s	94%	100	100	100	97	97	97	95	98%
56	GPT-5.4 Nano (Reasoning)	$0.0010	3.7s	95%	99	99	98	98	95	95	95	97%
110	GPT-5 Nano	$0.0031	1.1m	91%	100	99	99	95	95	95	95	97%
83	GPT-5.4 Mini (Reasoning, Low)	$0.0036	2.9s	91%	100	100	95	95	95	94	94	96%
106	Z.AI GLM 4.5 Air	$0.0022	45.6s	88%	100	99	99	95	94	92	92	96%
107	Z.AI GLM 4.7 Flash	$0.0015	59.8s	91%	98	97	97	95	95	95	92	95%
69	Inception Mercury 2	$0.0023	3.2s	94%	95	95	95	95	95	95	95	95%
82	GPT-5.4 Mini	$0.0032	2.3s	94%	95	95	95	95	95	95	93	95%
93	GPT-4.1 Nano	$0.0003	3.9s	82%	100	100	100	100	95	95	74	95%
104	GPT-OSS 120B	$0.0016	52.1s	95%	95	95	95	95	95	95	95	95%
98	Skyfall 36B V2	$0.0009	10.9s	85%	100	100	100	100	85	85	84	93%
142	Qwen 3.5 9B	$0.0014	1.8m	63%	100	100	100	100	99	99	47	92%
138	DeepSeek V3.1	$0.0006	1.0m	62%	100	100	100	100	100	96	45	92%
95	GPT-4o Mini (temp=1)	$0.0005	10.2s	91%	91	91	91	91	91	91	91	91%
96	GPT-4o Mini (temp=0)	$0.0005	10.8s	91%	91	91	91	91	91	91	91	91%
92	Arcee AI: Trinity Mini	$0.0002	6.8s	91%	91	91	91	91	91	91	91	91%
112	Gemma 3 12B	$0.0001	10.5s	81%	100	89	89	89	89	86	86	90%
145	Mistral Small 3.2 24B	$0.0003	4.9s	30%	100	100	100	100	100	100	0	86%
147	Rocinante 12B	$0.0004	9.4s	31%	100	100	100	98	97	87	0	83%
149	Gemini 2.5 Flash Lite (Reasoning)	$0.0019	11.9s	32%	100	100	99	99	93	86	0	83%
143	Inception Mercury	$0.0005	7.0s	50%	93	93	91	90	87	78	26	80%
137	LFM2 24B	$0.0001	13.5s	75%	78	78	78	78	75	75	73	76%
151	Nemotron 3 Nano	$0.0026	4.7m	30%	99	97	90	70	39	39	27	66%
150	Hermes 3 70B	$0.0005	19.7s	4%	100	100	100	52	0	0	0	50%
98.05%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100ByteDance Seed 2.0 Lite 100Qwen 3.6 27B 100Mistral Medium 3.1	56Hermes 3 70B 69Nemotron 3 Nano 81Rocinante 12B
100.0%	Mara pronouns preserved (coreference test)	100Gemini 2.5 Pro 100Grok 4.20 (Beta, Reasoning) 100Gemini 3 Flash (Preview)	13LFM2 24B 43Hermes 3 70B 58Gemma 3 12B
100.0%	Name replacement accuracy	100Claude 3.7 Sonnet 100Claude Sonnet 4.6 (Reasoning) 100Gemini 3.5 Flash (Reasoning)	46Hermes 3 70B 62Nemotron 3 Nano 78Inception Mercury
100.0%	Non-name text preserved	100Claude Sonnet 4.5 100Mistral Large 100Mistral Medium 3.1	57Hermes 3 70B 71Nemotron 3 Nano 86Rocinante 12B

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100Claude Opus 4.6 (Reasoning) 100Claude Opus 4.5 100GPT-5.4 Mini (Reasoning, Low)	13Hermes 3 70B 67Z.AI GLM 4.7 Flash 67GPT-4.1 Nano
98.2%	Name replacement accuracy	100ByteDance Seed 2.0 Lite 100Claude Opus 4 100GPT-5.4 (Reasoning)	14Hermes 3 70B 63LFM2 24B 69Nemotron 3 Nano
100.0%	Non-name text preserved	100DeepSeek V4 Pro 100Arcee AI: Trinity Large (Preview) 100GPT-5.2	14Hermes 3 70B 57LFM2 24B 76Nemotron 3 Nano

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
142	Gemini 3.1 Pro (Preview)	$0.176	2.9m	99%	99	99	99	99	99	99	99	99%
98	GPT-5.5 (Reasoning)	$0.085	29.9s	98%	100	99	99	99	99	99	98	99%
84	Gemini 2.5 Pro	$0.060	43.9s	97%	100	100	100	99	99	98	98	99%
2	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0082	3.4s	99%	99	99	99	99	99	99	98	99%
124	Z.AI GLM 5.1	$0.056	4.2m	97%	100	99	99	99	99	98	97	99%
134	Gemma 4 31B (Reasoning)	$0.0034	8.1m	97%	100	99	99	99	99	98	97	99%
71	Grok 4.20 (Beta, Reasoning)	$0.045	31.4s	98%	99	99	99	99	98	98	98	99%
80	Grok 4	$0.047	58.9s	98%	99	99	99	99	98	98	98	99%
11	Claude Sonnet 4.5	$0.016	7.0s	97%	100	99	99	99	98	98	97	99%
144	Claude Opus 4.6 (Reasoning)	$0.201	1.8m	97%	100	100	99	99	98	98	98	99%
137	Claude Sonnet 4.6 (Reasoning)	$0.154	1.9m	97%	100	99	99	98	98	98	98	99%
61	Grok 4.20 (Reasoning)	$0.021	1.2m	97%	99	99	99	98	98	98	98	99%
41	Claude Opus 4.7	$0.037	7.5s	98%	99	99	98	98	98	98	98	99%
10	Gemma 4 31B	$0.0004	48.7s	98%	99	99	98	98	98	98	98	99%
1	Gemini 3 Flash (Preview)	$0.0027	4.4s	97%	99	99	99	98	98	98	98	99%
51	GPT-5.5 (Reasoning, Low)	$0.038	14.4s	97%	99	99	99	98	98	98	98	99%
15	DeepSeek V3.2	$0.0006	54.4s	97%	99	99	99	99	98	98	97	99%
96	GPT-5.4 (Reasoning)	$0.066	1.0m	96%	100	100	98	98	98	98	96	98%
55	Z.AI GLM 5 Turbo	$0.024	54.7s	97%	99	99	98	98	98	98	98	98%
28	Claude Opus 4.6	$0.026	8.7s	98%	98	98	98	98	98	98	98	98%
34	GPT-5.5	$0.027	7.3s	97%	99	99	98	98	98	98	98	98%
132	Qwen3.6 Max Preview	$0.071	4.7m	96%	100	100	99	99	98	97	96	98%
118	DeepSeek V4 Pro (Reasoning)	$0.018	4.6m	95%	100	100	99	98	98	98	97	98%
101	Claude Opus 4.7 (Reasoning)	$0.087	19.5s	97%	99	99	98	98	98	98	97	98%
93	GPT-5	$0.055	1.5m	97%	99	99	99	99	98	97	96	98%
14	Claude Sonnet 4.6	$0.016	7.4s	98%	98	98	98	98	98	98	98	98%
4	Grok 4 Fast	$0.0015	12.2s	97%	99	99	98	98	98	98	96	98%
120	Z.AI GLM 5	$0.031	4.7m	97%	99	99	98	98	98	98	97	98%
92	Gemma 4 26B (Reasoning)	$0.0046	3.7m	96%	99	99	99	99	98	97	95	98%
20	Claude Sonnet 4	$0.016	9.2s	96%	100	99	98	98	97	97	96	98%
9	Grok 4.1 Fast	$0.0020	28.2s	97%	99	99	98	98	97	97	97	98%
62	o4 Mini	$0.029	43.2s	96%	99	99	98	98	98	97	96	98%
107	Gemini 3 Pro (Preview)	$0.081	56.0s	95%	100	100	98	98	98	97	97	98%
72	GPT-5.1	$0.035	43.5s	96%	99	98	98	98	98	98	97	98%
127	Qwen 3.5 27B	$0.053	4.2m	95%	100	99	98	98	97	97	97	98%
111	Gemini 3.5 Flash (Reasoning)	$0.093	40.3s	95%	100	100	98	98	97	97	97	98%
87	Z.AI GLM 4.7	$0.020	2.4m	95%	99	99	99	98	98	98	94	98%
3	DeepSeek V4 Flash	$0.0003	11.7s	97%	98	98	98	98	98	98	98	98%
112	Qwen 3.5 397B A17B	$0.013	4.3m	94%	100	100	98	97	97	97	96	98%
150	MoonshotAI: Kimi K2.6	$0.083	9.3m	91%	100	100	100	100	99	98	87	98%
5	Grok 4.20 (Beta)	$0.0048	2.4s	97%	98	98	98	98	98	98	97	98%
13	Stealth: Healer Alpha	$0.0000	31.8s	95%	99	98	98	98	98	96	95	98%
6	Grok 4.20	$0.0029	6.9s	97%	98	98	98	98	98	98	96	97%
88	Qwen 3.6 27B	$0.028	2.0m	93%	99	99	99	96	96	96	95	97%
36	Claude Opus 4.5	$0.026	8.0s	96%	98	98	98	97	97	97	97	97%
46	GPT-5 Mini	$0.0095	1.0m	95%	99	98	98	98	96	95	95	97%
126	Qwen3.7 Max	$0.084	2.5m	94%	99	98	98	97	97	97	95	97%
48	DeepSeek V4 Flash (Reasoning)	$0.0018	1.3m	94%	99	99	98	98	96	95	94	97%
73	GPT-5.2	$0.032	30.1s	93%	100	99	98	97	97	95	95	97%
59	GPT-5.4 (Reasoning, Low)	$0.027	19.9s	94%	99	98	97	96	96	96	96	97%
99	Claude Opus 4	$0.078	13.3s	94%	99	98	98	97	96	96	95	97%
54	Xiaomi MIMO v2.5 Pro	$0.011	49.1s	92%	100	99	99	98	96	95	92	97%
63	Gemini 3 Flash (Preview, Reasoning)	$0.026	44.8s	95%	98	97	97	97	97	97	96	97%
82	Grok 4.3 (Reasoning)	$0.022	1.8m	95%	98	97	97	97	96	96	96	97%
7	Gemini 2.5 Flash	$0.0021	3.1s	95%	98	98	97	96	96	96	96	97%
37	Gemini 2.5 Flash (Reasoning)	$0.015	23.2s	94%	98	98	97	97	97	96	94	97%
50	Z.AI GLM 4.6	$0.010	57.5s	95%	98	98	98	97	96	96	95	97%
113	Qwen 3.5 122B	$0.048	2.4m	92%	99	98	98	96	96	95	94	97%
60	ByteDance Seed 1.6	$0.0081	1.5m	97%	97	97	97	97	97	97	97	97%
8	Qwen 3.5 Plus (2026-02-15)	$0.0022	9.5s	95%	98	98	96	96	96	96	96	97%
56	Z.AI GLM 4.5	$0.0070	1.0m	92%	99	98	98	96	96	94	93	97%
27	GPT-5.4	$0.013	8.2s	95%	98	97	97	97	96	96	95	97%
18	DeepSeek V4 Pro	$0.0021	25.4s	94%	98	97	97	96	96	95	95	96%
117	o4 Mini High	$0.068	1.7m	93%	99	98	98	97	96	95	92	96%
91	Qwen 3.5 Plus (2026-04-20)	$0.022	2.3m	94%	98	97	97	96	95	95	94	96%
22	Claude Haiku 4.5	$0.0052	6.2s	92%	99	97	96	96	95	93	93	96%
67	Qwen 3.6 Flash	$0.016	49.1s	92%	99	96	96	96	95	95	92	96%
12	Mistral Large 3	$0.0016	10.4s	95%	96	96	96	96	96	96	95	96%
19	Mistral Large 2	$0.0064	10.4s	95%	96	96	96	96	96	95	95	96%
77	Qwen 3.6 35B	$0.014	1.2m	91%	98	98	96	94	94	94	94	95%
42	GPT-4o, Aug. 6th (temp=0)	$0.0097	4.1s	88%	99	99	99	95	92	92	92	95%
40	WizardLM 2 8x22b	$0.0011	48.1s	93%	98	97	96	96	95	94	93	95%
76	GPT-5.4 Mini (Reasoning)	$0.022	50.2s	93%	97	96	96	95	95	95	94	95%
24	Stealth: Hunter Alpha	$0.0000	26.3s	94%	97	96	96	96	95	95	93	95%
21	Mistral Large	$0.0064	10.4s	94%	96	96	96	96	95	95	94	95%
146	MoonshotAI: Kimi K2.5	$0.035	8.9m	86%	99	98	98	98	97	96	80	95%
86	Qwen 3.5 35B	$0.028	1.4m	92%	98	98	95	95	94	94	93	95%
30	DeepSeek V3 (2024-12-26)	$0.0012	22.5s	92%	97	97	97	95	94	94	93	95%
16	Gemini 3.1 Flash Lite	$0.0014	2.4s	93%	97	96	95	95	95	95	94	95%
17	Gemini 3.1 Flash Lite (Preview)	$0.0014	2.4s	92%	97	97	96	95	94	94	92	95%
121	ByteDance Seed 2.0 Mini	$0.0044	5.1m	92%	98	96	96	95	94	94	93	95%
57	Gemini 2.5 Flash Lite (Reasoning)	$0.0031	25.5s	86%	99	98	98	98	96	95	81	95%
44	GPT-4o, May 13th (temp=0)	$0.016	5.6s	92%	97	96	96	96	94	92	91	95%
32	Writer: Palmyra X5	$0.0052	9.7s	93%	97	95	95	95	94	94	93	95%
90	Z.AI GLM 4.5 Air	$0.0095	2.4m	91%	98	96	96	96	94	93	90	95%
65	MiniMax M2.5	$0.0025	1.2m	92%	96	96	95	95	94	94	92	95%
26	Gemini 3.1 Flash Lite (Reasoning)	$0.0014	13.9s	93%	96	95	95	95	95	94	92	95%
33	Grok 4.3	$0.0031	5.6s	91%	98	96	95	95	93	92	92	94%
35	Gemma 4 26B	$0.0004	31.0s	92%	96	96	96	94	94	93	92	94%
29	Qwen3 235B A22B Instruct 2507	$0.0004	17.2s	93%	95	95	95	95	94	93	93	94%
75	Claude 3.5 Sonnet	$0.031	14.4s	93%	95	94	94	94	94	94	94	94%
23	Gemini 2.5 Flash Lite	$0.0004	2.4s	92%	96	94	94	93	93	93	93	94%
43	Xiaomi MIMO v2.5	$0.0034	12.7s	88%	98	96	96	94	92	91	88	94%
68	Hermes 3 405B	$0.0018	27.1s	84%	98	98	97	96	95	94	78	94%
25	Mistral Medium 3.1	$0.0019	6.3s	93%	94	94	94	94	94	93	92	94%
31	Gemma 3 12B	$0.0001	12.1s	92%	95	94	94	94	94	93	91	94%
52	Claude 3.7 Sonnet	$0.016	8.6s	92%	94	93	93	93	93	93	92	93%
38	GPT-4.1 Mini	$0.0016	9.7s	90%	95	94	94	92	92	92	91	93%
39	Mistral Small 3.2 24B	$0.0003	6.7s	89%	95	95	93	92	92	90	90	93%
53	GPT-5.4 Mini (Reasoning, Low)	$0.0065	11.5s	89%	94	94	93	92	92	92	89	92%
49	GPT-4.1	$0.0078	5.6s	90%	94	93	92	92	92	92	91	92%
58	Arcee AI: Trinity Large (Preview)	$0.0000	31.3s	90%	92	92	92	92	92	90	90	92%
78	GPT-4o, May 13th (temp=1)	$0.016	5.0s	86%	95	94	92	90	90	89	89	91%
45	GPT-4o Mini (temp=0)	$0.0006	14.1s	90%	92	92	91	91	91	91	91	91%
114	ByteDance Seed 2.0 Lite	$0.0094	1.8m	73%	96	96	95	95	94	94	62	90%
47	Mistral Small Creative	$0.0003	4.2s	89%	91	91	91	91	91	90	89	90%
108	DeepSeek V3.1	$0.0009	33.9s	62%	98	98	98	97	95	95	46	90%
64	GPT-5.4 Mini	$0.0040	2.6s	87%	92	90	90	89	89	89	87	90%
69	Claude 3 Haiku	$0.0013	7.0s	86%	93	91	89	89	88	88	86	89%
74	Qwen 2.5 72B	$0.0004	16.5s	86%	92	90	89	89	88	88	86	89%
66	Mistral Small 4	$0.0006	4.5s	86%	92	89	89	89	89	88	87	89%
81	Llama 3.1 70B	$0.0007	24.8s	83%	93	92	89	88	87	87	85	89%
70	Ministral 3 14B	$0.0003	5.9s	86%	90	89	88	88	88	87	86	88%
119	Qwen 3 32B	$0.0011	1.0m	60%	98	96	95	95	94	93	43	88%
85	ByteDance Seed 1.6 Flash	$0.0013	24.3s	79%	93	93	91	88	88	83	78	88%
83	GPT-4o Mini (temp=1)	$0.0006	13.5s	81%	91	90	90	89	89	89	76	88%
79	LFM2 24B	$0.0001	15.6s	86%	89	88	87	87	86	86	86	87%
94	Cydonia 24B V4.1	$0.0006	20.7s	74%	95	93	91	85	84	80	76	86%
89	Gemma 3 27B	$0.0003	24.0s	77%	94	93	92	91	79	77	77	86%
135	Qwen 3.5 Flash	$0.0059	1.8m	45%	98	98	98	97	97	94	20	86%
102	GPT-5.4 Nano (Reasoning)	$0.0049	30.4s	75%	95	88	87	84	83	82	78	85%
123	Mistral Small 4 (Reasoning)	$0.0048	46.1s	59%	93	93	93	92	90	89	40	84%
106	GPT-5.4 Nano (Reasoning, Low)	$0.0017	10.7s	66%	94	93	91	78	78	77	77	84%
125	GPT-OSS 120B	$0.0011	1.1m	57%	98	98	97	96	95	52	52	84%
140	Aion 2.0	$0.0085	1.8m	31%	99	98	98	98	97	96	0	84%
95	Llama 3.1 Nemotron 70B	$0.0021	20.5s	78%	89	86	85	85	85	83	74	84%
148	MiniMax M2.7	$0.023	5.4m	52%	98	97	96	96	96	59	37	83%
136	Z.AI GLM 4.7 Flash	$0.0041	3.1m	59%	96	95	94	92	90	63	48	83%
100	Arcee AI: Trinity Mini	$0.0004	11.6s	76%	88	83	82	81	80	80	78	82%
131	DeepSeek V3 (2025-03-24)	$0.0009	48.3s	45%	97	97	96	95	94	70	20	81%
138	Nemotron 3 Super	$0.0000	3.6m	56%	99	97	96	94	78	52	49	81%
128	GPT-5 Nano	$0.0064	2.3m	70%	89	89	83	82	80	72	67	80%
105	Skyfall 36B V2	$0.0010	13.5s	73%	88	83	79	79	79	78	74	80%
103	GPT-5.4 Nano	$0.0011	3.7s	73%	88	82	81	79	78	77	77	80%
104	Mistral NeMO	$0.0003	2.3s	71%	88	85	78	78	78	78	78	80%
97	Gemma 3 4B	$0.0001	11.8s	80%	80	80	80	80	80	80	80	80%
149	Nemotron 3 Nano	$0.0052	5.9m	48%	94	93	92	90	90	49	33	77%
133	GPT-4o, Aug. 6th (temp=1)	$0.0088	3.5s	45%	98	93	92	88	75	74	20	77%
115	GPT-4.1 Nano	$0.0004	4.9s	70%	84	80	76	76	75	72	72	76%
141	Qwen 3.5 9B	$0.0023	3.2m	48%	99	96	96	95	52	52	39	76%
116	Ministral 3B	$0.0001	2.9s	70%	79	78	78	78	76	76	64	75%
109	Ministral 3 8B	$0.0003	4.0s	75%	76	76	76	76	76	75	75	75%
110	Ministral 8B	$0.0002	3.9s	74%	76	75	75	75	75	75	74	75%
129	Inception Mercury	$0.0005	4.6s	49%	95	95	88	88	52	51	40	73%
139	DeepSeek-V2 Chat	$0.0011	20.5s	31%	97	94	94	92	91	20	20	73%
122	Ministral 3 3B	$0.0002	2.9s	67%	78	78	78	78	64	64	62	72%
130	Llama 3.1 8B	$0.0001	16.1s	54%	86	81	80	77	74	49	46	70%
145	Inception Mercury 2	$0.0034	4.7s	28%	98	97	52	52	52	42	37	61%
143	Cohere Command R+ (Aug. 2024)	$0.0095	20.5s	41%	78	76	71	54	53	50	46	61%
147	Rocinante 12B	$0.0005	11.6s	30%	78	73	73	53	43	27	20	52%
151	Hermes 3 70B	$0.0039	5.3m	0%	92	91	0	0	0	0	0	26%
91.30%

Median	Evaluator	Top 3	Flop 3
97.1%	Dialogue content preserved	100Claude Opus 4.6 100Gemma 3 4B 100Claude Opus 4.7	24Hermes 3 70B 54Rocinante 12B 57Inception Mercury 2
100.0%	No hallucinated or fabricated content	100Z.AI GLM 5.1 100Mistral Small 3.2 24B 100Claude Sonnet 4.6	29Hermes 3 70B 61Cohere Command R+ (Aug. 2024) 63Rocinante 12B
94.6%	Non-passive narration preserved	100Gemini 2.5 Flash 100Gemini 2.5 Flash Lite 100Claude Sonnet 4.5	29Hermes 3 70B 48Rocinante 12B 55Inception Mercury 2
87.9%	Passive → active voice transformations	99Claude Opus 4.6 (Reasoning) 99Gemini 3 Pro (Preview) 98Gemini 3.5 Flash (Reasoning)	0Ministral 3 3B 0Gemma 3 4B 1Ministral 3B
100.0%	Structural similarity to original	100Qwen 3.5 Plus (2026-04-20) 100ByteDance Seed 1.6 100Claude 3 Haiku	29Hermes 3 70B 76Inception Mercury 2 76Qwen 3.5 9B

Median	Evaluator	Top 3	Flop 3
100.0%	Forbidden words eliminated	100Claude Opus 4.6 100MiniMax M2.7 100Mistral Medium 3.1	19GPT-4.1 Nano 24Ministral 3B 24Llama 3.1 8B
100.0%	Non-name text preserved	100Z.AI GLM 5.1 100GPT-4o Mini (temp=0) 100Grok 4.20 (Beta)	27Rocinante 12B 46Cohere Command R+ (Aug. 2024) 48LFM2 24B
100.0%	Structural similarity to original	100DeepSeek V4 Flash 100Gemini 2.5 Flash (Reasoning) 100GPT-5 Nano	63Rocinante 12B 76Arcee AI: Trinity Mini 81DeepSeek V4 Flash (Reasoning)