Character rename: Elena->Mirabel, Gregor->Aldric

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s
Inception Mercury 2	100%	$0.0007	971ms
Ministral 8B	100%	$0.0001	3.2s
Ministral 3 8B	100%	$0.0002	2.9s
Mistral Small 4	100%	$0.0004	2.8s
GPT-4.1 Nano	100%	$0.0003	3.7s
Ministral 3 14B	100%	$0.0002	4.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	4.3s
Gemini 3.1 Flash Lite	100%	$0.0009	1.9s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s
GPT-5.4 Nano	100%	$0.0007	2.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0007	3.2s
Gemma 3 4B	100%	$0.0001	6.1s
Mistral Small 3.2 24B	100%	$0.0002	5.7s
Mistral NeMO	93%	$0.0002	2.3s
Gemini 2.5 Flash	100%	$0.0014	2.1s
DeepSeek V4 Flash	100%	$0.0002	8.3s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0007	4.7s
ByteDance Seed 1.6 Flash	100%	$0.0003	6.6s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s	100%
Inception Mercury 2	100%	$0.0007	971ms	100%
Ministral 3 8B	100%	$0.0002	2.9s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.6s	100%
Ministral 8B	100%	$0.0001	3.2s	100%
Mistral Small 4	100%	$0.0004	2.8s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	1.9s	100%
GPT-5.4 Nano	100%	$0.0007	2.7s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s	100%
GPT-4.1 Nano	100%	$0.0003	3.7s	100%
Ministral 3 14B	100%	$0.0002	4.0s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0007	3.2s	100%
Gemini 2.5 Flash	100%	$0.0014	2.1s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	4.3s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0007	4.7s	100%
Mistral Small 3.2 24B	100%	$0.0002	5.7s	100%
Gemma 3 4B	100%	$0.0001	6.1s	100%
Gemini 3 Flash (Preview)	100%	$0.0018	3.2s	100%
GPT-5.4 Mini	100%	$0.0027	1.9s	100%
Mistral Medium 3.1	100%	$0.0012	4.8s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Name replacement accuracy	100GPT-5.4 (Reasoning) 100Ministral 3 8B 100GPT-5.5 (Reasoning)	30Cohere Command R+ (Aug. 2024) 80Arcee AI: Trinity Mini 86DeepSeek V3.1
100.0%	No remaining old names	100DeepSeek V4 Flash (Reasoning) 100Mistral Large 3 100Gemini 3.1 Flash Lite	86Aion 3.0 Mini
100.0%	Non-name text preserved	100DeepSeek V4 Flash (Reasoning) 100Gemini 2.5 Pro 100GPT-4o Mini (temp=1)	45Cohere Command R+ (Aug. 2024) 81Arcee AI: Trinity Mini 86Aion 3.0 Mini

Text Replacement

Character rename: Elena->Mirabel, Gregor->Aldric

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
112	GPT-5.6 Sol (Reasoning)	$0.018	5.3s	100%	100	100	100	100	100	100	100	100%
104	Claude Opus 4.6 (Reasoning)	$0.017	5.6s	100%	100	100	100	100	100	100	100	100%
133	Qwen3.7 Max	$0.018	34.5s	100%	100	100	100	100	100	100	100	100%
82	Grok 4.5 (Reasoning, High)	$0.0076	10.3s	100%	100	100	100	100	100	100	100	100%
132	Gemini 3.1 Pro (Preview)	$0.024	22.2s	100%	100	100	100	100	100	100	100	100%
81	GPT-5.4 (Reasoning)	$0.0096	6.6s	100%	100	100	100	100	100	100	100	100%
105	Z.AI GLM 5.1	$0.0046	27.9s	100%	100	100	100	100	100	100	100	100%
143	Qwen3.6 Max Preview	$0.021	1.1m	100%	100	100	100	100	100	100	100	100%
113	GPT-5.5 (Reasoning)	$0.019	5.0s	100%	100	100	100	100	100	100	100	100%
83	Claude Sonnet 4.6 (Reasoning)	$0.011	4.9s	100%	100	100	100	100	100	100	100	100%
45	Z.AI GLM 5.2 (Reasoning, High)	$0.0028	8.0s	100%	100	100	100	100	100	100	100	100%
109	Gemini 3.5 Flash (Reasoning)	$0.017	7.1s	100%	100	100	100	100	100	100	100	100%
38	Z.AI GLM 5 Turbo	$0.0023	6.2s	100%	100	100	100	100	100	100	100	100%
137	MoonshotAI: Kimi K2.6	$0.0080	1.1m	100%	100	100	100	100	100	100	100	100%
122	Claude Opus 4.7 (Reasoning)	$0.023	4.9s	100%	100	100	100	100	100	100	100	100%
107	GPT-5.5 (Reasoning, Low)	$0.018	4.8s	100%	100	100	100	100	100	100	100	100%
60	GPT-5.6 Terra (Reasoning)	$0.0089	2.7s	100%	100	100	100	100	100	100	100	100%
126	Claude Opus 4.8 (Reasoning)	$0.023	7.0s	100%	100	100	100	100	100	100	100	100%
100	Claude Opus 4.6	$0.017	5.4s	100%	100	100	100	100	100	100	100	100%
125	Claude Opus 4.8 (Reasoning, Low)	$0.023	7.0s	100%	100	100	100	100	100	100	100	100%
131	GPT-5	$0.018	26.6s	100%	100	100	100	100	100	100	100	100%
68	GPT-5 Mini	$0.0023	16.6s	100%	100	100	100	100	100	100	100	100%
138	Qwen 3.5 397B A17B	$0.0062	1.2m	100%	100	100	100	100	100	100	100	100%
88	Grok 4.3 (Reasoning)	$0.0053	18.2s	100%	100	100	100	100	100	100	100	100%
118	Grok 4.5 (Reasoning, Low)	$0.0058	32.2s	100%	100	100	100	100	100	100	100	100%
71	GPT-5.4 (Reasoning, Low)	$0.0091	5.4s	100%	100	100	100	100	100	100	100	100%
72	Grok 4.20 (Reasoning)	$0.0042	14.8s	100%	100	100	100	100	100	100	100	100%
139	MoonshotAI: Kimi K2.5	$0.0055	1.3m	100%	100	100	100	100	100	100	100	100%
103	GPT-5.6 Sol	$0.018	3.9s	100%	100	100	100	100	100	100	100	100%
52	GPT-5.1	$0.0060	4.2s	100%	100	100	100	100	100	100	100	100%
73	Claude Sonnet 4.6	$0.010	4.4s	100%	100	100	100	100	100	100	100	100%
35	GPT-5.6 Luna (Reasoning)	$0.0037	3.1s	100%	100	100	100	100	100	100	100	100%
43	MiniMax M3	$0.0008	11.6s	100%	100	100	100	100	100	100	100	100%
87	Claude Sonnet 5 (Reasoning)	$0.0095	8.3s	100%	100	100	100	100	100	100	100	100%
111	Qwen 3.5 122B	$0.0095	20.9s	100%	100	100	100	100	100	100	100	100%
86	Claude Sonnet 5 (Reasoning, Low)	$0.0095	8.3s	100%	100	100	100	100	100	100	100	100%
114	Qwen 3.5 27B	$0.0059	28.5s	100%	100	100	100	100	100	100	100	100%
63	Gemini 3 Flash (Preview, Reasoning)	$0.0057	9.0s	100%	100	100	100	100	100	100	100	100%
120	Claude Opus 4.7	$0.023	4.2s	100%	100	100	100	100	100	100	100	100%
24	GPT-5.4 Mini (Reasoning)	$0.0028	3.0s	100%	100	100	100	100	100	100	100	100%
129	Qwen 3.5 Plus (2026-04-20)	$0.0070	42.8s	100%	100	100	100	100	100	100	100	100%
119	Gemma 4 31B (Reasoning)	$0.0006	42.5s	100%	100	100	100	100	100	100	100	100%
102	Claude Opus 4.5	$0.017	5.5s	100%	100	100	100	100	100	100	100	100%
65	Z.AI GLM 5	$0.0030	14.1s	100%	100	100	100	100	100	100	100	100%
92	ByteDance Seed 1.6	$0.0025	26.6s	100%	100	100	100	100	100	100	100	100%
66	GPT-5.2	$0.0079	5.2s	100%	100	100	100	100	100	100	100	100%
106	GPT-5.5	$0.018	4.7s	100%	100	100	100	100	100	100	100	100%
62	Qwen 3.6 Flash	$0.0038	12.4s	100%	100	100	100	100	100	100	100	100%
127	DeepSeek V4 Pro (Reasoning)	$0.0033	43.0s	100%	100	100	100	100	100	100	100	100%
134	Gemma 4 26B (Reasoning)	$0.0009	1.1m	100%	100	100	100	100	100	100	100	100%
95	Aion 3.0	$0.0070	19.0s	100%	100	100	100	100	100	100	100	100%
89	o4 Mini High	$0.0084	12.9s	100%	100	100	100	100	100	100	100	100%
123	Gemini 2.5 Pro	$0.019	13.7s	100%	100	100	100	100	100	100	100	100%
130	Qwen 3.6 27B	$0.0094	38.9s	100%	100	100	100	100	100	100	100	100%
64	GPT-5.6 Terra	$0.0089	3.4s	100%	100	100	100	100	100	100	100	100%
36	DeepSeek V4 Flash (Reasoning)	$0.0002	9.5s	100%	100	100	100	100	100	100	100	100%
124	Z.AI GLM 4.7	$0.0041	40.6s	100%	100	100	100	100	100	100	100	100%
75	Qwen 3.6 35B	$0.0030	17.5s	100%	100	100	100	100	100	100	100	100%
135	Z.AI GLM 4.6	$0.0043	1.1m	100%	100	100	100	100	100	100	100	100%
78	Claude Sonnet 4	$0.010	5.3s	100%	100	100	100	100	100	100	100	100%
74	Claude Sonnet 4.5	$0.010	4.6s	100%	100	100	100	100	100	100	100	100%
84	Claude Sonnet 5	$0.0092	8.1s	100%	100	100	100	100	100	100	100	100%
142	Claude Opus 4	$0.050	8.2s	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 35B	$0.0085	27.4s	100%	100	100	100	100	100	100	100	100%
44	GPT-4.1	$0.0051	3.8s	100%	100	100	100	100	100	100	100	100%
97	Aion 2.0	$0.0025	28.3s	100%	100	100	100	100	100	100	100	100%
76	o4 Mini	$0.0066	11.1s	100%	100	100	100	100	100	100	100	100%
54	MiniMax M2.7	$0.0009	13.9s	100%	100	100	100	100	100	100	100	100%
37	Qwen 3.5 Plus (2026-02-15)	$0.0015	7.4s	100%	100	100	100	100	100	100	100	100%
58	Xiaomi MIMO v2.5 Pro	$0.0023	12.8s	100%	100	100	100	100	100	100	100	100%
14	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	4.3s	100%	100	100	100	100	100	100	100	100%
42	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0054	2.5s	100%	100	100	100	100	100	100	100	100%
99	Qwen 3.5 Flash	$0.0018	30.3s	100%	100	100	100	100	100	100	100	100%
18	Gemini 3 Flash (Preview)	$0.0018	3.2s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.6s	100%	100	100	100	100	100	100	100	100%
79	Gemma 4 31B	$0.0003	23.3s	100%	100	100	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite	$0.0009	1.9s	100%	100	100	100	100	100	100	100	100%
32	GPT-5.6 Luna	$0.0036	2.9s	100%	100	100	100	100	100	100	100	100%
90	Z.AI GLM 4.5	$0.0031	25.0s	100%	100	100	100	100	100	100	100	100%
47	Gemma 4 26B	$0.0002	13.3s	100%	100	100	100	100	100	100	100	100%
96	GPT-OSS 120B	$0.0003	31.2s	100%	100	100	100	100	100	100	100	100%
69	GPT-5.4	$0.0089	5.2s	100%	100	100	100	100	100	100	100	100%
31	Mistral Large 3	$0.0010	7.4s	100%	100	100	100	100	100	100	100	100%
94	ByteDance Seed 2.0 Lite	$0.0025	27.0s	100%	100	100	100	100	100	100	100	100%
34	Gemini 2.5 Flash (Reasoning)	$0.0029	4.3s	100%	100	100	100	100	100	100	100	100%
59	DeepSeek-V2 Chat	$0.0008	17.2s	100%	100	100	100	100	100	100	100	100%
141	Qwen 3.5 9B	$0.0010	1.5m	100%	100	100	100	100	100	100	100	100%
39	Xiaomi MIMO v2.5	$0.0018	7.4s	100%	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini (Reasoning, Low)	$0.0027	2.6s	100%	100	100	100	100	100	100	100	100%
29	Claude Haiku 4.5	$0.0034	2.6s	100%	100	100	100	100	100	100	100	100%
15	Gemini 2.5 Flash Lite (Reasoning)	$0.0007	4.7s	100%	100	100	100	100	100	100	100	100%
55	DeepSeek V3 (2024-12-26)	$0.0007	14.6s	100%	100	100	100	100	100	100	100	100%
93	DeepSeek V3.2	$0.0003	30.9s	100%	100	100	100	100	100	100	100	100%
91	Z.AI GLM 4.7 Flash	$0.0009	29.2s	100%	100	100	100	100	100	100	100	100%
49	GPT-4o, Aug. 6th (temp=0)	$0.0064	3.0s	100%	100	100	100	100	100	100	100	100%
116	DeepSeek V4 Pro	$0.0013	39.3s	100%	100	100	100	100	100	100	100	100%
28	DeepSeek V4 Flash	$0.0002	8.3s	100%	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0007	971ms	100%	100	100	100	100	100	100	100	100%
80	Nemotron 3 Super	$0.0000	23.9s	100%	100	100	100	100	100	100	100	100%
50	Mistral Large 2	$0.0042	7.2s	100%	100	100	100	100	100	100	100	100%
27	GPT-4.1 Mini	$0.0010	6.7s	100%	100	100	100	100	100	100	100	100%
48	GPT-4o, Aug. 6th (temp=1)	$0.0064	2.4s	100%	100	100	100	100	100	100	100	100%
23	Grok 4.20	$0.0020	4.3s	100%	100	100	100	100	100	100	100	100%
85	Hermes 3 405B	$0.0011	23.0s	100%	100	100	100	100	100	100	100	100%
98	Z.AI GLM 4.5 Air	$0.0012	31.2s	100%	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100%
19	GPT-5.4 Mini	$0.0027	1.9s	100%	100	100	100	100	100	100	100	100%
67	GPT-5 Nano	$0.0009	18.0s	100%	100	100	100	100	100	100	100	100%
12	GPT-5.4 Nano (Reasoning)	$0.0007	3.2s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.6s	100%	100	100	100	100	100	100	100	100%
26	Mistral Small 4 (Reasoning)	$0.0009	6.7s	100%	100	100	100	100	100	100	100	100%
57	Writer: Palmyra X5	$0.0033	10.9s	100%	100	100	100	100	100	100	100	100%
53	Qwen3 235B A22B Instruct 2507	$0.0003	14.9s	100%	100	100	100	100	100	100	100	100%
25	Grok 4.3	$0.0019	4.8s	100%	100	100	100	100	100	100	100	100%
33	GPT-4o Mini (temp=1)	$0.0004	8.7s	100%	100	100	100	100	100	100	100	100%
9	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.8s	100%	100	100	100	100	100	100	100	100%
77	Llama 3.1 70B	$0.0004	22.3s	100%	100	100	100	100	100	100	100	100%
16	Mistral Small 3.2 24B	$0.0002	5.7s	100%	100	100	100	100	100	100	100	100%
40	GPT-4o Mini (temp=0)	$0.0004	10.2s	100%	100	100	100	100	100	100	100	100%
20	Mistral Medium 3.1	$0.0012	4.8s	100%	100	100	100	100	100	100	100	100%
30	Gemma 3 12B	$0.0001	8.6s	100%	100	100	100	100	100	100	100	100%
70	Gemma 3 27B	$0.0002	21.0s	100%	100	100	100	100	100	100	100	100%
6	Mistral Small 4	$0.0004	2.8s	100%	100	100	100	100	100	100	100	100%
46	Nemotron 3 Nano	$0.0002	13.1s	100%	100	100	100	100	100	100	100	100%
41	Qwen 2.5 72B	$0.0003	11.8s	100%	100	100	100	100	100	100	100	100%
51	Cydonia 24B V4.1	$0.0004	14.2s	100%	100	100	100	100	100	100	100	100%
8	GPT-5.4 Nano	$0.0007	2.7s	100%	100	100	100	100	100	100	100	100%
101	WizardLM 2 8x22b	$0.0007	34.6s	100%	100	100	100	100	100	100	100	100%
21	ByteDance Seed 1.6 Flash	$0.0003	6.6s	100%	100	100	100	100	100	100	100	100%
11	Ministral 3 14B	$0.0002	4.0s	100%	100	100	100	100	100	100	100	100%
3	Ministral 3 8B	$0.0002	2.9s	100%	100	100	100	100	100	100	100	100%
10	GPT-4.1 Nano	$0.0003	3.7s	100%	100	100	100	100	100	100	100	100%
56	Hermes 3 70B	$0.0003	15.5s	100%	100	100	100	100	100	100	100	100%
17	Gemma 3 4B	$0.0001	6.1s	100%	100	100	100	100	100	100	100	100%
5	Ministral 8B	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100%
110	MiniMax M2.5	$0.0011	33.5s	98%	100	100	100	100	100	100	98	100%
115	ByteDance Seed 2.0 Mini	$0.0006	35.9s	98%	100	100	100	100	100	100	97	100%
136	DeepSeek V3 (2025-03-24)	$0.0006	54.8s	90%	100	100	100	100	100	100	85	98%
121	Qwen 3 32B	$0.0007	26.0s	88%	100	100	100	100	100	100	83	98%
61	Ministral 3 3B	$0.0001	2.2s	95%	95	95	95	95	95	95	95	95%
108	Ministral 3B	$0.0000	1.9s	81%	100	100	95	95	95	95	77	94%
128	Mistral NeMO	$0.0002	2.3s	71%	100	100	100	100	98	98	58	93%
144	DeepSeek V3.1	$0.0005	41.1s	59%	100	100	100	100	100	95	41	91%
140	Arcee AI: Trinity Mini	$0.0002	4.9s	55%	100	98	95	95	95	90	36	87%
145	Aion 3.0 Mini	$0.0020	28.6s	30%	100	100	100	100	100	100	0	86%
146	Cohere Command R+ (Aug. 2024)	$0.0068	22.4s	22%	100	100	49	47	40	38	33	58%
99.31%