Location rename: market square, outer ring, bridge, northern mines

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%

	Score	Cost	Time
Ministral 3B	100%	$0.0000	1.9s
Ministral 3 3B	100%	$0.0001	1.9s
Ministral 8B	100%	$0.0001	3.2s
Ministral 3 8B	100%	$0.0002	3.1s
Gemini 2.5 Flash Lite	100%	$0.0003	1.5s
Gemma 3 4B	100%	$0.0001	5.8s
Ministral 3 14B	100%	$0.0002	3.8s
Mistral Small 3.2 24B	100%	$0.0002	4.5s
Gemma 3 12B	100%	$0.0001	8.5s
DeepSeek V4 Flash	100%	$0.0002	8.2s
Mistral Small 4	100%	$0.0004	2.8s
Gemma 4 26B	100%	$0.0003	15.4s
Qwen 2.5 72B	100%	$0.0003	10.4s
GPT-4o Mini (temp=1)	100%	$0.0004	9.5s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s
GPT-5.4 Nano	100%	$0.0007	3.0s
Gemma 3 27B	100%	$0.0002	13.2s
GPT-5.4 Nano (Reasoning)	100%	$0.0009	4.3s
GPT-4o Mini (temp=0)	100%	$0.0004	10.1s
Gemma 4 31B	100%	$0.0003	15.9s

	Score	Cost	Speed	Stability
Ministral 3B	100%	$0.0000	1.9s	100%
Ministral 3 3B	100%	$0.0001	1.9s	100%
Gemini 2.5 Flash Lite	100%	$0.0003	1.5s	100%
Ministral 8B	100%	$0.0001	3.2s	100%
Ministral 3 8B	100%	$0.0002	3.1s	100%
Mistral Small 4	100%	$0.0004	2.8s	100%
Ministral 3 14B	100%	$0.0002	3.8s	100%
Mistral Small 3.2 24B	100%	$0.0002	4.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.6s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.7s	100%
Gemma 3 4B	100%	$0.0001	5.8s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	1.9s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.8s	100%
GPT-5.4 Nano	100%	$0.0007	3.0s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0009	4.3s	100%
Gemini 2.5 Flash	100%	$0.0014	2.0s	100%
Gemma 3 12B	100%	$0.0001	8.5s	100%
DeepSeek V4 Flash	100%	$0.0002	8.2s	100%
Inception Mercury 2	100%	$0.0017	2.3s	100%
GPT-4.1 Mini	100%	$0.0011	6.0s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Location replacement accuracy	100Qwen 3.5 Plus (2026-04-20) 100Writer: Palmyra X5 100Gemini 2.5 Flash Lite	52Hermes 3 70B 88Mistral NeMO 88GPT-4.1 Nano
100.0%	No remaining old location names	100Aion 3.0 100MiniMax M2.5 100GPT-5.6 Terra	43Hermes 3 70B
100.0%	Non-location text preserved	100DeepSeek V4 Pro 100DeepSeek V4 Pro (Reasoning) 100Gemini 3.1 Flash Lite	57Hermes 3 70B 92Gemini 3.1 Pro (Preview) 92Nemotron 3 Nano

Text Replacement

Location rename: market square, outer ring, bridge, northern mines

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
114	GPT-5.6 Sol (Reasoning)	$0.018	4.8s	100%	100	100	100	100	100	100	100	100%
134	Claude Opus 4.6 (Reasoning)	$0.026	12.4s	100%	100	100	100	100	100	100	100	100%
139	Qwen3.7 Max	$0.028	48.5s	100%	100	100	100	100	100	100	100	100%
107	Grok 4.5 (Reasoning, High)	$0.014	17.4s	100%	100	100	100	100	100	100	100	100%
100	GPT-5.4 (Reasoning)	$0.012	9.0s	100%	100	100	100	100	100	100	100	100%
124	Z.AI GLM 5.1	$0.011	57.2s	100%	100	100	100	100	100	100	100	100%
143	Qwen3.6 Max Preview	$0.030	1.5m	100%	100	100	100	100	100	100	100	100%
126	GPT-5.5 (Reasoning)	$0.022	8.7s	100%	100	100	100	100	100	100	100	100%
132	Claude Sonnet 4.6 (Reasoning)	$0.023	13.0s	100%	100	100	100	100	100	100	100	100%
91	Z.AI GLM 5.2 (Reasoning, High)	$0.0077	20.2s	100%	100	100	100	100	100	100	100	100%
122	Gemini 3.5 Flash (Reasoning)	$0.021	8.6s	100%	100	100	100	100	100	100	100	100%
81	Z.AI GLM 5 Turbo	$0.0069	16.0s	100%	100	100	100	100	100	100	100	100%
136	MoonshotAI: Kimi K2.6	$0.014	1.2m	100%	100	100	100	100	100	100	100	100%
129	Claude Opus 4.7 (Reasoning)	$0.024	4.1s	100%	100	100	100	100	100	100	100	100%
120	GPT-5.5 (Reasoning, Low)	$0.020	6.7s	100%	100	100	100	100	100	100	100	100%
75	GPT-5.6 Terra (Reasoning)	$0.0091	2.7s	100%	100	100	100	100	100	100	100	100%
133	Claude Opus 4.8 (Reasoning)	$0.024	8.4s	100%	100	100	100	100	100	100	100	100%
112	Claude Opus 4.6	$0.017	5.5s	100%	100	100	100	100	100	100	100	100%
131	Claude Opus 4.8 (Reasoning, Low)	$0.024	7.6s	100%	100	100	100	100	100	100	100	100%
140	GPT-5	$0.031	47.1s	100%	100	100	100	100	100	100	100	100%
74	GPT-5 Mini	$0.0043	25.1s	100%	100	100	100	100	100	100	100	100%
127	Qwen 3.5 397B A17B	$0.0040	1.6m	100%	100	100	100	100	100	100	100	100%
103	Grok 4.3 (Reasoning)	$0.0083	33.2s	100%	100	100	100	100	100	100	100	100%
94	Grok 4.5 (Reasoning, Low)	$0.0092	13.4s	100%	100	100	100	100	100	100	100	100%
83	GPT-5.4 (Reasoning, Low)	$0.0092	5.2s	100%	100	100	100	100	100	100	100	100%
68	Grok 4.20 (Reasoning)	$0.0051	16.5s	100%	100	100	100	100	100	100	100	100%
135	MoonshotAI: Kimi K2.5	$0.0082	1.6m	100%	100	100	100	100	100	100	100	100%
115	GPT-5.6 Sol	$0.018	4.9s	100%	100	100	100	100	100	100	100	100%
102	GPT-5.1	$0.012	13.4s	100%	100	100	100	100	100	100	100	100%
85	Claude Sonnet 4.6	$0.010	4.7s	100%	100	100	100	100	100	100	100	100%
43	GPT-5.6 Luna (Reasoning)	$0.0041	3.7s	100%	100	100	100	100	100	100	100	100%
64	MiniMax M3	$0.0019	29.5s	100%	100	100	100	100	100	100	100	100%
92	Claude Sonnet 5 (Reasoning)	$0.010	9.1s	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 122B	$0.013	29.5s	100%	100	100	100	100	100	100	100	100%
97	Claude Sonnet 5 (Reasoning, Low)	$0.011	9.6s	100%	100	100	100	100	100	100	100	100%
106	Qwen 3.5 27B	$0.0092	37.2s	100%	100	100	100	100	100	100	100	100%
78	Gemini 3 Flash (Preview, Reasoning)	$0.0076	12.0s	100%	100	100	100	100	100	100	100	100%
130	Claude Opus 4.7	$0.024	4.4s	100%	100	100	100	100	100	100	100	100%
44	GPT-5.4 Mini (Reasoning)	$0.0038	5.4s	100%	100	100	100	100	100	100	100	100%
121	Qwen 3.5 Plus (2026-04-20)	$0.0090	58.9s	100%	100	100	100	100	100	100	100	100%
105	Gemma 4 31B (Reasoning)	$0.0007	1.2m	100%	100	100	100	100	100	100	100	100%
111	Claude Opus 4.5	$0.017	5.3s	100%	100	100	100	100	100	100	100	100%
119	Z.AI GLM 5	$0.0082	57.8s	100%	100	100	100	100	100	100	100	100%
87	ByteDance Seed 1.6	$0.0033	37.9s	100%	100	100	100	100	100	100	100	100%
72	GPT-5.2	$0.0081	5.1s	100%	100	100	100	100	100	100	100	100%
113	GPT-5.5	$0.018	4.5s	100%	100	100	100	100	100	100	100	100%
71	Qwen 3.6 Flash	$0.0056	16.1s	100%	100	100	100	100	100	100	100	100%
80	DeepSeek V4 Pro (Reasoning)	$0.0015	41.9s	100%	100	100	100	100	100	100	100	100%
84	Gemma 4 26B (Reasoning)	$0.0012	47.6s	100%	100	100	100	100	100	100	100	100%
128	Aion 3.0	$0.015	46.0s	100%	100	100	100	100	100	100	100	100%
137	o4 Mini High	$0.022	36.3s	100%	100	100	100	100	100	100	100	100%
118	Gemini 2.5 Pro	$0.017	12.6s	100%	100	100	100	100	100	100	100	100%
123	Qwen 3.6 27B	$0.012	50.7s	100%	100	100	100	100	100	100	100	100%
82	GPT-5.6 Terra	$0.0091	6.1s	100%	100	100	100	100	100	100	100	100%
138	DeepSeek V4 Flash (Reasoning)	$0.0005	2.7m	100%	100	100	100	100	100	100	100	100%
90	Z.AI GLM 4.7	$0.0049	33.1s	100%	100	100	100	100	100	100	100	100%
77	Qwen 3.6 35B	$0.0045	25.2s	100%	100	100	100	100	100	100	100	100%
101	Z.AI GLM 4.6	$0.0045	47.8s	100%	100	100	100	100	100	100	100	100%
88	Claude Sonnet 4	$0.010	5.5s	100%	100	100	100	100	100	100	100	100%
86	Claude Sonnet 4.5	$0.010	4.8s	100%	100	100	100	100	100	100	100	100%
89	Claude Sonnet 5	$0.0095	9.2s	100%	100	100	100	100	100	100	100	100%
144	Claude Opus 4	$0.051	7.9s	100%	100	100	100	100	100	100	100	100%
104	Qwen 3.5 35B	$0.0095	27.8s	100%	100	100	100	100	100	100	100	100%
52	GPT-4.1	$0.0053	4.4s	100%	100	100	100	100	100	100	100	100%
93	MiniMax M2.5	$0.0031	42.3s	100%	100	100	100	100	100	100	100	100%
98	Aion 2.0	$0.0037	43.5s	100%	100	100	100	100	100	100	100	100%
116	o4 Mini	$0.015	23.3s	100%	100	100	100	100	100	100	100	100%
30	Qwen 3.5 Plus (2026-02-15)	$0.0015	7.1s	100%	100	100	100	100	100	100	100	100%
59	Xiaomi MIMO v2.5 Pro	$0.0040	16.8s	100%	100	100	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
51	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0055	2.5s	100%	100	100	100	100	100	100	100	100%
108	ByteDance Seed 2.0 Mini	$0.0013	1.3m	100%	100	100	100	100	100	100	100	100%
70	Qwen 3.5 Flash	$0.0021	32.1s	100%	100	100	100	100	100	100	100	100%
24	Gemini 3 Flash (Preview)	$0.0018	3.2s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.6s	100%	100	100	100	100	100	100	100	100%
35	Gemma 4 31B	$0.0003	15.9s	100%	100	100	100	100	100	100	100	100%
12	Gemini 3.1 Flash Lite	$0.0009	1.9s	100%	100	100	100	100	100	100	100	100%
40	GPT-5.6 Luna	$0.0036	2.3s	100%	100	100	100	100	100	100	100	100%
76	Z.AI GLM 4.5	$0.0030	31.6s	100%	100	100	100	100	100	100	100	100%
33	Gemma 4 26B	$0.0003	15.4s	100%	100	100	100	100	100	100	100	100%
99	GPT-OSS 120B	$0.0007	57.9s	100%	100	100	100	100	100	100	100	100%
79	GPT-5.4	$0.0091	5.3s	100%	100	100	100	100	100	100	100	100%
26	Mistral Large 3	$0.0011	7.4s	100%	100	100	100	100	100	100	100	100%
96	ByteDance Seed 2.0 Lite	$0.0037	40.4s	100%	100	100	100	100	100	100	100	100%
42	Gemini 2.5 Flash (Reasoning)	$0.0037	5.6s	100%	100	100	100	100	100	100	100	100%
41	DeepSeek-V2 Chat	$0.0008	16.9s	100%	100	100	100	100	100	100	100	100%
110	Qwen 3.5 9B	$0.0009	1.3m	100%	100	100	100	100	100	100	100	100%
50	Xiaomi MIMO v2.5	$0.0033	12.7s	100%	100	100	100	100	100	100	100	100%
109	Aion 3.0 Mini	$0.0040	1.1m	100%	100	100	100	100	100	100	100	100%
37	GPT-5.4 Mini (Reasoning, Low)	$0.0030	3.8s	100%	100	100	100	100	100	100	100	100%
39	Claude Haiku 4.5	$0.0034	3.0s	100%	100	100	100	100	100	100	100	100%
49	Gemini 2.5 Flash Lite (Reasoning)	$0.0010	23.4s	100%	100	100	100	100	100	100	100	100%
36	DeepSeek V3 (2024-12-26)	$0.0008	14.3s	100%	100	100	100	100	100	100	100	100%
61	DeepSeek V3.1	$0.0007	32.9s	100%	100	100	100	100	100	100	100	100%
55	DeepSeek V3.2	$0.0004	30.7s	100%	100	100	100	100	100	100	100	100%
58	GPT-4o, Aug. 6th (temp=0)	$0.0066	2.3s	100%	100	100	100	100	100	100	100	100%
32	DeepSeek V4 Pro	$0.0009	11.9s	100%	100	100	100	100	100	100	100	100%
18	DeepSeek V4 Flash	$0.0002	8.2s	100%	100	100	100	100	100	100	100	100%
19	Inception Mercury 2	$0.0017	2.3s	100%	100	100	100	100	100	100	100	100%
62	Nemotron 3 Super	$0.0000	37.7s	100%	100	100	100	100	100	100	100	100%
48	Mistral Large 2	$0.0043	7.5s	100%	100	100	100	100	100	100	100	100%
20	GPT-4.1 Mini	$0.0011	6.0s	100%	100	100	100	100	100	100	100	100%
57	GPT-4o, Aug. 6th (temp=1)	$0.0066	2.2s	100%	100	100	100	100	100	100	100	100%
27	Grok 4.20	$0.0020	4.0s	100%	100	100	100	100	100	100	100	100%
54	Hermes 3 405B	$0.0012	24.7s	100%	100	100	100	100	100	100	100	100%
56	Z.AI GLM 4.5 Air	$0.0015	26.3s	100%	100	100	100	100	100	100	100	100%
16	Gemini 2.5 Flash	$0.0014	2.0s	100%	100	100	100	100	100	100	100	100%
31	GPT-5.4 Mini	$0.0027	2.4s	100%	100	100	100	100	100	100	100	100%
95	GPT-5 Nano	$0.0021	47.8s	100%	100	100	100	100	100	100	100	100%
15	GPT-5.4 Nano (Reasoning)	$0.0009	4.3s	100%	100	100	100	100	100	100	100	100%
67	DeepSeek V3 (2025-03-24)	$0.0006	37.3s	100%	100	100	100	100	100	100	100	100%
3	Gemini 2.5 Flash Lite	$0.0003	1.5s	100%	100	100	100	100	100	100	100	100%
46	Qwen 3 32B	$0.0007	21.4s	100%	100	100	100	100	100	100	100	100%
47	Writer: Palmyra X5	$0.0035	11.0s	100%	100	100	100	100	100	100	100	100%
38	Qwen3 235B A22B Instruct 2507	$0.0004	16.9s	100%	100	100	100	100	100	100	100	100%
21	GPT-4o Mini (temp=1)	$0.0004	9.5s	100%	100	100	100	100	100	100	100	100%
13	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.8s	100%	100	100	100	100	100	100	100	100%
45	Llama 3.1 70B	$0.0005	22.0s	100%	100	100	100	100	100	100	100	100%
8	Mistral Small 3.2 24B	$0.0002	4.5s	100%	100	100	100	100	100	100	100	100%
25	GPT-4o Mini (temp=0)	$0.0004	10.1s	100%	100	100	100	100	100	100	100	100%
28	Mistral Medium 3.1	$0.0012	8.0s	100%	100	100	100	100	100	100	100	100%
17	Gemma 3 12B	$0.0001	8.5s	100%	100	100	100	100	100	100	100	100%
29	Gemma 3 27B	$0.0002	13.2s	100%	100	100	100	100	100	100	100	100%
6	Mistral Small 4	$0.0004	2.8s	100%	100	100	100	100	100	100	100	100%
22	Qwen 2.5 72B	$0.0003	10.4s	100%	100	100	100	100	100	100	100	100%
34	Cydonia 24B V4.1	$0.0004	14.9s	100%	100	100	100	100	100	100	100	100%
14	GPT-5.4 Nano	$0.0007	3.0s	100%	100	100	100	100	100	100	100	100%
63	WizardLM 2 8x22b	$0.0007	34.7s	100%	100	100	100	100	100	100	100	100%
23	ByteDance Seed 1.6 Flash	$0.0005	9.3s	100%	100	100	100	100	100	100	100	100%
7	Ministral 3 14B	$0.0002	3.8s	100%	100	100	100	100	100	100	100	100%
5	Ministral 3 8B	$0.0002	3.1s	100%	100	100	100	100	100	100	100	100%
73	Cohere Command R+ (Aug. 2024)	$0.0069	11.1s	100%	100	100	100	100	100	100	100	100%
11	Gemma 3 4B	$0.0001	5.8s	100%	100	100	100	100	100	100	100	100%
2	Ministral 3 3B	$0.0001	1.9s	100%	100	100	100	100	100	100	100	100%
4	Ministral 8B	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100%
1	Ministral 3B	$0.0000	1.9s	100%	100	100	100	100	100	100	100	100%
69	Mistral Small 4 (Reasoning)	$0.0019	16.6s	96%	100	100	100	100	100	96	96	99%
53	Grok 4.3	$0.0021	4.6s	96%	100	100	100	100	100	96	96	99%
65	Arcee AI: Trinity Mini	$0.0002	5.2s	92%	100	100	98	96	96	96	96	97%
125	Z.AI GLM 4.7 Flash	$0.0011	40.6s	82%	100	100	100	100	100	100	74	96%
142	MiniMax M2.7	$0.0085	1.7m	80%	100	100	100	100	100	100	71	96%
60	GPT-4.1 Nano	$0.0003	3.6s	96%	96	96	96	96	96	96	96	96%
66	Mistral NeMO	$0.0002	2.3s	94%	96	96	96	96	96	96	93	95%
145	Gemini 3.1 Pro (Preview)	$0.031	30.3s	72%	100	100	100	100	100	100	60	94%
141	Nemotron 3 Nano	$0.0018	1.8m	74%	100	100	100	100	100	98	63	94%
146	Hermes 3 70B	$0.0030	4.1m	4%	100	100	100	54	0	0	0	51%
99.44%