Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%

	Score	Cost	Time
Ministral 3B	99%	$0.0001	2.5s
Ministral 3 3B	100%	$0.0001	2.2s
Mistral NeMO	100%	$0.0002	3.6s
Gemini 2.5 Flash Lite	100%	$0.0003	1.9s
Ministral 3 8B	100%	$0.0002	3.9s
Ministral 8B	100%	$0.0001	3.8s
Ministral 3 14B	100%	$0.0003	4.6s
GPT-4.1 Nano	95%	$0.0003	3.9s
Mistral Small 4	100%	$0.0005	3.3s
Mistral Small 3.2 24B	86%	$0.0003	4.9s
Gemma 3 4B	100%	$0.0001	6.6s
DeepSeek V4 Flash	100%	$0.0002	9.5s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	1.9s
Gemini 3.1 Flash Lite	100%	$0.0011	1.9s
GPT-5.4 Nano	100%	$0.0009	3.3s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	2.0s
Qwen 2.5 72B	100%	$0.0003	11.4s
GPT-5.4 Nano (Reasoning, Low)	98%	$0.0009	13.4s
Gemini 2.5 Flash	100%	$0.0017	2.4s
Gemma 4 26B	100%	$0.0003	14.4s

	Score	Cost	Speed	Stability
Ministral 3 3B	100%	$0.0001	2.2s	100%
Gemini 2.5 Flash Lite	100%	$0.0003	1.9s	100%
Ministral 8B	100%	$0.0001	3.8s	100%
Mistral NeMO	100%	$0.0002	3.6s	100%
Ministral 3 8B	100%	$0.0002	3.9s	100%
Mistral Small 4	100%	$0.0005	3.3s	100%
Ministral 3 14B	100%	$0.0003	4.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0011	1.9s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	2.0s	100%
Gemma 3 4B	100%	$0.0001	6.6s	100%
GPT-5.4 Nano	100%	$0.0009	3.3s	100%
Gemini 2.5 Flash	100%	$0.0017	2.4s	100%
DeepSeek V4 Flash	100%	$0.0002	9.5s	100%
Qwen 2.5 72B	100%	$0.0003	11.4s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	1.9s	98%
Gemini 3 Flash (Preview)	100%	$0.0022	3.6s	100%
Grok 4.20	100%	$0.0024	5.0s	100%
Gemma 4 26B	100%	$0.0003	14.4s	100%
GPT-4.1 Mini	100%	$0.0012	7.8s	99%
Cydonia 24B V4.1	100%	$0.0005	14.1s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100GPT-4o Mini (temp=0) 100DeepSeek V4 Pro 100Mistral Large 3	56Hermes 3 70B 69Nemotron 3 Nano 86Mistral Small 3.2 24B
100.0%	Gender swap transformation accuracy	100DeepSeek V4 Pro (Reasoning) 100GPT-5.4 (Reasoning, Low) 100DeepSeek V4 Pro	46Hermes 3 70B 62Nemotron 3 Nano 85Gemini 2.5 Flash Lite (Reasoning)
100.0%	Mara pronouns preserved (coreference test)	100GPT-5.5 (Reasoning, Low) 100Grok 4.3 (Reasoning) 100DeepSeek V4 Flash	43Hermes 3 70B 58Gemma 3 12B 61Nemotron 3 Nano
100.0%	Setting and description preserved	100Gemini 3.1 Flash Lite (Reasoning) 100Z.AI GLM 5 Turbo 100Gemma 4 31B (Reasoning)	57Hermes 3 70B 71Nemotron 3 Nano 86Gemini 2.5 Flash Lite (Reasoning)

Text Replacement

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
107	GPT-5.6 Sol (Reasoning)	$0.026	10.0s	100%	100	100	100	100	100	100	100	100%
142	Claude Opus 4.6 (Reasoning)	$0.064	26.3s	100%	100	100	100	100	100	100	100	100%
133	Qwen3.7 Max	$0.035	58.9s	100%	100	100	100	100	100	100	100	100%
93	Grok 4.5 (Reasoning, High)	$0.016	22.6s	100%	100	100	100	100	100	100	100	100%
136	Gemini 3.1 Pro (Preview)	$0.044	41.3s	100%	100	100	100	100	100	100	100	100%
112	GPT-5.4 (Reasoning)	$0.025	20.5s	100%	100	100	100	100	100	100	100	100%
138	Qwen3.6 Max Preview	$0.036	1.8m	100%	100	100	100	100	100	100	100	100%
130	GPT-5.5 (Reasoning)	$0.037	12.3s	100%	100	100	100	100	100	100	100	100%
143	Claude Sonnet 4.6 (Reasoning)	$0.063	34.1s	100%	100	100	100	100	100	100	100	100%
82	Z.AI GLM 5.2 (Reasoning, High)	$0.011	29.6s	100%	100	100	100	100	100	100	100	100%
123	Gemini 3.5 Flash (Reasoning)	$0.033	13.6s	100%	100	100	100	100	100	100	100	100%
74	Z.AI GLM 5 Turbo	$0.010	20.7s	100%	100	100	100	100	100	100	100	100%
137	Claude Opus 4.7 (Reasoning)	$0.058	11.7s	100%	100	100	100	100	100	100	100	100%
114	GPT-5.5 (Reasoning, Low)	$0.029	7.7s	100%	100	100	100	100	100	100	100	100%
58	GPT-5.6 Terra (Reasoning)	$0.011	3.3s	100%	100	100	100	100	100	100	100	100%
131	Claude Opus 4.8 (Reasoning)	$0.038	11.4s	100%	100	100	100	100	100	100	100	100%
97	Claude Opus 4.6	$0.021	6.5s	100%	100	100	100	100	100	100	100	100%
117	Claude Opus 4.8 (Reasoning, Low)	$0.029	9.0s	100%	100	100	100	100	100	100	100	100%
134	GPT-5	$0.037	56.3s	100%	100	100	100	100	100	100	100	100%
113	Qwen 3.5 397B A17B	$0.0050	1.8m	100%	100	100	100	100	100	100	100	100%
67	Grok 4.3 (Reasoning)	$0.0078	27.3s	100%	100	100	100	100	100	100	100	100%
84	Grok 4.5 (Reasoning, Low)	$0.010	33.5s	100%	100	100	100	100	100	100	100	100%
61	GPT-5.4 (Reasoning, Low)	$0.012	6.8s	100%	100	100	100	100	100	100	100	100%
54	Grok 4.20 (Reasoning)	$0.0059	18.4s	100%	100	100	100	100	100	100	100	100%
101	GPT-5.1	$0.021	19.3s	100%	100	100	100	100	100	100	100	100%
65	Claude Sonnet 4.6	$0.013	5.1s	100%	100	100	100	100	100	100	100	100%
35	GPT-5.6 Luna (Reasoning)	$0.0060	4.9s	100%	100	100	100	100	100	100	100	100%
85	MiniMax M3	$0.0037	1.1m	100%	100	100	100	100	100	100	100	100%
77	Claude Sonnet 5 (Reasoning)	$0.015	11.3s	100%	100	100	100	100	100	100	100	100%
111	Qwen 3.5 122B	$0.019	44.7s	100%	100	100	100	100	100	100	100	100%
80	Claude Sonnet 5 (Reasoning, Low)	$0.015	11.6s	100%	100	100	100	100	100	100	100	100%
116	Qwen 3.5 Plus (2026-04-20)	$0.013	1.3m	100%	100	100	100	100	100	100	100	100%
90	Gemma 4 31B (Reasoning)	$0.0013	1.4m	100%	100	100	100	100	100	100	100	100%
96	Claude Opus 4.5	$0.021	5.8s	100%	100	100	100	100	100	100	100	100%
104	Z.AI GLM 5	$0.010	1.2m	100%	100	100	100	100	100	100	100	100%
63	ByteDance Seed 1.6	$0.0039	41.3s	100%	100	100	100	100	100	100	100	100%
95	GPT-5.5	$0.021	5.4s	100%	100	100	100	100	100	100	100	100%
128	DeepSeek V4 Pro (Reasoning)	$0.0097	2.1m	100%	100	100	100	100	100	100	100	100%
127	Gemma 4 26B (Reasoning)	$0.0016	2.7m	100%	100	100	100	100	100	100	100	100%
121	Aion 3.0	$0.019	1.0m	100%	100	100	100	100	100	100	100	100%
119	Gemini 2.5 Pro	$0.027	19.9s	100%	100	100	100	100	100	100	100	100%
109	Qwen 3.6 27B	$0.015	1.0m	100%	100	100	100	100	100	100	100	100%
56	GPT-5.6 Terra	$0.011	3.1s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V4 Flash (Reasoning)	$0.0006	39.3s	100%	100	100	100	100	100	100	100	100%
99	Z.AI GLM 4.7	$0.0062	1.3m	100%	100	100	100	100	100	100	100	100%
71	Claude Sonnet 4	$0.013	6.5s	100%	100	100	100	100	100	100	100	100%
66	Claude Sonnet 4.5	$0.013	5.3s	100%	100	100	100	100	100	100	100	100%
64	Claude Sonnet 5	$0.012	9.3s	100%	100	100	100	100	100	100	100	100%
140	Claude Opus 4	$0.064	8.8s	100%	100	100	100	100	100	100	100	100%
38	GPT-4.1	$0.0062	4.9s	100%	100	100	100	100	100	100	100	100%
69	Aion 2.0	$0.0036	45.8s	100%	100	100	100	100	100	100	100	100%
32	Xiaomi MIMO v2.5 Pro	$0.0032	14.6s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	2.0s	100%	100	100	100	100	100	100	100	100%
36	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0065	3.0s	100%	100	100	100	100	100	100	100	100%
79	Qwen 3.5 Flash	$0.0029	1.1m	100%	100	100	100	100	100	100	100	100%
16	Gemini 3 Flash (Preview)	$0.0022	3.6s	100%	100	100	100	100	100	100	100	100%
43	Gemma 4 31B	$0.0004	35.2s	100%	100	100	100	100	100	100	100	100%
8	Gemini 3.1 Flash Lite	$0.0011	1.9s	100%	100	100	100	100	100	100	100	100%
24	GPT-5.6 Luna	$0.0043	2.4s	100%	100	100	100	100	100	100	100	100%
59	Z.AI GLM 4.5	$0.0044	34.4s	100%	100	100	100	100	100	100	100	100%
18	Gemma 4 26B	$0.0003	14.4s	100%	100	100	100	100	100	100	100	100%
86	ByteDance Seed 2.0 Lite	$0.0050	57.6s	100%	100	100	100	100	100	100	100	100%
45	Gemini 2.5 Flash (Reasoning)	$0.0064	9.2s	100%	100	100	100	100	100	100	100	100%
27	DeepSeek-V2 Chat	$0.0009	19.1s	100%	100	100	100	100	100	100	100	100%
33	Xiaomi MIMO v2.5	$0.0035	13.5s	100%	100	100	100	100	100	100	100	100%
81	Aion 3.0 Mini	$0.0040	1.0m	100%	100	100	100	100	100	100	100	100%
25	Claude Haiku 4.5	$0.0043	3.4s	100%	100	100	100	100	100	100	100	100%
28	DeepSeek V3 (2024-12-26)	$0.0009	20.0s	100%	100	100	100	100	100	100	100	100%
52	DeepSeek V3.2	$0.0008	39.0s	100%	100	100	100	100	100	100	100	100%
42	GPT-4o, Aug. 6th (temp=0)	$0.0078	3.0s	100%	100	100	100	100	100	100	100	100%
30	DeepSeek V4 Pro	$0.0017	18.4s	100%	100	100	100	100	100	100	100	100%
13	DeepSeek V4 Flash	$0.0002	9.5s	100%	100	100	100	100	100	100	100	100%
44	GPT-4o, Aug. 6th (temp=1)	$0.0078	3.0s	100%	100	100	100	100	100	100	100	100%
17	Grok 4.20	$0.0024	5.0s	100%	100	100	100	100	100	100	100	100%
34	Hermes 3 405B	$0.0014	24.6s	100%	100	100	100	100	100	100	100	100%
12	Gemini 2.5 Flash	$0.0017	2.4s	100%	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0003	1.9s	100%	100	100	100	100	100	100	100	100%
40	Qwen 3 32B	$0.0006	32.3s	100%	100	100	100	100	100	100	100	100%
37	Writer: Palmyra X5	$0.0041	13.7s	100%	100	100	100	100	100	100	100	100%
29	Qwen3 235B A22B Instruct 2507	$0.0006	22.6s	100%	100	100	100	100	100	100	100	100%
21	Grok 4.3	$0.0025	6.0s	100%	100	100	100	100	100	100	100	100%
48	Llama 3.1 70B	$0.0006	38.2s	100%	100	100	100	100	100	100	100	100%
22	Gemma 3 27B	$0.0003	18.4s	100%	100	100	100	100	100	100	100	100%
6	Mistral Small 4	$0.0005	3.3s	100%	100	100	100	100	100	100	100	100%
14	Qwen 2.5 72B	$0.0003	11.4s	100%	100	100	100	100	100	100	100	100%
20	Cydonia 24B V4.1	$0.0005	14.1s	100%	100	100	100	100	100	100	100	100%
49	WizardLM 2 8x22b	$0.0009	37.3s	100%	100	100	100	100	100	100	100	100%
7	Ministral 3 14B	$0.0003	4.6s	100%	100	100	100	100	100	100	100	100%
5	Ministral 3 8B	$0.0002	3.9s	100%	100	100	100	100	100	100	100	100%
10	Gemma 3 4B	$0.0001	6.6s	100%	100	100	100	100	100	100	100	100%
1	Ministral 3 3B	$0.0001	2.2s	100%	100	100	100	100	100	100	100	100%
4	Mistral NeMO	$0.0002	3.6s	100%	100	100	100	100	100	100	100	100%
3	Ministral 8B	$0.0001	3.8s	100%	100	100	100	100	100	100	100	100%
132	MoonshotAI: Kimi K2.6	$0.017	1.7m	100%	100	100	100	100	100	100	99	100%
125	MoonshotAI: Kimi K2.5	$0.0095	2.0m	100%	100	100	100	100	100	100	99	100%
94	Qwen 3.5 27B	$0.011	45.9s	100%	100	100	100	100	100	100	99	100%
115	Claude Opus 4.7	$0.029	5.1s	100%	100	100	100	100	100	100	99	100%
68	Qwen 3.6 35B	$0.0058	34.3s	100%	100	100	100	100	100	100	99	100%
105	Qwen 3.5 35B	$0.015	51.7s	100%	100	100	100	100	100	100	99	100%
98	o4 Mini	$0.017	25.0s	100%	100	100	100	100	100	100	99	100%
122	ByteDance Seed 2.0 Mini	$0.0022	2.2m	100%	100	100	100	100	100	100	99	100%
60	GPT-5.4	$0.011	6.2s	100%	100	100	100	100	100	100	99	100%
11	GPT-5.4 Nano	$0.0009	3.3s	100%	100	100	100	100	100	100	99	100%
129	Z.AI GLM 5.1	$0.016	1.6m	99%	100	100	100	100	100	100	99	100%
124	o4 Mini High	$0.028	40.6s	99%	100	100	100	100	100	99	99	100%
19	GPT-4.1 Mini	$0.0012	7.8s	99%	100	100	100	100	100	99	99	100%
70	Cohere Command R+ (Aug. 2024)	$0.0081	23.6s	99%	100	100	100	100	100	99	99	100%
39	Mistral Large 2	$0.0051	8.5s	99%	100	100	100	100	99	99	99	100%
15	Gemini 3.1 Flash Lite (Preview)	$0.0011	1.9s	98%	100	100	100	100	100	100	98	100%
76	GPT-5 Mini	$0.0067	37.7s	98%	100	100	100	100	100	100	98	100%
75	Gemini 3 Flash (Preview, Reasoning)	$0.010	16.3s	98%	100	100	100	100	100	100	98	100%
126	MiniMax M2.7	$0.010	1.9m	99%	100	100	100	99	99	99	99	100%
78	Qwen 3.6 Flash	$0.0088	26.1s	97%	100	100	100	100	100	100	96	99%
57	GPT-5.4 Mini (Reasoning)	$0.0081	6.6s	98%	100	100	100	100	99	99	98	99%
110	Z.AI GLM 4.6	$0.0048	1.5m	97%	100	100	100	100	100	100	95	99%
41	Mistral Small 4 (Reasoning)	$0.0022	18.3s	98%	100	100	99	99	99	99	99	99%
23	Mistral Large 3	$0.0013	8.3s	99%	99	99	99	99	99	99	99	99%
83	Nemotron 3 Super	$0.0000	1.1m	98%	100	100	99	99	99	99	98	99%
55	DeepSeek V3 (2025-03-24)	$0.0006	31.8s	97%	100	100	100	100	100	100	95	99%
118	MiniMax M2.5	$0.0016	2.0m	99%	99	99	99	99	99	99	99	99%
26	Ministral 3B	$0.0001	2.5s	95%	100	100	100	100	100	100	93	99%
31	Mistral Medium 3.1	$0.0015	6.1s	97%	100	100	100	100	97	97	97	99%
50	ByteDance Seed 1.6 Flash	$0.0007	12.5s	94%	100	100	100	100	100	100	91	99%
53	Qwen 3.5 Plus (2026-02-15)	$0.0018	7.9s	93%	100	100	100	100	100	100	90	99%
46	GPT-5.4 Nano (Reasoning, Low)	$0.0009	13.4s	96%	100	100	99	99	99	95	95	98%
87	GPT-5.2	$0.0099	7.1s	94%	100	100	100	97	97	97	95	98%
47	GPT-5.4 Nano (Reasoning)	$0.0010	3.7s	95%	99	99	98	98	95	95	95	97%
106	GPT-5 Nano	$0.0031	1.1m	91%	100	99	99	95	95	95	95	97%
73	GPT-5.4 Mini (Reasoning, Low)	$0.0036	2.9s	91%	100	100	95	95	95	94	94	96%
120	GPT-5.6 Sol	$0.021	4.1s	92%	100	95	95	95	95	95	95	96%
102	Z.AI GLM 4.5 Air	$0.0022	45.6s	88%	100	99	99	95	94	92	92	96%
103	Z.AI GLM 4.7 Flash	$0.0015	59.8s	91%	98	97	97	95	95	95	92	95%
62	Inception Mercury 2	$0.0023	3.2s	94%	95	95	95	95	95	95	95	95%
72	GPT-5.4 Mini	$0.0032	2.3s	94%	95	95	95	95	95	95	93	95%
89	GPT-4.1 Nano	$0.0003	3.9s	82%	100	100	100	100	95	95	74	95%
100	GPT-OSS 120B	$0.0016	52.1s	95%	95	95	95	95	95	95	95	95%
139	Qwen 3.5 9B	$0.0014	1.8m	63%	100	100	100	100	99	99	47	92%
135	DeepSeek V3.1	$0.0006	1.0m	62%	100	100	100	100	100	96	45	92%
91	GPT-4o Mini (temp=1)	$0.0005	10.2s	91%	91	91	91	91	91	91	91	91%
92	GPT-4o Mini (temp=0)	$0.0005	10.8s	91%	91	91	91	91	91	91	91	91%
88	Arcee AI: Trinity Mini	$0.0002	6.8s	91%	91	91	91	91	91	91	91	91%
108	Gemma 3 12B	$0.0001	10.5s	81%	100	89	89	89	89	86	86	90%
141	Mistral Small 3.2 24B	$0.0003	4.9s	30%	100	100	100	100	100	100	0	86%
144	Gemini 2.5 Flash Lite (Reasoning)	$0.0019	11.9s	32%	100	100	99	99	93	86	0	83%
146	Nemotron 3 Nano	$0.0026	4.7m	30%	99	97	90	70	39	39	27	66%
145	Hermes 3 70B	$0.0005	19.7s	4%	100	100	100	52	0	0	0	50%
98.43%