POV shift: 3rd person to 1st person (Elena's perspective)

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.8 (Reasoning)	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Grok 4.3 (Reasoning)	100%
Grok 4.5 (Reasoning, Low)	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	100%	$0.0003	1.7s
GPT-4.1 Nano	98%	$0.0003	3.5s
Mistral Small 3.2 24B	100%	$0.0002	4.2s
Gemma 3 12B	100%	$0.0001	7.7s
DeepSeek V4 Flash	100%	$0.0002	6.8s
Inception Mercury 2	100%	$0.0007	1.0s
Mistral Small 4	87%	$0.0004	3.3s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.9s
GPT-5.4 Nano	100%	$0.0007	3.4s
Qwen 2.5 72B	100%	$0.0003	10.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.2s
GPT-4o Mini (temp=1)	100%	$0.0004	9.2s
Gemma 4 26B	100%	$0.0003	14.2s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s
GPT-4o Mini (temp=0)	100%	$0.0004	9.0s
Gemini 3.1 Flash Lite	100%	$0.0009	1.7s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	3.3s
Cydonia 24B V4.1	99%	$0.0004	10.7s
Ministral 3 14B	99%	$0.0002	3.7s
Gemma 3 27B	100%	$0.0002	16.4s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0003	1.7s	100%
Inception Mercury 2	100%	$0.0007	1.0s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	1.7s	100%
Mistral Small 3.2 24B	100%	$0.0002	4.2s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.2s	100%
Gemini 2.5 Flash	100%	$0.0014	2.1s	100%
DeepSeek V4 Flash	100%	$0.0002	6.8s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0007	2.9s	99%
GPT-5.4 Nano	100%	$0.0007	3.4s	99%
Gemma 3 12B	100%	$0.0001	7.7s	100%
Gemini 3 Flash (Preview)	100%	$0.0018	3.2s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	3.3s	99%
GPT-4o Mini (temp=0)	100%	$0.0004	9.0s	100%
Mistral Large 3	100%	$0.0010	7.3s	100%
GPT-4o Mini (temp=1)	100%	$0.0004	9.2s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0014	6.5s	100%
Ministral 3 14B	99%	$0.0002	3.7s	99%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0028	3.1s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0030	2.5s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue and other-character pronouns preserved	100GPT-5.4 (Reasoning) 100Z.AI GLM 5.1 100GPT-5.5	35Cohere Command R+ (Aug. 2024) 52Ministral 3 8B 53Ministral 8B
100.0%	No remaining protagonist name in narration	100MoonshotAI: Kimi K2.6 100Claude Sonnet 5 (Reasoning, Low) 100GPT-4o Mini (temp=1)	86WizardLM 2 8x22b 86Aion 3.0 Mini
100.0%	POV transformation accuracy	100Aion 3.0 100GPT-5.4 (Reasoning) 100Qwen 3.5 397B A17B	22Cohere Command R+ (Aug. 2024) 27Ministral 3B 31Ministral 3 3B

Text Replacement

POV shift: 3rd person to 1st person (Elena's perspective)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
130	Qwen3.7 Max	$0.026	44.2s	100%	100	100	100	100	100	100	100	100%
83	Grok 4.5 (Reasoning, High)	$0.011	14.9s	100%	100	100	100	100	100	100	100	100%
132	Gemini 3.1 Pro (Preview)	$0.033	29.6s	100%	100	100	100	100	100	100	100	100%
64	GPT-5.4 (Reasoning)	$0.0093	6.7s	100%	100	100	100	100	100	100	100	100%
84	Z.AI GLM 5.1	$0.0055	29.6s	100%	100	100	100	100	100	100	100	100%
140	Qwen3.6 Max Preview	$0.027	1.6m	100%	100	100	100	100	100	100	100	100%
100	GPT-5.5 (Reasoning)	$0.020	6.5s	100%	100	100	100	100	100	100	100	100%
28	Z.AI GLM 5.2 (Reasoning, High)	$0.0028	8.1s	100%	100	100	100	100	100	100	100	100%
103	Gemini 3.5 Flash (Reasoning)	$0.020	8.3s	100%	100	100	100	100	100	100	100	100%
34	Z.AI GLM 5 Turbo	$0.0034	9.0s	100%	100	100	100	100	100	100	100	100%
131	MoonshotAI: Kimi K2.6	$0.0096	1.5m	100%	100	100	100	100	100	100	100	100%
105	Claude Opus 4.7 (Reasoning)	$0.022	3.9s	100%	100	100	100	100	100	100	100	100%
91	GPT-5.5 (Reasoning, Low)	$0.017	4.7s	100%	100	100	100	100	100	100	100	100%
55	GPT-5.6 Terra (Reasoning)	$0.0087	5.2s	100%	100	100	100	100	100	100	100	100%
110	Claude Opus 4.8 (Reasoning)	$0.023	7.5s	100%	100	100	100	100	100	100	100	100%
108	Claude Opus 4.8 (Reasoning, Low)	$0.022	6.7s	100%	100	100	100	100	100	100	100	100%
112	GPT-5	$0.018	24.5s	100%	100	100	100	100	100	100	100	100%
129	Qwen 3.5 397B A17B	$0.0090	1.4m	100%	100	100	100	100	100	100	100	100%
76	Grok 4.3 (Reasoning)	$0.0056	25.2s	100%	100	100	100	100	100	100	100	100%
88	Grok 4.5 (Reasoning, Low)	$0.0083	27.7s	100%	100	100	100	100	100	100	100	100%
57	GPT-5.4 (Reasoning, Low)	$0.0090	5.0s	100%	100	100	100	100	100	100	100	100%
56	Grok 4.20 (Reasoning)	$0.0051	15.5s	100%	100	100	100	100	100	100	100	100%
124	MoonshotAI: Kimi K2.5	$0.0076	1.1m	100%	100	100	100	100	100	100	100	100%
50	GPT-5.1	$0.0072	7.8s	100%	100	100	100	100	100	100	100	100%
61	Claude Sonnet 4.6	$0.0099	4.4s	100%	100	100	100	100	100	100	100	100%
25	GPT-5.6 Luna (Reasoning)	$0.0039	3.1s	100%	100	100	100	100	100	100	100	100%
52	MiniMax M3	$0.0015	24.6s	100%	100	100	100	100	100	100	100	100%
68	Claude Sonnet 5 (Reasoning)	$0.0095	8.2s	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 122B	$0.016	36.0s	100%	100	100	100	100	100	100	100	100%
114	Qwen 3.5 27B	$0.011	45.1s	100%	100	100	100	100	100	100	100	100%
46	Gemini 3 Flash (Preview, Reasoning)	$0.0060	9.5s	100%	100	100	100	100	100	100	100	100%
106	Claude Opus 4.7	$0.022	4.2s	100%	100	100	100	100	100	100	100	100%
20	GPT-5.4 Mini (Reasoning)	$0.0030	2.5s	100%	100	100	100	100	100	100	100	100%
118	Qwen 3.5 Plus (2026-04-20)	$0.0088	56.8s	100%	100	100	100	100	100	100	100	100%
122	Gemma 4 31B (Reasoning)	$0.0009	1.4m	100%	100	100	100	100	100	100	100	100%
86	Z.AI GLM 5	$0.0044	34.8s	100%	100	100	100	100	100	100	100	100%
70	ByteDance Seed 1.6	$0.0030	31.3s	100%	100	100	100	100	100	100	100	100%
47	GPT-5.2	$0.0078	5.0s	100%	100	100	100	100	100	100	100	100%
93	GPT-5.5	$0.017	4.9s	100%	100	100	100	100	100	100	100	100%
137	DeepSeek V4 Pro (Reasoning)	$0.0047	2.3m	100%	100	100	100	100	100	100	100	100%
113	Gemma 4 26B (Reasoning)	$0.0008	1.2m	100%	100	100	100	100	100	100	100	100%
85	Aion 3.0	$0.0083	23.9s	100%	100	100	100	100	100	100	100	100%
115	Gemini 2.5 Pro	$0.022	16.7s	100%	100	100	100	100	100	100	100	100%
49	GPT-5.6 Terra	$0.0087	2.9s	100%	100	100	100	100	100	100	100	100%
29	DeepSeek V4 Flash (Reasoning)	$0.0003	15.7s	100%	100	100	100	100	100	100	100	100%
102	Z.AI GLM 4.7	$0.0063	46.5s	100%	100	100	100	100	100	100	100	100%
75	Qwen 3.6 35B	$0.0047	27.8s	100%	100	100	100	100	100	100	100	100%
96	Z.AI GLM 4.6	$0.0047	44.6s	100%	100	100	100	100	100	100	100	100%
66	Claude Sonnet 4	$0.0099	5.4s	100%	100	100	100	100	100	100	100	100%
62	Claude Sonnet 4.5	$0.0099	4.5s	100%	100	100	100	100	100	100	100	100%
65	Claude Sonnet 5	$0.0090	7.9s	100%	100	100	100	100	100	100	100	100%
136	Claude Opus 4	$0.049	7.3s	100%	100	100	100	100	100	100	100	100%
94	Qwen 3.5 35B	$0.0092	29.6s	100%	100	100	100	100	100	100	100	100%
35	GPT-4.1	$0.0050	4.5s	100%	100	100	100	100	100	100	100	100%
43	MiniMax M2.7	$0.0016	18.5s	100%	100	100	100	100	100	100	100	100%
17	Qwen 3.5 Plus (2026-02-15)	$0.0014	6.5s	100%	100	100	100	100	100	100	100	100%
41	Xiaomi MIMO v2.5 Pro	$0.0029	13.5s	100%	100	100	100	100	100	100	100	100%
31	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0053	2.6s	100%	100	100	100	100	100	100	100	100%
74	Qwen 3.5 Flash	$0.0022	34.4s	100%	100	100	100	100	100	100	100	100%
12	Gemini 3 Flash (Preview)	$0.0018	3.2s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
77	Gemma 4 31B	$0.0003	40.8s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100%
22	GPT-5.6 Luna	$0.0035	2.0s	100%	100	100	100	100	100	100	100	100%
26	Gemma 4 26B	$0.0003	14.2s	100%	100	100	100	100	100	100	100	100%
54	GPT-5.4	$0.0087	5.1s	100%	100	100	100	100	100	100	100	100%
15	Mistral Large 3	$0.0010	7.3s	100%	100	100	100	100	100	100	100	100%
73	ByteDance Seed 2.0 Lite	$0.0030	32.1s	100%	100	100	100	100	100	100	100	100%
40	Gemini 2.5 Flash (Reasoning)	$0.0047	7.2s	100%	100	100	100	100	100	100	100	100%
123	Qwen 3.5 9B	$0.0010	1.4m	100%	100	100	100	100	100	100	100	100%
19	GPT-5.4 Mini (Reasoning, Low)	$0.0028	3.1s	100%	100	100	100	100	100	100	100	100%
24	Claude Haiku 4.5	$0.0033	2.9s	100%	100	100	100	100	100	100	100	100%
45	DeepSeek V3.1	$0.0006	21.6s	100%	100	100	100	100	100	100	100	100%
81	DeepSeek V3.2	$0.0004	42.8s	100%	100	100	100	100	100	100	100	100%
39	DeepSeek V4 Pro	$0.0009	17.8s	100%	100	100	100	100	100	100	100	100%
8	DeepSeek V4 Flash	$0.0002	6.8s	100%	100	100	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0007	1.0s	100%	100	100	100	100	100	100	100	100%
33	Mistral Large 2	$0.0041	6.9s	100%	100	100	100	100	100	100	100	100%
7	Gemini 2.5 Flash	$0.0014	2.1s	100%	100	100	100	100	100	100	100	100%
6	GPT-5.4 Nano (Reasoning)	$0.0008	3.2s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.7s	100%	100	100	100	100	100	100	100	100%
16	GPT-4o Mini (temp=1)	$0.0004	9.2s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small 3.2 24B	$0.0002	4.2s	100%	100	100	100	100	100	100	100	100%
14	GPT-4o Mini (temp=0)	$0.0004	9.0s	100%	100	100	100	100	100	100	100	100%
11	Gemma 3 12B	$0.0001	7.7s	100%	100	100	100	100	100	100	100	100%
30	Gemma 3 27B	$0.0002	16.4s	100%	100	100	100	100	100	100	100	100%
21	Qwen 2.5 72B	$0.0003	10.7s	100%	100	100	100	100	100	100	100	100%
101	GPT-5.6 Sol (Reasoning)	$0.019	7.1s	99%	100	100	100	100	100	100	99	100%
78	Claude Sonnet 4.6 (Reasoning)	$0.012	5.8s	99%	100	100	100	100	100	100	99	100%
60	GPT-5 Mini	$0.0032	20.5s	99%	100	100	100	100	100	100	99	100%
69	Claude Sonnet 5 (Reasoning, Low)	$0.0093	8.7s	99%	100	100	100	100	100	100	99	100%
71	Qwen 3.6 Flash	$0.0065	19.3s	99%	100	100	100	100	100	100	99	100%
13	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	3.3s	99%	100	100	100	100	100	100	99	100%
48	Z.AI GLM 4.5	$0.0023	18.3s	99%	100	100	100	100	100	100	99	100%
79	GPT-OSS 120B	$0.0003	39.0s	99%	100	100	100	100	100	100	99	100%
27	Gemini 2.5 Flash Lite (Reasoning)	$0.0013	9.2s	99%	100	100	100	100	100	100	99	100%
36	DeepSeek V3 (2024-12-26)	$0.0007	14.5s	99%	100	100	100	100	100	100	99	100%
23	GPT-5.4 Mini	$0.0026	2.2s	99%	100	100	100	100	100	100	99	100%
9	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.9s	99%	100	100	100	100	100	100	99	100%
10	GPT-5.4 Nano	$0.0007	3.4s	99%	100	100	100	100	100	100	99	100%
104	Z.AI GLM 4.7 Flash	$0.0010	57.6s	98%	100	100	100	100	100	100	97	100%
59	Nemotron 3 Super	$0.0000	28.0s	99%	100	100	100	100	100	99	99	100%
119	o4 Mini High	$0.017	28.6s	98%	100	100	100	100	100	99	97	99%
111	Aion 2.0	$0.0035	53.9s	97%	100	100	100	100	100	100	96	99%
87	GPT-5 Nano	$0.0015	36.4s	97%	100	100	100	100	100	99	96	99%
90	MiniMax M2.5	$0.0018	42.6s	98%	100	100	100	100	98	98	98	99%
37	Grok 4.20	$0.0019	4.1s	96%	100	100	100	100	100	100	94	99%
99	GPT-5.6 Sol	$0.018	4.4s	97%	100	100	99	99	99	99	99	99%
126	ByteDance Seed 2.0 Mini	$0.0013	1.3m	95%	100	100	100	100	100	100	92	99%
89	o4 Mini	$0.0086	16.7s	96%	100	100	100	99	99	97	97	99%
51	DeepSeek-V2 Chat	$0.0007	15.6s	96%	100	100	100	99	99	97	97	99%
38	GPT-4.1 Mini	$0.0010	6.3s	96%	100	100	100	100	100	97	95	99%
42	Cydonia 24B V4.1	$0.0004	10.7s	96%	100	100	100	100	100	97	95	99%
120	Qwen 3.6 27B	$0.011	43.6s	97%	100	100	100	100	98	98	95	99%
44	ByteDance Seed 1.6 Flash	$0.0005	9.5s	96%	100	100	100	99	99	97	96	99%
98	Claude Opus 4.6 (Reasoning)	$0.017	6.3s	99%	99	99	99	99	99	99	99	99%
97	Claude Opus 4.6	$0.016	5.5s	99%	99	99	99	99	99	99	99	99%
95	Claude Opus 4.5	$0.016	5.0s	99%	99	99	99	99	99	99	99	99%
18	Ministral 3 14B	$0.0002	3.7s	99%	99	99	99	99	99	99	99	99%
82	Qwen 3 32B	$0.0006	21.1s	92%	100	100	100	100	100	100	88	98%
32	GPT-4.1 Nano	$0.0003	3.5s	96%	100	100	100	100	97	96	95	98%
58	Nemotron 3 Nano	$0.0002	14.4s	95%	100	100	100	99	97	97	94	98%
72	Hermes 3 70B	$0.0003	15.4s	91%	100	100	100	100	99	99	87	98%
80	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.4s	93%	100	96	96	96	96	96	96	97%
53	Arcee AI: Trinity Mini	$0.0002	6.7s	95%	97	97	97	96	95	95	95	96%
92	GPT-4o, Aug. 6th (temp=1)	$0.0063	2.5s	89%	100	100	100	97	96	90	89	96%
109	Llama 3.1 70B	$0.0005	37.7s	90%	100	99	99	97	95	91	91	96%
121	Hermes 3 405B	$0.0011	23.4s	77%	100	100	100	100	100	100	68	95%
63	Gemma 3 4B	$0.0001	5.9s	93%	97	97	95	95	95	95	93	95%
67	Mistral Medium 3.1	$0.0012	4.3s	94%	96	96	95	95	95	95	95	95%
116	Xiaomi MIMO v2.5	$0.0026	11.0s	77%	100	100	100	100	100	99	66	95%
125	Z.AI GLM 4.5 Air	$0.0018	39.7s	84%	100	100	100	100	100	82	82	95%
107	Grok 4.3	$0.0019	4.0s	78%	100	100	100	100	100	91	69	94%
127	DeepSeek V3 (2025-03-24)	$0.0006	32.3s	75%	100	100	100	97	96	96	66	94%
128	Mistral Small 4 (Reasoning)	$0.0012	10.4s	71%	100	100	100	99	85	68	68	89%
133	Mistral Small 4	$0.0004	3.3s	58%	100	100	100	100	94	73	40	87%
135	Qwen3 235B A22B Instruct 2507	$0.0003	16.6s	62%	99	99	99	79	78	76	74	86%
144	Aion 3.0 Mini	$0.0030	46.1s	30%	100	100	100	100	100	100	0	86%
134	Writer: Palmyra X5	$0.0032	10.7s	71%	90	88	85	81	77	77	73	81%
145	WizardLM 2 8x22b	$0.0008	48.7s	31%	100	100	100	100	68	66	0	76%
138	Ministral 3 3B	$0.0001	1.8s	62%	77	77	75	74	60	60	58	69%
139	Ministral 3 8B	$0.0002	3.6s	63%	71	69	66	66	65	65	64	67%
143	Ministral 3B	$0.0000	1.9s	43%	94	79	61	60	60	56	52	66%
141	Ministral 8B	$0.0001	3.2s	61%	71	69	68	66	65	61	60	66%
142	Mistral NeMO	$0.0002	3.9s	45%	85	81	81	68	63	44	41	66%
146	Cohere Command R+ (Aug. 2024)	$0.0064	11.6s	31%	95	52	49	49	43	40	37	52%
97.33%