Combined: 3rd person past → 1st person present

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Opus 4.6	100%
GPT-5 Mini	100%
GPT-5.6 Sol	100%
Claude Opus 4.5	100%
GPT-5.6 Terra	100%
Claude Opus 4	100%
GPT-4.1	100%
Gemma 4 31B	100%
GPT-4o, Aug. 6th (temp=0)	100%
Gemini 2.5 Flash	100%
Qwen3.7 Max	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Z.AI GLM 4.6	100%
Claude Sonnet 4	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	99%	$0.0003	1.6s
Gemini 2.5 Flash	100%	$0.0015	2.0s
Gemma 4 26B	100%	$0.0002	13.3s
Gemini 3.1 Flash Lite (Preview)	99%	$0.0009	1.8s
Gemini 3.1 Flash Lite	99%	$0.0009	1.8s
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	8.0s
Qwen3 235B A22B Instruct 2507	99%	$0.0003	8.6s
Mistral NeMO	98%	$0.0002	2.6s
Ministral 8B	97%	$0.0001	2.9s
Ministral 3 8B	99%	$0.0002	3.1s
Ministral 3 14B	99%	$0.0003	3.8s
Mistral Small 3.2 24B	99%	$0.0002	4.3s
Mistral Medium 3.1	99%	$0.0013	7.1s
Mistral Small 4	97%	$0.0004	2.8s
GPT-4.1 Mini	99%	$0.0011	6.4s
Mistral Large 3	99%	$0.0011	7.8s
DeepSeek V4 Flash	98%	$0.0002	6.5s
Z.AI GLM 4.5	100%	$0.0030	25.1s
Grok 4.3	99%	$0.0022	4.8s
Qwen 2.5 72B	99%	$0.0003	10.1s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash	100%	$0.0015	2.0s	100%
Gemini 2.5 Flash Lite	99%	$0.0003	1.6s	99%
Gemini 3.1 Flash Lite	99%	$0.0009	1.8s	99%
Gemini 3.1 Flash Lite (Preview)	99%	$0.0009	1.8s	99%
Qwen3 235B A22B Instruct 2507	99%	$0.0003	8.6s	99%
Ministral 3 8B	99%	$0.0002	3.1s	99%
Gemma 4 26B	100%	$0.0002	13.3s	100%
Ministral 3 14B	99%	$0.0003	3.8s	99%
Mistral Small 3.2 24B	99%	$0.0002	4.3s	99%
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	8.0s	99%
Mistral Large 3	99%	$0.0011	7.8s	99%
Mistral Medium 3.1	99%	$0.0013	7.1s	99%
Qwen 2.5 72B	99%	$0.0003	10.1s	99%
DeepSeek-V2 Chat	99%	$0.0008	14.6s	99%
Cydonia 24B V4.1	99%	$0.0005	10.4s	98%
GPT-5.6 Luna	99%	$0.0037	3.0s	99%
Grok 4.3	99%	$0.0022	4.8s	98%
GPT-4.1	100%	$0.0055	3.8s	100%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0015	6.6s	98%
Claude Haiku 4.5	99%	$0.0036	3.1s	98%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
102	GPT-5.6 Sol (Reasoning)	$0.037	12.3s	100%	100	100	100	100	100	100	100	100%
122	Claude Opus 4.6 (Reasoning)	$0.061	25.5s	100%	100	100	100	100	100	100	100	100%
104	GPT-5.4 (Reasoning)	$0.033	32.5s	100%	100	100	100	100	100	100	100	100%
134	Claude Sonnet 4.6 (Reasoning)	$0.083	53.3s	100%	100	100	100	100	100	100	100	100%
131	Gemini 3.5 Flash (Reasoning)	$0.078	34.1s	100%	100	100	100	100	100	100	100	100%
64	Claude Opus 4.6	$0.018	5.9s	100%	100	100	100	100	100	100	100	100%
83	GPT-5 Mini	$0.011	1.1m	100%	100	100	100	100	100	100	100	100%
65	GPT-5.6 Sol	$0.019	4.0s	100%	100	100	100	100	100	100	100	100%
63	Claude Opus 4.5	$0.018	5.2s	100%	100	100	100	100	100	100	100	100%
38	GPT-5.6 Terra	$0.0093	3.3s	100%	100	100	100	100	100	100	100	100%
115	Claude Opus 4	$0.053	7.7s	100%	100	100	100	100	100	100	100	100%
18	GPT-4.1	$0.0055	3.8s	100%	100	100	100	100	100	100	100	100%
27	Gemma 4 31B	$0.0003	32.2s	100%	100	100	100	100	100	100	100	100%
25	GPT-4o, Aug. 6th (temp=0)	$0.0069	2.5s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash	$0.0015	2.0s	100%	100	100	100	100	100	100	100	100%
132	Qwen3.7 Max	$0.060	1.9m	100%	100	100	100	100	100	100	99	100%
126	MoonshotAI: Kimi K2.6	$0.035	3.1m	100%	100	100	100	100	100	100	99	100%
118	GPT-5	$0.046	1.2m	100%	100	100	100	100	100	100	99	100%
53	Z.AI GLM 4.6	$0.0041	42.6s	100%	100	100	100	100	100	100	99	100%
48	Claude Sonnet 4	$0.011	5.8s	100%	100	100	100	100	100	100	99	100%
82	Aion 2.0	$0.0061	1.4m	100%	100	100	100	100	100	100	99	100%
34	Z.AI GLM 4.5	$0.0030	25.1s	100%	100	100	100	100	100	100	99	100%
7	Gemma 4 26B	$0.0002	13.3s	100%	100	100	100	100	100	100	99	100%
128	Z.AI GLM 5.1	$0.036	3.1m	99%	100	100	100	100	100	99	99	100%
137	Qwen3.6 Max Preview	$0.058	3.3m	99%	100	100	100	100	100	99	99	100%
84	Z.AI GLM 5.2 (Reasoning, High)	$0.015	44.3s	99%	100	100	100	100	100	99	99	100%
93	GPT-5.5 (Reasoning, Low)	$0.031	12.3s	99%	100	100	100	100	100	99	99	100%
86	Grok 4.5 (Reasoning, Low)	$0.018	36.2s	99%	100	100	100	100	100	99	99	100%
135	MoonshotAI: Kimi K2.5	$0.019	5.8m	99%	100	100	100	100	100	99	99	100%
62	GPT-5.4 Mini (Reasoning)	$0.012	24.0s	99%	100	100	100	100	100	99	99	100%
125	Gemma 4 31B (Reasoning)	$0.0027	5.1m	99%	100	100	100	100	100	99	99	100%
113	Gemini 2.5 Pro	$0.044	32.4s	99%	100	100	100	100	100	99	99	100%
143	Gemini 3.1 Pro (Preview)	$0.116	1.8m	99%	100	100	100	100	100	99	99	100%
140	Qwen 3.5 27B	$0.060	4.4m	99%	100	100	100	100	99	99	99	100%
111	DeepSeek V4 Pro (Reasoning)	$0.011	2.6m	99%	100	100	100	100	99	99	99	100%
116	Z.AI GLM 4.7	$0.014	3.1m	99%	100	100	100	100	99	99	99	100%
30	GPT-4o, Aug. 6th (temp=1)	$0.0069	2.6s	99%	100	100	100	100	100	99	99	100%
114	GPT-5.5 (Reasoning)	$0.047	19.1s	99%	100	100	100	99	99	99	99	100%
89	Z.AI GLM 5 Turbo	$0.018	43.4s	99%	100	100	100	99	99	99	99	100%
127	Qwen 3.5 397B A17B	$0.018	4.3m	99%	100	100	100	99	99	99	99	100%
119	Z.AI GLM 5	$0.023	2.9m	99%	100	100	100	100	100	99	99	100%
121	o4 Mini High	$0.048	1.2m	99%	100	100	100	99	99	99	99	100%
97	Aion 3.0 Mini	$0.0073	2.0m	99%	100	100	100	100	99	99	99	100%
66	GPT-5.6 Terra (Reasoning)	$0.016	8.8s	99%	100	100	99	99	99	99	99	100%
76	Grok 4.20 (Reasoning)	$0.012	38.3s	99%	100	100	99	99	99	99	99	100%
92	MiniMax M3	$0.0060	1.9m	99%	100	100	100	99	99	99	99	100%
90	Gemini 3 Flash (Preview, Reasoning)	$0.021	35.7s	99%	100	100	99	99	99	99	99	100%
123	Aion 3.0	$0.038	2.0m	99%	100	100	100	99	99	99	99	100%
80	ByteDance Seed 2.0 Lite	$0.0061	1.1m	98%	100	100	100	100	100	100	97	100%
103	GPT-5.1	$0.030	27.4s	98%	100	100	100	99	99	99	98	99%
16	GPT-5.6 Luna	$0.0037	3.0s	99%	100	99	99	99	99	99	99	99%
112	Grok 4.5 (Reasoning, High)	$0.034	1.0m	99%	99	99	99	99	99	99	99	99%
42	GPT-5.2	$0.0082	5.3s	99%	99	99	99	99	99	99	99	99%
70	GPT-5.5	$0.019	4.5s	99%	99	99	99	99	99	99	99	99%
120	Gemma 4 26B (Reasoning)	$0.0024	4.5m	99%	99	99	99	99	99	99	99	99%
28	Xiaomi MIMO v2.5 Pro	$0.0032	14.3s	99%	99	99	99	99	99	99	99	99%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	8.0s	99%	99	99	99	99	99	99	99	99%
3	Gemini 3.1 Flash Lite	$0.0009	1.8s	99%	99	99	99	99	99	99	99	99%
11	Mistral Large 3	$0.0011	7.8s	99%	99	99	99	99	99	99	99	99%
14	DeepSeek-V2 Chat	$0.0008	14.6s	99%	99	99	99	99	99	99	99	99%
46	DeepSeek V3.2	$0.0004	44.8s	99%	99	99	99	99	99	99	99	99%
26	Mistral Large 2	$0.0046	7.1s	99%	99	99	99	99	99	99	99	99%
2	Gemini 2.5 Flash Lite	$0.0003	1.6s	99%	99	99	99	99	99	99	99	99%
5	Qwen3 235B A22B Instruct 2507	$0.0003	8.6s	99%	99	99	99	99	99	99	99	99%
41	WizardLM 2 8x22b	$0.0008	36.6s	99%	99	99	99	99	99	99	99	99%
54	GPT-5.4 (Reasoning, Low)	$0.011	7.3s	99%	100	99	99	99	99	99	99	99%
109	Qwen 3.5 9B	$0.0019	2.9m	99%	100	99	99	99	99	99	99	99%
58	DeepSeek V4 Flash (Reasoning)	$0.0011	52.7s	98%	100	100	100	100	99	99	97	99%
39	GPT-5.6 Luna (Reasoning)	$0.0067	7.0s	99%	99	99	99	99	99	99	99	99%
4	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.8s	99%	99	99	99	99	99	99	99	99%
20	Claude Haiku 4.5	$0.0036	3.1s	98%	100	100	99	99	99	99	99	99%
24	DeepSeek V4 Pro	$0.0010	16.7s	99%	100	99	99	99	99	99	99	99%
124	Qwen 3.5 122B	$0.046	1.5m	97%	100	100	100	100	100	100	95	99%
12	Mistral Medium 3.1	$0.0013	7.1s	99%	99	99	99	99	99	99	99	99%
110	Qwen 3.5 Plus (2026-04-20)	$0.017	1.8m	97%	100	100	99	99	99	99	97	99%
56	Claude Sonnet 4.5	$0.011	4.5s	98%	100	99	99	99	99	99	99	99%
29	Writer: Palmyra X5	$0.0036	11.4s	99%	99	99	99	99	99	99	99	99%
17	Grok 4.3	$0.0022	4.8s	98%	100	99	99	99	99	99	98	99%
98	Qwen 3.5 35B	$0.020	59.5s	97%	100	99	99	99	99	99	96	99%
51	GPT-5.4	$0.0093	5.6s	98%	99	99	99	99	99	99	98	99%
79	ByteDance Seed 1.6	$0.0055	59.4s	97%	99	99	99	99	99	99	96	99%
15	Cydonia 24B V4.1	$0.0005	10.4s	98%	99	99	99	99	99	99	99	99%
19	Qwen 3.5 Plus (2026-02-15)	$0.0015	6.6s	98%	99	99	99	99	99	99	98	99%
33	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0057	2.6s	99%	99	99	99	99	99	99	99	99%
36	Hermes 3 405B	$0.0013	23.1s	99%	99	99	99	99	99	99	99	99%
9	Mistral Small 3.2 24B	$0.0002	4.3s	99%	99	99	99	99	99	99	99	99%
13	Qwen 2.5 72B	$0.0003	10.1s	99%	99	99	99	99	99	99	99	99%
8	Ministral 3 14B	$0.0003	3.8s	99%	99	99	99	99	99	99	99	99%
6	Ministral 3 8B	$0.0002	3.1s	99%	99	99	99	99	99	99	99	99%
117	ByteDance Seed 2.0 Mini	$0.0035	3.8m	96%	100	100	99	99	99	99	95	99%
55	Claude Sonnet 4.6	$0.011	4.3s	98%	99	99	99	99	99	99	98	99%
22	Grok 4.20	$0.0019	4.4s	98%	99	99	99	99	98	98	98	99%
77	GPT-OSS 120B	$0.0009	1.1m	96%	100	100	100	99	99	97	96	99%
35	Gemma 3 27B	$0.0002	18.4s	97%	99	99	99	99	99	99	97	99%
43	Xiaomi MIMO v2.5	$0.0029	12.6s	97%	100	99	99	99	99	99	96	99%
67	Claude Sonnet 5 (Reasoning)	$0.014	11.8s	98%	99	99	99	99	98	98	98	99%
59	Claude Sonnet 5 (Reasoning, Low)	$0.0098	9.0s	97%	99	99	99	98	98	98	98	99%
57	Claude Sonnet 5	$0.0097	8.4s	98%	99	99	99	99	98	98	98	99%
94	Grok 4.3 (Reasoning)	$0.013	1.1m	97%	100	99	99	99	99	97	96	99%
31	GPT-4.1 Mini	$0.0011	6.4s	96%	100	99	99	99	99	96	96	99%
74	Cohere Command R+ (Aug. 2024)	$0.0072	42.4s	98%	99	99	99	99	98	98	98	98%
78	Qwen 3.6 Flash	$0.011	31.4s	97%	99	99	99	99	99	97	96	98%
85	Qwen 3.6 35B	$0.0096	47.2s	96%	100	99	99	99	99	96	96	98%
87	Claude Opus 4.7 (Reasoning)	$0.024	4.0s	98%	99	99	98	98	98	98	98	98%
99	GPT-5 Nano	$0.0053	1.9m	96%	100	99	99	99	98	97	96	98%
23	Gemma 3 12B	$0.0001	10.0s	98%	99	98	98	98	98	98	98	98%
21	Gemini 3 Flash (Preview)	$0.0019	3.1s	98%	98	98	98	98	98	98	98	98%
37	GPT-5.4 Mini	$0.0028	2.1s	96%	99	99	98	98	98	98	98	98%
81	MiniMax M2.5	$0.0019	1.1m	95%	99	99	99	99	99	98	94	98%
32	Mistral NeMO	$0.0002	2.6s	95%	99	99	99	99	99	99	93	98%
40	DeepSeek V4 Flash	$0.0002	6.5s	95%	99	99	99	99	99	99	93	98%
47	GPT-5.4 Mini (Reasoning, Low)	$0.0029	3.6s	95%	99	99	98	98	97	96	96	98%
60	Z.AI GLM 4.5 Air	$0.0023	34.1s	96%	99	98	98	98	98	97	95	98%
71	GPT-5.4 Nano (Reasoning)	$0.0036	20.5s	92%	99	99	99	97	97	95	93	97%
52	GPT-4o Mini (temp=1)	$0.0004	8.8s	93%	99	99	97	96	96	96	95	97%
49	Ministral 8B	$0.0001	2.9s	93%	99	99	99	99	99	94	91	97%
75	Llama 3.1 70B	$0.0006	30.6s	91%	99	99	99	99	99	97	88	97%
96	Claude Opus 4.7	$0.024	4.1s	95%	98	98	96	96	96	96	96	97%
50	Mistral Small 4	$0.0004	2.8s	93%	99	99	99	99	98	92	92	97%
100	Claude Opus 4.8 (Reasoning, Low)	$0.024	7.6s	93%	99	98	97	96	96	95	95	96%
44	GPT-4o Mini (temp=0)	$0.0004	8.4s	96%	97	97	97	97	96	96	96	96%
45	Gemma 3 4B	$0.0001	5.6s	95%	98	96	96	96	96	96	95	96%
107	Qwen 3.5 Flash	$0.0041	1.1m	86%	99	99	99	99	99	96	80	96%
108	Qwen 3 32B	$0.0015	1.2m	83%	100	99	99	99	99	99	76	96%
105	Claude Opus 4.8 (Reasoning)	$0.024	7.6s	92%	99	98	95	95	95	95	95	96%
88	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	36.2s	89%	100	99	99	96	93	93	90	96%
69	Inception Mercury 2	$0.0029	4.3s	91%	98	98	98	95	95	93	91	96%
61	GPT-5.4 Nano	$0.0008	2.9s	91%	99	98	96	95	94	93	92	95%
73	GPT-5.4 Nano (Reasoning, Low)	$0.0009	3.4s	89%	98	98	96	96	95	94	86	95%
91	Gemini 2.5 Flash (Reasoning)	$0.0089	15.1s	89%	99	99	97	97	93	90	89	95%
95	Mistral Small 4 (Reasoning)	$0.0030	27.9s	85%	100	99	99	96	93	89	83	94%
129	Qwen 3.6 27B	$0.022	1.6m	75%	100	99	99	99	99	96	65	94%
68	Ministral 3B	$0.0001	2.2s	92%	92	92	92	92	92	92	91	92%
72	Ministral 3 3B	$0.0001	1.8s	91%	92	92	92	92	91	91	91	92%
136	Nemotron 3 Super	$0.0000	1.8m	46%	100	99	99	99	99	99	22	88%
106	GPT-4.1 Nano	$0.0003	3.6s	79%	96	93	86	86	85	85	85	88%
130	DeepSeek V3.1	$0.0007	18.8s	45%	99	99	99	99	99	99	21	88%
141	o4 Mini	$0.024	39.3s	34%	100	100	100	100	100	99	5	86%
101	Arcee AI: Trinity Mini	$0.0002	4.8s	84%	87	87	85	85	85	85	85	86%
138	DeepSeek V3 (2024-12-26)	$0.0008	14.9s	30%	99	99	99	99	99	99	0	85%
139	DeepSeek V3 (2025-03-24)	$0.0008	1.2m	30%	99	99	99	99	99	99	0	85%
133	ByteDance Seed 1.6 Flash	$0.0011	20.8s	47%	99	93	92	92	92	86	23	83%
142	Z.AI GLM 4.7 Flash	$0.0030	1.7m	37%	97	97	95	93	87	32	24	75%
144	MiniMax M2.7	$0.013	3.4m	33%	99	99	99	93	76	23	23	73%
145	Nemotron 3 Nano	$0.0064	8.4m	45%	95	95	95	95	47	44	37	73%
146	Hermes 3 70B	$0.0041	5.6m	0%	90	5	0	0	0	0	0	14%
96.95%

Median	Evaluator	Top 3	Flop 3
98.2%	Combined transformation accuracy	100Qwen 3.5 122B 100Claude Opus 4 100Gemini 2.5 Flash	14Hermes 3 70B 69Nemotron 3 Nano 71MiniMax M2.7
100.0%	Dialogue content preserved	100GPT-5 Mini 100GPT-5.6 Sol 100Claude Opus 4.6 (Reasoning)	13Hermes 3 70B 67Z.AI GLM 4.7 Flash 67MiniMax M2.7
100.0%	Setting and Gregor references preserved	100GPT-5.5 (Reasoning, Low) 100Qwen 3.5 27B 100Gemini 2.5 Flash	14Hermes 3 70B 76Nemotron 3 Nano 82MiniMax M2.7

Text Replacement

Combined: 3rd person past → 1st person present

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)