Combined: 3rd person past → 1st person present

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Z.AI GLM 5 Turbo	100%
GPT-5.5	100%
Claude Opus 4.6 (Reasoning)	99%
Qwen3.6 Max Preview	99%
Claude Opus 4.7 (Reasoning)	99%
Claude Opus 4.6	99%
Gemma 4 31B (Reasoning)	99%
GPT-5.4 Mini (Reasoning)	99%
Claude Sonnet 4	99%
Gemma 4 31B	99%
Grok 4.20 (Beta, Reasoning)	99%
Grok 4.20 (Reasoning)	99%
Aion 2.0	99%
DeepSeek V4 Pro (Reasoning)	99%
Claude Haiku 4.5	99%
GPT-5.1	99%
Claude Sonnet 4.6 (Reasoning)	99%
Gemini 2.5 Pro	99%
GPT-5.4	99%
Claude Opus 4.7	99%

	Score	Cost	Time
Gemini 2.5 Flash Lite	99%	$0.0003	1.8s
Grok 4 Fast	98%	$0.0006	5.0s
DeepSeek V4 Flash	98%	$0.0002	8.1s
GPT-5.4 Nano	99%	$0.0007	3.2s
Gemini 3.1 Flash Lite	98%	$0.0009	1.8s
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	1.8s
Stealth: Hunter Alpha	99%	$0.0000	22.8s
Gemini 2.5 Flash	94%	$0.0015	2.1s
Gemma 3 12B	94%	$0.0001	9.3s
GPT-4.1 Nano	98%	$0.0003	3.6s
GPT-5.4 Nano (Reasoning)	97%	$0.0007	3.1s
Stealth: Healer Alpha	97%	$0.0000	11.0s
Gemini 3.1 Flash Lite (Preview)	98%	$0.0009	1.7s
Mistral Small 3.2 24B	98%	$0.0002	4.4s
Gemma 4 26B	99%	$0.0002	11.9s
Mistral Small 4	85%	$0.0004	4.8s
Gemma 4 31B	99%	$0.0003	26.8s
GPT-4.1 Mini	99%	$0.0010	12.0s
Qwen 2.5 72B	98%	$0.0003	9.5s
Gemma 3 27B	98%	$0.0002	13.1s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	99%	$0.0003	1.8s	98%
Gemini 3.1 Flash Lite (Reasoning)	99%	$0.0009	1.8s	98%
GPT-5.4 Nano	99%	$0.0007	3.2s	98%
Gemini 3.1 Flash Lite	98%	$0.0009	1.8s	98%
Gemini 3.1 Flash Lite (Preview)	98%	$0.0009	1.7s	98%
Mistral Small 3.2 24B	98%	$0.0002	4.4s	97%
Qwen 3.5 Plus (2026-02-15)	99%	$0.0014	6.7s	99%
GPT-4.1 Nano	98%	$0.0003	3.6s	96%
Grok 4 Fast	98%	$0.0006	5.0s	96%
Gemma 4 26B	99%	$0.0002	11.9s	98%
Qwen 2.5 72B	98%	$0.0003	9.5s	98%
Gemini 3 Flash (Preview)	98%	$0.0018	3.1s	97%
Claude Haiku 4.5	99%	$0.0033	2.8s	99%
Hermes 3 70B	99%	$0.0003	13.7s	98%
Mistral Large 3	98%	$0.0010	7.1s	98%
Cydonia 24B V4.1	98%	$0.0004	11.5s	98%
GPT-4.1 Mini	99%	$0.0010	12.0s	98%
Xiaomi MIMO v2.5	99%	$0.0021	9.1s	97%
GPT-5.4 Mini (Reasoning, Low)	98%	$0.0027	3.9s	96%
DeepSeek V4 Pro	99%	$0.0013	16.3s	98%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
49	Z.AI GLM 5 Turbo	$0.0063	16.7s	99%	100	100	100	100	100	99	99	100%
77	GPT-5.5	$0.017	4.7s	99%	100	100	100	100	99	99	99	100%
81	Claude Opus 4.6 (Reasoning)	$0.017	6.1s	99%	99	99	99	99	99	99	99	99%
144	Qwen3.6 Max Preview	$0.033	1.8m	99%	99	99	99	99	99	99	99	99%
99	Claude Opus 4.7 (Reasoning)	$0.022	4.0s	99%	99	99	99	99	99	99	99	99%
74	Claude Opus 4.6	$0.016	5.6s	99%	99	99	99	99	99	99	99	99%
116	Gemma 4 31B (Reasoning)	$0.0008	1.8m	99%	99	99	99	99	99	99	99	99%
23	GPT-5.4 Mini (Reasoning)	$0.0050	6.2s	99%	99	99	99	99	99	99	99	99%
53	Claude Sonnet 4	$0.0099	5.9s	99%	99	99	99	99	99	99	99	99%
30	Gemma 4 31B	$0.0003	26.8s	99%	99	99	99	99	99	99	99	99%
76	Grok 4.20 (Beta, Reasoning)	$0.016	9.2s	99%	99	99	99	99	99	99	99	99%
70	Grok 4.20 (Reasoning)	$0.0078	29.5s	99%	99	99	99	99	99	99	99	99%
79	Aion 2.0	$0.0041	56.1s	99%	99	99	99	99	99	99	99	99%
114	DeepSeek V4 Pro (Reasoning)	$0.0046	1.4m	98%	100	100	99	99	99	99	98	99%
13	Claude Haiku 4.5	$0.0033	2.8s	99%	100	99	99	99	99	99	99	99%
58	GPT-5.1	$0.0087	10.8s	99%	99	99	99	99	99	99	98	99%
130	Claude Sonnet 4.6 (Reasoning)	$0.033	25.1s	98%	100	99	99	99	99	99	99	99%
131	Gemini 2.5 Pro	$0.035	26.1s	99%	99	99	99	99	99	99	99	99%
50	GPT-5.4	$0.0087	5.5s	99%	99	99	99	99	99	99	99	99%
102	Claude Opus 4.7	$0.022	4.2s	99%	99	99	99	99	99	99	98	99%
119	Gemini 3.5 Flash (Reasoning)	$0.028	12.0s	98%	99	99	99	99	99	99	99	99%
140	Gemini 3 Pro (Preview)	$0.044	30.8s	98%	99	99	99	99	99	99	99	99%
55	Claude Sonnet 4.5	$0.0099	4.5s	98%	99	99	99	99	99	99	99	99%
20	DeepSeek V4 Pro	$0.0013	16.3s	98%	99	99	99	99	99	99	99	99%
86	GPT-5.5 (Reasoning, Low)	$0.018	5.4s	98%	99	99	99	99	99	99	97	99%
141	Claude Opus 4	$0.050	7.7s	96%	100	100	100	99	99	99	95	99%
51	DeepSeek V3.1	$0.0007	36.6s	98%	99	99	99	99	99	99	99	99%
123	Grok 4	$0.025	31.8s	98%	99	99	99	99	99	99	97	99%
67	GPT-5.4 (Reasoning)	$0.011	8.5s	97%	100	99	99	99	99	99	96	99%
138	Qwen3.7 Max	$0.034	1.0m	98%	99	99	99	99	99	99	99	99%
100	Gemma 4 26B (Reasoning)	$0.0008	1.4m	98%	99	99	99	99	99	99	98	99%
44	Xiaomi MIMO v2.5 Pro	$0.0034	15.4s	98%	99	99	99	99	99	99	98	99%
24	Stealth: Hunter Alpha	$0.0000	22.8s	98%	99	99	99	99	99	99	99	99%
63	Qwen 3.5 Flash	$0.0026	40.4s	98%	99	99	99	99	99	99	99	99%
10	Gemma 4 26B	$0.0002	11.9s	98%	99	99	99	99	99	99	99	99%
17	GPT-4.1 Mini	$0.0010	12.0s	98%	99	99	99	99	99	99	98	99%
40	Hermes 3 405B	$0.0011	23.7s	98%	99	99	99	99	99	99	99	99%
117	Qwen 3.5 27B	$0.013	57.8s	97%	99	99	99	99	99	99	96	99%
143	Gemini 3.1 Pro (Preview)	$0.047	44.2s	99%	99	99	99	99	99	99	99	99%
83	Z.AI GLM 5.1	$0.0096	35.3s	99%	99	99	99	99	99	99	99	99%
129	Qwen 3.5 397B A17B	$0.0073	2.1m	99%	99	99	99	99	99	99	99	99%
56	Claude Sonnet 4.6	$0.0099	4.8s	99%	99	99	99	99	99	99	99	99%
68	Qwen 3.6 Flash	$0.0077	25.1s	98%	99	99	99	99	99	99	98	99%
75	Claude Opus 4.5	$0.016	5.1s	99%	99	99	99	99	99	99	99	99%
47	MiniMax M2.7	$0.0026	23.8s	98%	99	99	99	99	99	99	98	99%
7	Qwen 3.5 Plus (2026-02-15)	$0.0014	6.7s	99%	99	99	99	99	99	99	99	99%
54	GPT-4o, May 13th (temp=0)	$0.010	3.5s	99%	99	99	99	99	99	99	99	99%
93	Claude 3.5 Sonnet	$0.020	9.2s	99%	99	99	99	99	99	99	99	99%
57	Claude 3.7 Sonnet	$0.0099	5.6s	99%	99	99	99	99	99	99	99	99%
35	GPT-4o, Aug. 6th (temp=0)	$0.0063	2.9s	99%	99	99	99	99	99	99	99	99%
111	DeepSeek V3.2	$0.0003	1.7m	99%	99	99	99	99	99	99	99	99%
64	Gemini 3 Flash (Preview, Reasoning)	$0.0089	14.6s	98%	99	99	99	99	99	99	98	99%
2	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.8s	98%	99	99	99	99	99	99	98	99%
3	GPT-5.4 Nano	$0.0007	3.2s	98%	99	99	99	99	99	99	98	99%
14	Hermes 3 70B	$0.0003	13.7s	98%	99	99	99	99	99	99	98	99%
45	DeepSeek V4 Flash (Reasoning)	$0.0005	23.9s	97%	100	99	99	99	99	99	96	99%
89	Z.AI GLM 5	$0.0055	57.1s	98%	99	99	99	99	99	99	98	99%
18	Xiaomi MIMO v2.5	$0.0021	9.1s	97%	100	99	99	99	99	98	97	99%
148	MoonshotAI: Kimi K2.5	$0.012	3.3m	97%	99	99	99	99	99	99	97	99%
31	GPT-4.1	$0.0050	4.4s	98%	99	99	99	99	98	98	98	99%
1	Gemini 2.5 Flash Lite	$0.0003	1.8s	98%	99	99	99	99	98	98	98	99%
133	Z.AI GLM 4.7	$0.0089	2.4m	97%	99	99	99	99	99	97	96	99%
113	Grok 4.3 (Reasoning)	$0.011	53.3s	96%	100	100	99	99	98	97	96	99%
4	Gemini 3.1 Flash Lite	$0.0009	1.8s	98%	99	99	99	99	98	98	98	98%
11	Qwen 2.5 72B	$0.0003	9.5s	98%	99	99	99	98	98	98	98	98%
112	Qwen 3.5 35B	$0.014	40.4s	96%	99	99	99	99	99	98	95	98%
59	GPT-4o, May 13th (temp=1)	$0.010	3.4s	97%	99	99	99	98	98	98	98	98%
12	Gemini 3 Flash (Preview)	$0.0018	3.1s	97%	99	99	99	98	98	98	98	98%
9	Grok 4 Fast	$0.0006	5.0s	96%	100	100	99	99	97	97	97	98%
145	MoonshotAI: Kimi K2.6	$0.019	2.6m	97%	99	99	99	99	99	99	95	98%
19	GPT-5.4 Mini (Reasoning, Low)	$0.0027	3.9s	96%	99	99	99	99	99	98	95	98%
80	ByteDance Seed 2.0 Lite	$0.0044	48.5s	97%	99	99	99	99	99	99	95	98%
37	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0053	2.5s	97%	99	99	98	98	98	98	98	98%
82	GPT-5 Mini	$0.0066	41.1s	97%	99	99	99	99	98	98	96	98%
48	Gemini 2.5 Flash (Reasoning)	$0.0058	8.8s	97%	99	99	98	98	98	98	98	98%
5	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	98%	98	98	98	98	98	98	98	98%
46	GPT-4o, Aug. 6th (temp=1)	$0.0063	2.6s	97%	99	99	98	98	98	97	97	98%
16	Cydonia 24B V4.1	$0.0004	11.5s	98%	99	98	98	98	98	98	98	98%
120	GPT-5.5 (Reasoning)	$0.027	10.5s	96%	100	99	99	99	97	96	96	98%
126	Qwen 3.5 Plus (2026-04-20)	$0.014	1.4m	96%	99	99	99	99	97	97	95	98%
132	GPT-5	$0.027	42.1s	93%	99	99	99	99	99	99	90	98%
25	Gemma 3 27B	$0.0002	13.1s	95%	99	99	99	98	98	98	94	98%
124	Qwen 3.5 122B	$0.020	48.7s	96%	99	99	99	99	96	96	95	98%
6	Mistral Small 3.2 24B	$0.0002	4.4s	97%	98	98	98	98	98	98	98	98%
8	GPT-4.1 Nano	$0.0003	3.6s	96%	99	98	98	98	98	97	96	98%
96	ByteDance Seed 1.6	$0.0051	57.2s	95%	100	99	99	99	97	96	93	98%
15	Mistral Large 3	$0.0010	7.1s	98%	98	98	98	98	98	98	98	98%
38	Mistral Large 2	$0.0041	7.3s	98%	98	98	98	98	98	98	98	98%
36	Mistral Large	$0.0041	6.7s	98%	98	98	98	98	98	98	98	98%
72	Qwen 3.6 35B	$0.0052	33.0s	95%	99	99	99	99	95	95	95	98%
21	DeepSeek V4 Flash	$0.0002	8.1s	94%	99	99	99	99	99	98	91	98%
97	o4 Mini High	$0.014	24.4s	95%	99	99	98	98	97	96	95	98%
22	Stealth: Healer Alpha	$0.0000	11.0s	95%	99	99	99	99	98	96	93	97%
28	DeepSeek V3 (2024-12-26)	$0.0007	14.3s	97%	98	98	98	98	98	97	96	97%
33	DeepSeek-V2 Chat	$0.0008	15.2s	97%	98	98	98	97	97	97	97	97%
61	DeepSeek V3 (2025-03-24)	$0.0006	38.8s	96%	98	98	97	97	97	97	96	97%
103	GPT-OSS 120B	$0.0005	1.3m	93%	99	99	99	96	96	96	95	97%
98	MiniMax M2.5	$0.0021	1.1m	93%	99	99	96	96	96	95	95	97%
95	o4 Mini	$0.013	22.6s	94%	98	98	98	98	97	96	93	97%
26	GPT-5.4 Nano (Reasoning, Low)	$0.0007	2.8s	92%	99	99	99	95	95	95	95	97%
27	GPT-5.4 Nano (Reasoning)	$0.0007	3.1s	93%	99	99	99	98	95	95	90	97%
101	Z.AI GLM 4.7 Flash	$0.0012	1.1m	93%	99	99	98	96	95	95	94	97%
34	LFM2 24B	$0.0001	11.4s	94%	98	98	98	98	96	96	92	97%
41	GPT-5.4 Mini	$0.0026	2.1s	93%	100	96	96	96	96	96	95	97%
69	Z.AI GLM 4.5 Air	$0.0016	32.3s	92%	99	99	95	95	95	95	95	97%
121	Z.AI GLM 4.6	$0.0086	1.2m	92%	99	99	96	96	96	95	93	96%
66	WizardLM 2 8x22b	$0.0007	35.2s	93%	99	98	97	96	96	95	93	96%
29	Mistral Medium 3.1	$0.0012	5.8s	95%	97	97	96	96	96	96	96	96%
43	GPT-4o Mini (temp=1)	$0.0004	9.6s	93%	99	95	95	95	95	95	95	96%
32	GPT-4o Mini (temp=0)	$0.0004	9.6s	95%	95	95	95	95	95	95	95	95%
78	GPT-5.4 (Reasoning, Low)	$0.0089	5.0s	88%	99	99	99	95	93	90	90	95%
73	GPT-5.2	$0.0078	5.2s	89%	99	99	99	96	93	90	90	95%
60	Grok 4.1 Fast	$0.0008	11.0s	86%	100	100	97	97	97	93	83	95%
88	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	31.4s	87%	100	99	99	99	90	90	84	95%
42	Mistral Small Creative	$0.0002	3.4s	92%	98	94	94	94	94	94	94	95%
39	Inception Mercury	$0.0004	2.0s	92%	96	95	95	95	94	94	91	94%
71	Gemma 3 12B	$0.0001	9.3s	79%	99	99	98	98	98	98	70	94%
52	Inception Mercury 2	$0.0013	1.6s	88%	97	96	96	95	95	95	84	94%
84	Gemini 2.5 Flash	$0.0015	2.1s	72%	99	99	99	99	99	98	60	94%
90	Z.AI GLM 4.5	$0.0039	32.3s	88%	96	96	96	93	90	90	90	93%
65	Grok 4.20 (Beta)	$0.0031	1.8s	87%	99	92	92	92	92	91	91	93%
106	GPT-5 Nano	$0.0018	43.9s	85%	96	95	93	90	90	90	89	92%
136	Qwen 3.5 9B	$0.0012	1.9m	72%	99	99	99	96	95	93	61	92%
85	Grok 4.3	$0.0019	4.7s	77%	99	99	97	96	93	84	70	91%
62	Grok 4.20	$0.0018	4.4s	89%	92	92	92	91	91	91	88	91%
108	Arcee AI: Trinity Large (Preview)	$0.0000	26.2s	73%	99	99	99	99	99	70	70	91%
105	Qwen 3 32B	$0.0009	31.4s	79%	98	98	95	94	90	84	75	91%
91	Llama 3.1 70B	$0.0004	14.4s	78%	98	90	88	87	83	83	83	87%
87	Llama 3.1 Nemotron 70B	$0.0013	14.1s	84%	91	89	88	87	85	85	85	87%
92	Skyfall 36B V2	$0.0006	9.7s	76%	94	93	90	89	89	83	71	87%
127	Mistral Small 4 (Reasoning)	$0.0016	13.5s	48%	99	98	98	98	96	96	25	87%
135	ByteDance Seed 2.0 Mini	$0.0017	1.7m	73%	98	93	90	89	85	83	68	86%
104	Qwen3 235B A22B Instruct 2507	$0.0004	16.7s	77%	94	89	86	84	84	82	81	86%
142	Qwen 3.6 27B	$0.013	56.0s	55%	99	99	97	96	96	76	36	86%
94	Llama 3.1 8B	$0.0000	9.8s	77%	92	91	87	86	82	82	77	85%
122	Mistral Small 4	$0.0004	4.8s	55%	98	98	98	98	96	67	38	85%
107	Ministral 3 3B	$0.0001	2.2s	70%	96	91	87	81	81	78	76	84%
109	Writer: Palmyra X5	$0.0032	7.5s	80%	86	84	84	82	82	82	81	83%
128	ByteDance Seed 1.6 Flash	$0.0009	16.7s	52%	98	94	94	91	90	82	32	83%
118	Ministral 3B	$0.0000	2.8s	62%	96	96	90	81	76	69	65	82%
137	Nemotron 3 Super	$0.0000	46.4s	46%	99	97	96	93	93	70	23	82%
110	Mistral NeMO	$0.0002	2.3s	73%	88	86	80	79	79	78	77	81%
115	Ministral 3 14B	$0.0002	3.8s	75%	78	78	78	78	78	76	73	77%
147	Nemotron 3 Nano	$0.0006	36.4s	30%	96	93	93	92	85	22	14	71%
125	Gemma 3 4B	$0.0001	5.1s	68%	70	70	70	70	67	67	67	69%
146	Arcee AI: Trinity Mini	$0.0002	8.0s	21%	94	93	93	92	89	7	6	68%
134	Ministral 8B	$0.0001	4.3s	55%	68	66	63	62	57	54	53	60%
139	Ministral 3 8B	$0.0002	2.9s	53%	64	64	62	61	57	54	44	58%
151	Cohere Command R+ (Aug. 2024)	$0.0062	13.8s	9%	96	27	25	22	18	11	3	29%
150	Claude 3 Haiku	$0.0008	4.3s	0%	93	92	0	0	0	0	0	26%
149	Rocinante 12B	$0.0003	11.7s	8%	90	22	19	17	13	13	0	25%
93.78%

Median	Evaluator	Top 3	Flop 3
96.5%	Combined transformation accuracy	100Grok 4.1 Fast 99Z.AI GLM 5 Turbo 99Grok 4 Fast	11Gemma 3 4B 17Rocinante 12B 18Cohere Command R+ (Aug. 2024)
100.0%	Dialogue content preserved	100Claude Opus 4.7 100GPT-4.1 Mini 100Gemma 4 31B	24Rocinante 12B 29Claude 3 Haiku 33Cohere Command R+ (Aug. 2024)
100.0%	Setting and Gregor references preserved	100DeepSeek V3 (2024-12-26) 100o4 Mini 100GPT-OSS 120B	24Claude 3 Haiku 33Rocinante 12B 37Cohere Command R+ (Aug. 2024)

Text Replacement

Combined: 3rd person past → 1st person present

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)