Expand all contractions

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%

	Score	Cost	Time
Ministral 8B	100%	$0.0001	2.4s
Ministral 3 8B	100%	$0.0001	3.0s
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s
Mistral Small 3.2 24B	100%	$0.0002	3.5s
Mistral Small 4	100%	$0.0003	2.6s
Gemma 3 12B	100%	$0.0001	5.9s
DeepSeek V4 Flash	100%	$0.0001	7.1s
Mistral NeMO	98%	$0.0001	1.8s
LFM2 24B	100%	$0.0001	8.1s
Qwen 2.5 72B	100%	$0.0002	8.5s
GPT-4o Mini (temp=0)	100%	$0.0003	7.1s
Gemini 3.1 Flash Lite	100%	$0.0008	1.9s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	1.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0008	1.7s
Llama 3.1 8B	99%	$0.0000	7.8s
Arcee AI: Trinity Mini	99%	$0.0002	4.6s
GPT-4o Mini (temp=1)	100%	$0.0003	7.6s
Z.AI GLM 4.5 Air	100%	$0.0012	28.2s
GPT-4.1 Nano	99%	$0.0002	3.1s
Qwen3 235B A22B Instruct 2507	100%	$0.0003	9.9s

	Score	Cost	Speed	Stability
Ministral 8B	100%	$0.0001	2.4s	100%
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s	100%
Ministral 3 8B	100%	$0.0001	3.0s	100%
Mistral Small 3.2 24B	100%	$0.0002	3.5s	100%
Mistral Small 4	100%	$0.0003	2.6s	100%
DeepSeek V4 Flash	100%	$0.0001	7.1s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0008	1.7s	100%
LFM2 24B	100%	$0.0001	8.1s	100%
Gemini 3.1 Flash Lite	100%	$0.0008	1.9s	100%
Gemma 3 12B	100%	$0.0001	5.9s	99%
GPT-4o Mini (temp=0)	100%	$0.0003	7.1s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	7.6s	100%
Qwen 2.5 72B	100%	$0.0002	8.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0008	1.6s	99%
Qwen3 235B A22B Instruct 2507	100%	$0.0003	9.9s	100%
GPT-4.1 Mini	100%	$0.0008	4.7s	100%
Gemini 2.5 Flash	100%	$0.0012	1.7s	100%
Mistral Medium 3.1	100%	$0.0010	4.3s	100%
Claude 3 Haiku	100%	$0.0007	3.7s	99%
Mistral Large 3	100%	$0.0009	5.9s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Contraction expansion accuracy	100Gemini 2.5 Flash Lite 100Claude Sonnet 4.5 100GPT-4o, Aug. 6th (temp=1)	14Hermes 3 70B 16Gemma 3 4B 19Rocinante 12B
100.0%	Non-contraction text preserved	100Gemini 3 Pro (Preview) 100Mistral NeMO 100Grok 4	14Hermes 3 70B 57Rocinante 12B 63DeepSeek V3.1
100.0%	Possessive traps preserved	100Qwen 3.5 397B A17B 100Gemma 4 26B 100MoonshotAI: Kimi K2.5	14Hermes 3 70B 57Rocinante 12B 64DeepSeek V3.1

Text Replacement

Expand all contractions

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
139	Qwen3.7 Max	$0.029	49.4s	100%	100	100	100	100	100	100	100	100%
138	Claude Opus 4.6 (Reasoning)	$0.030	13.9s	100%	100	100	100	100	100	100	100	100%
146	Qwen3.6 Max Preview	$0.031	1.6m	100%	100	100	100	100	100	100	100	100%
145	Gemini 3.1 Pro (Preview)	$0.036	33.8s	100%	100	100	100	100	100	100	100	100%
126	Z.AI GLM 5.1	$0.014	1.0m	100%	100	100	100	100	100	100	100	100%
101	Z.AI GLM 5 Turbo	$0.0094	20.8s	100%	100	100	100	100	100	100	100	100%
143	Gemini 3.5 Flash (Reasoning)	$0.034	14.2s	100%	100	100	100	100	100	100	100	100%
144	Claude Sonnet 4.6 (Reasoning)	$0.034	20.6s	100%	100	100	100	100	100	100	100	100%
117	GPT-5.4 (Reasoning)	$0.015	14.6s	100%	100	100	100	100	100	100	100	100%
119	Claude Opus 4.7 (Reasoning)	$0.017	3.2s	100%	100	100	100	100	100	100	100	100%
135	GPT-5.5 (Reasoning)	$0.024	8.8s	100%	100	100	100	100	100	100	100	100%
128	GPT-5.5 (Reasoning, Low)	$0.020	7.6s	100%	100	100	100	100	100	100	100	100%
118	GPT-5.1	$0.015	15.5s	100%	100	100	100	100	100	100	100	100%
110	Claude Opus 4.6	$0.014	5.0s	100%	100	100	100	100	100	100	100	100%
142	MoonshotAI: Kimi K2.6	$0.018	2.7m	100%	100	100	100	100	100	100	100	100%
140	GPT-5	$0.029	49.9s	100%	100	100	100	100	100	100	100	100%
137	Qwen 3.5 397B A17B	$0.0095	2.5m	100%	100	100	100	100	100	100	100	100%
112	Gemma 4 31B (Reasoning)	$0.0011	2.1m	100%	100	100	100	100	100	100	100	100%
132	Qwen 3.5 122B	$0.018	43.0s	100%	100	100	100	100	100	100	100	100%
125	Qwen 3.5 Plus (2026-04-20)	$0.011	1.2m	100%	100	100	100	100	100	100	100	100%
111	Gemma 4 26B (Reasoning)	$0.0013	2.0m	100%	100	100	100	100	100	100	100	100%
105	Grok 4.20 (Beta, Reasoning)	$0.012	7.3s	100%	100	100	100	100	100	100	100	100%
72	Grok 4.20 (Reasoning)	$0.0051	17.0s	100%	100	100	100	100	100	100	100	100%
129	Z.AI GLM 5	$0.011	1.5m	100%	100	100	100	100	100	100	100	100%
81	Claude Sonnet 4.6	$0.0082	3.7s	100%	100	100	100	100	100	100	100	100%
123	MoonshotAI: Kimi K2.5	$0.011	1.0m	100%	100	100	100	100	100	100	100	100%
76	ByteDance Seed 1.6	$0.0038	38.3s	100%	100	100	100	100	100	100	100	100%
102	Gemini 3 Flash (Preview, Reasoning)	$0.010	16.3s	100%	100	100	100	100	100	100	100	100%
133	o4 Mini High	$0.020	32.3s	100%	100	100	100	100	100	100	100	100%
95	GPT-5.2	$0.0090	6.9s	100%	100	100	100	100	100	100	100	100%
66	DeepSeek V4 Pro (Reasoning)	$0.0014	37.7s	100%	100	100	100	100	100	100	100	100%
121	Claude Opus 4.7	$0.017	3.3s	100%	100	100	100	100	100	100	100	100%
130	Qwen 3.6 27B	$0.015	1.0m	100%	100	100	100	100	100	100	100	100%
109	Claude Opus 4.5	$0.014	4.8s	100%	100	100	100	100	100	100	100	100%
90	Aion 2.0	$0.0038	47.5s	100%	100	100	100	100	100	100	100	100%
113	GPT-5.5	$0.014	4.0s	100%	100	100	100	100	100	100	100	100%
91	Qwen 3.6 35B	$0.0058	31.6s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V4 Flash (Reasoning)	$0.0007	29.8s	100%	100	100	100	100	100	100	100	100%
141	Gemini 3 Pro (Preview)	$0.033	21.2s	100%	100	100	100	100	100	100	100	100%
87	Claude Sonnet 4	$0.0082	4.7s	100%	100	100	100	100	100	100	100	100%
106	Z.AI GLM 4.7	$0.0056	1.1m	100%	100	100	100	100	100	100	100	100%
58	GPT-4.1	$0.0042	3.6s	100%	100	100	100	100	100	100	100	100%
134	Gemini 2.5 Pro	$0.022	15.9s	100%	100	100	100	100	100	100	100	100%
131	Grok 4	$0.019	24.1s	100%	100	100	100	100	100	100	100	100%
85	Claude Sonnet 4.5	$0.0082	4.1s	100%	100	100	100	100	100	100	100	100%
147	Claude Opus 4	$0.041	6.3s	100%	100	100	100	100	100	100	100	100%
100	ByteDance Seed 2.0 Mini	$0.0015	1.5m	100%	100	100	100	100	100	100	100	100%
44	Gemma 4 31B	$0.0002	25.5s	100%	100	100	100	100	100	100	100	100%
80	Gemini 2.5 Flash (Reasoning)	$0.0054	25.3s	100%	100	100	100	100	100	100	100	100%
59	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0045	2.1s	100%	100	100	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	1.7s	100%	100	100	100	100	100	100	100	100%
68	Z.AI GLM 4.5	$0.0026	29.0s	100%	100	100	100	100	100	100	100	100%
25	Qwen 3.5 Plus (2026-02-15)	$0.0012	5.3s	100%	100	100	100	100	100	100	100	100%
40	Gemma 4 26B	$0.0002	22.5s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0008	1.9s	100%	100	100	100	100	100	100	100	100%
20	Mistral Large 3	$0.0009	5.9s	100%	100	100	100	100	100	100	100	100%
88	GPT-4o, May 13th (temp=0)	$0.0085	2.8s	100%	100	100	100	100	100	100	100	100%
26	Gemini 3 Flash (Preview)	$0.0015	2.8s	100%	100	100	100	100	100	100	100	100%
43	Claude Haiku 4.5	$0.0027	2.2s	100%	100	100	100	100	100	100	100	100%
94	ByteDance Seed 2.0 Lite	$0.0042	49.1s	100%	100	100	100	100	100	100	100	100%
122	Claude 3.5 Sonnet	$0.016	7.2s	100%	100	100	100	100	100	100	100	100%
42	Grok 4.20 (Beta)	$0.0028	1.6s	100%	100	100	100	100	100	100	100	100%
83	GPT-4o, May 13th (temp=1)	$0.0085	1.9s	100%	100	100	100	100	100	100	100	100%
31	DeepSeek V3 (2024-12-26)	$0.0006	13.2s	100%	100	100	100	100	100	100	100	100%
86	Claude 3.7 Sonnet	$0.0082	4.6s	100%	100	100	100	100	100	100	100	100%
16	GPT-4.1 Mini	$0.0008	4.7s	100%	100	100	100	100	100	100	100	100%
55	Z.AI GLM 4.5 Air	$0.0012	28.2s	100%	100	100	100	100	100	100	100	100%
41	Hermes 3 405B	$0.0010	16.7s	100%	100	100	100	100	100	100	100	100%
64	GPT-4o, Aug. 6th (temp=1)	$0.0052	2.0s	100%	100	100	100	100	100	100	100	100%
65	GPT-4o, Aug. 6th (temp=0)	$0.0052	2.3s	100%	100	100	100	100	100	100	100	100%
53	Mistral Large 2	$0.0035	5.8s	100%	100	100	100	100	100	100	100	100%
70	DeepSeek V3.2	$0.0003	56.0s	100%	100	100	100	100	100	100	100	100%
6	DeepSeek V4 Flash	$0.0001	7.1s	100%	100	100	100	100	100	100	100	100%
28	Grok 4.20	$0.0016	3.3s	100%	100	100	100	100	100	100	100	100%
2	Gemini 2.5 Flash Lite	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100%
17	Gemini 2.5 Flash	$0.0012	1.7s	100%	100	100	100	100	100	100	100	100%
54	Mistral Large	$0.0035	6.2s	100%	100	100	100	100	100	100	100	100%
15	Qwen3 235B A22B Instruct 2507	$0.0003	9.9s	100%	100	100	100	100	100	100	100	100%
56	Writer: Palmyra X5	$0.0028	13.9s	100%	100	100	100	100	100	100	100	100%
12	GPT-4o Mini (temp=1)	$0.0003	7.6s	100%	100	100	100	100	100	100	100	100%
4	Mistral Small 3.2 24B	$0.0002	3.5s	100%	100	100	100	100	100	100	100	100%
11	GPT-4o Mini (temp=0)	$0.0003	7.1s	100%	100	100	100	100	100	100	100	100%
24	Gemma 3 27B	$0.0001	14.6s	100%	100	100	100	100	100	100	100	100%
18	Mistral Medium 3.1	$0.0010	4.3s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small 4	$0.0003	2.6s	100%	100	100	100	100	100	100	100	100%
13	Qwen 2.5 72B	$0.0002	8.5s	100%	100	100	100	100	100	100	100	100%
36	Llama 3.1 Nemotron 70B	$0.0012	10.9s	100%	100	100	100	100	100	100	100	100%
3	Ministral 3 8B	$0.0001	3.0s	100%	100	100	100	100	100	100	100	100%
62	WizardLM 2 8x22b	$0.0007	41.6s	100%	100	100	100	100	100	100	100	100%
1	Ministral 8B	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100%
8	LFM2 24B	$0.0001	8.1s	100%	100	100	100	100	100	100	100	100%
79	GPT-5 Mini	$0.0043	31.7s	99%	100	100	100	100	100	100	99	100%
120	Qwen 3.5 27B	$0.011	50.7s	99%	100	100	100	100	100	100	99	100%
99	Qwen 3.6 Flash	$0.0082	24.1s	99%	100	100	100	100	100	100	99	100%
52	Z.AI GLM 4.6	$0.0024	11.6s	99%	100	100	100	100	100	100	99	100%
124	MiniMax M2.7	$0.0074	1.6m	99%	100	100	100	100	100	100	99	100%
114	o4 Mini	$0.013	20.4s	99%	100	100	100	100	100	100	99	100%
98	Xiaomi MIMO v2.5 Pro	$0.0072	31.0s	99%	100	100	100	100	100	100	99	100%
77	GPT-OSS 120B	$0.0011	1.0m	99%	100	100	100	100	100	100	99	100%
14	Gemini 3.1 Flash Lite (Preview)	$0.0008	1.6s	99%	100	100	100	100	100	100	99	100%
35	DeepSeek-V2 Chat	$0.0007	12.8s	99%	100	100	100	100	100	100	99	100%
78	GPT-5.4	$0.0072	4.5s	99%	100	100	100	100	100	100	99	100%
63	DeepSeek V4 Pro	$0.0015	33.0s	99%	100	100	100	100	100	100	99	100%
10	Gemma 3 12B	$0.0001	5.9s	99%	100	100	100	100	100	100	99	100%
22	Llama 3.1 70B	$0.0005	7.8s	99%	100	100	100	100	100	100	99	100%
30	Stealth: Hunter Alpha	$0.0000	14.6s	99%	100	100	100	100	100	99	99	100%
107	Qwen 3.5 9B	$0.0013	1.7m	99%	100	100	100	100	100	99	99	100%
71	Nemotron 3 Super	$0.0000	55.5s	99%	100	100	100	100	100	99	99	100%
38	Inception Mercury 2	$0.0019	2.7s	99%	100	100	100	100	100	99	99	100%
37	Arcee AI: Trinity Large (Preview)	$0.0000	18.5s	99%	100	100	100	100	100	99	99	100%
19	Claude 3 Haiku	$0.0007	3.7s	99%	100	100	100	100	100	99	99	100%
84	GPT-5.4 (Reasoning, Low)	$0.0077	4.7s	99%	100	100	100	100	99	99	99	100%
32	Grok 4 Fast	$0.0008	7.0s	99%	100	100	100	100	100	99	98	100%
27	Stealth: Healer Alpha	$0.0000	13.3s	99%	100	100	100	100	99	99	99	100%
73	Xiaomi MIMO v2.5	$0.0050	18.6s	99%	100	100	100	100	99	99	99	100%
39	DeepSeek V3 (2025-03-24)	$0.0005	14.0s	99%	100	100	100	100	100	99	98	100%
57	MiniMax M2.5	$0.0017	19.9s	99%	100	100	100	100	99	99	98	100%
104	GPT-5 Nano	$0.0033	1.3m	99%	100	100	100	100	99	99	98	100%
45	Grok 4.1 Fast	$0.0008	13.1s	98%	100	100	100	99	99	99	98	99%
89	Z.AI GLM 4.7 Flash	$0.0015	1.0m	99%	100	100	99	99	99	99	99	99%
61	Qwen 3 32B	$0.0007	30.6s	98%	100	100	100	99	99	99	98	99%
21	Arcee AI: Trinity Mini	$0.0002	4.6s	99%	100	100	99	99	99	99	99	99%
75	Cohere Command R+ (Aug. 2024)	$0.0055	9.9s	98%	100	100	100	99	99	99	98	99%
97	Grok 4.3 (Reasoning)	$0.0068	26.7s	99%	100	99	99	99	99	99	99	99%
46	Gemini 2.5 Flash Lite (Reasoning)	$0.0014	9.7s	99%	100	99	99	99	99	99	99	99%
50	GPT-5.4 Mini	$0.0022	2.1s	98%	100	100	100	100	99	99	97	99%
127	Qwen 3.5 35B	$0.013	59.8s	98%	100	100	99	99	99	99	98	99%
29	Llama 3.1 8B	$0.0000	7.8s	99%	99	99	99	99	99	98	98	99%
34	Ministral 3 14B	$0.0002	3.3s	97%	100	100	98	98	98	98	98	99%
23	GPT-4.1 Nano	$0.0002	3.1s	98%	99	99	99	99	98	98	98	99%
103	Qwen 3.5 Flash	$0.0033	51.7s	94%	100	100	100	100	100	100	91	99%
33	Mistral Small Creative	$0.0002	2.4s	98%	98	98	98	98	98	98	98	98%
47	Mistral NeMO	$0.0001	1.8s	95%	99	99	99	99	99	96	94	98%
60	Inception Mercury	$0.0003	11.3s	95%	98	98	98	98	96	96	95	97%
93	GPT-5.4 Mini (Reasoning, Low)	$0.0030	3.9s	89%	100	100	100	100	99	98	83	97%
74	ByteDance Seed 1.6 Flash	$0.0008	15.6s	91%	100	99	98	98	98	96	88	97%
49	Ministral 3 3B	$0.0001	1.5s	96%	98	97	97	97	97	97	96	97%
67	GPT-5.4 Nano (Reasoning)	$0.0008	3.8s	93%	99	98	98	98	97	97	91	97%
48	Ministral 3B	$0.0000	1.5s	96%	97	97	97	97	96	96	96	97%
108	GPT-5.4 Mini (Reasoning)	$0.0044	7.8s	86%	100	100	100	98	97	95	82	96%
82	Grok 4.3	$0.0016	4.1s	89%	100	100	100	99	90	90	89	95%
69	GPT-5.4 Nano	$0.0006	2.8s	93%	98	97	96	96	95	95	91	95%
115	Mistral Small 4 (Reasoning)	$0.0021	18.9s	78%	100	99	99	99	99	98	69	95%
96	Skyfall 36B V2	$0.0006	7.0s	85%	100	100	98	93	92	91	90	95%
116	Cydonia 24B V4.1	$0.0004	8.3s	72%	100	100	100	100	99	96	59	93%
92	GPT-5.4 Nano (Reasoning, Low)	$0.0006	2.4s	88%	95	94	92	91	91	91	91	92%
149	Nemotron 3 Nano	$0.0029	3.8m	47%	100	99	99	98	69	64	26	79%
136	Gemma 3 4B	$0.0001	6.1s	72%	72	72	72	72	72	72	72	72%
148	DeepSeek V3.1	$0.0004	36.2s	15%	100	100	100	100	38	9	3	64%
150	Rocinante 12B	$0.0003	5.5s	16%	82	81	76	71	0	0	0	44%
151	Hermes 3 70B	$0.0044	6.3m	0%	100	0	0	0	0	0	0	14%
98.01%