Expand all contractions

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.6	100%
Claude Opus 4.8 (Reasoning, Low)	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Grok 4.5 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s
Mistral Small 3.2 24B	100%	$0.0002	3.7s
Gemini 3.1 Flash Lite	100%	$0.0007	1.5s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	1.5s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0007	1.5s
DeepSeek V4 Flash	100%	$0.0001	5.6s
Mistral Small 4	99%	$0.0003	2.4s
GPT-4o Mini (temp=1)	100%	$0.0003	7.0s
Mistral NeMO	98%	$0.0001	2.6s
Gemini 2.5 Flash	100%	$0.0012	1.8s
Ministral 8B	95%	$0.0001	2.4s
GPT-4o Mini (temp=0)	100%	$0.0003	8.4s
ByteDance Seed 1.6 Flash	100%	$0.0004	8.4s
Qwen3 235B A22B Instruct 2507	100%	$0.0003	11.9s
GPT-5.4 Nano (Reasoning, Low)	98%	$0.0006	2.4s
Qwen 2.5 72B	100%	$0.0002	7.7s
Inception Mercury 2	97%	$0.0012	1.6s
Ministral 3 14B	98%	$0.0002	3.2s
GPT-5.4 Nano (Reasoning)	98%	$0.0006	2.5s
Mistral Large 3	100%	$0.0008	5.8s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0002	1.3s	100%
Gemini 3.1 Flash Lite	100%	$0.0007	1.5s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0007	1.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0007	1.5s	100%
Mistral Small 3.2 24B	100%	$0.0002	3.7s	100%
Gemini 2.5 Flash	100%	$0.0012	1.8s	100%
DeepSeek V4 Flash	100%	$0.0001	5.6s	100%
Mistral Small 4	99%	$0.0003	2.4s	99%
Gemini 3 Flash (Preview)	100%	$0.0015	2.7s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	7.0s	100%
Mistral Large 3	100%	$0.0008	5.8s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0012	5.5s	100%
GPT-4o Mini (temp=0)	100%	$0.0003	8.4s	100%
Mistral NeMO	98%	$0.0001	2.6s	97%
Gemini 2.5 Flash Lite (Reasoning)	99%	$0.0008	4.6s	99%
ByteDance Seed 1.6 Flash	100%	$0.0004	8.4s	99%
Claude Haiku 4.5	100%	$0.0027	2.2s	100%
Qwen 2.5 72B	100%	$0.0002	7.7s	98%
Grok 4.20	99%	$0.0015	3.4s	99%
GPT-4.1 Mini	99%	$0.0008	5.1s	99%

Median	Evaluator	Top 3	Flop 3
100.0%	Contraction expansion accuracy	100Gemini 2.5 Flash Lite 100Claude Sonnet 5 (Reasoning) 100Aion 3.0	32Cohere Command R+ (Aug. 2024) 32Ministral 3 3B 34Ministral 3B
100.0%	Non-contraction text preserved	100Gemma 3 27B 100MiniMax M3 100Mistral Small 4 (Reasoning)	40Ministral 3 3B 43Ministral 3B 46Cohere Command R+ (Aug. 2024)
100.0%	Possessive traps preserved	100Claude Haiku 4.5 100Z.AI GLM 4.7 100Z.AI GLM 5.2 (Reasoning, High)	14Z.AI GLM 4.5 29Cohere Command R+ (Aug. 2024) 50Ministral 3 3B

Text Replacement

Expand all contractions

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
112	GPT-5.6 Sol (Reasoning)	$0.020	7.0s	100%	100	100	100	100	100	100	100	100%
95	Claude Opus 4.6 (Reasoning)	$0.014	5.1s	100%	100	100	100	100	100	100	100	100%
135	Qwen3.7 Max	$0.030	53.4s	100%	100	100	100	100	100	100	100	100%
89	Grok 4.5 (Reasoning, High)	$0.0095	15.5s	100%	100	100	100	100	100	100	100	100%
133	Gemini 3.1 Pro (Preview)	$0.033	29.1s	100%	100	100	100	100	100	100	100	100%
111	Z.AI GLM 5.1	$0.0083	46.4s	100%	100	100	100	100	100	100	100	100%
140	Qwen3.6 Max Preview	$0.029	1.6m	100%	100	100	100	100	100	100	100	100%
109	GPT-5.5 (Reasoning)	$0.019	7.8s	100%	100	100	100	100	100	100	100	100%
42	Z.AI GLM 5.2 (Reasoning, High)	$0.0029	9.5s	100%	100	100	100	100	100	100	100	100%
121	Gemini 3.5 Flash (Reasoning)	$0.025	10.2s	100%	100	100	100	100	100	100	100	100%
88	Z.AI GLM 5 Turbo	$0.0082	19.2s	100%	100	100	100	100	100	100	100	100%
139	MoonshotAI: Kimi K2.6	$0.017	1.9m	100%	100	100	100	100	100	100	100	100%
98	GPT-5.5 (Reasoning, Low)	$0.015	4.9s	100%	100	100	100	100	100	100	100	100%
59	GPT-5.6 Terra (Reasoning)	$0.0070	2.1s	100%	100	100	100	100	100	100	100	100%
91	Claude Opus 4.6	$0.013	4.9s	100%	100	100	100	100	100	100	100	100%
106	Claude Opus 4.8 (Reasoning, Low)	$0.016	5.9s	100%	100	100	100	100	100	100	100	100%
128	GPT-5	$0.022	32.7s	100%	100	100	100	100	100	100	100	100%
137	Qwen 3.5 397B A17B	$0.0094	2.2m	100%	100	100	100	100	100	100	100	100%
81	Grok 4.5 (Reasoning, Low)	$0.0084	12.0s	100%	100	100	100	100	100	100	100	100%
78	Grok 4.20 (Reasoning)	$0.0052	20.7s	100%	100	100	100	100	100	100	100	100%
138	MoonshotAI: Kimi K2.5	$0.010	2.2m	100%	100	100	100	100	100	100	100	100%
93	GPT-5.6 Sol	$0.014	3.6s	100%	100	100	100	100	100	100	100	100%
74	GPT-5.1	$0.0083	6.9s	100%	100	100	100	100	100	100	100	100%
86	MiniMax M3	$0.0022	37.6s	100%	100	100	100	100	100	100	100	100%
64	Claude Sonnet 5 (Reasoning)	$0.0067	6.8s	100%	100	100	100	100	100	100	100	100%
125	Qwen 3.5 122B	$0.018	40.6s	100%	100	100	100	100	100	100	100	100%
76	Claude Sonnet 5 (Reasoning, Low)	$0.0081	7.8s	100%	100	100	100	100	100	100	100	100%
115	Qwen 3.5 27B	$0.011	43.0s	100%	100	100	100	100	100	100	100	100%
85	Gemini 3 Flash (Preview, Reasoning)	$0.0091	14.9s	100%	100	100	100	100	100	100	100	100%
90	Claude Opus 4.5	$0.013	4.5s	100%	100	100	100	100	100	100	100	100%
79	Z.AI GLM 5	$0.0041	25.1s	100%	100	100	100	100	100	100	100	100%
58	GPT-5.2	$0.0063	4.3s	100%	100	100	100	100	100	100	100	100%
94	GPT-5.5	$0.014	3.9s	100%	100	100	100	100	100	100	100	100%
119	Gemma 4 26B (Reasoning)	$0.0012	1.4m	100%	100	100	100	100	100	100	100	100%
97	Aion 3.0	$0.0088	25.7s	100%	100	100	100	100	100	100	100	100%
129	Gemini 2.5 Pro	$0.027	19.1s	100%	100	100	100	100	100	100	100	100%
126	Qwen 3.6 27B	$0.014	55.1s	100%	100	100	100	100	100	100	100	100%
120	Z.AI GLM 4.7	$0.0055	1.2m	100%	100	100	100	100	100	100	100	100%
80	Qwen 3.6 35B	$0.0043	25.3s	100%	100	100	100	100	100	100	100	100%
117	Z.AI GLM 4.6	$0.0052	1.1m	100%	100	100	100	100	100	100	100	100%
70	Claude Sonnet 4	$0.0080	5.0s	100%	100	100	100	100	100	100	100	100%
66	Claude Sonnet 4.5	$0.0080	3.9s	100%	100	100	100	100	100	100	100	100%
63	Claude Sonnet 5	$0.0064	7.1s	100%	100	100	100	100	100	100	100	100%
134	Claude Opus 4	$0.040	6.5s	100%	100	100	100	100	100	100	100	100%
12	Qwen 3.5 Plus (2026-02-15)	$0.0012	5.5s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Reasoning)	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
34	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0044	2.2s	100%	100	100	100	100	100	100	100	100%
9	Gemini 3 Flash (Preview)	$0.0015	2.7s	100%	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
46	Gemma 4 31B	$0.0002	19.8s	100%	100	100	100	100	100	100	100	100%
2	Gemini 3.1 Flash Lite	$0.0007	1.5s	100%	100	100	100	100	100	100	100	100%
32	Gemma 4 26B	$0.0002	15.5s	100%	100	100	100	100	100	100	100	100%
11	Mistral Large 3	$0.0008	5.8s	100%	100	100	100	100	100	100	100	100%
92	ByteDance Seed 2.0 Lite	$0.0034	38.1s	100%	100	100	100	100	100	100	100	100%
36	Gemini 2.5 Flash (Reasoning)	$0.0035	5.2s	100%	100	100	100	100	100	100	100	100%
30	DeepSeek-V2 Chat	$0.0006	13.8s	100%	100	100	100	100	100	100	100	100%
114	Aion 3.0 Mini	$0.0038	1.1m	100%	100	100	100	100	100	100	100	100%
17	Claude Haiku 4.5	$0.0027	2.2s	100%	100	100	100	100	100	100	100	100%
31	DeepSeek V3 (2024-12-26)	$0.0006	13.9s	100%	100	100	100	100	100	100	100	100%
40	GPT-4o, Aug. 6th (temp=0)	$0.0050	2.3s	100%	100	100	100	100	100	100	100	100%
7	DeepSeek V4 Flash	$0.0001	5.6s	100%	100	100	100	100	100	100	100	100%
53	Nemotron 3 Super	$0.0000	22.7s	100%	100	100	100	100	100	100	100	100%
35	Mistral Large 2	$0.0033	5.8s	100%	100	100	100	100	100	100	100	100%
41	GPT-4o, Aug. 6th (temp=1)	$0.0050	2.5s	100%	100	100	100	100	100	100	100	100%
39	Hermes 3 405B	$0.0009	15.8s	100%	100	100	100	100	100	100	100	100%
50	Z.AI GLM 4.5 Air	$0.0012	18.3s	100%	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash	$0.0012	1.8s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100%
56	Writer: Palmyra X5	$0.0027	14.6s	100%	100	100	100	100	100	100	100	100%
23	Qwen3 235B A22B Instruct 2507	$0.0003	11.9s	100%	100	100	100	100	100	100	100	100%
10	GPT-4o Mini (temp=1)	$0.0003	7.0s	100%	100	100	100	100	100	100	100	100%
5	Mistral Small 3.2 24B	$0.0002	3.7s	100%	100	100	100	100	100	100	100	100%
13	GPT-4o Mini (temp=0)	$0.0003	8.4s	100%	100	100	100	100	100	100	100	100%
61	WizardLM 2 8x22b	$0.0005	25.2s	100%	100	100	100	100	100	100	100	100%
22	Hermes 3 70B	$0.0003	11.8s	100%	100	100	100	100	100	100	100	100%
99	ByteDance Seed 1.6	$0.0038	41.5s	99%	100	100	100	100	100	100	99	100%
83	Qwen 3.6 Flash	$0.0062	19.3s	99%	100	100	100	100	100	100	99	100%
108	o4 Mini High	$0.013	21.5s	99%	100	100	100	100	100	100	99	100%
44	DeepSeek V4 Flash (Reasoning)	$0.0004	17.6s	99%	100	100	100	100	100	100	99	100%
38	GPT-4.1	$0.0040	3.2s	99%	100	100	100	100	100	100	99	100%
57	MiniMax M2.7	$0.0015	17.3s	99%	100	100	100	100	100	100	99	100%
69	GPT-OSS 120B	$0.0010	26.6s	99%	100	100	100	100	100	100	99	100%
51	Xiaomi MIMO v2.5	$0.0029	11.6s	99%	100	100	100	100	100	100	99	100%
47	DeepSeek V3.2	$0.0003	19.0s	99%	100	100	100	100	100	100	99	100%
118	Z.AI GLM 4.7 Flash	$0.0014	1.3m	99%	100	100	100	100	100	100	99	100%
60	DeepSeek V3 (2025-03-24)	$0.0005	23.6s	99%	100	100	100	100	100	100	99	100%
43	Llama 3.1 70B	$0.0004	16.8s	99%	100	100	100	100	100	100	99	100%
16	ByteDance Seed 1.6 Flash	$0.0004	8.4s	99%	100	100	100	100	100	100	99	100%
107	Claude Opus 4.8 (Reasoning)	$0.016	6.0s	99%	100	100	100	100	100	99	99	100%
71	Claude Sonnet 4.6	$0.0080	3.5s	99%	100	100	100	100	100	99	99	100%
28	GPT-5.4 Mini (Reasoning)	$0.0030	3.6s	99%	100	100	100	100	100	99	99	100%
124	Qwen 3.5 Plus (2026-04-20)	$0.0099	1.0m	99%	100	100	100	100	100	99	99	100%
116	DeepSeek V4 Pro (Reasoning)	$0.0027	1.1m	99%	100	100	100	100	100	100	98	100%
100	Aion 2.0	$0.0034	43.1s	99%	100	100	100	100	100	99	99	100%
84	o4 Mini	$0.0085	14.6s	99%	100	100	100	100	100	99	99	100%
75	DeepSeek V3.1	$0.0005	30.2s	99%	100	100	100	100	100	100	98	100%
67	GPT-5.4 (Reasoning, Low)	$0.0072	4.6s	99%	100	100	100	100	99	99	99	100%
104	Claude Opus 4.7	$0.016	3.6s	99%	100	100	100	100	99	99	99	100%
110	ByteDance Seed 2.0 Mini	$0.0012	1.1m	99%	100	100	100	100	99	99	99	100%
65	GPT-5.4	$0.0070	4.4s	99%	100	100	100	100	99	99	99	100%
82	GPT-5 Nano	$0.0014	33.1s	99%	100	100	100	100	99	99	99	100%
87	GPT-5 Mini	$0.0041	29.2s	99%	100	100	100	100	99	99	98	100%
48	Xiaomi MIMO v2.5 Pro	$0.0023	11.1s	99%	100	100	100	100	99	99	98	100%
33	Gemma 3 27B	$0.0001	13.3s	99%	100	100	100	100	99	99	98	100%
18	Qwen 2.5 72B	$0.0002	7.7s	98%	100	100	100	99	99	99	99	100%
103	GPT-5.4 (Reasoning)	$0.013	11.3s	98%	100	100	100	99	99	99	98	99%
131	Claude Sonnet 4.6 (Reasoning)	$0.029	20.3s	99%	100	100	99	99	99	99	99	99%
15	Gemini 2.5 Flash Lite (Reasoning)	$0.0008	4.6s	99%	100	100	99	99	99	99	99	99%
54	DeepSeek V4 Pro	$0.0014	14.6s	99%	100	100	99	99	99	99	99	99%
73	GPT-5.6 Terra	$0.0070	2.8s	97%	100	100	100	100	100	100	95	99%
19	Grok 4.20	$0.0015	3.4s	99%	100	99	99	99	99	99	99	99%
8	Mistral Small 4	$0.0003	2.4s	99%	100	99	99	99	99	99	99	99%
105	Claude Opus 4.7 (Reasoning)	$0.016	3.3s	99%	99	99	99	99	99	99	99	99%
123	Gemma 4 31B (Reasoning)	$0.0007	1.5m	98%	100	99	99	99	99	99	98	99%
49	GPT-5.6 Luna (Reasoning)	$0.0037	4.3s	98%	100	100	99	99	98	98	98	99%
20	GPT-4.1 Mini	$0.0008	5.1s	99%	99	99	99	99	99	98	98	99%
45	Mistral Small 4 (Reasoning)	$0.0010	8.2s	96%	100	100	99	99	98	98	95	99%
26	Mistral Medium 3.1	$0.0010	5.4s	98%	98	98	98	98	98	98	98	98%
14	Mistral NeMO	$0.0001	2.6s	97%	99	98	98	98	98	98	98	98%
21	GPT-5.4 Nano (Reasoning)	$0.0006	2.5s	97%	99	98	98	98	98	98	98	98%
24	GPT-5.4 Nano (Reasoning, Low)	$0.0006	2.4s	97%	99	98	98	98	98	98	97	98%
37	Gemma 3 12B	$0.0001	7.4s	97%	99	98	98	98	98	98	98	98%
25	Ministral 3 14B	$0.0002	3.2s	97%	98	98	98	98	98	98	98	98%
55	GPT-5.6 Luna	$0.0028	2.8s	96%	99	98	98	98	98	98	96	98%
27	GPT-5.4 Nano	$0.0006	2.5s	96%	98	98	98	98	98	96	96	98%
113	Grok 4.3 (Reasoning)	$0.0067	30.9s	88%	100	100	100	100	100	99	83	98%
29	GPT-4.1 Nano	$0.0002	2.8s	96%	98	98	98	97	97	97	97	97%
127	Qwen 3.5 Flash	$0.0028	1.2m	89%	100	100	100	100	98	98	83	97%
72	Inception Mercury 2	$0.0012	1.6s	87%	100	100	100	99	99	99	83	97%
68	Cydonia 24B V4.1	$0.0003	9.6s	92%	100	100	100	99	93	93	91	97%
77	Arcee AI: Trinity Mini	$0.0003	12.7s	90%	100	98	98	98	98	98	87	97%
52	Ministral 3 8B	$0.0001	3.2s	93%	98	98	98	98	96	96	91	96%
62	Ministral 8B	$0.0001	2.4s	91%	98	98	98	98	96	91	89	95%
101	Grok 4.3	$0.0016	2.9s	77%	100	100	100	100	100	100	67	95%
132	MiniMax M2.5	$0.0014	1.2m	77%	100	100	100	99	99	99	67	95%
130	Qwen 3.5 35B	$0.012	42.7s	85%	100	100	100	100	98	83	83	95%
145	Qwen 3.5 9B	$0.0013	2.1m	47%	100	100	99	99	99	99	24	89%
102	GPT-5.4 Mini (Reasoning, Low)	$0.0021	3.0s	85%	91	90	89	89	88	87	84	88%
96	GPT-5.4 Mini	$0.0021	1.8s	87%	90	88	88	88	88	88	88	88%
122	Gemma 3 4B	$0.0001	4.7s	71%	89	78	78	78	78	77	76	79%
142	Qwen 3 32B	$0.0004	20.5s	20%	99	99	99	99	99	11	11	74%
141	Nemotron 3 Nano	$0.0004	32.3s	34%	100	98	98	92	59	41	16	72%
136	Z.AI GLM 4.5	$0.0013	11.4s	51%	100	67	67	67	67	67	67	71%
143	Ministral 3B	$0.0000	1.6s	35%	59	59	49	42	42	39	39	47%
144	Ministral 3 3B	$0.0001	1.5s	40%	42	42	41	41	40	39	39	41%
146	Cohere Command R+ (Aug. 2024)	$0.0052	18.7s	25%	57	48	33	32	32	29	18	36%
97.35%