Tense rewriting: past to present

Text Replacement

Tests deterministic text transformations: renaming characters/locations, expanding contractions, tense rewriting, POV shifts, gender swaps, combined transformations, and word avoidance. Scored by checking each expected change independently.

Text Editing

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Gemini 3.5 Flash (Reasoning)	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.6 Terra (Reasoning)	100%
Claude Opus 4.6	100%
GPT-5	100%
GPT-5 Mini	100%
Qwen 3.5 397B A17B	100%
GPT-5.4 (Reasoning, Low)	100%
GPT-5.6 Sol	100%
Claude Sonnet 4.6	100%

	Score	Cost	Time
Ministral 3B	99%	$0.0000	1.9s
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s
Mistral Small 3.2 24B	100%	$0.0002	4.6s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.8s
Gemini 3.1 Flash Lite	100%	$0.0009	2.0s
Gemma 4 26B	100%	$0.0003	18.6s
DeepSeek V4 Flash	100%	$0.0002	9.8s
Gemini 2.5 Flash	100%	$0.0015	2.1s
Gemma 3 12B	100%	$0.0001	8.4s
Mistral Medium 3.1	100%	$0.0013	5.3s
GPT-4.1 Mini	100%	$0.0011	6.5s
Qwen 2.5 72B	100%	$0.0003	10.7s
Mistral Small 4	99%	$0.0004	5.1s
Ministral 3 14B	99%	$0.0002	3.9s
Mistral Large 3	100%	$0.0011	7.8s
Grok 4.20	100%	$0.0018	4.3s
Qwen 3.5 Plus (2026-02-15)	100%	$0.0015	6.4s
GPT-5.4 Mini	100%	$0.0027	2.3s
Grok 4.3	100%	$0.0020	4.6s

	Score	Cost	Speed	Stability
Gemini 2.5 Flash Lite	100%	$0.0003	1.6s	100%
Mistral Small 3.2 24B	100%	$0.0002	4.6s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0009	1.8s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0009	1.7s	100%
Gemini 3.1 Flash Lite	100%	$0.0009	2.0s	100%
Gemma 3 12B	100%	$0.0001	8.4s	100%
Gemini 2.5 Flash	100%	$0.0015	2.1s	100%
DeepSeek V4 Flash	100%	$0.0002	9.8s	100%
Ministral 3 14B	99%	$0.0002	3.9s	99%
Mistral Medium 3.1	100%	$0.0013	5.3s	100%
GPT-4.1 Mini	100%	$0.0011	6.5s	100%
Qwen 2.5 72B	100%	$0.0003	10.7s	100%
Mistral Large 3	100%	$0.0011	7.8s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0015	6.4s	100%
Grok 4.20	100%	$0.0018	4.3s	100%
Mistral NeMO	99%	$0.0002	2.7s	99%
GPT-5.4 Mini	100%	$0.0027	2.3s	100%
Mistral Small 4	99%	$0.0004	5.1s	98%
Qwen3 235B A22B Instruct 2507	100%	$0.0004	14.0s	100%
Gemma 3 27B	100%	$0.0002	13.2s	100%

Median	Evaluator	Top 3	Flop 3
100.0%	Dialogue content preserved	100Claude Sonnet 4.6 100GPT-4o, Aug. 6th (temp=1) 100MiniMax M3	43Hermes 3 70B 70GPT-4o Mini (temp=0) 73GPT-4o Mini (temp=1)
100.0%	Setting descriptions preserved	100Ministral 3B 100Qwen 3.5 9B 100Grok 4.20 (Reasoning)	43Hermes 3 70B 77Arcee AI: Trinity Mini 89Z.AI GLM 4.7 Flash
100.0%	Tense transformation accuracy	100Gemini 3.5 Flash (Reasoning) 100GPT-5.4 Mini 100Mistral Small 3.2 24B	43Hermes 3 70B 80Gemini 2.5 Flash Lite (Reasoning) 84Z.AI GLM 4.7 Flash

Text Replacement

Tense rewriting: past to present

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Total
111	GPT-5.6 Sol (Reasoning)	$0.030	8.9s	100%	100	100	100	100	100	100	100	100%
141	Claude Opus 4.6 (Reasoning)	$0.061	28.7s	100%	100	100	100	100	100	100	100	100%
128	Qwen3.7 Max	$0.037	1.0m	100%	100	100	100	100	100	100	100	100%
103	Grok 4.5 (Reasoning, High)	$0.019	30.6s	100%	100	100	100	100	100	100	100	100%
139	Gemini 3.1 Pro (Preview)	$0.052	50.9s	100%	100	100	100	100	100	100	100	100%
118	Z.AI GLM 5.1	$0.021	1.3m	100%	100	100	100	100	100	100	100	100%
140	Qwen3.6 Max Preview	$0.038	2.1m	100%	100	100	100	100	100	100	100	100%
142	Claude Sonnet 4.6 (Reasoning)	$0.061	33.9s	100%	100	100	100	100	100	100	100	100%
93	Z.AI GLM 5.2 (Reasoning, High)	$0.013	42.3s	100%	100	100	100	100	100	100	100	100%
122	Gemini 3.5 Flash (Reasoning)	$0.040	16.6s	100%	100	100	100	100	100	100	100	100%
137	MoonshotAI: Kimi K2.6	$0.022	2.6m	100%	100	100	100	100	100	100	100	100%
101	Claude Opus 4.7 (Reasoning)	$0.024	4.1s	100%	100	100	100	100	100	100	100	100%
77	GPT-5.6 Terra (Reasoning)	$0.015	8.0s	100%	100	100	100	100	100	100	100	100%
83	Claude Opus 4.6	$0.017	5.6s	100%	100	100	100	100	100	100	100	100%
124	GPT-5	$0.035	53.1s	100%	100	100	100	100	100	100	100	100%
82	GPT-5 Mini	$0.0074	51.5s	100%	100	100	100	100	100	100	100	100%
136	Qwen 3.5 397B A17B	$0.012	3.2m	100%	100	100	100	100	100	100	100	100%
61	GPT-5.4 (Reasoning, Low)	$0.011	7.0s	100%	100	100	100	100	100	100	100	100%
86	GPT-5.6 Sol	$0.018	5.2s	100%	100	100	100	100	100	100	100	100%
52	Claude Sonnet 4.6	$0.010	4.3s	100%	100	100	100	100	100	100	100	100%
91	MiniMax M3	$0.0048	1.4m	100%	100	100	100	100	100	100	100	100%
145	Qwen 3.5 122B	$0.068	2.8m	100%	100	100	100	100	100	100	100	100%
117	Qwen 3.5 27B	$0.020	1.4m	100%	100	100	100	100	100	100	100	100%
88	Gemini 3 Flash (Preview, Reasoning)	$0.015	23.9s	100%	100	100	100	100	100	100	100	100%
102	Claude Opus 4.7	$0.024	4.1s	100%	100	100	100	100	100	100	100	100%
113	Qwen 3.5 Plus (2026-04-20)	$0.014	1.6m	100%	100	100	100	100	100	100	100	100%
81	Claude Opus 4.5	$0.017	5.1s	100%	100	100	100	100	100	100	100	100%
123	Z.AI GLM 5	$0.015	2.2m	100%	100	100	100	100	100	100	100	100%
144	DeepSeek V4 Pro (Reasoning)	$0.026	5.4m	100%	100	100	100	100	100	100	100	100%
129	Gemma 4 26B (Reasoning)	$0.0021	3.8m	100%	100	100	100	100	100	100	100	100%
135	Aion 3.0	$0.031	1.7m	100%	100	100	100	100	100	100	100	100%
116	Gemini 2.5 Pro	$0.032	23.2s	100%	100	100	100	100	100	100	100	100%
49	GPT-5.6 Terra	$0.0091	2.8s	100%	100	100	100	100	100	100	100	100%
87	Z.AI GLM 4.7	$0.0100	44.9s	100%	100	100	100	100	100	100	100	100%
69	Qwen 3.6 35B	$0.0072	37.2s	100%	100	100	100	100	100	100	100	100%
55	Claude Sonnet 4	$0.010	5.8s	100%	100	100	100	100	100	100	100	100%
53	Claude Sonnet 4.5	$0.010	4.6s	100%	100	100	100	100	100	100	100	100%
134	Claude Opus 4	$0.052	7.6s	100%	100	100	100	100	100	100	100	100%
109	Qwen 3.5 35B	$0.018	56.9s	100%	100	100	100	100	100	100	100	100%
34	GPT-4.1	$0.0053	4.0s	100%	100	100	100	100	100	100	100	100%
70	Aion 2.0	$0.0041	52.2s	100%	100	100	100	100	100	100	100	100%
14	Qwen 3.5 Plus (2026-02-15)	$0.0015	6.4s	100%	100	100	100	100	100	100	100	100%
42	Xiaomi MIMO v2.5 Pro	$0.0043	18.3s	100%	100	100	100	100	100	100	100	100%
3	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	1.8s	100%	100	100	100	100	100	100	100	100%
64	Qwen 3.5 Flash	$0.0030	48.0s	100%	100	100	100	100	100	100	100	100%
35	Gemma 4 31B	$0.0003	29.2s	100%	100	100	100	100	100	100	100	100%
28	GPT-5.6 Luna	$0.0036	3.1s	100%	100	100	100	100	100	100	100	100%
27	Gemma 4 26B	$0.0003	18.6s	100%	100	100	100	100	100	100	100	100%
50	GPT-5.4	$0.0091	5.7s	100%	100	100	100	100	100	100	100	100%
13	Mistral Large 3	$0.0011	7.8s	100%	100	100	100	100	100	100	100	100%
76	ByteDance Seed 2.0 Lite	$0.0049	55.0s	100%	100	100	100	100	100	100	100	100%
58	Gemini 2.5 Flash (Reasoning)	$0.0064	26.5s	100%	100	100	100	100	100	100	100	100%
31	DeepSeek-V2 Chat	$0.0007	23.4s	100%	100	100	100	100	100	100	100	100%
45	Xiaomi MIMO v2.5	$0.0050	18.4s	100%	100	100	100	100	100	100	100	100%
24	Claude Haiku 4.5	$0.0034	2.8s	100%	100	100	100	100	100	100	100	100%
51	DeepSeek V3.2	$0.0004	50.2s	100%	100	100	100	100	100	100	100	100%
39	GPT-4o, Aug. 6th (temp=0)	$0.0066	2.6s	100%	100	100	100	100	100	100	100	100%
43	DeepSeek V4 Pro	$0.0014	33.8s	100%	100	100	100	100	100	100	100	100%
8	DeepSeek V4 Flash	$0.0002	9.8s	100%	100	100	100	100	100	100	100	100%
32	Mistral Large 2	$0.0043	7.5s	100%	100	100	100	100	100	100	100	100%
11	GPT-4.1 Mini	$0.0011	6.5s	100%	100	100	100	100	100	100	100	100%
38	GPT-4o, Aug. 6th (temp=1)	$0.0066	2.6s	100%	100	100	100	100	100	100	100	100%
7	Gemini 2.5 Flash	$0.0015	2.1s	100%	100	100	100	100	100	100	100	100%
17	GPT-5.4 Mini	$0.0027	2.3s	100%	100	100	100	100	100	100	100	100%
60	DeepSeek V3 (2025-03-24)	$0.0006	55.8s	100%	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash Lite	$0.0003	1.6s	100%	100	100	100	100	100	100	100	100%
33	Writer: Palmyra X5	$0.0035	11.7s	100%	100	100	100	100	100	100	100	100%
19	Qwen3 235B A22B Instruct 2507	$0.0004	14.0s	100%	100	100	100	100	100	100	100	100%
48	Llama 3.1 70B	$0.0005	41.1s	100%	100	100	100	100	100	100	100	100%
2	Mistral Small 3.2 24B	$0.0002	4.6s	100%	100	100	100	100	100	100	100	100%
10	Mistral Medium 3.1	$0.0013	5.3s	100%	100	100	100	100	100	100	100	100%
6	Gemma 3 12B	$0.0001	8.4s	100%	100	100	100	100	100	100	100	100%
12	Qwen 2.5 72B	$0.0003	10.7s	100%	100	100	100	100	100	100	100	100%
46	WizardLM 2 8x22b	$0.0007	38.6s	100%	100	100	100	100	100	100	100	100%
85	Z.AI GLM 5 Turbo	$0.013	28.7s	100%	100	100	100	100	100	100	99	100%
84	Grok 4.3 (Reasoning)	$0.0095	40.2s	100%	100	100	100	100	100	100	99	100%
40	GPT-5.6 Luna (Reasoning)	$0.0059	6.7s	100%	100	100	100	100	100	100	99	100%
66	GPT-5.4 Mini (Reasoning)	$0.0100	19.2s	100%	100	100	100	100	100	100	99	100%
127	Gemma 4 31B (Reasoning)	$0.0020	3.7m	100%	100	100	100	100	100	100	99	100%
4	Gemini 3.1 Flash Lite (Preview)	$0.0009	1.7s	100%	100	100	100	100	100	100	99	100%
5	Gemini 3.1 Flash Lite	$0.0009	2.0s	100%	100	100	100	100	100	100	99	100%
25	DeepSeek V3 (2024-12-26)	$0.0007	14.1s	100%	100	100	100	100	100	100	99	100%
15	Grok 4.20	$0.0018	4.3s	100%	100	100	100	100	100	100	99	100%
20	Gemma 3 27B	$0.0002	13.2s	100%	100	100	100	100	100	100	99	100%
108	GPT-5.5 (Reasoning, Low)	$0.027	12.1s	99%	100	100	100	100	100	99	99	100%
105	Claude Opus 4.8 (Reasoning, Low)	$0.024	7.1s	99%	100	100	100	100	100	99	99	100%
67	Grok 4.5 (Reasoning, Low)	$0.011	14.3s	99%	100	100	100	100	100	99	99	100%
80	GPT-5.2	$0.014	12.2s	99%	100	100	100	100	100	99	99	100%
89	GPT-5.5	$0.018	4.8s	99%	100	100	100	100	100	99	99	100%
36	Z.AI GLM 4.6	$0.0029	16.4s	99%	100	100	100	100	100	99	99	100%
112	ByteDance Seed 2.0 Mini	$0.0023	2.3m	99%	100	100	100	100	100	99	99	100%
94	Nemotron 3 Super	$0.0000	1.7m	99%	100	100	100	100	100	100	99	100%
110	GPT-5.4 (Reasoning)	$0.025	22.4s	99%	100	100	100	100	100	99	99	100%
23	Grok 4.3	$0.0020	4.6s	99%	100	100	100	100	100	99	99	100%
26	Cydonia 24B V4.1	$0.0005	13.4s	99%	100	100	100	100	100	99	99	100%
115	Qwen 3.5 9B	$0.0016	2.5m	99%	100	100	100	100	100	100	98	100%
59	Claude Sonnet 5	$0.0095	8.2s	99%	100	100	100	100	99	99	99	100%
100	GPT-5.1	$0.019	21.2s	99%	100	100	100	100	99	99	99	100%
120	GPT-5.5 (Reasoning)	$0.034	14.0s	99%	100	100	99	99	99	99	99	100%
72	Claude Sonnet 5 (Reasoning, Low)	$0.012	10.4s	99%	100	100	100	100	99	99	98	99%
106	Claude Opus 4.8 (Reasoning)	$0.024	7.6s	99%	100	99	99	99	99	99	99	99%
62	MiniMax M2.5	$0.0018	46.5s	99%	100	99	99	99	99	99	99	99%
18	Mistral Small 4	$0.0004	5.1s	98%	100	100	100	99	99	99	99	99%
107	Aion 3.0 Mini	$0.0057	1.6m	97%	100	100	100	100	100	100	96	99%
41	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0055	2.6s	98%	100	100	100	99	99	99	99	99%
29	Gemini 3 Flash (Preview)	$0.0018	3.1s	98%	100	100	100	99	99	99	97	99%
9	Ministral 3 14B	$0.0002	3.9s	99%	99	99	99	99	99	99	99	99%
71	Grok 4.20 (Reasoning)	$0.0077	24.4s	97%	100	100	100	100	100	99	96	99%
138	MiniMax M2.7	$0.015	3.5m	97%	100	100	100	100	100	99	96	99%
74	Claude Sonnet 5 (Reasoning)	$0.012	10.0s	99%	100	99	99	99	99	99	99	99%
21	Ministral 3B	$0.0000	1.9s	97%	100	100	100	100	99	99	95	99%
131	o4 Mini High	$0.035	53.1s	95%	100	100	100	100	100	100	93	99%
44	Hermes 3 405B	$0.0012	20.9s	97%	100	100	100	100	100	97	97	99%
56	Z.AI GLM 4.5 Air	$0.0016	33.2s	97%	100	100	100	100	100	97	97	99%
37	GPT-5.4 Mini (Reasoning, Low)	$0.0034	4.2s	97%	100	100	100	100	98	98	97	99%
132	MoonshotAI: Kimi K2.5	$0.015	2.5m	97%	100	100	100	100	100	97	96	99%
22	Ministral 3 8B	$0.0002	3.5s	98%	100	99	99	99	99	99	99	99%
54	Mistral Small 4 (Reasoning)	$0.0026	23.1s	96%	100	100	100	100	100	97	95	99%
73	Z.AI GLM 4.5	$0.0042	33.2s	95%	100	100	100	100	99	99	93	99%
16	Mistral NeMO	$0.0002	2.7s	99%	99	99	99	99	99	99	99	99%
65	DeepSeek V4 Flash (Reasoning)	$0.0009	40.4s	96%	100	100	100	100	99	96	95	99%
99	ByteDance Seed 1.6	$0.0058	1.0m	96%	99	99	99	99	99	99	95	98%
30	Ministral 8B	$0.0001	3.2s	96%	99	99	99	99	99	99	95	98%
92	GPT-5 Nano	$0.0031	1.1m	96%	100	100	100	100	96	96	96	98%
97	Qwen 3.6 Flash	$0.010	28.8s	94%	100	100	100	100	100	93	93	98%
114	o4 Mini	$0.019	32.7s	93%	100	100	100	100	100	96	90	98%
79	Qwen 3 32B	$0.0008	37.7s	92%	100	100	100	97	97	96	93	98%
47	Ministral 3 3B	$0.0001	2.2s	92%	99	99	99	96	95	95	95	97%
126	Qwen 3.6 27B	$0.018	1.2m	85%	100	100	100	100	99	99	78	97%
68	GPT-5.4 Nano (Reasoning)	$0.0020	10.9s	91%	100	100	100	99	93	93	89	96%
63	GPT-5.4 Nano (Reasoning, Low)	$0.0008	3.0s	90%	100	97	97	95	95	92	92	95%
75	ByteDance Seed 1.6 Flash	$0.0010	17.0s	91%	99	97	96	95	93	93	93	95%
57	Gemma 3 4B	$0.0001	5.3s	93%	97	97	97	97	93	93	93	95%
90	Inception Mercury 2	$0.0031	4.2s	83%	100	100	99	93	93	89	87	94%
78	GPT-5.4 Nano	$0.0008	3.2s	87%	100	99	97	95	92	89	89	94%
119	GPT-OSS 120B	$0.0008	1.1m	81%	100	96	96	89	89	89	85	92%
125	Nemotron 3 Nano	$0.0020	1.9m	84%	99	96	95	91	89	89	85	92%
130	Cohere Command R+ (Aug. 2024)	$0.0069	1.6m	80%	100	99	97	93	86	86	82	92%
98	GPT-4o Mini (temp=1)	$0.0004	9.1s	87%	93	93	89	89	89	89	89	90%
133	DeepSeek V3.1	$0.0008	32.4s	53%	100	100	100	100	100	100	32	90%
96	Arcee AI: Trinity Mini	$0.0002	6.7s	87%	93	92	92	91	89	89	85	90%
121	Gemini 2.5 Flash Lite (Reasoning)	$0.0028	21.5s	70%	100	100	100	99	96	67	65	90%
95	GPT-4o Mini (temp=0)	$0.0004	9.8s	89%	89	89	89	89	89	89	89	89%
104	GPT-4.1 Nano	$0.0003	3.5s	83%	93	93	89	89	89	86	83	89%
143	Z.AI GLM 4.7 Flash	$0.0022	1.7m	43%	99	96	95	92	92	90	19	83%
146	Hermes 3 70B	$0.0031	4.3m	0%	100	100	100	0	0	0	0	43%
98.43%