Dialogue content preserved

Test: Text Replacement

Avg. Score

94.6%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Qwen 2.5 72B	99.6%	$0.0003	12.0s	96%
2	Gemini 3.1 Flash Lite (Preview)	98.2%	$0.0011	1.9s	92%
3	Grok 4.20	98.8%	$0.0022	5.0s	93%
4	Gemini 3 Flash (Preview)	98.6%	$0.0021	3.5s	93%
5	DeepSeek V4 Flash	98.2%	$0.0002	8.7s	92%
6	Gemini 3.1 Flash Lite	97.5%	$0.0011	2.5s	91%
7	Gemini 3.1 Flash Lite (Reasoning)	97.5%	$0.0011	4.2s	91%
8	Gemini 2.5 Flash Lite	97.0%	$0.0003	1.9s	91%
9	Xiaomi MIMO v2.5	98.9%	$0.0036	14.2s	94%
10	Qwen 3.5 Plus (2026-02-15)	97.9%	$0.0017	7.8s	92%
11	Writer: Palmyra X5	98.6%	$0.0040	11.7s	93%
12	Mistral Large 3	97.5%	$0.0012	8.5s	91%
13	Gemma 4 31B	99.5%	$0.0004	35.2s	95%
14	Claude Haiku 4.5	97.5%	$0.0040	3.8s	91%
15	Gemma 4 26B	97.9%	$0.0003	17.2s	92%
16	Gemini 3.5 Flash (Reasoning, Minimal)	98.2%	$0.0064	2.9s	91%
17	Cydonia 24B V4.1	97.5%	$0.0005	13.7s	91%
18	Grok 4.20 (Beta)	98.0%	$0.0037	2.0s	88%
19	Gemma 3 4B	96.8%	$0.0001	6.9s	88%
20	Qwen3 235B A22B Instruct 2507	98.0%	$0.0004	15.1s	88%
21	Mistral Large	97.5%	$0.0049	8.3s	91%
22	Mistral Large 2	97.5%	$0.0049	8.4s	91%
23	Claude Opus 4.5	100.0%	$0.020	6.0s	100%
24	Claude Opus 4.6	100.0%	$0.020	6.6s	100%
25	Arcee AI: Trinity Large (Preview)	97.9%	$0.0000	26.5s	92%
26	Claude Sonnet 4.6	98.8%	$0.012	5.4s	93%
27	Claude Sonnet 4.5	98.7%	$0.012	5.4s	93%
28	DeepSeek V4 Pro	97.5%	$0.0015	21.7s	91%
29	Stealth: Healer Alpha	97.5%	$0.0000	18.7s	87%
30	GPT-5.4 Mini (Reasoning, Low)	95.9%	$0.0037	4.5s	89%
31	Xiaomi MIMO v2.5 Pro	97.7%	$0.0043	19.3s	91%
32	Grok 4 Fast	96.4%	$0.0010	8.5s	86%
33	Claude Sonnet 4	97.9%	$0.012	6.9s	92%
34	Mistral Small 4	95.9%	$0.0005	3.9s	82%
35	Claude 3.7 Sonnet	97.5%	$0.012	6.5s	91%
36	GPT-4o, May 13th (temp=1)	97.1%	$0.012	4.0s	91%
37	GPT-4o, May 13th (temp=0)	97.0%	$0.012	3.8s	91%
38	Gemini 2.5 Flash	95.2%	$0.0017	2.4s	83%
39	GPT-4.1 Mini	94.8%	$0.0012	8.2s	86%
40	Grok 4.3	95.4%	$0.0023	5.3s	83%
41	GPT-5.4 Nano (Reasoning)	94.8%	$0.0020	11.3s	86%
42	GPT-5.4 Mini	95.0%	$0.0031	2.5s	83%
43	GPT-5.5	98.8%	$0.021	5.4s	93%
44	GPT-4.1	96.6%	$0.0060	4.8s	82%
45	Mistral Small 3.2 24B	97.3%	$0.0002	5.5s	73%
46	Gemini 3 Flash (Preview, Reasoning)	98.9%	$0.015	24.9s	93%
47	Stealth: Hunter Alpha	96.1%	$0.0000	19.9s	81%
48	Grok 4.1 Fast	95.7%	$0.0012	15.5s	80%
49	Grok 4.20 (Reasoning)	98.6%	$0.011	36.3s	91%
50	Mistral Medium 3.1	93.8%	$0.0014	6.3s	80%
51	Hermes 3 405B	95.9%	$0.0013	25.3s	82%
52	GPT-5.4 Mini (Reasoning)	96.4%	$0.010	17.8s	87%
53	Claude Opus 4.7	98.9%	$0.028	5.2s	94%
54	GPT-5.4	95.9%	$0.010	6.5s	83%
55	Gemma 3 12B	93.9%	$0.0001	10.2s	78%
56	GPT-5.4 (Reasoning, Low)	96.2%	$0.013	8.2s	84%
57	Ministral 3 14B	93.2%	$0.0003	4.5s	77%
58	Z.AI GLM 5 Turbo	98.2%	$0.014	31.1s	89%
59	Z.AI GLM 4.5 Air	96.4%	$0.0028	51.0s	90%
60	DeepSeek V4 Flash (Reasoning)	98.2%	$0.0008	58.4s	86%
61	Claude 3.5 Sonnet	97.5%	$0.024	10.6s	91%
62	GPT-5.4 Nano (Reasoning, Low)	92.9%	$0.0009	5.5s	76%
63	GPT-4o, Aug. 6th (temp=0)	96.3%	$0.0074	3.0s	73%
64	Llama 3.1 8B	93.0%	$0.0001	11.5s	76%
65	Grok 4.20 (Beta, Reasoning)	97.9%	$0.022	13.6s	89%
66	GPT-5.4 Nano	91.8%	$0.0009	3.3s	76%
67	Ministral 3 3B	92.0%	$0.0001	2.3s	74%
68	Claude Opus 4.7 (Reasoning)	99.8%	$0.038	7.8s	97%
69	Qwen 3.6 35B	96.2%	$0.0079	42.1s	87%
70	Mistral Small Creative	91.6%	$0.0002	3.3s	74%
71	GPT-5.5 (Reasoning, Low)	97.9%	$0.026	8.9s	88%
72	DeepSeek V3.2	96.4%	$0.0005	52.3s	82%
73	GPT-5 Mini	96.8%	$0.0074	46.2s	86%
74	Gemma 3 27B	93.0%	$0.0002	18.5s	76%
75	Z.AI GLM 4.6	96.1%	$0.0059	50.0s	86%
76	GPT-5.1	97.7%	$0.021	22.6s	86%
77	Ministral 3B	90.9%	$0.0001	2.4s	72%
78	Llama 3.1 70B	93.0%	$0.0006	27.8s	76%
79	MiniMax M2.5	96.1%	$0.0019	1.2m	88%
80	DeepSeek V3 (2024-12-26)	94.6%	$0.0009	17.7s	67%
81	ByteDance Seed 2.0 Lite	97.3%	$0.0058	1.1m	85%
82	Llama 3.1 Nemotron 70B	91.4%	$0.0016	16.4s	75%
83	LFM2 24B	92.1%	$0.0001	13.3s	70%
84	Z.AI GLM 4.5	93.0%	$0.0044	36.1s	80%
85	GPT-5.2	93.4%	$0.013	10.9s	78%
86	Gemini 2.5 Flash (Reasoning)	92.9%	$0.0087	15.8s	76%
87	ByteDance Seed 1.6	95.5%	$0.0057	1.0m	84%
88	Grok 4	99.1%	$0.033	41.7s	94%
89	Qwen 3.5 Flash	96.3%	$0.0037	1.1m	79%
90	Gemini 3.5 Flash (Reasoning)	100.0%	$0.048	20.7s	100%
91	GPT-4o Mini (temp=1)	89.3%	$0.0005	10.5s	70%
92	Ministral 3 8B	88.4%	$0.0002	3.6s	69%
93	Ministral 8B	87.9%	$0.0001	3.7s	71%
94	GPT-4o, Aug. 6th (temp=1)	93.7%	$0.0073	3.1s	63%
95	Grok 4.3 (Reasoning)	95.9%	$0.012	59.8s	85%
96	Gemini 2.5 Pro	98.8%	$0.039	28.9s	93%
97	DeepSeek-V2 Chat	93.4%	$0.0009	19.1s	61%
98	GPT-4o Mini (temp=0)	88.7%	$0.0004	10.7s	69%
99	Qwen 3.6 Flash	95.2%	$0.011	31.9s	71%
100	GPT-OSS 120B	92.5%	$0.0009	52.9s	75%
101	Arcee AI: Trinity Mini	92.7%	$0.0002	7.9s	55%
102	GPT-4.1 Nano	88.0%	$0.0003	4.1s	66%
103	Qwen 3.5 35B	96.8%	$0.019	58.8s	85%
104	Qwen 3 32B	93.0%	$0.0009	43.2s	68%
105	Z.AI GLM 5	99.3%	$0.014	1.9m	95%
106	GPT-5.4 (Reasoning)	96.2%	$0.028	25.1s	79%
107	Gemini 3 Pro (Preview)	100.0%	$0.053	35.9s	100%
108	Inception Mercury 2	88.4%	$0.0022	3.1s	59%
109	ByteDance Seed 1.6 Flash	88.9%	$0.0009	17.2s	61%
110	Aion 2.0	95.2%	$0.0051	1.1m	69%
111	Mistral NeMO	90.2%	$0.0002	2.8s	50%
112	WizardLM 2 8x22b	92.1%	$0.0009	51.4s	65%
113	Gemma 4 26B (Reasoning)	99.3%	$0.0023	2.8m	95%
114	Mistral Small 4 (Reasoning)	89.1%	$0.0024	22.3s	61%
115	Claude Opus 4.6 (Reasoning)	100.0%	$0.063	29.0s	100%
116	GPT-5.5 (Reasoning)	96.3%	$0.042	16.0s	81%
117	DeepSeek V3 (2025-03-24)	92.1%	$0.0007	40.7s	56%
118	Gemini 2.5 Flash Lite (Reasoning)	88.4%	$0.0030	26.8s	62%
119	Qwen 3.5 Plus (2026-04-20)	96.4%	$0.015	1.6m	83%
120	Z.AI GLM 5.1	99.3%	$0.025	1.9m	94%
121	Inception Mercury	85.7%	$0.0005	4.2s	55%
122	Z.AI GLM 4.7	98.8%	$0.011	2.4m	91%
123	GPT-5 Nano	90.9%	$0.0035	1.3m	75%
124	Claude Opus 4	97.3%	$0.060	9.4s	91%
125	Qwen 3.5 27B	98.8%	$0.025	1.9m	93%
126	Skyfall 36B V2	86.8%	$0.0008	10.6s	53%
127	GPT-5	98.0%	$0.039	59.9s	86%
128	Qwen 3.5 122B	98.0%	$0.035	1.4m	90%
129	o4 Mini High	95.9%	$0.034	52.1s	79%
130	Gemma 4 31B (Reasoning)	100.0%	$0.0018	3.6m	100%
131	Claude Sonnet 4.6 (Reasoning)	99.6%	$0.064	41.7s	96%
132	Qwen3.7 Max	99.5%	$0.047	1.4m	95%
133	o4 Mini	91.6%	$0.019	29.9s	62%
134	DeepSeek V4 Pro (Reasoning)	98.4%	$0.011	2.7m	86%
135	Qwen 3.5 397B A17B	98.8%	$0.011	3.0m	91%
136	ByteDance Seed 2.0 Mini	93.7%	$0.0026	2.8m	83%
137	DeepSeek V3.1	85.0%	$0.0007	37.9s	41%
138	Z.AI GLM 4.7 Flash	87.3%	$0.0023	1.6m	55%
139	Qwen3.6 Max Preview	99.5%	$0.047	2.6m	95%
140	Qwen 3.5 9B	89.6%	$0.0016	2.4m	63%
141	Qwen 3.6 27B	89.5%	$0.019	1.4m	57%
142	Gemini 3.1 Pro (Preview)	100.0%	$0.086	1.3m	100%
143	MiniMax M2.7	91.4%	$0.0092	2.0m	55%
144	Nemotron 3 Super	83.9%	$0.0000	1.5m	44%
145	MoonshotAI: Kimi K2.5	96.2%	$0.018	3.8m	87%
146	MoonshotAI: Kimi K2.6	98.9%	$0.035	3.6m	94%
147	Cohere Command R+ (Aug. 2024)	72.0%	$0.0076	33.3s	31%
148	Rocinante 12B	65.0%	$0.0004	9.2s	16%
149	Claude 3 Haiku	64.8%	$0.0010	5.1s	7%
150	Nemotron 3 Nano	73.0%	$0.0026	3.2m	40%
151	Hermes 3 70B	63.9%	$0.0016	2.1m	10%
94.61%

Individual Scenarios

Generic Prompt

▼

Combined: 3rd person past → 1st person present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	90	98.6%
GPT-5 Mini	100	100	100	100	100	100	90	98.6%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	90	98.6%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	90	98.6%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	90	98.6%
Qwen 3.5 27B	100	100	100	100	100	100	90	98.6%
o4 Mini High	100	100	100	100	100	100	90	98.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	90	98.6%
o4 Mini	100	100	100	100	100	100	90	98.6%
Grok 4	100	100	100	100	100	100	90	98.6%
Qwen 3.5 35B	100	100	100	100	100	100	90	98.6%
Claude Opus 4	100	100	100	100	100	100	90	98.6%
Stealth: Healer Alpha	100	100	100	100	100	100	90	98.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	90	98.6%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	90	98.6%
Ministral 3 14B	100	100	100	100	100	100	90	98.6%
Grok 4.3 (Reasoning)	100	100	100	100	100	90	90	97.1%
Z.AI GLM 4.7	100	100	100	100	100	90	90	97.1%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	80	97.1%
GPT-5.5 (Reasoning)	100	100	100	100	90	90	90	95.7%
GPT-5	100	100	100	100	100	100	70	95.7%
Qwen 3.5 122B	100	100	100	100	90	90	90	95.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	90	90	90	95.7%
Qwen 3.6 35B	100	100	100	100	90	90	90	95.7%
Grok 4 Fast	100	100	100	100	90	90	90	95.7%
Gemini 2.5 Flash	100	100	100	100	100	100	70	95.7%
Gemma 3 4B	100	100	100	100	90	90	90	95.7%
Ministral 3 3B	100	100	100	100	90	90	90	95.7%
GPT-OSS 120B	100	100	100	90	90	90	90	94.3%
Z.AI GLM 4.7 Flash	100	100	100	90	90	90	90	94.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	90	90	80	94.3%
WizardLM 2 8x22b	100	100	100	100	90	90	80	94.3%
Ministral 3B	100	100	100	100	90	90	80	94.3%
ByteDance Seed 1.6	100	100	100	100	90	90	80	94.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	90	90	90	90	94.3%
MiniMax M2.5	100	100	90	90	90	90	90	92.9%
Grok 4.3	100	100	100	90	90	90	80	92.9%
Z.AI GLM 4.5 Air	100	100	90	90	90	90	90	92.9%
GPT-5.4 Mini	100	90	90	90	90	90	90	91.4%
Z.AI GLM 4.6	100	100	90	90	90	90	80	91.4%
Qwen 3 32B	100	100	100	90	90	90	70	91.4%
GPT-4o Mini (temp=1)	100	90	90	90	90	90	90	91.4%
Inception Mercury 2	90	90	90	90	90	90	90	90.0%
Inception Mercury	90	90	90	90	90	90	90	90.0%
GPT-4o Mini (temp=0)	90	90	90	90	90	90	90	90.0%
Mistral Small 4	100	100	100	100	100	90	40	90.0%
Qwen 3.5 9B	100	100	100	90	90	80	60	88.6%
Skyfall 36B V2	100	100	100	80	80	80	80	88.6%
ByteDance Seed 1.6 Flash	100	100	100	100	90	80	40	87.1%
GPT-5.4 (Reasoning, Low)	100	100	100	90	80	70	70	87.1%
GPT-5.2	100	100	100	90	80	70	70	87.1%
Grok 4.1 Fast	100	100	90	90	90	80	50	85.7%
ByteDance Seed 2.0 Mini	100	100	90	80	80	80	70	85.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	70	70	60	85.7%
Mistral Small 4 (Reasoning)	100	100	100	100	100	90	10	85.7%
Mistral NeMO	100	100	80	80	80	80	80	85.7%
Qwen 3.6 27B	100	100	90	90	90	70	40	82.9%
Llama 3.1 8B	100	100	90	80	70	70	70	82.9%
Llama 3.1 70B	100	80	80	80	80	80	80	82.9%
Z.AI GLM 4.5	90	90	90	80	70	70	70	80.0%
Nemotron 3 Super	100	100	90	90	80	80	10	78.6%
GPT-5 Nano	90	90	80	70	70	70	70	77.1%
Llama 3.1 Nemotron 70B	90	80	80	80	70	70	70	77.1%
Ministral 8B	80	80	80	70	70	60	60	71.4%
Arcee AI: Trinity Mini	100	100	100	100	100	0	0	71.4%
Ministral 3 8B	80	70	70	70	70	60	50	67.1%
Nemotron 3 Nano	100	100	90	80	60	10	0	62.9%
Cohere Command R+ (Aug. 2024)	100	50	20	20	20	10	10	32.9%
Claude 3 Haiku	100	100	0	0	0	0	0	28.6%
Rocinante 12B	90	20	20	20	10	10	0	24.3%

▼

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Skyfall 36B V2	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	90	98.6%
Nemotron 3 Super	100	100	100	100	100	100	90	98.6%
GPT-5.4	100	100	100	100	100	100	90	98.6%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	90	98.6%
Ministral 3 3B	100	100	100	100	90	90	90	95.7%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	60	94.3%
Claude Opus 4.7	100	90	90	90	90	90	90	91.4%
Ministral 3B	100	90	90	90	90	90	90	91.4%
DeepSeek V3.1	100	100	100	100	100	100	0	85.7%
Nemotron 3 Nano	100	100	100	100	100	50	40	84.3%
Rocinante 12B	100	100	100	100	100	80	0	82.9%

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	90	98.6%
GPT-5 Mini	100	100	100	100	100	100	90	98.6%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	90	98.6%
Z.AI GLM 5	100	100	100	100	100	100	90	98.6%
Qwen 3.6 Flash	100	100	100	100	100	100	90	98.6%
Grok 4.1 Fast	100	100	100	100	100	100	90	98.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	90	98.6%
GPT-4.1	100	100	100	100	100	100	90	98.6%
Gemini 2.5 Pro	100	100	100	100	100	100	90	98.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	90	98.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	90	98.6%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	90	98.6%
Grok 4.20 (Beta)	100	100	100	100	100	100	90	98.6%
Inception Mercury	100	100	100	100	100	100	90	98.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	90	90	97.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	90	90	97.1%
DeepSeek-V2 Chat	100	100	100	100	100	90	90	97.1%
Z.AI GLM 4.7 Flash	100	100	100	100	100	90	90	97.1%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	90	90	97.1%
MoonshotAI: Kimi K2.6	100	100	100	100	100	90	90	97.1%
Gemma 4 26B (Reasoning)	100	100	100	100	100	90	90	97.1%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	90	90	97.1%
Aion 2.0	100	100	100	100	100	90	90	97.1%
GPT-5.1	100	100	100	100	90	90	90	95.7%
Qwen 3.5 35B	100	100	100	100	100	90	80	95.7%
Grok 4 Fast	100	100	100	100	90	90	90	95.7%
Qwen 3.5 9B	100	100	100	100	100	90	80	95.7%
Xiaomi MIMO v2.5	100	100	100	100	90	90	90	95.7%
GPT-5.4	100	100	100	100	90	90	90	95.7%
GPT-5 Nano	100	100	100	100	90	90	90	95.7%
DeepSeek V3.2	100	100	100	100	90	90	90	95.7%
ByteDance Seed 1.6	100	100	100	90	90	90	90	94.3%
MiniMax M2.7	100	100	100	90	90	90	90	94.3%
Stealth: Healer Alpha	100	100	100	90	90	90	90	94.3%
Z.AI GLM 4.5 Air	100	100	100	90	90	90	90	94.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	90	90	80	94.3%
Grok 4.3 (Reasoning)	100	100	100	90	90	90	90	94.3%
Grok 4	100	100	100	90	90	90	90	94.3%
Claude Haiku 4.5	100	100	100	90	90	90	90	94.3%
Hermes 3 405B	100	100	100	100	90	90	80	94.3%
Arcee AI: Trinity Mini	100	100	100	90	90	90	90	94.3%
GPT-4o, May 13th (temp=0)	100	100	90	90	90	90	90	92.9%
Gemma 3 4B	100	100	100	90	90	90	80	92.9%
MoonshotAI: Kimi K2.5	100	100	90	90	90	90	90	92.9%
Qwen 3.6 35B	100	100	100	90	90	90	80	92.9%
MiniMax M2.5	100	100	90	90	90	90	90	92.9%
GPT-OSS 120B	100	100	90	90	90	90	90	92.9%
Gemma 4 26B	100	100	90	90	90	90	90	92.9%
GPT-5.2	100	90	90	90	90	90	90	91.4%
Z.AI GLM 4.6	100	90	90	90	90	90	90	91.4%
Z.AI GLM 4.5	100	90	90	90	90	90	90	91.4%
Gemini 2.5 Flash Lite (Reasoning)	100	90	90	90	90	90	90	91.4%
GPT-4o, May 13th (temp=1)	100	90	90	90	90	90	90	91.4%
Writer: Palmyra X5	100	90	90	90	90	90	90	91.4%
Cydonia 24B V4.1	100	90	90	90	90	90	90	91.4%
Arcee AI: Trinity Large (Preview)	100	90	90	90	90	90	90	91.4%
ByteDance Seed 1.6 Flash	100	90	90	90	90	90	90	91.4%
GPT-4.1 Nano	100	100	100	90	90	80	80	91.4%
GPT-5.4 Mini (Reasoning)	90	90	90	90	90	90	90	90.0%
o4 Mini High	100	100	100	100	100	90	40	90.0%
Claude Sonnet 4	90	90	90	90	90	90	90	90.0%
Claude Sonnet 4.5	90	90	90	90	90	90	90	90.0%
Claude Opus 4	90	90	90	90	90	90	90	90.0%
Xiaomi MIMO v2.5 Pro	90	90	90	90	90	90	90	90.0%
Qwen 3.5 Plus (2026-02-15)	90	90	90	90	90	90	90	90.0%
GPT-5.4 Mini (Reasoning, Low)	90	90	90	90	90	90	90	90.0%
Mistral Large 3	90	90	90	90	90	90	90	90.0%
Claude 3.5 Sonnet	90	90	90	90	90	90	90	90.0%
Claude 3.7 Sonnet	90	90	90	90	90	90	90	90.0%
GPT-4.1 Mini	90	90	90	90	90	90	90	90.0%
DeepSeek V4 Pro	90	90	90	90	90	90	90	90.0%
GPT-5.4 Mini	90	90	90	90	90	90	90	90.0%
Mistral Large 2	90	90	90	90	90	90	90	90.0%
DeepSeek V4 Flash	90	90	90	90	90	90	90	90.0%
GPT-5.4 Nano (Reasoning)	90	90	90	90	90	90	90	90.0%
Gemini 2.5 Flash Lite	90	90	90	90	90	90	90	90.0%
Gemini 2.5 Flash	90	90	90	90	90	90	90	90.0%
Mistral Large	90	90	90	90	90	90	90	90.0%
GPT-4o Mini (temp=1)	90	90	90	90	90	90	90	90.0%
GPT-4o Mini (temp=0)	90	90	90	90	90	90	90	90.0%
Mistral Small 4	90	90	90	90	90	90	90	90.0%
LFM2 24B	90	90	90	90	90	90	90	90.0%
Grok 4.3	100	100	100	90	90	80	70	90.0%
Hermes 3 70B	100	100	90	90	90	80	80	90.0%
ByteDance Seed 2.0 Mini	90	90	90	90	90	90	80	88.6%
GPT-5.4 Nano (Reasoning, Low)	90	90	90	90	90	90	80	88.6%
Gemma 3 12B	90	90	90	90	90	90	80	88.6%
Gemma 3 27B	90	90	90	90	90	90	80	88.6%
Gemini 2.5 Flash (Reasoning)	100	90	90	90	90	80	80	88.6%
Inception Mercury 2	100	100	90	90	90	90	60	88.6%
Qwen3 235B A22B Instruct 2507	100	100	90	90	90	80	70	88.6%
GPT-5.4 Nano	90	90	90	90	90	90	80	88.6%
Llama 3.1 8B	100	100	100	90	80	70	70	87.1%
DeepSeek V3.1	100	100	100	100	100	100	10	87.1%
Llama 3.1 70B	90	90	90	90	90	80	80	87.1%
Stealth: Hunter Alpha	100	100	90	90	90	90	40	85.7%
Mistral Small 4 (Reasoning)	90	90	90	90	90	80	70	85.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	90	90	90	0	81.4%
Llama 3.1 Nemotron 70B	90	90	80	80	80	70	60	78.6%
GPT-4o, Aug. 6th (temp=1)	90	90	90	90	90	90	0	77.1%
o4 Mini	100	90	90	90	90	40	30	75.7%
WizardLM 2 8x22b	100	90	90	90	90	40	0	71.4%
Mistral Medium 3.1	70	70	70	70	70	70	70	70.0%
Ministral 3 14B	70	70	70	70	70	70	70	70.0%
Ministral 3 8B	70	70	70	70	70	70	70	70.0%
Ministral 8B	70	70	70	70	70	70	60	68.6%
Qwen 3.6 27B	100	100	100	90	90	0	0	68.6%
Ministral 3 3B	80	70	70	70	60	60	60	67.1%
Nemotron 3 Nano	90	90	90	90	40	40	10	64.3%
Mistral Small Creative	70	70	70	60	60	60	60	64.3%
Ministral 3B	70	70	70	70	60	60	50	64.3%
Nemotron 3 Super	100	100	100	90	30	30	0	64.3%
Skyfall 36B V2	90	80	70	60	50	0	0	50.0%
Mistral NeMO	80	80	70	20	0	0	0	35.7%
Rocinante 12B	60	30	20	20	10	0	0	20.0%
Cohere Command R+ (Aug. 2024)	30	20	10	10	10	10	10	14.3%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%

▼

Tense rewriting: past to present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	90	98.6%
Mistral Small 4	100	100	100	100	100	100	90	98.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	90	90	97.1%
Qwen 2.5 72B	100	100	100	100	100	90	90	97.1%
Cydonia 24B V4.1	100	100	100	100	100	100	80	97.1%
Ministral 8B	100	100	100	100	100	100	80	97.1%
Qwen3.7 Max	100	100	100	100	90	90	90	95.7%
Z.AI GLM 5	100	100	100	100	90	90	90	95.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	90	80	95.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	90	80	95.7%
Gemma 4 31B	100	100	100	100	90	90	90	95.7%
DeepSeek V4 Flash	100	100	100	100	90	90	90	95.7%
Gemini 2.5 Flash Lite	100	100	100	100	90	90	90	95.7%
Qwen3.6 Max Preview	100	100	100	100	90	90	90	95.7%
MoonshotAI: Kimi K2.6	100	100	100	100	90	90	90	95.7%
Z.AI GLM 5.1	100	100	100	100	90	90	80	94.3%
MiniMax M2.7	100	100	100	100	90	90	80	94.3%
Ministral 3 3B	100	100	100	90	90	90	90	94.3%
Z.AI GLM 4.7	100	100	100	100	90	90	70	92.9%
GPT-4o, May 13th (temp=1)	100	100	90	90	90	90	90	92.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	50	92.9%
Llama 3.1 8B	100	100	90	90	90	90	90	92.9%
Qwen 3.5 27B	100	90	90	90	90	90	90	91.4%
Gemini 2.5 Pro	100	90	90	90	90	90	90	91.4%
Grok 4.20 (Reasoning)	100	100	100	90	90	80	80	91.4%
Stealth: Hunter Alpha	100	100	100	100	90	80	70	91.4%
GPT-4.1 Nano	100	100	90	90	90	90	80	91.4%
Claude Sonnet 4.6	90	90	90	90	90	90	90	90.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	90	90	50	90.0%
GPT-5.5	90	90	90	90	90	90	90	90.0%
MiniMax M2.5	100	100	90	90	90	90	70	90.0%
Claude Opus 4	90	90	90	90	90	90	90	90.0%
Gemini 3.1 Flash Lite (Reasoning)	90	90	90	90	90	90	90	90.0%
Stealth: Healer Alpha	100	100	100	100	90	70	70	90.0%
Gemini 3.1 Flash Lite (Preview)	90	90	90	90	90	90	90	90.0%
Gemini 3.1 Flash Lite	90	90	90	90	90	90	90	90.0%
GPT-4o, May 13th (temp=0)	90	90	90	90	90	90	90	90.0%
Gemini 3 Flash (Preview)	90	90	90	90	90	90	90	90.0%
Claude Haiku 4.5	90	90	90	90	90	90	90	90.0%
Z.AI GLM 4.5 Air	100	90	90	90	90	90	80	90.0%
GPT-4o, Aug. 6th (temp=1)	100	90	90	90	90	90	80	90.0%
GPT-4o, Aug. 6th (temp=0)	90	90	90	90	90	90	90	90.0%
Grok 4.20	90	90	90	90	90	90	90	90.0%
Llama 3.1 70B	90	90	90	90	90	90	90	90.0%
Mistral Medium 3.1	90	90	90	90	90	90	90	90.0%
Llama 3.1 Nemotron 70B	90	90	90	90	90	90	90	90.0%
LFM2 24B	90	90	90	90	90	90	90	90.0%
Qwen 3.5 397B A17B	100	100	90	90	90	90	70	90.0%
Qwen 3.5 122B	100	100	100	90	80	80	80	90.0%
GPT-5.4 (Reasoning, Low)	100	100	100	90	90	80	70	90.0%
Ministral 3B	100	100	90	90	90	80	80	90.0%
GPT-5.4 Mini (Reasoning, Low)	90	90	90	90	90	90	80	88.6%
GPT-5.4 Nano (Reasoning)	90	90	90	90	90	90	80	88.6%
GPT-5	100	100	100	100	80	70	70	88.6%
Mistral Small Creative	100	90	90	90	90	90	70	88.6%
ByteDance Seed 2.0 Lite	100	100	100	80	80	80	80	88.6%
Z.AI GLM 5 Turbo	100	100	90	90	80	80	70	87.1%
Grok 4.3 (Reasoning)	100	100	100	100	70	70	70	87.1%
GPT-5.4 Mini (Reasoning)	100	100	90	90	80	80	70	87.1%
Gemini 3.5 Flash (Reasoning, Minimal)	90	90	90	90	90	80	80	87.1%
Mistral Small 4 (Reasoning)	100	100	90	90	80	80	70	87.1%
Z.AI GLM 4.6	100	100	100	80	80	80	70	87.1%
Grok 4.20 (Beta, Reasoning)	100	90	90	80	80	80	80	85.7%
MoonshotAI: Kimi K2.5	100	90	90	90	90	70	70	85.7%
Grok 4.20 (Beta)	90	90	90	90	90	90	60	85.7%
Hermes 3 70B	90	90	90	90	80	80	80	85.7%
GPT-5.1	100	100	100	80	80	70	70	85.7%
Inception Mercury 2	90	90	90	90	90	80	70	85.7%
Arcee AI: Trinity Mini	100	100	100	100	100	100	0	85.7%
GPT-5.5 (Reasoning, Low)	90	90	90	90	80	80	70	84.3%
Qwen 3.6 35B	90	90	90	90	80	80	70	84.3%
ByteDance Seed 2.0 Mini	100	90	90	80	80	80	70	84.3%
GPT-OSS 120B	90	90	90	90	90	70	70	84.3%
GPT-5.4 Mini	100	100	90	90	90	70	50	84.3%
Grok 4.1 Fast	100	100	90	80	70	70	70	82.9%
Qwen 3.5 35B	100	90	90	80	80	70	70	82.9%
Grok 4 Fast	100	90	90	80	80	70	70	82.9%
Qwen 3.5 Flash	90	90	90	90	80	70	70	82.9%
Grok 4.3	90	90	90	90	80	80	60	82.9%
GPT-5 Mini	90	90	90	80	80	70	70	81.4%
DeepSeek-V2 Chat	90	90	90	90	70	70	70	81.4%
GPT-4.1 Mini	90	90	80	80	80	80	70	81.4%
GPT-5.4 Nano (Reasoning, Low)	90	90	90	80	80	70	70	81.4%
o4 Mini High	90	90	80	80	80	70	70	80.0%
Aion 2.0	100	90	90	80	80	70	50	80.0%
Cohere Command R+ (Aug. 2024)	100	100	100	90	80	50	40	80.0%
Gemini 2.5 Flash	90	90	80	80	80	80	60	80.0%
Qwen 3 32B	90	90	90	80	70	70	60	78.6%
ByteDance Seed 1.6	90	80	80	80	80	70	70	78.6%
Skyfall 36B V2	100	100	100	100	80	70	0	78.6%
ByteDance Seed 1.6 Flash	80	80	80	80	80	80	70	78.6%
Qwen 3.5 Plus (2026-04-20)	90	90	80	70	70	70	70	77.1%
Qwen 3.6 27B	100	90	90	70	70	70	50	77.1%
GPT-5.4	100	80	80	70	70	70	70	77.1%
Z.AI GLM 4.5	90	80	80	80	70	70	70	77.1%
Z.AI GLM 4.7 Flash	90	90	80	80	80	60	60	77.1%
DeepSeek V3 (2025-03-24)	90	90	90	90	90	70	10	75.7%
o4 Mini	90	90	80	80	70	70	50	75.7%
DeepSeek V3 (2024-12-26)	90	90	90	90	70	50	50	75.7%
Hermes 3 405B	80	80	80	80	80	70	60	75.7%
DeepSeek V3.2	90	90	80	70	70	70	60	75.7%
GPT-4.1	90	80	70	70	70	70	70	74.3%
GPT-5.4 Nano	80	80	80	70	70	70	70	74.3%
WizardLM 2 8x22b	90	90	80	70	70	60	60	74.3%
GPT-5.5 (Reasoning)	80	80	80	80	80	70	50	74.3%
GPT-5.4 (Reasoning)	100	80	70	70	70	70	50	72.9%
Gemini 2.5 Flash (Reasoning)	90	90	80	70	70	50	50	71.4%
GPT-4o Mini (temp=1)	80	70	70	70	70	70	70	71.4%
Rocinante 12B	100	100	100	100	80	20	0	71.4%
GPT-5.2	70	70	70	70	70	70	70	70.0%
Gemma 3 12B	80	80	80	80	70	50	50	70.0%
GPT-4o Mini (temp=0)	70	70	70	70	70	70	70	70.0%
Qwen 3.6 Flash	90	90	80	80	70	70	0	68.6%
GPT-5 Nano	80	70	70	70	70	60	50	67.1%
Inception Mercury	80	70	70	70	70	60	50	67.1%
Gemma 3 27B	90	80	80	60	60	50	50	67.1%
Qwen 3.5 9B	90	70	70	70	50	50	50	64.3%
Gemini 2.5 Flash Lite (Reasoning)	90	80	70	60	50	50	50	64.3%
Nemotron 3 Super	70	70	70	70	70	70	10	61.4%
Nemotron 3 Nano	80	80	70	70	70	50	10	61.4%
DeepSeek V3.1	70	70	50	50	50	50	0	48.6%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%

Specific Prompt

▼

Combined: 3rd person past → 1st person present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	90	98.6%
ByteDance Seed 1.6	100	100	100	100	100	100	90	98.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	90	98.6%
Qwen 3.5 35B	100	100	100	100	100	100	90	98.6%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	90	98.6%
Grok 4 Fast	100	100	100	100	100	100	90	98.6%
Stealth: Healer Alpha	100	100	100	100	100	100	90	98.6%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	90	98.6%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	90	98.6%
Gemma 3 27B	100	100	100	100	100	100	90	98.6%
Llama 3.1 8B	100	100	100	100	100	100	90	98.6%
Qwen 3.6 Flash	100	100	100	100	100	90	90	97.1%
Qwen 3.6 35B	100	100	100	100	100	90	90	97.1%
GPT-OSS 120B	100	100	100	100	100	90	90	97.1%
GPT-4.1 Mini	100	100	100	100	100	90	90	97.1%
GPT-5 Nano	100	100	100	100	100	90	90	97.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	90	90	97.1%
Grok 4.3 (Reasoning)	100	100	100	100	100	90	90	97.1%
Ministral 8B	100	100	100	100	100	100	80	97.1%
Qwen 3.5 Flash	100	100	100	100	100	90	80	95.7%
Qwen 3 32B	100	100	100	100	100	100	70	95.7%
Qwen 3.6 27B	100	100	100	100	100	90	70	94.3%
Llama 3.1 70B	100	100	100	100	100	90	70	94.3%
GPT-5.4 Nano	100	100	100	100	90	90	80	94.3%
GPT-5.4 Nano (Reasoning)	100	100	100	90	90	90	80	92.9%
GPT-4o Mini (temp=1)	100	100	90	90	90	90	90	92.9%
Skyfall 36B V2	100	100	90	90	90	90	80	91.4%
Inception Mercury 2	100	100	100	90	90	80	80	91.4%
GPT-4o Mini (temp=0)	90	90	90	90	90	90	90	90.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	90	80	80	70	88.6%
DeepSeek V3.1	100	100	100	100	100	100	20	88.6%
Nemotron 3 Super	100	100	100	100	100	100	10	87.1%
o4 Mini	100	100	100	100	100	100	0	85.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	0	85.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	0	85.7%
Gemini 2.5 Flash (Reasoning)	100	100	90	90	80	70	70	85.7%
Mistral Small 4 (Reasoning)	100	100	100	90	80	70	50	84.3%
Inception Mercury	100	100	90	80	80	70	70	84.3%
LFM2 24B	90	90	90	90	90	70	20	77.1%
Nemotron 3 Nano	90	90	90	90	60	50	40	72.9%
ByteDance Seed 1.6 Flash	100	80	80	80	80	60	10	70.0%
MiniMax M2.7	100	100	100	80	70	10	10	67.1%
Z.AI GLM 4.7 Flash	100	90	90	80	70	30	10	67.1%
GPT-4.1 Nano	90	80	60	60	60	60	60	67.1%
Hermes 3 70B	90	0	0	0	0	0	0	12.9%

▼

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Skyfall 36B V2	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	90	98.6%
Qwen 3.6 Flash	100	100	100	100	100	100	90	98.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	90	98.6%
Qwen 3.5 9B	100	100	100	100	100	100	60	94.3%
DeepSeek V3.1	100	100	100	100	100	100	50	92.9%
Inception Mercury	100	100	100	100	100	100	10	87.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	0	85.7%
Mistral Small 3.2 24B	100	100	100	100	100	100	0	85.7%
Rocinante 12B	100	100	100	100	100	70	0	81.4%
Nemotron 3 Nano	100	100	90	70	40	40	40	68.6%
Hermes 3 70B	100	100	100	90	0	0	0	55.7%

▼

Passive voice → active voice

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	90	98.6%
Qwen 3.5 122B	100	100	100	100	100	100	90	98.6%
Qwen 3.6 Flash	100	100	100	100	100	100	90	98.6%
o4 Mini High	100	100	100	100	100	100	90	98.6%
GPT-5.2	100	100	100	100	100	100	90	98.6%
Z.AI GLM 4.6	100	100	100	100	100	100	90	98.6%
Qwen 3.5 35B	100	100	100	100	100	100	90	98.6%
Grok 4 Fast	100	100	100	100	100	100	90	98.6%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	90	98.6%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	90	98.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	90	98.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	90	98.6%
Gemma 4 26B (Reasoning)	100	100	100	100	100	90	90	97.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	90	90	97.1%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	90	90	97.1%
Grok 4.3	100	100	100	100	100	90	90	97.1%
ByteDance Seed 1.6 Flash	100	100	100	100	100	90	90	97.1%
WizardLM 2 8x22b	100	100	100	100	100	90	90	97.1%
GPT-5 Mini	100	100	100	100	100	90	90	97.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	90	90	97.1%
Xiaomi MIMO v2.5	100	100	100	100	100	90	90	97.1%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	90	90	97.1%
Writer: Palmyra X5	100	100	100	100	100	90	90	97.1%
Gemini 2.5 Flash	100	100	100	100	90	90	90	95.7%
MoonshotAI: Kimi K2.5	100	100	100	100	90	90	90	95.7%
Z.AI GLM 4.5	100	100	100	100	90	90	90	95.7%
GPT-5.4	100	100	100	100	90	90	90	95.7%
GPT-4o Mini (temp=1)	100	100	100	100	90	90	90	95.7%
Qwen 3.6 27B	100	100	100	100	90	90	90	95.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	90	90	90	95.7%
Claude Haiku 4.5	100	100	100	100	90	90	90	95.7%
GPT-5.4 Mini (Reasoning)	100	100	100	90	90	90	90	94.3%
GPT-5 Nano	100	100	100	100	90	90	80	94.3%
GPT-5.4 Mini	100	100	100	90	90	90	90	94.3%
Skyfall 36B V2	100	100	100	100	90	90	80	94.3%
Qwen 3.5 Plus (2026-02-15)	100	100	90	90	90	90	90	92.9%
Mistral Small 3.2 24B	100	100	90	90	90	90	90	92.9%
Arcee AI: Trinity Mini	100	100	90	90	90	90	90	92.9%
GPT-5.4 (Reasoning, Low)	100	100	90	90	90	90	90	92.9%
Claude Sonnet 4	100	100	90	90	90	90	90	92.9%
MiniMax M2.5	100	100	90	90	90	90	90	92.9%
ByteDance Seed 2.0 Mini	100	100	90	90	90	90	90	92.9%
GPT-4o, May 13th (temp=0)	100	100	90	90	90	90	90	92.9%
ByteDance Seed 2.0 Lite	100	100	100	100	100	90	60	92.9%
GPT-4o, May 13th (temp=1)	100	100	90	90	90	90	90	92.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	90	90	90	90	90	92.9%
Gemma 3 12B	100	100	90	90	90	90	90	92.9%
GPT-5.4 Mini (Reasoning, Low)	100	90	90	90	90	90	90	91.4%
Grok 4.3 (Reasoning)	100	90	90	90	90	90	90	91.4%
Stealth: Hunter Alpha	100	90	90	90	90	90	90	91.4%
Qwen 3.5 Flash	100	100	100	100	100	100	40	91.4%
Cydonia 24B V4.1	100	90	90	90	90	90	90	91.4%
GPT-5.4 Nano	100	90	90	90	90	90	90	91.4%
Arcee AI: Trinity Large (Preview)	100	90	90	90	90	90	90	91.4%
Gemini 3.1 Flash Lite (Reasoning)	90	90	90	90	90	90	90	90.0%
Gemma 4 26B	90	90	90	90	90	90	90	90.0%
Gemini 3.1 Flash Lite	90	90	90	90	90	90	90	90.0%
Mistral Large 3	90	90	90	90	90	90	90	90.0%
Claude 3.5 Sonnet	90	90	90	90	90	90	90	90.0%
Claude 3.7 Sonnet	90	90	90	90	90	90	90	90.0%
GPT-4.1 Mini	90	90	90	90	90	90	90	90.0%
DeepSeek V4 Pro	90	90	90	90	90	90	90	90.0%
Mistral Large 2	90	90	90	90	90	90	90	90.0%
Gemini 2.5 Flash Lite	90	90	90	90	90	90	90	90.0%
Mistral Large	90	90	90	90	90	90	90	90.0%
Llama 3.1 70B	90	90	90	90	90	90	90	90.0%
Gemma 3 27B	90	90	90	90	90	90	90	90.0%
Mistral Medium 3.1	90	90	90	90	90	90	90	90.0%
Claude 3 Haiku	90	90	90	90	90	90	90	90.0%
LFM2 24B	90	90	90	90	90	90	90	90.0%
Mistral Small 4	90	90	90	90	90	90	80	88.6%
Ministral 3 3B	90	90	90	90	90	90	80	88.6%
Ministral 3B	100	90	90	90	90	80	80	88.6%
DeepSeek V3.1	100	100	100	100	100	100	10	87.1%
Z.AI GLM 4.7 Flash	100	100	100	100	90	90	20	85.7%
Qwen 3 32B	100	100	100	100	100	100	0	85.7%
Llama 3.1 Nemotron 70B	90	90	90	90	80	80	80	85.7%
Aion 2.0	100	100	100	100	100	90	0	84.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	90	90	0	82.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	80	0	82.9%
Llama 3.1 8B	100	100	90	90	80	80	40	82.9%
GPT-OSS 120B	100	100	100	100	90	40	40	81.4%
Nemotron 3 Super	100	100	100	100	90	40	40	81.4%
Nemotron 3 Nano	100	100	100	90	90	50	40	81.4%
GPT-4.1 Nano	90	90	80	80	80	70	70	80.0%
Mistral Small Creative	80	80	80	80	80	80	80	80.0%
Mistral Small 4 (Reasoning)	100	90	90	90	90	90	0	78.6%
MiniMax M2.7	100	100	100	100	100	40	0	77.1%
Ministral 3 14B	80	80	80	80	80	70	70	77.1%
Inception Mercury	100	100	100	100	40	40	40	74.3%
Qwen 3.5 9B	100	100	100	100	40	40	40	74.3%
Cohere Command R+ (Aug. 2024)	100	100	70	70	60	60	40	71.4%
Ministral 3 8B	70	70	70	70	70	70	70	70.0%
Ministral 8B	70	70	70	70	70	70	70	70.0%
DeepSeek-V2 Chat	100	100	100	90	90	0	0	68.6%
Inception Mercury 2	100	100	40	40	40	40	40	57.1%
Rocinante 12B	100	90	90	60	40	0	0	54.3%
Hermes 3 70B	90	80	0	0	0	0	0	24.3%

▼

Tense rewriting: past to present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	90	98.6%
ByteDance Seed 1.6	100	100	100	100	100	100	90	98.6%
Grok 4.1 Fast	100	100	100	100	100	100	90	98.6%
MiniMax M2.7	100	100	100	100	100	100	90	98.6%
Stealth: Healer Alpha	100	100	100	100	100	100	90	98.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	90	98.6%
Ministral 8B	100	100	100	100	100	100	90	98.6%
Ministral 3B	100	100	100	100	100	100	90	98.6%
MoonshotAI: Kimi K2.5	100	100	100	100	100	90	90	97.1%
o4 Mini	100	100	100	100	100	90	90	97.1%
Z.AI GLM 4.5 Air	100	100	100	100	100	90	90	97.1%
Hermes 3 405B	100	100	100	100	100	90	90	97.1%
Arcee AI: Trinity Mini	100	100	100	100	100	90	90	97.1%
Qwen 3.6 27B	100	100	100	100	100	100	80	97.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	90	90	97.1%
Mistral Small 4 (Reasoning)	100	100	100	100	100	90	90	97.1%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	70	95.7%
GPT-5 Nano	100	100	100	100	90	90	90	95.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	90	70	94.3%
Inception Mercury 2	100	100	100	100	90	90	80	94.3%
Ministral 3 3B	100	100	100	90	90	90	90	94.3%
Qwen 3 32B	100	100	100	90	90	90	80	92.9%
Skyfall 36B V2	100	100	90	90	90	90	80	91.4%
GPT-OSS 120B	100	90	90	90	90	90	80	90.0%
LFM2 24B	90	90	90	90	90	90	90	90.0%
DeepSeek V3.1	100	100	100	100	100	100	30	90.0%
GPT-5.4 Nano (Reasoning, Low)	100	90	90	90	90	80	80	88.6%
Nemotron 3 Nano	100	100	90	90	90	80	70	88.6%
ByteDance Seed 1.6 Flash	100	90	90	90	80	80	80	87.1%
Gemma 3 4B	90	90	90	90	80	80	80	85.7%
GPT-5.4 Nano	100	100	90	90	80	70	70	85.7%
Rocinante 12B	100	100	100	100	100	100	0	85.7%
Inception Mercury	100	90	80	80	80	80	80	84.3%
Cohere Command R+ (Aug. 2024)	100	100	90	80	60	60	50	77.1%
Z.AI GLM 4.7 Flash	100	90	90	80	80	80	20	77.1%
GPT-4.1 Nano	80	80	80	70	70	70	70	74.3%
GPT-4o Mini (temp=1)	80	80	70	70	70	70	70	72.9%
GPT-4o Mini (temp=0)	70	70	70	70	70	70	70	70.0%
Hermes 3 70B	100	100	100	0	0	0	0	42.9%

Dialogue content preserved

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Combined: 3rd person past → 1st person present

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Passive voice → active voice

Tense rewriting: past to present

Specific Prompt

Combined: 3rd person past → 1st person present

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Passive voice → active voice

Tense rewriting: past to present