Name replacement accuracy

Test: Text Replacement

Avg. Score

96.2%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Reasoning)	99.4%	$0.0009	2.6s	98%
2	Gemini 3.1 Flash Lite (Preview)	99.3%	$0.0009	1.7s	97%
3	Gemini 3.1 Flash Lite	99.4%	$0.0009	2.8s	97%
4	Grok 4 Fast	99.6%	$0.0007	5.8s	98%
5	Claude Haiku 4.5	99.7%	$0.0034	2.8s	98%
6	Grok 4.1 Fast	99.5%	$0.0008	10.6s	98%
7	DeepSeek V4 Flash	98.9%	$0.0002	7.6s	96%
8	GPT-4.1 Mini	98.9%	$0.0010	6.6s	95%
9	Gemma 4 26B	99.6%	$0.0002	15.4s	98%
10	Qwen 3.5 Plus (2026-02-15)	99.2%	$0.0015	6.7s	95%
11	Mistral Large 3	98.7%	$0.0011	7.4s	96%
12	Gemini 3 Flash (Preview)	98.4%	$0.0018	3.2s	94%
13	Stealth: Hunter Alpha	99.4%	$0.0000	17.2s	97%
14	GPT-4.1	99.4%	$0.0052	4.1s	97%
15	Inception Mercury 2	98.3%	$0.0016	2.2s	92%
16	GPT-4o Mini (temp=1)	98.2%	$0.0004	9.2s	94%
17	Qwen 2.5 72B	98.4%	$0.0003	10.3s	94%
18	Gemini 2.5 Flash Lite	98.1%	$0.0003	1.6s	88%
19	Stealth: Healer Alpha	98.9%	$0.0000	13.4s	94%
20	Grok 4.20	98.2%	$0.0019	4.2s	93%
21	GPT-4o Mini (temp=0)	98.0%	$0.0004	9.2s	93%
22	Gemini 3.5 Flash (Reasoning, Minimal)	98.7%	$0.0054	2.5s	95%
23	Mistral Large	98.8%	$0.0042	7.2s	96%
24	Mistral Large 2	98.8%	$0.0042	7.2s	96%
25	Gemma 3 27B	98.6%	$0.0002	16.0s	94%
26	DeepSeek V4 Pro	99.4%	$0.0012	21.5s	98%
27	GPT-4o, Aug. 6th (temp=0)	99.0%	$0.0064	2.6s	94%
28	DeepSeek-V2 Chat	98.4%	$0.0008	16.5s	94%
29	Gemini 2.5 Flash (Reasoning)	99.1%	$0.0054	10.7s	97%
30	GPT-5.4 Nano (Reasoning)	96.9%	$0.0011	5.1s	90%
31	Gemma 4 31B	99.7%	$0.0003	29.4s	99%
32	Claude Sonnet 4	99.8%	$0.010	5.7s	99%
33	GPT-4o, May 13th (temp=0)	99.7%	$0.010	3.5s	98%
34	Claude Sonnet 4.5	99.6%	$0.010	4.6s	98%
35	GPT-5.4	99.2%	$0.0089	5.4s	97%
36	Gemini 2.5 Flash	98.7%	$0.0014	2.1s	82%
37	GPT-4o, Aug. 6th (temp=1)	98.7%	$0.0064	2.6s	92%
38	GPT-5.4 (Reasoning, Low)	99.4%	$0.0094	5.6s	97%
39	Grok 4.20 (Beta)	97.6%	$0.0032	1.8s	87%
40	GPT-5.4 Nano	95.9%	$0.0007	3.1s	87%
41	Llama 3.1 8B	96.5%	$0.0000	9.3s	89%
42	Mistral Medium 3.1	96.2%	$0.0012	6.0s	89%
43	Z.AI GLM 4.5	99.7%	$0.0031	26.1s	98%
44	Claude 3.7 Sonnet	99.4%	$0.010	5.5s	97%
45	GPT-4o, May 13th (temp=1)	99.2%	$0.010	3.3s	96%
46	Claude Sonnet 4.6	99.2%	$0.010	4.4s	96%
47	Cydonia 24B V4.1	97.3%	$0.0004	11.9s	88%
48	GPT-5.2	98.8%	$0.0087	6.0s	94%
49	Llama 3.1 Nemotron 70B	97.7%	$0.0014	13.9s	89%
50	Mistral Small 3.2 24B	97.7%	$0.0002	4.7s	80%
51	Grok 4.20 (Reasoning)	99.6%	$0.0064	21.1s	98%
52	GPT-5.4 Mini (Reasoning)	98.4%	$0.0053	7.2s	88%
53	DeepSeek V4 Flash (Reasoning)	99.5%	$0.0005	36.8s	98%
54	Z.AI GLM 5 Turbo	99.7%	$0.0083	18.8s	98%
55	Gemma 3 12B	97.3%	$0.0001	8.6s	82%
56	Llama 3.1 70B	98.0%	$0.0005	23.9s	91%
57	GPT-5.4 Nano (Reasoning, Low)	95.3%	$0.0007	3.7s	83%
58	Gemini 3 Flash (Preview, Reasoning)	99.5%	$0.0097	17.2s	98%
59	GPT-5.4 Mini	96.1%	$0.0027	2.1s	82%
60	Qwen 3.6 35B	99.4%	$0.0055	29.6s	98%
61	Grok 4.20 (Beta, Reasoning)	99.5%	$0.014	7.8s	98%
62	GPT-5.4 Mini (Reasoning, Low)	96.1%	$0.0029	3.3s	82%
63	Grok 4.3	96.3%	$0.0020	4.5s	80%
64	Xiaomi MIMO v2.5	98.2%	$0.0033	13.1s	83%
65	GPT-5.1	99.5%	$0.013	13.7s	98%
66	GPT-5 Mini	99.3%	$0.0052	33.1s	97%
67	GPT-5.5	99.7%	$0.018	4.7s	99%
68	DeepSeek V3 (2024-12-26)	97.6%	$0.0007	15.0s	80%
69	DeepSeek V3.2	98.9%	$0.0004	44.5s	96%
70	Claude Opus 4.6	99.5%	$0.017	5.6s	98%
71	Z.AI GLM 4.5 Air	98.3%	$0.0015	30.2s	89%
72	Claude Opus 4.5	99.3%	$0.017	5.2s	97%
73	Z.AI GLM 4.6	99.7%	$0.0045	42.4s	98%
74	GPT-OSS 120B	98.9%	$0.0008	48.6s	97%
75	ByteDance Seed 2.0 Lite	99.7%	$0.0040	44.8s	98%
76	Mistral Small 4	95.2%	$0.0004	3.2s	72%
77	ByteDance Seed 1.6	99.4%	$0.0040	43.2s	98%
78	Inception Mercury	94.0%	$0.0004	4.5s	76%
79	GPT-5.4 (Reasoning)	99.2%	$0.016	13.3s	97%
80	ByteDance Seed 1.6 Flash	95.5%	$0.0007	12.2s	76%
81	Grok 4.3 (Reasoning)	99.3%	$0.0079	35.9s	97%
82	GPT-5.5 (Reasoning, Low)	99.7%	$0.021	6.7s	99%
83	Aion 2.0	99.5%	$0.0038	48.1s	97%
84	Qwen3 235B A22B Instruct 2507	95.6%	$0.0003	14.8s	75%
85	GPT-5 Nano	98.8%	$0.0023	50.9s	96%
86	Claude 3.5 Sonnet	99.3%	$0.020	9.0s	97%
87	Ministral 3 14B	93.4%	$0.0002	3.9s	70%
88	Qwen 3.5 Flash	98.7%	$0.0027	48.6s	93%
89	Mistral Small Creative	92.7%	$0.0002	2.9s	71%
90	Hermes 3 405B	97.3%	$0.0012	22.3s	74%
91	Xiaomi MIMO v2.5 Pro	97.4%	$0.0035	15.5s	72%
92	Gemini 2.5 Flash Lite (Reasoning)	96.3%	$0.0018	16.2s	71%
93	Qwen 3.6 Flash	98.2%	$0.0074	21.9s	80%
94	Claude Opus 4.7	98.5%	$0.023	4.3s	95%
95	Writer: Palmyra X5	94.3%	$0.0034	11.1s	73%
96	Claude Opus 4.7 (Reasoning)	98.7%	$0.025	4.7s	95%
97	Mistral Small 4 (Reasoning)	94.1%	$0.0017	14.8s	69%
98	GPT-5.5 (Reasoning)	99.4%	$0.027	9.8s	97%
99	Qwen 3.5 35B	99.0%	$0.013	43.1s	96%
100	Z.AI GLM 5	99.5%	$0.0083	60.0s	97%
101	Qwen 3 32B	95.3%	$0.0008	32.0s	72%
102	o4 Mini	97.7%	$0.013	21.3s	80%
103	Grok 4	99.6%	$0.023	28.7s	98%
104	Gemini 2.5 Pro	99.6%	$0.027	19.7s	98%
105	Gemini 3.5 Flash (Reasoning)	99.6%	$0.030	12.5s	98%
106	WizardLM 2 8x22b	96.2%	$0.0007	37.2s	70%
107	o4 Mini High	99.1%	$0.021	33.0s	96%
108	Claude Opus 4.6 (Reasoning)	99.6%	$0.030	12.5s	98%
109	MiniMax M2.5	97.7%	$0.0018	59.0s	80%
110	Arcee AI: Trinity Mini	88.5%	$0.0002	6.5s	58%
111	GPT-4.1 Nano	89.9%	$0.0003	3.6s	52%
112	Qwen 3.5 Plus (2026-04-20)	99.4%	$0.011	1.2m	98%
113	Z.AI GLM 5.1	99.5%	$0.013	1.1m	98%
114	Claude Sonnet 4.6 (Reasoning)	99.6%	$0.032	19.3s	98%
115	Qwen 3.5 27B	99.5%	$0.015	1.1m	98%
116	Z.AI GLM 4.7	99.7%	$0.0070	1.5m	97%
117	Nemotron 3 Super	95.2%	$0.0000	51.1s	66%
118	Skyfall 36B V2	88.4%	$0.0007	9.3s	52%
119	Ministral 3 8B	85.7%	$0.0002	3.3s	52%
120	Mistral NeMO	85.5%	$0.0002	2.5s	51%
121	DeepSeek V4 Pro (Reasoning)	99.7%	$0.0064	1.7m	98%
122	DeepSeek V3 (2025-03-24)	92.5%	$0.0006	35.4s	58%
123	Gemma 4 31B (Reasoning)	99.4%	$0.0011	1.9m	98%
124	GPT-5	99.8%	$0.029	44.3s	99%
125	Gemma 4 26B (Reasoning)	99.5%	$0.0013	1.9m	98%
126	Ministral 8B	84.8%	$0.0001	3.3s	50%
127	Qwen 3.5 122B	99.6%	$0.025	59.3s	98%
128	ByteDance Seed 2.0 Mini	97.6%	$0.0017	1.7m	91%
129	Qwen 3.6 27B	97.6%	$0.014	58.6s	81%
130	Gemini 3 Pro (Preview)	99.5%	$0.038	26.2s	98%
131	MiniMax M2.7	96.7%	$0.0058	1.2m	74%
132	Z.AI GLM 4.7 Flash	94.0%	$0.0015	1.1m	68%
133	Qwen3.7 Max	99.6%	$0.031	55.7s	98%
134	Claude Opus 4	99.8%	$0.051	7.7s	98%
135	Arcee AI: Trinity Large (Preview)	88.0%	$0.0000	23.8s	42%
136	DeepSeek V3.1	88.5%	$0.0006	34.3s	46%
137	Qwen 3.5 9B	96.8%	$0.0012	1.8m	78%
138	Ministral 3 3B	78.9%	$0.0001	2.0s	43%
139	MoonshotAI: Kimi K2.5	99.6%	$0.011	2.1m	98%
140	Ministral 3B	78.4%	$0.0000	2.0s	39%
141	Qwen 3.5 397B A17B	99.4%	$0.0089	2.2m	97%
142	MoonshotAI: Kimi K2.6	99.6%	$0.018	1.9m	98%
143	Gemini 3.1 Pro (Preview)	98.8%	$0.045	42.6s	87%
144	LFM2 24B	76.9%	$0.0001	11.9s	30%
145	Qwen3.6 Max Preview	99.7%	$0.033	1.8m	99%
146	Gemma 3 4B	73.9%	$0.0001	6.0s	24%
147	Rocinante 12B	63.8%	$0.0004	8.0s	17%
148	Cohere Command R+ (Aug. 2024)	71.4%	$0.0067	27.2s	23%
149	Nemotron 3 Nano	83.4%	$0.0016	2.0m	46%
150	Claude 3 Haiku	61.2%	$0.0009	4.3s	4%
151	Hermes 3 70B	67.7%	$0.0015	2.0m	10%
96.24%

Individual Scenarios

Generic Prompt

▼

Character rename: Elena->Mirabel, Gregor->Aldric

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	92	98.8%
Qwen 3 32B	100	100	100	100	100	100	75	96.4%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	75	96.4%
Rocinante 12B	100	100	100	100	92	83	75	92.9%
Ministral 3 3B	92	92	92	92	92	92	92	91.7%
Ministral 3B	100	100	92	92	92	92	58	89.3%
Mistral NeMO	100	100	100	100	100	100	8	86.9%
DeepSeek V3.1	100	100	100	100	100	92	8	85.7%
Skyfall 36B V2	100	100	100	100	100	100	0	85.7%
Arcee AI: Trinity Mini	100	100	92	92	92	83	0	79.8%
Cohere Command R+ (Aug. 2024)	100	100	8	0	0	0	0	29.8%
Claude 3 Haiku	100	100	0	0	0	0	0	28.6%

▼

Combined: 3rd person past → 1st person present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Grok 4.1 Fast	100	100	100	100	100	100	98	99.7%
Z.AI GLM 5 Turbo	100	100	100	100	100	98	98	99.5%
Grok 4 Fast	100	100	100	100	100	98	98	99.5%
GPT-5.5	100	100	100	100	98	98	98	99.2%
Z.AI GLM 4.5	100	100	100	100	98	98	98	99.2%
GPT-5.4 (Reasoning, Low)	100	100	100	98	98	98	96	98.7%
GPT-5.2	100	100	100	98	98	98	96	98.7%
GPT-5.5 (Reasoning)	100	100	98	98	98	98	98	98.7%
ByteDance Seed 1.6	100	100	98	98	98	98	98	98.7%
GPT-5 Nano	100	100	100	98	98	98	96	98.7%
Grok 4.3 (Reasoning)	100	100	100	98	98	98	95	98.5%
GPT-5.5 (Reasoning, Low)	100	98	98	98	98	98	98	98.5%
Qwen 3.5 Plus (2026-04-20)	100	100	98	98	98	98	96	98.5%
Z.AI GLM 4.7	100	98	98	98	98	98	98	98.5%
Claude Opus 4	100	100	100	98	98	96	96	98.5%
GPT-5.4 (Reasoning)	100	98	98	98	98	98	96	98.2%
Grok 4	100	98	98	98	98	98	96	98.2%
GPT-5.4 Mini	100	98	98	98	98	98	96	98.2%
GPT-5	100	98	98	98	98	98	96	98.2%
Claude Opus 4.6 (Reasoning)	98	98	98	98	98	98	98	98.2%
Qwen3.6 Max Preview	98	98	98	98	98	98	98	98.2%
Claude Opus 4.7 (Reasoning)	98	98	98	98	98	98	98	98.2%
Claude Opus 4.6	98	98	98	98	98	98	98	98.2%
Gemma 4 31B (Reasoning)	98	98	98	98	98	98	98	98.2%
GPT-5.4 Mini (Reasoning)	98	98	98	98	98	98	98	98.2%
Claude Sonnet 4	98	98	98	98	98	98	98	98.2%
Gemma 4 31B	98	98	98	98	98	98	98	98.2%
Qwen 3.5 122B	98	98	98	98	98	98	96	98.0%
Grok 4.20 (Beta, Reasoning)	98	98	98	98	98	98	96	98.0%
Grok 4.20 (Reasoning)	98	98	98	98	98	98	96	98.0%
Qwen 3.5 27B	98	98	98	98	98	98	96	98.0%
Z.AI GLM 4.6	98	98	98	98	98	98	96	98.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	98	98	96	93	98.0%
DeepSeek V4 Pro (Reasoning)	100	100	98	98	96	96	95	97.7%
Aion 2.0	98	98	98	98	98	96	96	97.7%
MiniMax M2.5	98	98	98	98	98	96	96	97.7%
Claude Haiku 4.5	100	98	98	98	96	96	96	97.7%
GPT-5.1	98	98	98	98	98	96	95	97.5%
GPT-5.4	98	98	98	98	96	96	96	97.5%
Claude Sonnet 4.6 (Reasoning)	100	98	98	96	96	96	96	97.5%
DeepSeek V4 Flash (Reasoning)	100	98	98	96	96	96	96	97.5%
Gemini 2.5 Pro	98	98	98	98	96	96	96	97.5%
Gemini 3.5 Flash (Reasoning)	98	98	98	96	96	96	96	97.2%
Qwen 3.6 35B	98	98	98	96	96	96	96	97.2%
MoonshotAI: Kimi K2.5	100	98	96	96	96	96	96	97.2%
Gemini 3 Pro (Preview)	98	98	98	96	96	96	96	97.2%
Claude Sonnet 4.5	98	98	98	96	96	96	96	97.2%
DeepSeek V4 Pro	98	98	98	96	96	96	96	97.2%
Claude Opus 4.7	98	98	98	98	96	96	95	97.2%
GPT-OSS 120B	98	98	98	96	96	96	95	97.0%
DeepSeek V3.1	98	98	96	96	96	96	96	97.0%
Qwen3.7 Max	98	96	96	96	96	96	96	96.7%
Gemma 4 26B (Reasoning)	98	98	96	96	96	96	95	96.7%
Qwen 3.5 35B	98	98	96	96	96	96	95	96.7%
Stealth: Hunter Alpha	98	96	96	96	96	96	96	96.7%
Qwen 3.5 Flash	98	96	96	96	96	96	96	96.7%
Gemma 4 26B	98	96	96	96	96	96	96	96.7%
Z.AI GLM 4.5 Air	98	96	96	96	96	96	96	96.7%
Hermes 3 405B	98	96	96	96	96	96	96	96.7%
Xiaomi MIMO v2.5 Pro	98	98	96	96	96	96	95	96.7%
GPT-4.1 Mini	98	98	98	96	96	96	93	96.7%
Gemini 3.1 Pro (Preview)	96	96	96	96	96	96	96	96.5%
Z.AI GLM 5.1	96	96	96	96	96	96	96	96.5%
MoonshotAI: Kimi K2.6	96	96	96	96	96	96	96	96.5%
Qwen 3.5 397B A17B	96	96	96	96	96	96	96	96.5%
Claude Sonnet 4.6	96	96	96	96	96	96	96	96.5%
Qwen 3.6 Flash	98	96	96	96	96	96	95	96.5%
Claude Opus 4.5	96	96	96	96	96	96	96	96.5%
Qwen 3.5 Plus (2026-02-15)	96	96	96	96	96	96	96	96.5%
GPT-4o, May 13th (temp=0)	96	96	96	96	96	96	96	96.5%
ByteDance Seed 2.0 Lite	96	96	96	96	96	96	96	96.5%
Claude 3.5 Sonnet	96	96	96	96	96	96	96	96.5%
Claude 3.7 Sonnet	96	96	96	96	96	96	96	96.5%
GPT-4o, Aug. 6th (temp=0)	96	96	96	96	96	96	96	96.5%
DeepSeek V3.2	96	96	96	96	96	96	96	96.5%
GPT-4o Mini (temp=1)	96	96	96	96	96	96	96	96.5%
GPT-4o Mini (temp=0)	96	96	96	96	96	96	96	96.5%
MiniMax M2.7	98	98	96	96	96	96	93	96.5%
GPT-5.4 Mini (Reasoning, Low)	98	98	96	96	96	95	95	96.5%
Hermes 3 70B	96	96	96	96	96	96	95	96.2%
GPT-5 Mini	98	98	96	96	96	95	93	96.2%
Gemini 3 Flash (Preview, Reasoning)	98	96	96	96	96	96	93	96.2%
Gemini 3.1 Flash Lite (Reasoning)	96	96	96	96	96	96	95	96.2%
GPT-5.4 Nano (Reasoning, Low)	96	96	96	96	96	96	95	96.2%
GPT-5.4 Nano	96	96	96	96	96	96	95	96.2%
Z.AI GLM 5	96	96	96	96	96	96	93	96.0%
Xiaomi MIMO v2.5	100	96	96	96	96	95	91	96.0%
Gemma 3 27B	98	96	96	96	95	95	95	96.0%
GPT-4.1	96	96	96	96	95	95	95	95.7%
Gemini 2.5 Flash Lite	96	96	96	96	95	95	95	95.7%
Stealth: Healer Alpha	98	96	96	96	96	93	93	95.7%
Qwen 2.5 72B	96	96	96	95	95	95	95	95.5%
Gemini 3.1 Flash Lite	96	96	96	96	95	95	93	95.5%
Z.AI GLM 4.7 Flash	98	96	96	95	95	95	93	95.5%
GPT-5.4 Nano (Reasoning)	96	96	96	96	96	95	91	95.5%
GPT-4o, May 13th (temp=1)	98	96	96	95	95	93	93	95.2%
Gemini 3 Flash (Preview)	96	96	96	95	95	95	93	95.2%
DeepSeek V4 Flash	96	96	96	96	96	95	88	95.0%
WizardLM 2 8x22b	100	98	96	96	93	91	89	95.0%
Gemini 3.5 Flash (Reasoning, Minimal)	98	96	95	95	95	93	93	95.0%
Gemini 2.5 Flash (Reasoning)	96	96	95	95	95	93	93	94.7%
Gemini 3.1 Flash Lite (Preview)	95	95	95	95	95	95	95	94.7%
GPT-4o, Aug. 6th (temp=1)	98	96	95	95	95	91	91	94.5%
Cydonia 24B V4.1	96	95	95	95	95	93	93	94.5%
o4 Mini High	98	96	95	95	95	91	89	94.2%
Mistral Small 3.2 24B	95	95	93	93	93	93	93	93.5%
Inception Mercury	98	96	96	95	93	93	82	93.5%
GPT-4.1 Nano	96	95	95	93	93	91	89	93.2%
Mistral Large 3	93	93	93	93	93	93	93	93.0%
Mistral Large 2	93	93	93	93	93	93	93	93.0%
Mistral Large	93	93	93	93	93	93	93	93.0%
Inception Mercury 2	100	98	98	96	96	95	63	92.5%
DeepSeek V3 (2024-12-26)	93	93	93	93	93	91	89	92.2%
o4 Mini	95	95	93	93	91	89	88	92.0%
DeepSeek-V2 Chat	93	93	93	91	91	91	91	92.0%
LFM2 24B	93	93	93	93	91	89	89	91.7%
DeepSeek V3 (2025-03-24)	93	93	91	91	91	91	89	91.5%
Qwen 3.5 9B	98	98	98	96	96	96	53	91.0%
Grok 4.20 (Beta)	96	91	91	89	89	88	88	90.5%
Mistral Medium 3.1	91	91	88	88	88	88	88	88.7%
ByteDance Seed 2.0 Mini	95	93	93	89	86	82	75	87.7%
Grok 4.20	91	89	89	88	88	86	79	87.2%
Grok 4.3	100	100	98	98	98	67	49	87.2%
Qwen 3 32B	96	93	93	91	84	77	68	86.2%
Llama 3.1 70B	93	89	84	84	84	82	81	85.5%
Skyfall 36B V2	96	93	91	88	84	82	61	85.2%
Gemini 2.5 Flash	98	98	98	98	98	95	11	85.2%
Llama 3.1 Nemotron 70B	86	86	86	86	84	82	82	84.7%
Qwen 3.6 27B	100	98	98	98	98	72	26	84.5%
Mistral Small Creative	93	82	82	82	82	82	81	83.7%
Mistral Small 4 (Reasoning)	98	96	93	93	93	89	23	83.7%
Gemma 3 12B	96	96	95	95	95	95	11	83.2%
Llama 3.1 8B	89	88	88	84	79	77	75	83.0%
ByteDance Seed 1.6 Flash	93	93	88	84	81	81	26	77.9%
Mistral Small 4	95	93	93	93	89	40	30	76.2%
Nemotron 3 Super	100	100	100	98	96	18	11	74.7%
Arcee AI: Trinity Large (Preview)	96	96	96	96	96	11	11	71.9%
Nemotron 3 Nano	98	98	96	93	89	14	12	71.7%
Ministral 3 3B	89	84	70	70	67	63	58	71.7%
Mistral NeMO	77	75	72	70	70	68	67	71.4%
Qwen3 235B A22B Instruct 2507	82	81	79	67	65	60	58	70.2%
Ministral 3B	89	89	79	63	58	49	47	67.9%
Writer: Palmyra X5	74	67	65	61	61	60	58	63.7%
Ministral 3 14B	63	63	63	63	61	58	56	61.2%
Arcee AI: Trinity Mini	96	82	79	79	77	7	4	60.7%
Ministral 8B	53	51	47	44	44	44	42	46.4%
Ministral 3 8B	54	49	46	44	44	42	40	45.6%
Claude 3 Haiku	93	89	0	0	0	0	0	26.1%
Cohere Command R+ (Aug. 2024)	89	16	12	4	2	0	0	17.5%
Rocinante 12B	93	12	9	4	2	0	0	17.0%
Gemma 3 4B	11	11	11	11	11	11	11	10.5%

▼

Expand all contractions

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	98	99.7%
ByteDance Seed 1.6	100	100	100	100	100	100	98	99.7%
Qwen 3.6 Flash	100	100	100	100	100	100	98	99.7%
o4 Mini High	100	100	100	100	100	100	98	99.7%
MiniMax M2.7	100	100	100	100	100	100	98	99.7%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	98	99.7%
GPT-4.1	100	100	100	100	100	100	98	99.7%
GPT-OSS 120B	100	100	100	100	100	100	98	99.7%
Grok 4 Fast	100	100	100	100	100	100	98	99.7%
Xiaomi MIMO v2.5	100	100	100	100	100	100	98	99.7%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	98	99.7%
DeepSeek V3.2	100	100	100	100	100	100	98	99.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	98	99.7%
Llama 3.1 70B	100	100	100	100	100	100	98	99.7%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	98	99.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	98	98	99.3%
Claude Sonnet 4.6	100	100	100	100	100	98	98	99.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	98	98	99.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	95	99.3%
Aion 2.0	100	100	100	100	100	98	98	99.3%
o4 Mini	100	100	100	100	100	98	98	99.3%
Qwen 3.5 35B	100	100	100	100	100	100	95	99.3%
DeepSeek V3.1	100	100	100	100	100	100	95	99.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	98	98	98	99.0%
Claude Opus 4.7	100	100	100	100	98	98	98	99.0%
ByteDance Seed 2.0 Mini	100	100	100	100	98	98	98	99.0%
GPT-5.4	100	100	100	100	98	98	98	99.0%
GPT-5 Nano	100	100	100	100	98	98	98	99.0%
GPT-5 Mini	100	100	100	100	98	98	95	98.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	98	98	95	98.7%
Stealth: Hunter Alpha	100	100	100	100	100	100	91	98.7%
Qwen 3.5 Flash	100	100	100	100	100	95	95	98.7%
Grok 4.20 (Beta)	100	100	100	98	98	98	98	98.7%
Inception Mercury 2	100	100	100	98	98	98	98	98.7%
Gemma 3 27B	100	100	100	100	98	98	95	98.7%
Qwen 2.5 72B	100	100	100	98	98	98	98	98.7%
Cydonia 24B V4.1	100	100	100	100	100	98	93	98.7%
Claude Sonnet 4.6 (Reasoning)	100	100	98	98	98	98	98	98.3%
GPT-5.4 (Reasoning)	100	100	100	98	98	98	95	98.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	98	98	98	98	98	98.3%
DeepSeek V4 Pro	100	100	98	98	98	98	98	98.3%
Grok 4.20	100	98	98	98	98	98	98	98.0%
Mistral Small 4	100	98	98	98	98	98	98	98.0%
Claude Opus 4.7 (Reasoning)	98	98	98	98	98	98	98	97.7%
Gemma 4 31B (Reasoning)	100	98	98	98	98	98	95	97.7%
GPT-4.1 Mini	98	98	98	98	98	95	95	97.0%
Stealth: Healer Alpha	100	100	100	100	100	98	74	96.0%
Mistral Small 4 (Reasoning)	100	100	98	98	95	95	86	96.0%
Mistral Medium 3.1	95	95	95	95	95	95	95	95.3%
Mistral NeMO	98	95	95	95	95	93	93	95.0%
GPT-5.4 Nano (Reasoning)	98	95	95	95	93	93	93	94.7%
Inception Mercury	98	98	95	95	95	91	88	94.4%
GPT-5.4 Nano (Reasoning, Low)	98	95	95	95	93	93	91	94.4%
Llama 3.1 8B	100	95	95	95	91	91	91	94.0%
Gemma 3 12B	98	93	93	93	93	93	93	93.7%
Ministral 3 14B	95	95	93	93	93	93	93	93.7%
GPT-5.4 Nano	95	95	95	95	93	88	88	93.0%
GPT-4.1 Nano	93	93	93	91	91	91	91	91.7%
Mistral Small Creative	91	91	91	91	91	91	91	90.7%
Arcee AI: Trinity Mini	100	95	95	93	93	93	60	90.0%
Qwen 3.5 9B	100	100	98	98	98	98	33	89.0%
Skyfall 36B V2	100	100	100	98	98	67	58	88.7%
Ministral 3 8B	93	93	93	93	88	88	72	88.7%
Ministral 8B	95	93	93	93	88	72	67	86.0%
MiniMax M2.5	100	100	100	98	98	98	2	85.0%
Qwen 3 32B	98	98	98	98	98	12	12	73.1%
Nemotron 3 Nano	100	95	95	95	47	44	28	72.1%
GPT-5.4 Mini (Reasoning, Low)	74	70	67	67	65	60	51	65.1%
GPT-5.4 Mini	70	65	65	65	63	63	63	64.8%
Arcee AI: Trinity Large (Preview)	100	95	53	51	51	51	2	57.8%
Rocinante 12B	95	86	74	40	21	16	2	47.8%
Gemma 3 4B	67	35	35	33	33	30	28	37.2%
Ministral 3B	37	37	37	37	37	28	26	34.2%
Cohere Command R+ (Aug. 2024)	60	37	37	33	28	16	14	32.2%
Ministral 3 3B	37	37	33	33	30	28	28	32.2%
Claude 3 Haiku	93	93	0	0	0	0	0	26.6%
LFM2 24B	5	5	5	2	2	2	2	3.3%

▼

Location rename: market square, outer ring, bridge, northern mines

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	88	98.2%
MiniMax M2.7	100	100	100	100	100	100	88	98.2%
Z.AI GLM 4.7	100	100	100	100	100	100	88	98.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	88	98.2%
DeepSeek-V2 Chat	100	100	100	100	100	100	88	98.2%
Grok 4.20 (Beta)	100	100	100	100	100	100	88	98.2%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	88	98.2%
DeepSeek V3.1	100	100	100	100	100	100	88	98.2%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	88	98.2%
Claude Sonnet 4.6	100	100	100	100	100	88	88	96.4%
Z.AI GLM 4.7 Flash	100	100	100	100	100	88	88	96.4%
Hermes 3 405B	100	100	100	100	100	88	88	96.4%
Mistral Small 4 (Reasoning)	100	100	100	100	100	88	88	96.4%
Qwen 3 32B	100	100	100	100	100	88	88	96.4%
Nemotron 3 Nano	100	100	100	100	100	88	88	96.4%
Mistral Small 4	100	100	100	100	100	88	88	96.4%
Llama 3.1 8B	100	100	100	100	100	100	75	96.4%
Claude Opus 4.7 (Reasoning)	100	100	100	100	88	88	88	94.6%
ByteDance Seed 2.0 Mini	100	100	100	100	88	88	88	94.6%
Gemma 3 27B	100	100	100	100	88	88	88	94.6%
Arcee AI: Trinity Large (Preview)	100	100	100	100	88	88	88	94.6%
Hermes 3 70B	100	100	100	100	88	88	88	94.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	88	88	88	88	92.9%
Cydonia 24B V4.1	100	100	100	88	88	88	88	92.9%
GPT-4.1 Nano	100	100	100	100	100	88	63	92.9%
Gemini 3 Flash (Preview)	100	100	88	88	88	88	88	91.1%
GPT-4o Mini (temp=1)	100	100	88	88	88	88	88	91.1%
Qwen 2.5 72B	100	100	88	88	88	88	88	91.1%
GPT-5.4 Nano	100	100	88	88	88	88	88	91.1%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	88	38	89.3%
GPT-5.4 Nano (Reasoning)	100	88	88	88	88	88	88	89.3%
GPT-4o Mini (temp=0)	88	88	88	88	88	88	88	87.5%
Mistral Medium 3.1	88	88	88	88	88	88	88	87.5%
Mistral Small Creative	88	88	88	88	88	88	88	87.5%
Ministral 3 14B	88	88	88	88	88	88	88	87.5%
Arcee AI: Trinity Mini	88	88	88	88	88	88	88	87.5%
Gemma 3 4B	88	88	88	88	88	88	88	87.5%
Skyfall 36B V2	88	88	88	88	88	88	63	83.9%
Ministral 3 3B	63	50	50	50	38	38	38	46.4%
Ministral 3B	88	63	50	38	38	25	25	46.4%
Mistral NeMO	75	50	38	38	38	25	25	41.1%
Ministral 3 8B	38	38	38	38	38	38	25	35.7%
Cohere Command R+ (Aug. 2024)	75	50	50	25	25	13	13	35.7%
Rocinante 12B	88	50	50	25	13	13	0	33.9%
Ministral 8B	38	38	38	38	25	25	13	30.4%
LFM2 24B	25	25	25	25	25	25	25	25.0%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%

▼

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	97	99.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	97	99.6%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	97	99.6%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	97	99.6%
o4 Mini High	100	100	100	100	100	100	97	99.6%
Mistral Medium 3.1	100	100	100	100	100	100	97	99.6%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	95	99.2%
Qwen 3.5 122B	100	100	100	100	100	97	97	99.2%
Qwen 3.6 27B	100	100	100	100	100	97	97	99.2%
o4 Mini	100	100	100	100	100	97	97	99.2%
Z.AI GLM 4.5 Air	100	100	100	100	100	97	97	99.2%
Writer: Palmyra X5	100	100	100	100	100	100	95	99.2%
Llama 3.1 70B	100	100	100	100	100	100	95	99.2%
Claude 3 Haiku	100	100	100	100	100	100	95	99.2%
Arcee AI: Trinity Mini	100	100	100	100	100	97	97	99.2%
Ministral 3 3B	100	100	100	100	100	97	97	99.2%
Grok 4.3 (Reasoning)	100	100	100	100	97	97	97	98.8%
GPT-5.4 (Reasoning)	100	100	100	100	100	97	95	98.8%
GPT-5.4	100	100	100	100	97	97	97	98.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	97	97	97	98.8%
GPT-5.2	100	100	100	100	97	97	95	98.5%
Qwen 3.6 35B	100	100	100	97	97	97	97	98.5%
Xiaomi MIMO v2.5	100	100	100	100	97	97	95	98.5%
Qwen 3.5 397B A17B	100	100	100	100	100	95	95	98.5%
Gemma 4 31B (Reasoning)	100	100	100	97	97	97	97	98.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	95	95	98.5%
Grok 4.20	100	100	100	100	100	95	95	98.5%
GPT-5 Mini	100	100	100	97	97	97	95	98.1%
Qwen 3.5 Plus (2026-04-20)	100	100	100	97	97	97	95	98.1%
Qwen 3.5 9B	100	100	100	97	97	97	95	98.1%
Ministral 3B	100	100	100	97	97	97	95	98.1%
Qwen 3.6 Flash	100	100	97	97	97	97	95	97.7%
Stealth: Healer Alpha	100	97	97	97	97	97	97	97.7%
Inception Mercury	100	100	100	97	97	95	95	97.7%
Qwen 2.5 72B	100	100	100	100	95	95	95	97.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	95	95	95	97.7%
Qwen 3.5 27B	97	97	97	97	97	97	97	97.3%
MiniMax M2.5	100	97	97	97	97	97	95	97.3%
Gemini 2.5 Flash (Reasoning)	97	97	97	97	97	97	97	97.3%
GPT-OSS 120B	97	97	97	97	97	97	97	97.3%
Inception Mercury 2	97	97	97	97	97	97	97	97.3%
GPT-5.4 Nano (Reasoning, Low)	100	97	97	97	97	97	95	97.3%
Grok 4.20 (Beta)	100	100	100	95	95	95	95	96.9%
Mistral Large	100	100	100	95	95	95	95	96.9%
DeepSeek-V2 Chat	100	100	100	95	95	95	95	96.9%
DeepSeek V3 (2025-03-24)	100	100	100	95	95	95	92	96.5%
Claude Opus 4.7	100	97	97	97	95	95	95	96.5%
Cydonia 24B V4.1	100	100	97	95	95	95	95	96.5%
Qwen 3.5 35B	100	100	97	97	95	92	92	96.1%
DeepSeek V3 (2024-12-26)	100	100	95	95	95	95	95	96.1%
Hermes 3 70B	100	100	95	95	95	95	95	96.1%
GPT-5 Nano	100	100	97	97	92	92	92	95.8%
GPT-5.4 Nano (Reasoning)	100	97	97	95	95	95	92	95.8%
ByteDance Seed 1.6 Flash	97	97	97	97	97	95	89	95.8%
Qwen 3.5 Flash	100	100	97	95	92	92	92	95.4%
GPT-5.4 Nano	97	97	97	97	95	92	92	95.4%
Ministral 3 14B	97	97	95	95	95	95	95	95.4%
WizardLM 2 8x22b	100	95	95	95	95	95	95	95.4%
Gemini 2.5 Flash Lite (Reasoning)	100	95	95	95	95	92	92	94.6%
Mistral Large 3	95	95	95	95	95	95	95	94.6%
GPT-5.4 Mini	95	95	95	95	95	95	95	94.6%
Mistral Large 2	95	95	95	95	95	95	95	94.6%
DeepSeek V3.2	95	95	95	95	95	95	95	94.6%
DeepSeek V4 Flash	95	95	95	95	95	95	95	94.6%
GPT-4o Mini (temp=1)	95	95	95	95	95	95	95	94.6%
Mistral Small 3.2 24B	95	95	95	95	95	95	95	94.6%
Gemma 3 12B	95	95	95	95	95	95	95	94.6%
GPT-4o Mini (temp=0)	95	95	95	95	95	95	95	94.6%
Mistral Small 4	95	95	95	95	95	95	95	94.6%
Ministral 3 8B	95	95	95	95	95	95	95	94.6%
Mistral NeMO	95	95	95	95	95	95	95	94.6%
Grok 4.3	95	95	95	95	95	95	92	94.2%
Skyfall 36B V2	95	95	95	95	95	95	92	94.2%
Ministral 8B	95	95	95	95	95	95	92	94.2%
Z.AI GLM 4.7 Flash	100	97	95	95	95	86	86	93.4%
ByteDance Seed 2.0 Mini	95	95	95	95	95	92	86	93.1%
Cohere Command R+ (Aug. 2024)	95	95	95	95	95	95	78	92.3%
Llama 3.1 8B	95	95	95	95	95	92	81	92.3%
Nemotron 3 Super	97	97	95	95	92	92	78	92.3%
Mistral Small 4 (Reasoning)	100	100	97	97	95	92	49	90.0%
LFM2 24B	86	86	86	86	86	86	86	86.5%
Gemini 2.5 Flash Lite	86	86	86	86	86	86	51	81.5%
DeepSeek V3.1	95	95	95	95	95	95	0	81.1%
Nemotron 3 Nano	97	97	95	95	95	41	30	78.4%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	0	0	71.4%
Rocinante 12B	100	92	89	86	51	51	0	67.2%
Arcee AI: Trinity Large (Preview)	100	0	0	0	0	0	0	14.3%
GPT-4.1 Nano	51	3	3	3	3	3	0	9.3%

▼

POV shift: 3rd person to 1st person (Elena's perspective)

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	96	99.4%
GPT-5 Mini	100	100	100	100	100	100	96	99.4%
Qwen 3.6 Flash	100	100	100	100	100	100	96	99.4%
GPT-OSS 120B	100	100	100	100	100	100	96	99.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	96	99.4%
Z.AI GLM 4.5	100	100	100	100	100	100	96	99.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	96	99.4%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	96	99.4%
GPT-5.4 Mini	100	100	100	100	100	100	96	99.4%
Mistral Large	100	100	100	100	100	100	96	99.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	96	99.4%
GPT-5.4 Nano	100	100	100	100	100	100	96	99.4%
Qwen 3.6 27B	100	100	100	100	100	100	92	98.9%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	92	98.9%
Nemotron 3 Super	100	100	100	100	100	96	96	98.9%
o4 Mini High	100	100	100	100	100	96	92	98.3%
Aion 2.0	100	100	100	100	100	100	88	98.3%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	88	98.3%
Grok 4.20	100	100	100	100	100	100	88	98.3%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	96	88	97.7%
GPT-5 Nano	100	100	100	100	100	96	88	97.7%
Llama 3.1 8B	100	100	100	100	96	96	92	97.7%
o4 Mini	100	100	100	96	96	92	92	96.6%
DeepSeek-V2 Chat	100	100	100	96	96	92	92	96.6%
Grok 4.20 (Beta)	100	100	100	100	100	88	88	96.6%
GPT-4.1 Mini	100	100	100	100	100	92	84	96.6%
Qwen 3 32B	100	100	100	100	100	100	76	96.6%
Nemotron 3 Nano	100	100	100	96	96	96	88	96.6%
Cydonia 24B V4.1	100	100	100	100	100	92	84	96.6%
Claude Opus 4.6 (Reasoning)	96	96	96	96	96	96	96	96.0%
Claude Opus 4.6	96	96	96	96	96	96	96	96.0%
Claude Opus 4.5	96	96	96	96	96	96	96	96.0%
ByteDance Seed 1.6 Flash	100	100	100	96	96	92	88	96.0%
Ministral 3 14B	96	96	96	96	96	96	96	96.0%
GPT-4.1 Nano	100	100	100	100	96	88	84	95.4%
Hermes 3 70B	100	100	100	100	96	96	72	94.9%
Gemma 3 4B	96	96	96	96	96	92	92	94.9%
Arcee AI: Trinity Mini	96	96	92	92	92	92	88	92.6%
Llama 3.1 70B	100	96	96	96	92	84	80	92.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	64	64	89.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	92	88	76	72	89.7%
GPT-4o, Aug. 6th (temp=0)	100	88	88	88	88	88	88	89.7%
Grok 4.3	100	100	100	100	100	84	40	89.1%
Hermes 3 405B	100	100	100	100	100	100	20	88.6%
Xiaomi MIMO v2.5	100	100	100	100	100	96	16	87.4%
Llama 3.1 Nemotron 70B	96	96	92	88	88	84	64	86.9%
Mistral Medium 3.1	88	88	84	84	84	84	84	85.1%
DeepSeek V3 (2025-03-24)	100	100	100	92	88	88	16	83.4%
Mistral Small 4	100	100	100	100	88	48	8	77.7%
Mistral Small 4 (Reasoning)	100	100	100	96	84	20	20	74.3%
Qwen3 235B A22B Instruct 2507	96	96	96	60	56	44	44	70.3%
WizardLM 2 8x22b	100	100	100	100	20	16	0	62.3%
Writer: Palmyra X5	80	76	72	60	52	52	40	61.7%
Ministral 3 8B	52	52	48	48	48	44	40	47.4%
Mistral Small Creative	76	56	48	40	40	36	32	46.9%
Ministral 8B	52	52	48	44	40	40	36	44.6%
Mistral NeMO	76	72	64	36	32	4	0	40.6%
Skyfall 36B V2	100	96	44	20	12	8	0	40.0%
LFM2 24B	96	96	8	8	8	8	4	32.6%
Rocinante 12B	100	68	20	12	12	8	0	31.4%
Ministral 3 3B	52	48	48	44	8	8	8	30.9%
Ministral 3B	88	60	16	8	8	8	4	27.4%
Cohere Command R+ (Aug. 2024)	92	20	16	8	8	4	4	21.7%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%

▼

Tense rewriting: past to present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	98	99.7%
Claude Sonnet 4.5	100	100	100	100	100	100	98	99.7%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	98	99.7%
Claude Haiku 4.5	100	100	100	100	100	100	98	99.7%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	98	99.7%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	98	98	99.5%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	98	98	99.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	98	96	99.2%
Z.AI GLM 4.7	100	100	100	100	100	98	96	99.2%
GPT-4o, May 13th (temp=1)	100	100	100	100	98	98	98	99.2%
GPT-5	100	100	100	100	98	98	98	99.2%
GPT-5.5	100	100	100	100	98	98	98	99.2%
Claude Sonnet 4	100	100	100	100	98	98	98	99.2%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	98	98	98	99.2%
GPT-5.1	100	100	100	98	98	98	98	98.9%
Grok 4	100	100	100	98	98	98	98	98.9%
Qwen 3.5 Flash	100	100	100	100	100	98	94	98.9%
ByteDance Seed 2.0 Lite	100	100	100	98	98	98	98	98.9%
DeepSeek V4 Pro	100	100	100	98	98	98	98	98.9%
Mistral Small 4 (Reasoning)	100	100	100	98	98	98	98	98.9%
MoonshotAI: Kimi K2.6	100	100	100	100	98	96	96	98.7%
Qwen 3.5 27B	100	100	98	98	98	98	98	98.7%
Xiaomi MIMO v2.5	100	100	100	100	98	96	96	98.7%
DeepSeek V4 Flash	100	100	98	98	98	98	98	98.7%
Llama 3.1 70B	100	100	100	98	98	98	96	98.7%
Qwen 2.5 72B	100	100	98	98	98	98	98	98.7%
Xiaomi MIMO v2.5 Pro	100	100	98	98	98	98	98	98.7%
Writer: Palmyra X5	100	100	98	98	98	98	98	98.7%
Z.AI GLM 4.6	100	100	98	98	98	98	96	98.4%
Stealth: Hunter Alpha	100	100	98	98	98	98	96	98.4%
Gemini 3 Flash (Preview)	100	100	100	98	98	96	96	98.4%
GPT-5.5 (Reasoning, Low)	100	100	98	98	98	98	96	98.4%
Z.AI GLM 5	100	100	98	98	98	98	96	98.4%
MoonshotAI: Kimi K2.5	100	98	98	98	98	98	98	98.4%
Claude Opus 4.5	100	98	98	98	98	98	98	98.4%
Qwen 3.6 35B	100	100	98	98	98	98	96	98.4%
Qwen 3.5 35B	100	100	98	98	98	98	96	98.4%
ByteDance Seed 2.0 Mini	100	100	100	98	98	98	94	98.4%
Qwen 3.5 Plus (2026-02-15)	100	98	98	98	98	98	98	98.4%
Aion 2.0	100	100	100	100	98	96	92	98.1%
Hermes 3 70B	100	98	98	98	98	98	96	98.1%
Qwen3.7 Max	98	98	98	98	98	98	98	98.1%
Qwen3.6 Max Preview	98	98	98	98	98	98	98	98.1%
Z.AI GLM 5 Turbo	100	98	98	98	98	98	96	98.1%
Claude Opus 4.6	98	98	98	98	98	98	98	98.1%
Gemma 4 31B (Reasoning)	98	98	98	98	98	98	98	98.1%
Grok 4.20 (Reasoning)	100	100	98	98	98	96	96	98.1%
Gemini 3 Pro (Preview)	98	98	98	98	98	98	98	98.1%
Claude Opus 4	100	98	98	98	98	98	96	98.1%
Gemma 4 31B	98	98	98	98	98	98	98	98.1%
Gemini 3.1 Flash Lite (Reasoning)	98	98	98	98	98	98	98	98.1%
Z.AI GLM 4.5	100	98	98	98	98	98	96	98.1%
Stealth: Healer Alpha	100	100	100	100	96	96	94	98.1%
Gemini 3.1 Flash Lite (Preview)	98	98	98	98	98	98	98	98.1%
Gemma 4 26B	98	98	98	98	98	98	98	98.1%
Gemini 3.1 Flash Lite	98	98	98	98	98	98	98	98.1%
Mistral Large 3	98	98	98	98	98	98	98	98.1%
Claude 3.7 Sonnet	98	98	98	98	98	98	98	98.1%
Hermes 3 405B	100	98	98	98	98	98	96	98.1%
Mistral Large 2	98	98	98	98	98	98	98	98.1%
Mistral Large	98	98	98	98	98	98	98	98.1%
Mistral Small 3.2 24B	98	98	98	98	98	98	98	98.1%
Arcee AI: Trinity Large (Preview)	98	98	98	98	98	98	98	98.1%
Mistral Small Creative	100	98	98	98	98	98	96	98.1%
LFM2 24B	98	98	98	98	98	98	98	98.1%
Gemini 2.5 Pro	98	98	98	98	98	98	96	97.8%
Gemini 2.5 Flash Lite	98	98	98	98	98	98	96	97.8%
Grok 4.3	100	98	98	98	98	96	96	97.8%
Z.AI GLM 5.1	98	98	98	98	98	98	96	97.8%
Gemini 3.5 Flash (Reasoning)	98	98	98	98	98	98	96	97.8%
GPT-5 Mini	100	100	98	98	98	96	94	97.8%
Qwen 3.5 397B A17B	98	98	98	98	98	98	96	97.8%
Gemma 4 26B (Reasoning)	98	98	98	98	98	98	96	97.8%
Gemini 3 Flash (Preview, Reasoning)	98	98	98	98	98	98	96	97.8%
DeepSeek V4 Flash (Reasoning)	100	100	98	98	96	96	94	97.6%
Grok 4.3 (Reasoning)	100	100	100	98	96	94	94	97.6%
ByteDance Seed 1.6	100	98	98	98	98	96	94	97.6%
GPT-5.5 (Reasoning)	98	98	98	98	98	98	94	97.6%
Grok 4 Fast	100	98	98	98	98	96	94	97.6%
GPT-4.1 Nano	100	98	98	98	98	96	94	97.6%
GPT-5.4 Mini (Reasoning)	100	100	98	98	96	94	94	97.3%
MiniMax M2.7	100	98	98	96	96	96	96	97.3%
Cydonia 24B V4.1	98	98	98	98	96	96	96	97.3%
Qwen 3.5 122B	98	98	98	98	96	96	96	97.3%
Qwen 3.5 Plus (2026-04-20)	100	98	98	96	96	96	96	97.3%
Grok 4.20 (Beta, Reasoning)	100	100	98	98	96	94	94	97.3%
o4 Mini High	98	98	98	98	96	96	96	97.3%
Grok 4.1 Fast	100	100	98	98	96	94	94	97.3%
Claude 3.5 Sonnet	98	98	98	98	96	96	96	97.3%
GPT-5 Nano	98	98	98	98	96	96	96	97.3%
Grok 4.20	98	98	98	98	96	96	96	97.3%
Mistral Medium 3.1	98	98	98	98	96	96	96	97.3%
GPT-5.4 Mini	100	98	98	98	96	96	94	97.3%
GPT-OSS 120B	100	100	96	96	96	96	94	97.0%
Grok 4.20 (Beta)	98	98	98	96	96	96	96	97.0%
GPT-5.4 (Reasoning, Low)	100	98	98	98	98	94	92	97.0%
MiniMax M2.5	100	98	98	96	96	96	94	97.0%
GPT-5.4 Mini (Reasoning, Low)	98	98	98	98	98	96	92	97.0%
Mistral Small 4	100	98	96	96	96	96	96	97.0%
GPT-5.4	100	98	96	96	96	96	94	96.8%
Gemini 2.5 Flash	98	98	98	96	96	96	94	96.8%
Qwen 3.6 27B	98	98	98	96	96	96	94	96.8%
Gemini 2.5 Flash (Reasoning)	98	98	98	98	96	94	94	96.8%
GPT-4.1	100	98	96	96	96	96	94	96.8%
GPT-5.4 Nano (Reasoning)	98	98	98	96	96	96	94	96.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	96	96	96	94	92	96.5%
DeepSeek-V2 Chat	98	98	98	96	96	94	94	96.5%
Inception Mercury 2	100	100	96	96	96	94	92	96.5%
GPT-4o Mini (temp=1)	98	96	96	96	96	96	96	96.5%
o4 Mini	100	100	96	96	94	94	92	96.2%
Gemini 3.1 Pro (Preview)	96	96	96	96	96	96	96	96.2%
Claude Opus 4.7 (Reasoning)	96	96	96	96	96	96	96	96.2%
GPT-5.2	96	96	96	96	96	96	96	96.2%
Claude Opus 4.7	96	96	96	96	96	96	96	96.2%
Gemini 3.5 Flash (Reasoning, Minimal)	96	96	96	96	96	96	96	96.2%
GPT-4o Mini (temp=0)	96	96	96	96	96	96	96	96.2%
Ministral 3 14B	96	96	96	96	96	96	96	96.2%
DeepSeek V3.2	98	98	98	96	94	94	92	96.0%
GPT-4.1 Mini	96	96	96	96	96	96	94	96.0%
GPT-5.4 Nano (Reasoning, Low)	98	96	96	96	96	94	94	96.0%
WizardLM 2 8x22b	98	96	96	96	96	94	94	96.0%
Gemma 3 12B	96	96	96	96	96	94	94	95.7%
ByteDance Seed 1.6 Flash	96	96	96	96	96	94	94	95.7%
Llama 3.1 8B	98	98	98	96	96	92	91	95.7%
DeepSeek V3 (2024-12-26)	98	96	96	96	94	92	92	95.1%
GPT-5.4 (Reasoning)	96	96	96	94	94	94	92	94.9%
GPT-5.4 Nano	94	94	94	94	94	94	94	94.3%
Ministral 3 8B	94	94	94	94	94	94	94	94.3%
Z.AI GLM 4.7 Flash	96	94	94	94	94	94	92	94.3%
Mistral NeMO	96	96	94	94	94	92	89	93.8%
Gemma 3 27B	98	94	94	94	92	92	91	93.8%
Ministral 8B	96	94	94	94	92	92	92	93.8%
Qwen 3 32B	98	98	98	98	96	94	70	93.3%
Inception Mercury	96	94	92	91	91	89	87	91.4%
Qwen 3.5 9B	98	96	94	92	92	92	70	90.8%
Nemotron 3 Super	98	98	96	96	96	94	15	84.9%
DeepSeek V3 (2025-03-24)	98	98	98	96	96	96	11	84.9%
Nemotron 3 Nano	98	96	96	96	96	94	17	84.9%
Qwen 3.6 Flash	100	98	98	98	98	94	0	83.8%
Arcee AI: Trinity Mini	100	98	98	98	96	96	0	83.8%
Cohere Command R+ (Aug. 2024)	98	92	89	87	75	74	60	82.2%
Skyfall 36B V2	96	96	96	96	96	85	9	82.2%
DeepSeek V3.1	94	92	92	92	91	38	6	72.2%
Rocinante 12B	96	96	96	92	74	8	0	66.0%
Ministral 3B	91	64	55	47	43	42	42	54.7%
Ministral 3 3B	74	58	57	55	47	45	42	53.9%
Claude 3 Haiku	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0.0%

Specific Prompt

▼

Character rename: Elena->Mirabel, Gregor->Aldric

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Skyfall 36B V2	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	92	98.8%
Qwen 3.5 Flash	100	100	100	100	100	100	92	98.8%
Rocinante 12B	100	100	100	100	100	100	92	98.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	75	96.4%
Arcee AI: Trinity Mini	92	92	92	92	92	92	92	91.7%
Hermes 3 405B	100	100	100	100	100	100	0	85.7%
Ministral 3 14B	100	100	100	100	100	100	0	85.7%
Claude 3 Haiku	100	100	100	100	100	100	0	85.7%
Nemotron 3 Nano	100	100	100	100	92	42	33	81.0%
Hermes 3 70B	100	100	100	100	100	0	0	71.4%

▼

Combined: 3rd person past → 1st person present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	98	99.7%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	98	99.7%
GPT-5	100	100	100	100	100	100	98	99.7%
Aion 2.0	100	100	100	100	100	100	98	99.7%
Z.AI GLM 4.6	100	100	100	100	100	100	98	99.7%
Claude Sonnet 4	100	100	100	100	100	100	98	99.7%
Z.AI GLM 4.5	100	100	100	100	100	100	98	99.7%
Gemma 4 26B	100	100	100	100	100	100	98	99.7%
Qwen3.6 Max Preview	100	100	100	100	100	98	98	99.5%
Z.AI GLM 5.1	100	100	100	100	100	98	98	99.5%
Gemma 4 31B (Reasoning)	100	100	100	100	100	98	98	99.5%
MoonshotAI: Kimi K2.5	100	100	100	100	100	98	98	99.5%
Gemini 2.5 Pro	100	100	100	100	100	98	98	99.5%
Grok 4	100	100	100	100	100	100	96	99.5%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	98	98	99.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	98	98	99.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	98	98	99.5%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	98	96	99.2%
Qwen 3.5 27B	100	100	100	100	98	98	98	99.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	98	98	98	99.2%
Z.AI GLM 4.7	100	100	100	100	98	98	98	99.2%
Stealth: Healer Alpha	100	100	100	100	100	98	96	99.2%
GPT-4o, May 13th (temp=0)	100	100	100	100	98	98	98	99.2%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	98	96	99.2%
GPT-4o Mini (temp=0)	100	100	100	100	98	98	98	99.2%
Z.AI GLM 5 Turbo	100	100	100	98	98	98	98	99.0%
GPT-5.5 (Reasoning)	100	100	100	98	98	98	98	99.0%
Qwen 3.5 397B A17B	100	100	100	98	98	98	98	99.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	98	98	98	98	99.0%
Z.AI GLM 5	100	100	100	100	100	96	96	99.0%
o4 Mini High	100	100	100	98	98	98	98	99.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	98	98	98	99.0%
GPT-OSS 120B	100	100	100	100	98	98	96	99.0%
Grok 4.20 (Reasoning)	100	100	98	98	98	98	98	98.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	98	98	98	98	98	98.7%
Grok 4.1 Fast	100	100	98	98	98	98	98	98.7%
Grok 4 Fast	100	100	98	98	98	98	98	98.7%
GPT-5.1	100	100	100	98	98	98	95	98.5%
Grok 4.3 (Reasoning)	100	100	98	98	98	98	96	98.5%
Qwen 3.5 35B	100	98	98	98	98	98	98	98.5%
Stealth: Hunter Alpha	100	98	98	98	98	98	98	98.5%
GPT-4o, May 13th (temp=1)	100	98	98	98	98	98	98	98.5%
GPT-4.1 Mini	100	98	98	98	98	98	98	98.5%
Mistral Small 4 (Reasoning)	100	98	98	98	98	98	98	98.5%
GPT-5.4 Nano (Reasoning)	100	100	98	98	98	98	95	98.2%
GPT-4o Mini (temp=1)	100	98	98	98	98	98	96	98.2%
Qwen 3.5 9B	100	98	98	98	98	98	96	98.2%
Gemma 4 26B (Reasoning)	98	98	98	98	98	98	98	98.2%
GPT-5.4 (Reasoning, Low)	100	98	98	98	98	98	96	98.2%
ByteDance Seed 1.6	98	98	98	98	98	98	98	98.2%
Qwen 3.6 Flash	100	98	98	98	98	98	96	98.2%
GPT-5.2	98	98	98	98	98	98	98	98.2%
GPT-5.5	98	98	98	98	98	98	98	98.2%
Qwen 3.6 35B	100	98	98	98	98	98	96	98.2%
Gemini 3 Pro (Preview)	98	98	98	98	98	98	98	98.2%
Xiaomi MIMO v2.5 Pro	98	98	98	98	98	98	98	98.2%
Gemini 3.1 Flash Lite (Reasoning)	98	98	98	98	98	98	98	98.2%
Gemini 3.1 Flash Lite	98	98	98	98	98	98	98	98.2%
Gemini 2.5 Flash Lite (Reasoning)	100	100	98	98	98	96	96	98.2%
Mistral Large 3	98	98	98	98	98	98	98	98.2%
DeepSeek-V2 Chat	98	98	98	98	98	98	98	98.2%
Mistral Large 2	98	98	98	98	98	98	98	98.2%
DeepSeek V3.2	98	98	98	98	98	98	98	98.2%
Gemini 2.5 Flash Lite	98	98	98	98	98	98	98	98.2%
Mistral Large	98	98	98	98	98	98	98	98.2%
Qwen3 235B A22B Instruct 2507	98	98	98	98	98	98	98	98.2%
WizardLM 2 8x22b	98	98	98	98	98	98	98	98.2%
Gemini 3.1 Flash Lite (Preview)	98	98	98	98	98	98	96	98.0%
Claude Haiku 4.5	100	100	98	98	96	96	96	98.0%
DeepSeek V4 Pro	100	98	98	98	98	96	96	98.0%
GPT-5 Nano	100	100	98	98	98	96	95	98.0%
Grok 4.20 (Beta, Reasoning)	98	98	98	98	98	96	96	97.7%
ByteDance Seed 2.0 Mini	100	100	98	96	96	96	96	97.7%
Mistral Medium 3.1	98	98	98	98	98	96	96	97.7%
GPT-4.1 Nano	100	98	98	98	96	96	96	97.7%
Claude Sonnet 4.5	100	98	98	96	96	96	96	97.5%
Grok 4.3	100	98	98	98	96	96	95	97.5%
Gemma 3 27B	100	98	98	96	96	96	96	97.5%
Writer: Palmyra X5	98	98	98	98	96	96	96	97.5%
Skyfall 36B V2	100	98	98	96	96	96	96	97.5%
GPT-5.4	98	98	98	96	96	96	95	97.0%
Arcee AI: Trinity Large (Preview)	98	96	96	96	96	96	96	96.7%
Llama 3.1 70B	100	98	96	96	96	96	93	96.7%
Cydonia 24B V4.1	98	96	96	96	96	96	96	96.7%
Gemini 3.5 Flash (Reasoning, Minimal)	96	96	96	96	96	96	96	96.5%
Claude 3.5 Sonnet	96	96	96	96	96	96	96	96.5%
Claude 3.7 Sonnet	96	96	96	96	96	96	96	96.5%
Hermes 3 405B	96	96	96	96	96	96	96	96.5%
Mistral Small 3.2 24B	96	96	96	96	96	96	96	96.5%
Qwen 2.5 72B	96	96	96	96	96	96	96	96.5%
Llama 3.1 Nemotron 70B	96	96	96	96	96	96	96	96.5%
Mistral Small Creative	96	96	96	96	96	96	96	96.5%
Ministral 3 14B	96	96	96	96	96	96	96	96.5%
Ministral 3 8B	96	96	96	96	96	96	96	96.5%
Llama 3.1 8B	96	96	96	96	96	96	96	96.5%
MiniMax M2.5	98	96	96	96	96	96	95	96.5%
Qwen 3.5 Plus (2026-02-15)	98	96	96	96	96	96	95	96.5%
Claude Sonnet 4.6	96	96	96	96	96	96	95	96.2%
Grok 4.20	98	98	96	96	95	95	95	96.2%
Mistral NeMO	96	96	96	96	96	96	95	96.2%
Xiaomi MIMO v2.5	100	96	96	96	96	96	89	96.0%
DeepSeek V4 Flash	96	96	96	96	96	96	93	96.0%
Ministral 8B	96	96	96	96	96	96	93	96.0%
Cohere Command R+ (Aug. 2024)	98	96	96	96	95	93	93	95.5%
Inception Mercury 2	98	96	96	95	95	93	93	95.2%
Claude Opus 4.7 (Reasoning)	96	96	95	95	95	95	95	95.2%
Gemma 3 12B	96	95	95	95	95	95	95	95.0%
Claude 3 Haiku	96	96	95	95	95	95	93	95.0%
Gemini 3 Flash (Preview)	95	95	95	95	95	95	95	94.7%
Mistral Small 4	96	96	96	96	95	91	91	94.7%
Qwen 3.5 Flash	98	98	98	98	98	98	74	94.7%
Qwen 3 32B	100	98	98	98	98	98	72	94.7%
GPT-5.4 Mini	98	96	95	93	93	93	93	94.5%
Z.AI GLM 4.5 Air	96	96	95	93	93	93	91	94.0%
Rocinante 12B	96	96	95	95	93	93	84	93.2%
GPT-5.4 Mini (Reasoning, Low)	98	96	95	93	91	89	88	93.0%
Qwen 3.6 27B	100	98	98	98	98	98	53	92.0%
GPT-5.4 Nano	96	96	95	95	89	88	82	91.7%
Claude Opus 4.7	95	95	89	89	89	89	89	91.0%
Ministral 3B	91	91	91	91	91	91	88	90.7%
Ministral 3 3B	91	91	91	91	88	88	88	89.7%
Gemma 3 4B	93	89	89	89	89	88	86	89.2%
Grok 4.20 (Beta)	98	98	98	96	95	89	42	88.2%
GPT-5.4 Nano (Reasoning, Low)	98	95	95	93	89	86	58	87.7%
DeepSeek V3.1	98	98	98	98	98	96	16	86.2%
Nemotron 3 Super	100	98	98	98	96	96	14	86.0%
o4 Mini	100	100	100	100	100	98	2	85.7%
ByteDance Seed 1.6 Flash	98	98	98	96	96	95	18	85.7%
DeepSeek V3 (2024-12-26)	98	98	98	98	98	96	0	84.0%
DeepSeek V3 (2025-03-24)	98	98	98	96	96	96	0	83.5%
Inception Mercury	95	95	88	86	81	70	46	79.9%
Z.AI GLM 4.7 Flash	100	100	96	91	91	25	19	74.7%
Arcee AI: Trinity Mini	75	75	70	70	70	70	68	71.4%
MiniMax M2.7	98	98	98	96	72	18	18	71.2%
Nemotron 3 Nano	96	95	95	95	39	37	28	69.2%
LFM2 24B	82	82	82	61	61	60	12	63.2%
Hermes 3 70B	95	0	0	0	0	0	0	13.5%

▼

Expand all contractions

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	98	99.7%
Qwen 3.5 27B	100	100	100	100	100	100	98	99.7%
Qwen 3.6 Flash	100	100	100	100	100	100	98	99.7%
Z.AI GLM 4.6	100	100	100	100	100	100	98	99.7%
MiniMax M2.7	100	100	100	100	100	100	98	99.7%
o4 Mini	100	100	100	100	100	100	98	99.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	98	99.7%
GPT-OSS 120B	100	100	100	100	100	100	98	99.7%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	98	99.7%
DeepSeek-V2 Chat	100	100	100	100	100	100	98	99.7%
GPT-5.4	100	100	100	100	100	100	98	99.7%
DeepSeek V4 Pro	100	100	100	100	100	100	98	99.7%
Gemma 3 12B	100	100	100	100	100	100	98	99.7%
Llama 3.1 70B	100	100	100	100	100	100	98	99.7%
Stealth: Hunter Alpha	100	100	100	100	100	98	98	99.3%
Qwen 3.5 9B	100	100	100	100	100	98	98	99.3%
Nemotron 3 Super	100	100	100	100	100	98	98	99.3%
Inception Mercury 2	100	100	100	100	100	98	98	99.3%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	98	98	99.3%
Claude 3 Haiku	100	100	100	100	100	98	98	99.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	98	98	98	99.0%
Qwen 3.5 Flash	100	100	100	100	100	100	93	99.0%
Grok 4 Fast	100	100	100	100	100	98	95	99.0%
Stealth: Healer Alpha	100	100	100	100	98	98	98	99.0%
Xiaomi MIMO v2.5	100	100	100	100	98	98	98	99.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	98	95	99.0%
MiniMax M2.5	100	100	100	100	98	98	95	98.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	98	93	98.7%
GPT-5 Nano	100	100	100	100	98	98	95	98.7%
Grok 4.1 Fast	100	100	100	98	98	98	95	98.3%
Z.AI GLM 4.7 Flash	100	100	98	98	98	98	98	98.3%
Qwen 3 32B	100	100	100	98	98	98	95	98.3%
Arcee AI: Trinity Mini	100	100	98	98	98	98	98	98.3%
Cohere Command R+ (Aug. 2024)	100	100	100	98	98	98	95	98.3%
Grok 4.3 (Reasoning)	100	98	98	98	98	98	98	98.0%
Gemini 2.5 Flash Lite (Reasoning)	100	98	98	98	98	98	98	98.0%
GPT-5.4 Mini	100	100	100	100	98	98	91	98.0%
Qwen 3.5 35B	100	100	98	98	98	98	93	97.7%
Llama 3.1 8B	98	98	98	98	98	95	95	97.0%
Ministral 3 14B	100	100	95	95	95	95	95	96.7%
GPT-4.1 Nano	98	98	98	98	95	95	95	96.7%
Mistral Small Creative	95	95	95	95	95	93	93	94.7%
Mistral Small 4 (Reasoning)	100	98	98	98	98	93	77	94.4%
Mistral NeMO	98	98	98	98	98	88	81	94.0%
Inception Mercury	95	95	95	93	88	88	86	91.7%
ByteDance Seed 1.6 Flash	100	98	95	95	95	88	65	91.0%
Ministral 3 3B	95	91	91	91	91	91	88	91.0%
GPT-5.4 Nano (Reasoning)	98	93	93	93	91	91	74	90.4%
Cydonia 24B V4.1	100	100	100	100	98	88	47	90.4%
Ministral 3B	91	91	91	91	88	88	88	89.7%
GPT-5.4 Mini (Reasoning)	100	100	100	93	91	84	47	87.7%
Skyfall 36B V2	100	100	98	93	77	72	70	87.0%
Grok 4.3	100	100	100	98	70	70	67	86.4%
GPT-5.4 Nano	93	91	88	88	86	84	74	86.4%
Nemotron 3 Nano	100	98	98	93	77	63	37	80.7%
GPT-5.4 Nano (Reasoning, Low)	86	81	77	74	72	72	72	76.4%
DeepSeek V3.1	100	100	100	100	44	9	7	65.8%
Rocinante 12B	47	42	28	14	0	0	0	18.6%
Gemma 3 4B	16	16	16	16	16	16	16	16.3%
Hermes 3 70B	100	0	0	0	0	0	0	14.3%

▼

Location rename: market square, outer ring, bridge, northern mines

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Skyfall 36B V2	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100	88	98.2%
Mistral Small 4 (Reasoning)	100	100	100	100	100	88	88	96.4%
Grok 4.3	100	100	100	100	100	88	88	96.4%
MiniMax M2.7	100	100	100	100	100	100	50	92.9%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	50	92.9%
Arcee AI: Trinity Mini	100	100	100	88	88	88	88	92.9%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	38	91.1%
Nemotron 3 Nano	100	100	100	100	100	100	38	91.1%
GPT-4.1 Nano	88	88	88	88	88	88	88	87.5%
Mistral NeMO	88	88	88	88	88	88	88	87.5%
LFM2 24B	88	88	88	88	88	88	88	87.5%
Hermes 3 70B	100	100	100	63	0	0	0	51.8%

▼

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	97	99.6%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	97	99.6%
Qwen 3.5 27B	100	100	100	100	100	100	97	99.6%
Claude Opus 4.7	100	100	100	100	100	100	97	99.6%
Qwen 3.6 35B	100	100	100	100	100	100	97	99.6%
o4 Mini	100	100	100	100	100	100	97	99.6%
Qwen 3.5 35B	100	100	100	100	100	100	97	99.6%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	97	99.6%
Stealth: Healer Alpha	100	100	100	100	100	100	97	99.6%
GPT-5.4	100	100	100	100	100	100	97	99.6%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	97	99.6%
GPT-5.4 Nano	100	100	100	100	100	100	97	99.6%
Z.AI GLM 5.1	100	100	100	100	100	100	95	99.2%
Qwen 3.6 Flash	100	100	100	100	100	100	95	99.2%
o4 Mini High	100	100	100	100	100	97	97	99.2%
GPT-4.1 Mini	100	100	100	100	100	97	97	99.2%
GPT-4.1 Nano	100	100	100	100	100	100	95	99.2%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	97	97	99.2%
Mistral Large 2	100	100	100	100	97	97	97	98.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	97	97	97	98.8%
MiniMax M2.7	100	100	100	97	97	97	97	98.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	95	95	98.5%
Inception Mercury 2	100	100	100	97	97	97	97	98.5%
GPT-5 Nano	100	100	100	97	97	97	97	98.5%
GPT-5.4 Mini	100	100	100	100	100	97	89	98.1%
GPT-5.4 Nano (Reasoning)	100	100	100	100	97	97	92	98.1%
Mistral Large	100	100	97	97	97	97	97	98.1%
Llama 3.1 8B	100	100	100	100	100	97	89	98.1%
GPT-5.4 Mini (Reasoning)	100	100	100	100	97	95	92	97.7%
GPT-OSS 120B	97	97	97	97	97	97	97	97.3%
Mistral Large 3	97	97	97	97	97	97	97	97.3%
Nemotron 3 Super	100	100	97	97	97	97	92	97.3%
Mistral Small 4 (Reasoning)	100	100	97	97	97	95	95	97.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	78	96.9%
MiniMax M2.5	97	97	97	97	97	97	95	96.9%
Skyfall 36B V2	100	100	100	100	95	95	89	96.9%
Z.AI GLM 4.5 Air	100	97	97	97	95	95	95	96.5%
Mistral Medium 3.1	100	100	100	100	89	89	86	95.0%
Z.AI GLM 4.7 Flash	97	97	97	97	97	92	86	95.0%
GPT-5.2	100	100	100	89	89	89	78	92.3%
LFM2 24B	92	92	92	92	92	92	92	91.9%
Qwen 3.5 9B	100	100	100	100	97	97	35	90.0%
DeepSeek V3.1	100	100	100	100	100	92	35	89.6%
Mistral Small 3.2 24B	100	100	100	100	100	100	0	85.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	97	97	97	0	84.6%
Rocinante 12B	100	100	100	100	97	89	0	83.8%
Inception Mercury	95	95	92	92	78	73	19	77.6%
Nemotron 3 Nano	97	97	86	65	30	30	30	62.2%
Hermes 3 70B	100	100	100	19	0	0	0	45.6%

▼

POV shift: 3rd person to 1st person (Elena's perspective)

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	96	99.4%
Inception Mercury	100	100	100	100	100	100	96	99.4%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	96	99.4%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	96	96	98.9%
Cydonia 24B V4.1	100	100	100	100	100	100	92	98.9%
GPT-4.1 Nano	100	100	100	100	100	100	92	98.9%
Skyfall 36B V2	100	100	100	100	100	100	92	98.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	96	88	97.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	96	96	96	97.7%
GPT-5.4 Nano	100	100	100	96	96	96	96	97.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	80	97.1%
LFM2 24B	100	96	96	96	96	96	96	96.6%
Claude 3 Haiku	96	96	96	96	96	96	96	96.0%
Arcee AI: Trinity Mini	96	96	96	96	96	96	92	95.4%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	48	92.6%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	40	91.4%
Nemotron 3 Nano	100	100	100	100	96	60	52	86.9%
DeepSeek V3.1	100	100	100	100	100	16	4	74.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	16	0	73.7%
Rocinante 12B	100	100	100	96	20	16	4	62.3%
Hermes 3 70B	100	100	0	0	0	0	0	28.6%

▼

Tense rewriting: past to present

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	98	99.7%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	98	99.7%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	98	99.7%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	98	99.7%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	98	99.7%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	98	99.7%
o4 Mini	100	100	100	100	100	100	98	99.7%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	98	99.7%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	98	99.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	98	99.7%
Qwen 3 32B	100	100	100	100	100	100	98	99.7%
Grok 4.20	100	100	100	100	100	100	98	99.7%
Gemma 3 27B	100	100	100	100	100	100	98	99.7%
Mistral Small Creative	100	100	100	100	100	100	98	99.7%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	98	98	99.5%
Grok 4.20 (Reasoning)	100	100	100	100	100	98	98	99.5%
GPT-5.2	100	100	100	100	100	98	98	99.5%
Z.AI GLM 4.6	100	100	100	100	100	98	98	99.5%
MiniMax M2.7	100	100	100	100	100	98	98	99.5%
GPT-5.5	100	100	100	100	100	98	98	99.5%
ByteDance Seed 2.0 Mini	100	100	100	100	100	98	98	99.5%
Grok 4 Fast	100	100	100	100	100	98	98	99.5%
Stealth: Healer Alpha	100	100	100	100	100	98	98	99.5%
Nemotron 3 Super	100	100	100	100	100	100	96	99.5%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	96	99.5%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	98	98	99.5%
GPT-5.4 (Reasoning)	100	100	100	100	100	98	96	99.2%
Qwen 3.5 9B	100	100	100	100	100	100	94	99.2%
GPT-5 Nano	100	100	100	100	98	98	98	99.2%
Grok 4.3	100	100	100	100	100	98	96	99.2%
Cydonia 24B V4.1	100	100	100	100	100	98	96	99.2%
Z.AI GLM 4.5	100	100	100	100	100	98	96	99.2%
Gemma 3 4B	100	100	100	100	98	98	98	99.2%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	98	98	96	98.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	98	98	96	98.9%
Grok 4.1 Fast	100	100	100	98	98	98	98	98.9%
Ministral 3B	100	100	100	100	98	98	96	98.9%
GPT-5.5 (Reasoning)	100	100	98	98	98	98	98	98.7%
GPT-5.1	100	100	100	100	98	96	96	98.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	94	94	98.4%
Mistral Small 4	100	100	100	98	98	96	96	98.4%
Cohere Command R+ (Aug. 2024)	100	100	98	98	98	98	96	98.4%
MiniMax M2.5	100	98	98	98	98	98	98	98.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	98	96	96	96	98.1%
Gemini 3 Flash (Preview)	100	100	100	98	98	98	92	98.1%
GPT-4o Mini (temp=1)	98	98	98	98	98	98	98	98.1%
GPT-4o Mini (temp=0)	98	98	98	98	98	98	98	98.1%
ByteDance Seed 1.6 Flash	100	98	98	98	98	98	96	98.1%
Ministral 3 14B	98	98	98	98	98	98	98	98.1%
Grok 4	100	98	98	98	98	96	96	97.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	96	96	96	97.8%
GPT-OSS 120B	100	98	98	98	98	96	96	97.8%
GPT-4.1 Nano	98	98	98	98	98	98	96	97.8%
Inception Mercury 2	100	100	98	98	98	96	92	97.6%
GPT-5.4 Nano	100	100	98	96	96	96	96	97.6%
Ministral 3 3B	98	98	98	98	96	96	96	97.3%
ByteDance Seed 1.6	98	98	98	96	96	96	94	96.8%
Ministral 3 8B	100	96	96	96	96	96	96	96.8%
Skyfall 36B V2	100	100	96	96	96	94	94	96.8%
Ministral 8B	98	96	96	96	96	96	96	96.5%
Nemotron 3 Nano	98	98	96	96	96	94	94	96.2%
Arcee AI: Trinity Mini	98	98	96	96	96	96	92	96.2%
Mistral NeMO	96	96	96	96	96	96	96	96.2%
Qwen 3.6 27B	100	100	100	100	98	98	74	95.7%
Inception Mercury	96	94	92	91	89	85	85	90.3%
DeepSeek V3.1	100	100	100	100	100	100	26	89.5%
Z.AI GLM 4.7 Flash	98	96	96	96	96	91	17	84.4%
Rocinante 12B	96	96	96	96	96	94	2	82.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	98	98	66	0	80.3%
Hermes 3 70B	100	100	100	0	0	0	0	42.9%

Name replacement accuracy

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Character rename: Elena->Mirabel, Gregor->Aldric

Combined: 3rd person past → 1st person present

Expand all contractions

Location rename: market square, outer ring, bridge, northern mines

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

POV shift: 3rd person to 1st person (Elena's perspective)

Tense rewriting: past to present

Specific Prompt

Character rename: Elena->Mirabel, Gregor->Aldric

Combined: 3rd person past → 1st person present

Expand all contractions

Location rename: market square, outer ring, bridge, northern mines

Multi-character gender swap: Priya(F)->Rohan(M), Mara unchanged

POV shift: 3rd person to 1st person (Elena's perspective)

Tense rewriting: past to present