Possessive traps preserved

Test: Text Replacement

Avg. Score

98.1%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0002	1.3s	100%
2	Mistral NeMO	100.0%	$0.0001	2.2s	100%
3	Ministral 8B	100.0%	$0.0001	2.4s	100%
4	Ministral 3 8B	100.0%	$0.0001	3.1s	100%
5	GPT-4.1 Nano	100.0%	$0.0002	3.0s	100%
6	Mistral Small 4	100.0%	$0.0003	2.5s	100%
7	Ministral 3 14B	100.0%	$0.0002	3.2s	100%
8	Mistral Small 3.2 24B	100.0%	$0.0002	3.6s	100%
9	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0007	1.6s	100%
10	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0007	1.6s	100%
11	GPT-5.4 Nano (Reasoning, Low)	100.0%	$0.0006	2.4s	100%
12	Gemini 3.1 Flash Lite	100.0%	$0.0007	1.7s	100%
13	GPT-5.4 Nano	100.0%	$0.0006	2.7s	100%
14	Gemma 3 4B	100.0%	$0.0001	5.4s	100%
15	GPT-5.4 Nano (Reasoning)	100.0%	$0.0007	3.1s	100%
16	DeepSeek V4 Flash	100.0%	$0.0001	6.3s	100%
17	Gemma 3 12B	100.0%	$0.0001	6.6s	100%
18	Gemini 2.5 Flash	100.0%	$0.0012	1.7s	100%
19	GPT-4o Mini (temp=1)	100.0%	$0.0003	7.3s	100%
20	GPT-4.1 Mini	100.0%	$0.0008	4.9s	100%
21	Qwen 2.5 72B	100.0%	$0.0002	8.1s	100%
22	GPT-4o Mini (temp=0)	100.0%	$0.0003	7.7s	100%
23	Mistral Medium 3.1	100.0%	$0.0010	4.9s	100%
24	Gemini 3 Flash (Preview)	100.0%	$0.0015	2.7s	100%
25	Arcee AI: Trinity Mini	100.0%	$0.0002	8.7s	100%
26	Mistral Large 3	100.0%	$0.0009	5.8s	100%
27	Grok 4.20	100.0%	$0.0016	3.4s	100%
28	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0012	5.4s	100%
29	GPT-5.4 Mini	100.0%	$0.0021	1.9s	100%
30	Qwen3 235B A22B Instruct 2507	100.0%	$0.0003	10.9s	100%
31	Gemini 2.5 Flash Lite (Reasoning)	100.0%	$0.0011	7.2s	100%
32	Llama 3.1 70B	100.0%	$0.0004	12.3s	100%
33	Gemma 3 27B	100.0%	$0.0001	14.0s	100%
34	ByteDance Seed 1.6 Flash	100.0%	$0.0006	12.0s	100%
35	Claude Haiku 4.5	100.0%	$0.0027	2.2s	100%
36	GPT-5.6 Luna	100.0%	$0.0028	2.6s	100%
37	DeepSeek-V2 Chat	100.0%	$0.0006	13.3s	100%
38	DeepSeek V3 (2024-12-26)	100.0%	$0.0006	13.5s	100%
39	Gemma 4 26B	100.0%	$0.0002	19.0s	100%
40	Hermes 3 405B	100.0%	$0.0009	16.2s	100%
41	DeepSeek V3 (2025-03-24)	100.0%	$0.0005	18.8s	100%
42	Mistral Large 2	100.0%	$0.0034	5.8s	100%
43	GPT-4.1	100.0%	$0.0041	3.4s	100%
44	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0044	2.2s	100%
45	GPT-5.4 Mini (Reasoning)	100.0%	$0.0037	5.7s	100%
46	Gemma 4 31B	100.0%	$0.0002	22.7s	100%
47	GPT-5.6 Luna (Reasoning)	100.0%	$0.0041	4.5s	100%
48	DeepSeek V4 Flash (Reasoning)	100.0%	$0.0005	23.7s	100%
49	GPT-4o, Aug. 6th (temp=1)	100.0%	$0.0051	2.2s	100%
50	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0051	2.3s	100%
51	Writer: Palmyra X5	100.0%	$0.0027	14.3s	100%
52	Z.AI GLM 4.5 Air	100.0%	$0.0012	23.3s	100%
53	DeepSeek V4 Pro	100.0%	$0.0014	23.8s	100%
54	Xiaomi MIMO v2.5	100.0%	$0.0040	15.1s	100%
55	WizardLM 2 8x22b	100.0%	$0.0006	33.4s	100%
56	Gemini 2.5 Flash (Reasoning)	100.0%	$0.0045	15.2s	100%
57	GPT-5.6 Terra	100.0%	$0.0071	2.7s	100%
58	Claude Sonnet 5	100.0%	$0.0065	6.6s	100%
59	GPT-5.4	100.0%	$0.0071	4.5s	100%
60	DeepSeek V3.2	100.0%	$0.0003	37.5s	100%
61	Nemotron 3 Super	100.0%	$0.0000	39.1s	100%
62	GPT-5.4 (Reasoning, Low)	100.0%	$0.0074	4.6s	100%
63	GPT-5.2	100.0%	$0.0076	5.6s	100%
64	Claude Sonnet 4.6	100.0%	$0.0081	3.6s	100%
65	Claude Sonnet 4.5	100.0%	$0.0081	4.0s	100%
66	Xiaomi MIMO v2.5 Pro	100.0%	$0.0047	21.0s	100%
67	Grok 4.20 (Reasoning)	100.0%	$0.0052	18.8s	100%
68	Claude Sonnet 4	100.0%	$0.0081	4.9s	100%
69	GPT-5.6 Terra (Reasoning)	100.0%	$0.0086	3.3s	100%
70	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0058	17.2s	100%
71	GPT-OSS 120B	100.0%	$0.0010	43.4s	100%
72	GPT-5 Mini	100.0%	$0.0042	30.5s	100%
73	MiniMax M3	100.0%	$0.0024	40.9s	100%
74	Qwen 3.6 35B	100.0%	$0.0050	28.5s	100%
75	MiniMax M2.5	100.0%	$0.0015	45.7s	100%
76	Qwen 3.6 Flash	100.0%	$0.0072	21.7s	100%
77	Z.AI GLM 4.6	100.0%	$0.0038	38.3s	100%
78	Grok 4.5 (Reasoning, Low)	100.0%	$0.0081	19.3s	100%
79	ByteDance Seed 1.6	100.0%	$0.0038	39.9s	100%
80	Claude Sonnet 5 (Reasoning)	100.0%	$0.010	9.7s	100%
81	ByteDance Seed 2.0 Lite	100.0%	$0.0038	43.6s	100%
82	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.011	9.7s	100%
83	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.0096	15.6s	100%
84	DeepSeek V4 Pro (Reasoning)	100.0%	$0.0020	52.4s	100%
85	Z.AI GLM 5 Turbo	100.0%	$0.0088	20.0s	100%
86	Aion 2.0	100.0%	$0.0036	45.3s	100%
87	GPT-5 Nano	100.0%	$0.0024	54.7s	100%
88	GPT-5.1	100.0%	$0.012	11.2s	100%
89	Grok 4.5 (Reasoning, High)	100.0%	$0.011	16.1s	100%
90	o4 Mini	100.0%	$0.011	17.5s	100%
91	Claude Opus 4.5	100.0%	$0.014	4.7s	100%
92	Claude Opus 4.6	100.0%	$0.014	4.9s	100%
93	GPT-5.6 Sol	100.0%	$0.014	3.8s	100%
94	GPT-5.5	100.0%	$0.014	4.0s	100%
95	Z.AI GLM 4.7 Flash	100.0%	$0.0014	1.1m	100%
96	Inception Mercury 2	96.4%	$0.0015	2.1s	74%
97	Cydonia 24B V4.1	96.4%	$0.0003	9.0s	74%
98	MiniMax M2.7	100.0%	$0.0045	56.4s	100%
99	GPT-5.4 (Reasoning)	100.0%	$0.014	13.0s	100%
100	Claude Opus 4.7 (Reasoning)	100.0%	$0.016	3.3s	100%
101	Claude Opus 4.7	100.0%	$0.016	3.5s	100%
102	GPT-5.4 Mini (Reasoning, Low)	96.4%	$0.0026	3.4s	74%
103	ByteDance Seed 2.0 Mini	100.0%	$0.0014	1.3m	100%
104	Claude Opus 4.8 (Reasoning, Low)	100.0%	$0.017	5.6s	100%
105	Claude Opus 4.8 (Reasoning)	100.0%	$0.017	5.9s	100%
106	Mistral Small 4 (Reasoning)	96.4%	$0.0016	13.6s	74%
107	GPT-5.5 (Reasoning, Low)	100.0%	$0.018	6.2s	100%
108	Z.AI GLM 5	100.0%	$0.0077	56.2s	100%
109	Aion 3.0	100.0%	$0.012	35.9s	100%
110	Z.AI GLM 4.7	100.0%	$0.0055	1.1m	100%
111	Qwen 3.5 27B	100.0%	$0.011	46.8s	100%
112	Aion 3.0 Mini	100.0%	$0.0046	1.3m	100%
113	GPT-5.6 Sol (Reasoning)	100.0%	$0.020	6.6s	100%
114	o4 Mini High	100.0%	$0.016	26.9s	100%
115	Z.AI GLM 5.1	100.0%	$0.011	54.4s	100%
116	Gemma 4 26B (Reasoning)	100.0%	$0.0012	1.7m	100%
117	Gemma 4 31B (Reasoning)	100.0%	$0.0009	1.8m	100%
118	GPT-5.5 (Reasoning)	100.0%	$0.022	8.3s	100%
119	Claude Opus 4.6 (Reasoning)	100.0%	$0.022	9.5s	100%
120	Qwen 3.5 Plus (2026-04-20)	100.0%	$0.011	1.1m	100%
121	Qwen 3.6 27B	100.0%	$0.014	58.3s	100%
122	Qwen 3.5 122B	100.0%	$0.018	41.8s	100%
123	Grok 4.3 (Reasoning)	96.4%	$0.0067	28.8s	74%
124	Gemini 2.5 Pro	100.0%	$0.025	17.5s	100%
125	Qwen 3.5 Flash	96.4%	$0.0030	1.0m	74%
126	Grok 4.3	92.9%	$0.0016	3.5s	48%
127	MoonshotAI: Kimi K2.5	100.0%	$0.011	1.6m	100%
128	Gemini 3.5 Flash (Reasoning)	100.0%	$0.029	12.2s	100%
129	GPT-5	100.0%	$0.025	41.3s	100%
130	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.031	20.5s	100%
131	Ministral 3B	82.1%	$0.0000	1.5s	52%
132	Qwen 3.5 397B A17B	100.0%	$0.0095	2.4m	100%
133	Qwen3.7 Max	100.0%	$0.030	51.4s	100%
134	Gemini 3.1 Pro (Preview)	100.0%	$0.034	31.5s	100%
135	Claude Opus 4	100.0%	$0.041	6.4s	100%
136	Qwen 3.5 35B	92.9%	$0.012	51.3s	65%
137	MoonshotAI: Kimi K2.6	100.0%	$0.017	2.3m	100%
138	Qwen 3 32B	85.7%	$0.0005	25.5s	30%
139	Qwen3.6 Max Preview	100.0%	$0.030	1.6m	100%
140	Ministral 3 3B	75.0%	$0.0001	1.5s	38%
141	Qwen 3.5 9B	92.9%	$0.0013	1.9m	48%
142	DeepSeek V3.1	82.1%	$0.0005	33.2s	28%
143	Cohere Command R+ (Aug. 2024)	64.3%	$0.0054	14.3s	15%
144	Z.AI GLM 4.5	57.1%	$0.0019	20.2s	1%
145	Nemotron 3 Nano	67.9%	$0.0017	2.2m	19%
146	Hermes 3 70B	57.1%	$0.0023	3.3m	1%
98.14%

Individual Scenarios

Generic Prompt

▼

Expand all contractions

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	50	92.9%
Qwen 3.5 Flash	100	100	100	100	100	100	50	92.9%
Inception Mercury 2	100	100	100	100	100	100	50	92.9%
Qwen 3.5 35B	100	100	100	100	100	50	50	85.7%
Qwen 3.5 9B	100	100	100	100	100	100	0	85.7%
Grok 4.3	100	100	100	100	100	100	0	85.7%
Qwen 3 32B	100	100	100	100	100	0	0	71.4%
Nemotron 3 Nano	100	100	100	100	50	0	0	64.3%
Ministral 3B	100	100	50	50	50	50	50	64.3%
Ministral 3 3B	50	50	50	50	50	50	50	50.0%
Cohere Command R+ (Aug. 2024)	50	50	50	50	0	0	0	28.6%
Z.AI GLM 4.5	100	0	0	0	0	0	0	14.3%

Specific Prompt

▼

Expand all contractions

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100.0%
GPT-5.6 Terra	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100.0%
GPT-5.6 Luna	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	50	92.9%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	50	92.9%
Cydonia 24B V4.1	100	100	100	100	100	100	50	92.9%
Nemotron 3 Nano	100	100	100	100	50	50	0	71.4%
DeepSeek V3.1	100	100	100	100	50	0	0	64.3%
Hermes 3 70B	100	0	0	0	0	0	0	14.3%

Possessive traps preserved

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Generic Prompt

Expand all contractions

Specific Prompt

Expand all contractions