Passive voice overuse

Test: Bad Writing Habits

Avg. Score

96.6%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	o4 Mini	99.5%	$0.015	25.7s	97%
2	o4 Mini High	99.8%	$0.025	47.2s	99%
3	GPT-4o Mini (temp=1)	99.0%	$0.0012	34.8s	96%
4	Writer: Palmyra X5	98.8%	$0.011	22.0s	96%
5	Qwen3 235B A22B Instruct 2507	99.0%	$0.0011	59.2s	96%
6	Mistral Small 4 (Reasoning)	98.7%	$0.0022	30.2s	95%
7	DeepSeek V3 (2025-03-24)	98.8%	$0.0014	39.4s	94%
8	GPT-4.1	99.3%	$0.018	44.7s	95%
9	Mistral Small 4	98.2%	$0.0014	18.2s	93%
10	Grok 4.5 (Reasoning, Low)	99.4%	$0.018	1.1m	95%
11	Gemini 2.5 Flash (Reasoning)	98.1%	$0.011	21.5s	93%
12	Grok 4.3	98.6%	$0.0069	30.5s	92%
13	GPT-4.1 Mini	98.1%	$0.0027	19.0s	91%
14	GPT-5.4 Nano (Reasoning, Low)	97.7%	$0.0055	20.6s	92%
15	Grok 4.20	98.5%	$0.0093	45.7s	92%
16	GPT-5.4 Nano (Reasoning)	98.0%	$0.0061	24.5s	91%
17	GPT-5.4 Mini (Reasoning, Low)	97.9%	$0.015	16.8s	92%
18	Hermes 3 405B	97.9%	$0.0032	53.2s	93%
19	GPT-5.4 Mini	97.8%	$0.015	16.8s	91%
20	Ministral 3 3B	97.3%	$0.0005	11.1s	90%
21	Grok 4.5 (Reasoning, High)	99.2%	$0.030	1.6m	96%
22	DeepSeek V3 (2024-12-26)	97.8%	$0.0021	54.6s	92%
23	Qwen 3.6 Flash	98.3%	$0.010	41.4s	91%
24	GPT-5.4 Nano	97.3%	$0.0057	26.3s	91%
25	Qwen 3 32B	97.6%	$0.0015	54.6s	92%
26	GPT-4o Mini (temp=0)	97.4%	$0.0012	34.8s	91%
27	GPT-4.1 Nano	97.0%	$0.0007	13.3s	90%
28	Qwen 3.5 Flash	97.5%	$0.0025	47.5s	91%
29	Qwen 3.5 Plus (2026-02-15)	97.6%	$0.0060	31.5s	90%
30	Mistral Medium 3.1	97.5%	$0.0048	36.5s	91%
31	Gemini 2.5 Flash	97.3%	$0.0052	10.6s	89%
32	DeepSeek-V2 Chat	97.5%	$0.0021	53.3s	91%
33	Gemma 3 4B	96.7%	$0.0002	20.0s	90%
34	Gemma 3 27B	97.2%	$0.0006	52.6s	91%
35	Gemma 3 12B	97.1%	$0.0004	41.3s	91%
36	GPT-4o, Aug. 6th (temp=1)	97.9%	$0.018	24.4s	90%
37	Qwen 3.6 35B	98.2%	$0.0083	1.0m	91%
38	Qwen 3.5 9B	97.9%	$0.0011	1.4m	92%
39	Qwen 3.5 122B	98.1%	$0.025	1.1m	93%
40	Claude Sonnet 4.5	98.1%	$0.035	38.1s	92%
41	Ministral 3B	96.5%	$0.0001	8.1s	89%
42	ByteDance Seed 1.6 Flash	96.6%	$0.0013	27.3s	90%
43	Ministral 3 14B	96.5%	$0.0007	11.7s	89%
44	GPT-5.1	99.5%	$0.054	1.8m	96%
45	Ministral 3 8B	96.3%	$0.0008	19.6s	90%
46	Claude Haiku 4.5	96.9%	$0.011	21.6s	90%
47	Inception Mercury 2	96.8%	$0.0032	7.0s	87%
48	Z.AI GLM 4.5	97.0%	$0.0051	42.1s	90%
49	GPT-5.4	98.8%	$0.049	1.4m	95%
50	DeepSeek V4 Flash (Reasoning)	96.6%	$0.0007	31.1s	89%
51	Z.AI GLM 5 Turbo	97.0%	$0.0081	33.2s	89%
52	Mistral NeMO	95.9%	$0.0005	10.1s	88%
53	Z.AI GLM 5	97.1%	$0.0084	1.2m	91%
54	GPT-5.4 Mini (Reasoning)	97.5%	$0.022	28.1s	89%
55	Qwen 3.5 Plus (2026-04-20)	98.3%	$0.017	1.8m	92%
56	Grok 4.20 (Reasoning)	98.4%	$0.018	1.5m	90%
57	Qwen 3.5 27B	97.8%	$0.020	1.6m	92%
58	Gemini 2.5 Flash Lite (Reasoning)	96.2%	$0.0028	30.8s	89%
59	GPT-5.2	98.7%	$0.056	1.5m	94%
60	MiniMax M2.5	96.5%	$0.0034	1.3m	91%
61	MiniMax M2.7	96.7%	$0.0040	1.1m	90%
62	GPT-5 Nano	96.7%	$0.0042	1.4m	91%
63	DeepSeek V4 Flash	96.0%	$0.0006	31.6s	88%
64	Gemini 3.5 Flash (Reasoning, Minimal)	96.1%	$0.018	12.0s	88%
65	Z.AI GLM 5.1	97.3%	$0.014	1.5m	91%
66	Gemini 2.5 Flash Lite	95.4%	$0.0009	9.5s	87%
67	GPT-5.4 (Reasoning, Low)	98.4%	$0.055	1.4m	93%
68	Ministral 8B	95.6%	$0.0004	10.4s	86%
69	Z.AI GLM 4.5 Air	96.2%	$0.0029	58.2s	88%
70	Mistral Large 3	95.5%	$0.0033	30.3s	87%
71	Aion 3.0 Mini	96.4%	$0.0053	1.2m	88%
72	Aion 3.0	96.7%	$0.024	1.0m	89%
73	GPT-OSS 120B	97.0%	$0.0015	1.8m	88%
74	Claude Sonnet 4	96.6%	$0.032	43.7s	89%
75	Mistral Large 2	96.2%	$0.013	29.4s	86%
76	Arcee AI: Trinity Mini	95.3%	$0.0003	9.2s	85%
77	Gemini 3.1 Flash Lite (Reasoning)	95.0%	$0.0030	11.9s	86%
78	Xiaomi MIMO v2.5 Pro	95.8%	$0.0085	53.5s	87%
79	DeepSeek V4 Pro	96.7%	$0.0048	1.3m	87%
80	Z.AI GLM 5.2 (Reasoning, High)	95.8%	$0.011	1.0m	87%
81	Cydonia 24B V4.1	95.3%	$0.0014	44.8s	86%
82	Qwen 3.5 397B A17B	98.2%	$0.014	3.0m	91%
83	Z.AI GLM 4.7	96.0%	$0.010	1.4m	88%
84	Gemini 3.1 Flash Lite (Preview)	94.5%	$0.0030	8.4s	84%
85	Gemini 3.1 Flash Lite	94.6%	$0.0030	12.1s	84%
86	Hermes 3 70B	95.5%	$0.0010	1.2m	86%
87	Grok 4.3 (Reasoning)	98.0%	$0.021	2.3m	88%
88	GPT-5	98.8%	$0.065	2.8m	95%
89	GPT-4o, Aug. 6th (temp=0)	95.6%	$0.023	22.7s	85%
90	Qwen 3.6 27B	97.6%	$0.025	2.3m	89%
91	GPT-5 Mini	95.3%	$0.0100	57.4s	86%
92	Xiaomi MIMO v2.5	94.7%	$0.0054	31.8s	85%
93	Qwen3.6 Max Preview	99.1%	$0.050	3.5m	94%
94	Claude Opus 4.5	97.1%	$0.070	53.4s	90%
95	GPT-5.5 (Reasoning)	99.6%	$0.142	1.8m	97%
96	Cohere Command R+ (Aug. 2024)	95.5%	$0.020	52.5s	86%
97	Gemini 3.5 Flash (Reasoning)	96.7%	$0.071	37.6s	89%
98	Claude Opus 4.8 (Reasoning)	96.5%	$0.071	41.7s	90%
99	Gemini 3 Flash (Preview)	94.1%	$0.0078	19.6s	85%
100	Qwen 3.5 35B	96.1%	$0.018	1.0m	84%
101	GPT-5.4 (Reasoning)	98.9%	$0.089	2.6m	95%
102	Gemma 4 26B	94.9%	$0.0009	55.1s	84%
103	Claude Opus 4.8 (Reasoning, Low)	96.7%	$0.071	41.9s	88%
104	GPT-5.5 (Reasoning, Low)	99.3%	$0.139	1.8m	96%
105	MoonshotAI: Kimi K2.5	97.9%	$0.019	3.2m	89%
106	Z.AI GLM 4.7 Flash	94.5%	$0.0017	1.2m	85%
107	DeepSeek V3.2	95.3%	$0.0014	1.9m	86%
108	GPT-5.5	99.2%	$0.139	1.7m	95%
109	Gemini 3 Flash (Preview, Reasoning)	94.4%	$0.012	30.1s	83%
110	Gemma 4 31B (Reasoning)	95.5%	$0.0014	2.2m	87%
111	Nemotron 3 Super	95.2%	$0.0000	1.4m	83%
112	Gemma 4 31B	94.9%	$0.0010	1.6m	85%
113	Gemini 3.1 Pro (Preview)	98.3%	$0.107	1.8m	91%
114	Gemma 4 26B (Reasoning)	95.0%	$0.0013	2.0m	85%
115	Aion 2.0	94.3%	$0.0064	1.3m	84%
116	Claude Opus 4.6	96.4%	$0.078	1.2m	88%
117	Z.AI GLM 4.6	93.7%	$0.0065	51.5s	83%
118	Qwen 2.5 72B	93.3%	$0.0010	36.7s	81%
119	Gemini 2.5 Pro	94.1%	$0.036	36.2s	84%
120	DeepSeek V4 Pro (Reasoning)	96.1%	$0.015	3.1m	87%
121	Qwen3.7 Max	96.6%	$0.068	2.3m	90%
122	Nemotron 3 Nano	94.4%	$0.0010	1.1m	80%
123	Claude Sonnet 5 (Reasoning)	94.4%	$0.030	38.9s	82%
124	Claude Opus 4.6 (Reasoning)	96.2%	$0.088	1.4m	88%
125	Claude Sonnet 4.6	93.7%	$0.031	39.3s	83%
126	WizardLM 2 8x22b	94.8%	$0.0026	1.8m	80%
127	Claude Opus 4.7 (Reasoning)	94.4%	$0.076	32.0s	85%
128	Claude Sonnet 5	93.4%	$0.027	33.5s	80%
129	MiniMax M3	94.8%	$0.0060	3.1m	85%
130	Llama 3.1 70B	92.5%	$0.0015	29.4s	78%
131	Claude Sonnet 4.6 (Reasoning)	94.6%	$0.060	1.2m	84%
132	DeepSeek V3.1	93.2%	$0.0020	1.8m	81%
133	Claude Opus 4.7	93.8%	$0.069	30.4s	83%
134	Claude Sonnet 5 (Reasoning, Low)	92.9%	$0.031	38.4s	80%
135	Claude Opus 4	98.5%	$0.209	1.4m	94%
136	MoonshotAI: Kimi K2.6	98.5%	$0.058	6.5m	92%
137	Mistral Small 3.2 24B	95.8%	$0.0069	5.7m	84%
138	ByteDance Seed 1.6	92.1%	$0.013	2.5m	76%
139	ByteDance Seed 2.0 Lite	89.5%	$0.012	2.2m	71%
140	ByteDance Seed 2.0 Mini	87.5%	$0.0045	4.9m	70%
96.59%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	99.9%
Writer: Palmyra X5	100	100	100	100	99	99.9%
GPT-4.1 Nano	100	100	100	100	99	99.9%
Grok 4.3 (Reasoning)	100	100	100	100	99	99.9%
GPT-5.4 (Reasoning, Low)	100	100	100	100	99	99.9%
Qwen 3.6 Flash	100	100	100	100	99	99.9%
Qwen 3.5 27B	100	100	100	100	99	99.8%
GPT-5.4	100	100	100	100	99	99.8%
Grok 4.20 (Reasoning)	100	100	100	100	99	99.8%
Claude Sonnet 4.5	100	100	100	100	99	99.7%
Inception Mercury 2	100	100	100	100	99	99.7%
Claude Opus 4.6	100	100	100	100	98	99.7%
Qwen3.7 Max	100	100	100	100	98	99.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	98	99.6%
GPT-5.4 Nano	100	100	100	100	98	99.6%
Claude Sonnet 4	100	100	100	99	99	99.6%
Claude Haiku 4.5	100	100	100	100	98	99.5%
Gemini 2.5 Flash	100	100	100	100	97	99.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	97	99.5%
Arcee AI: Trinity Mini	100	100	100	99	98	99.5%
Aion 3.0	100	100	100	100	97	99.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	97	99.4%
Cydonia 24B V4.1	100	100	100	100	97	99.4%
Xiaomi MIMO v2.5 Pro	100	100	100	99	98	99.4%
Z.AI GLM 4.7	100	100	100	99	98	99.4%
Claude Opus 4.6 (Reasoning)	100	100	100	99	98	99.4%
Aion 3.0 Mini	100	100	100	100	97	99.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning)	100	100	100	100	97	99.3%
Mistral Small 4	100	100	100	100	97	99.3%
Claude Sonnet 5	100	100	100	100	96	99.3%
Mistral Medium 3.1	100	100	100	100	96	99.3%
Claude Sonnet 4.6 (Reasoning)	100	100	100	98	98	99.3%
Qwen 3.5 35B	100	100	100	100	96	99.3%
Qwen 3.5 397B A17B	100	100	100	98	98	99.3%
Claude Opus 4.7	100	100	100	100	96	99.2%
GPT-5.4 Nano (Reasoning)	100	100	100	100	96	99.2%
MoonshotAI: Kimi K2.5	100	100	100	100	96	99.2%
Claude Sonnet 5 (Reasoning)	100	100	100	100	96	99.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	96	99.1%
GPT-4.1 Mini	100	100	100	100	95	99.1%
GPT-5 Nano	100	100	100	99	96	99.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	97	99.0%
Ministral 8B	100	100	100	100	95	99.0%
Ministral 3 14B	100	100	100	99	96	99.0%
Qwen 3.5 Flash	100	100	100	100	95	98.9%
Z.AI GLM 5	100	100	100	100	94	98.8%
Gemma 3 27B	100	100	100	100	94	98.7%
Gemini 3.5 Flash (Reasoning)	100	100	100	97	96	98.7%
Qwen 3 32B	100	100	100	99	94	98.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	93	98.6%
Nemotron 3 Super	100	100	100	98	95	98.6%
GPT-5 Mini	100	100	99	99	95	98.6%
MiniMax M3	100	100	100	97	96	98.6%
Gemma 3 4B	100	100	100	96	96	98.5%
Gemma 4 31B	100	100	99	97	96	98.5%
Claude Opus 4.7 (Reasoning)	100	100	100	97	95	98.4%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	98	94	98.4%
Aion 2.0	99	99	98	98	98	98.3%
Hermes 3 405B	100	100	100	98	93	98.3%
Xiaomi MIMO v2.5	100	100	98	98	95	98.3%
Ministral 3B	100	100	100	96	95	98.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	99	92	98.2%
Ministral 3 8B	100	100	100	96	94	98.1%
WizardLM 2 8x22b	100	100	100	98	92	98.0%
Gemma 4 26B (Reasoning)	100	100	100	96	94	98.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	99	98	92	97.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	98	91	97.7%
MiniMax M2.5	100	100	100	95	93	97.6%
ByteDance Seed 1.6	100	100	100	98	90	97.5%
Gemma 3 12B	100	100	100	94	93	97.5%
Gemini 3.1 Flash Lite (Preview)	100	100	100	97	90	97.4%
DeepSeek V3.2	100	99	98	97	93	97.4%
DeepSeek V4 Flash (Reasoning)	100	100	98	97	92	97.3%
Gemma 4 31B (Reasoning)	100	100	100	94	92	97.1%
Mistral Large 3	100	99	96	95	93	96.8%
Gemini 3.1 Flash Lite	100	100	97	96	91	96.6%
Claude Opus 4	100	97	96	95	95	96.6%
Nemotron 3 Nano	100	100	96	95	92	96.5%
Gemini 2.5 Pro	100	100	96	94	93	96.5%
ByteDance Seed 1.6 Flash	100	98	96	95	93	96.4%
Gemini 3 Flash (Preview)	100	100	98	95	90	96.4%
Hermes 3 70B	100	100	95	94	91	96.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	97	83	96.0%
Ministral 3 3B	100	100	100	96	84	96.0%
Gemma 4 26B	99	97	97	94	91	95.7%
Mistral Large 2	100	99	96	96	88	95.6%
DeepSeek V3.1	100	96	96	95	91	95.6%
Z.AI GLM 4.6	100	100	96	93	88	95.6%
Claude Sonnet 4.6	100	100	96	94	84	94.9%
Cohere Command R+ (Aug. 2024)	100	100	100	88	84	94.4%
Gemini 2.5 Flash Lite	100	96	93	91	89	94.0%
Mistral NeMO	100	99	98	95	78	93.9%
Z.AI GLM 4.7 Flash	100	100	92	91	84	93.5%
Qwen 2.5 72B	100	100	99	96	71	93.1%
Mistral Small 3.2 24B	100	97	92	89	87	92.8%
ByteDance Seed 2.0 Mini	100	100	99	87	78	92.7%
Llama 3.1 70B	100	97	96	83	70	89.2%
ByteDance Seed 2.0 Lite	98	96	79	73	72	83.9%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	99.9%
Writer: Palmyra X5	100	100	100	100	100	99.9%
Grok 4.20	100	100	100	100	100	99.9%
MiniMax M2.7	100	100	100	100	100	99.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	99.9%
Aion 3.0	100	100	100	100	99	99.9%
Qwen 3.5 397B A17B	100	100	100	100	99	99.8%
Z.AI GLM 5	100	100	100	100	99	99.8%
Grok 4.3 (Reasoning)	100	100	100	100	99	99.8%
Claude Sonnet 4.5	100	100	100	100	99	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	99	99.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.8%
Ministral 3 3B	100	100	100	100	99	99.8%
Qwen 3.5 122B	100	100	100	100	99	99.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	99	99.8%
Mistral Small 4 (Reasoning)	100	100	100	100	99	99.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	99	99	99.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	98	99.7%
Qwen3 235B A22B Instruct 2507	100	100	100	99	99	99.7%
Mistral Large 3	100	100	100	100	98	99.6%
GPT-5 Mini	100	100	100	100	99	99.6%
Qwen 3.5 35B	100	100	100	100	98	99.6%
Qwen 3.5 Flash	100	100	100	100	98	99.6%
MiniMax M2.5	100	100	100	100	99	99.6%
Mistral Large 2	100	100	100	100	98	99.6%
Z.AI GLM 5.1	100	100	100	100	98	99.6%
Claude Opus 4.6	100	100	100	100	98	99.6%
DeepSeek V4 Pro	100	100	100	100	98	99.5%
GPT-4.1 Mini	100	100	100	100	97	99.4%
Qwen 3.5 9B	100	100	100	100	97	99.4%
DeepSeek V4 Pro (Reasoning)	100	100	99	99	98	99.4%
Claude Opus 4.5	100	100	100	98	98	99.3%
Nemotron 3 Super	100	100	100	100	96	99.3%
Qwen 3.5 27B	100	100	100	100	96	99.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	96	99.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	96	99.2%
Hermes 3 405B	100	100	100	100	96	99.2%
Gemini 2.5 Flash	100	100	100	98	97	99.1%
Claude Opus 4.8 (Reasoning, Low)	100	100	98	98	98	98.9%
Gemma 3 12B	100	100	99	99	96	98.9%
MiniMax M3	100	100	100	100	94	98.7%
Claude Haiku 4.5	100	100	100	97	96	98.7%
GPT-4o Mini (temp=1)	100	100	100	100	93	98.7%
Claude Sonnet 5 (Reasoning)	100	100	100	97	96	98.7%
Gemma 4 26B (Reasoning)	100	100	98	98	97	98.5%
Claude Opus 4.6 (Reasoning)	100	100	99	97	96	98.3%
Gemma 3 27B	100	99	99	97	96	98.3%
DeepSeek V3 (2024-12-26)	100	100	100	95	95	98.1%
DeepSeek V3.2	100	100	99	97	95	98.0%
Qwen 3 32B	100	100	99	96	94	98.0%
Arcee AI: Trinity Mini	100	100	100	100	90	97.9%
Mistral Medium 3.1	100	100	99	98	93	97.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	98	92	97.9%
GPT-4o Mini (temp=0)	100	100	100	100	89	97.7%
Claude Sonnet 4.6 (Reasoning)	100	99	98	95	95	97.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	96	92	97.5%
Inception Mercury 2	100	100	99	97	92	97.5%
DeepSeek-V2 Chat	100	100	100	100	88	97.5%
Gemini 3.1 Flash Lite	100	100	97	97	93	97.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	98	89	97.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	94	93	97.3%
DeepSeek V4 Flash	100	100	100	94	93	97.3%
WizardLM 2 8x22b	100	97	97	96	95	97.3%
Aion 2.0	100	100	98	94	93	97.1%
Gemma 4 31B (Reasoning)	100	100	100	94	90	96.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	85	96.9%
Z.AI GLM 4.5	100	100	96	95	92	96.7%
Cohere Command R+ (Aug. 2024)	100	100	96	93	93	96.5%
GPT-OSS 120B	100	100	100	100	82	96.5%
Gemini 2.5 Pro	100	97	96	96	93	96.3%
Z.AI GLM 4.5 Air	100	100	100	95	86	96.2%
Z.AI GLM 4.7	100	99	98	96	87	96.1%
GPT-5 Nano	100	99	98	94	90	96.1%
Ministral 3 8B	100	100	95	93	92	96.0%
Llama 3.1 70B	100	100	96	93	90	95.9%
ByteDance Seed 1.6 Flash	100	98	95	93	92	95.8%
Gemma 4 31B	100	100	94	93	92	95.8%
Z.AI GLM 4.7 Flash	100	99	97	93	89	95.6%
Claude Opus 4.7	100	99	99	93	88	95.6%
Gemini 3 Flash (Preview)	100	100	96	93	89	95.6%
Ministral 3B	100	100	100	100	78	95.5%
Nemotron 3 Nano	100	100	98	91	89	95.4%
Gemini 3.1 Flash Lite (Preview)	100	100	98	96	82	95.4%
Ministral 8B	100	99	97	95	86	95.1%
Gemma 3 4B	100	98	97	91	90	95.1%
Claude Opus 4.8 (Reasoning)	98	95	95	94	93	95.0%
Gemma 4 26B	100	97	97	96	83	94.6%
Claude Sonnet 4.6	100	95	94	94	90	94.3%
Claude Opus 4.7 (Reasoning)	100	99	94	93	85	94.2%
Hermes 3 70B	100	100	100	100	70	94.0%
GPT-4o, Aug. 6th (temp=0)	100	100	96	90	83	93.9%
GPT-4.1 Nano	100	100	97	97	75	93.9%
Mistral NeMO	100	99	93	89	88	93.9%
Qwen 2.5 72B	100	100	93	90	86	93.8%
Z.AI GLM 4.6	97	96	95	93	86	93.4%
DeepSeek V3.1	100	100	98	97	72	93.3%
Xiaomi MIMO v2.5	100	97	95	93	83	93.3%
ByteDance Seed 1.6	100	100	94	90	80	92.6%
Gemini 2.5 Flash Lite	100	98	91	91	79	91.8%
Cydonia 24B V4.1	100	100	90	88	80	91.5%
ByteDance Seed 2.0 Lite	98	97	95	86	79	91.1%
ByteDance Seed 2.0 Mini	100	94	89	87	81	90.1%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	99.9%
GPT-5.4	100	100	100	100	99	99.9%
Grok 4.3 (Reasoning)	100	100	100	100	99	99.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	99	99.8%
Mistral Small 4	100	100	100	100	99	99.8%
Qwen 3 32B	100	100	100	100	99	99.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	99	99.8%
GPT-5.4 Nano	100	100	100	99	99	99.8%
DeepSeek-V2 Chat	100	100	100	100	98	99.6%
Writer: Palmyra X5	100	100	100	100	98	99.6%
Z.AI GLM 4.7	100	100	100	99	99	99.6%
Mistral Large 2	100	100	100	100	98	99.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	98	99.6%
Z.AI GLM 5	100	100	100	99	99	99.6%
Gemini 2.5 Flash	100	100	100	100	98	99.5%
Qwen 3.5 Flash	100	100	100	100	98	99.5%
Gemma 4 31B (Reasoning)	100	100	100	100	98	99.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	98	99.4%
GPT-5.4 Nano (Reasoning)	100	100	100	100	97	99.4%
DeepSeek V3.2	100	99	99	99	99	99.4%
Grok 4.5 (Reasoning, High)	100	100	100	100	97	99.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	98	98	99.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	98	98	99.3%
GPT-5.4 Mini	100	100	100	100	96	99.2%
Qwen 3.6 27B	100	100	100	100	96	99.2%
Ministral 3 14B	100	100	100	100	96	99.1%
Claude Opus 4.5	100	100	100	100	96	99.1%
Z.AI GLM 5 Turbo	100	100	100	100	96	99.1%
GPT-4.1 Mini	100	100	100	98	98	99.1%
GPT-5.2	100	100	100	100	95	99.1%
GPT-4o Mini (temp=1)	100	100	100	100	96	99.1%
MoonshotAI: Kimi K2.5	100	100	100	100	95	99.0%
Nemotron 3 Super	100	100	100	99	96	99.0%
Gemma 4 31B	100	100	100	100	95	99.0%
Nemotron 3 Nano	100	100	100	100	95	99.0%
Ministral 3 3B	100	100	99	98	97	98.9%
DeepSeek V3 (2024-12-26)	100	100	100	99	95	98.9%
MiniMax M2.5	100	100	100	100	94	98.9%
GPT-4.1 Nano	100	100	100	99	95	98.9%
Grok 4.3	100	100	100	100	94	98.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	94	98.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	98	96	98.8%
Aion 2.0	100	100	100	100	93	98.6%
Cydonia 24B V4.1	100	100	100	99	95	98.6%
DeepSeek V3 (2025-03-24)	100	100	100	98	95	98.6%
Z.AI GLM 4.5 Air	100	100	100	100	93	98.5%
MiniMax M2.7	100	100	100	97	96	98.5%
Z.AI GLM 5.1	100	100	100	100	93	98.5%
Gemma 3 27B	100	100	100	98	94	98.5%
WizardLM 2 8x22b	100	100	100	99	93	98.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	98	95	98.5%
ByteDance Seed 1.6 Flash	100	100	98	98	96	98.4%
Hermes 3 405B	100	100	100	100	92	98.4%
Aion 3.0	100	100	99	98	94	98.3%
Claude Sonnet 4.5	100	100	100	96	95	98.2%
GPT-5 Mini	100	100	100	96	94	98.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	90	98.0%
Gemini 2.5 Flash Lite	100	100	100	96	93	97.9%
Ministral 3 8B	100	100	99	96	94	97.9%
Qwen 2.5 72B	100	100	100	100	90	97.9%
Claude Sonnet 4	100	100	100	96	93	97.7%
Ministral 8B	100	100	100	95	94	97.7%
Arcee AI: Trinity Mini	100	100	100	100	89	97.7%
Hermes 3 70B	100	100	100	96	93	97.7%
Claude Opus 4.6	100	99	97	97	95	97.6%
Claude Opus 4.8 (Reasoning, Low)	100	100	99	96	93	97.6%
Aion 3.0 Mini	100	99	98	96	94	97.6%
Claude Sonnet 5 (Reasoning, Low)	99	99	98	97	96	97.6%
GPT-5 Nano	100	100	100	97	90	97.5%
Qwen 3.5 9B	100	100	99	96	92	97.4%
Xiaomi MIMO v2.5 Pro	100	100	100	100	87	97.4%
Gemini 3.1 Flash Lite	100	100	99	94	94	97.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	94	93	97.4%
DeepSeek V4 Flash	100	100	100	99	87	97.3%
Gemini 2.5 Flash Lite (Reasoning)	100	99	98	96	93	97.2%
Claude Haiku 4.5	100	100	98	94	94	97.2%
DeepSeek V4 Pro	100	100	100	93	93	97.1%
Claude Opus 4.8 (Reasoning)	100	100	100	94	91	97.0%
Gemini 2.5 Pro	100	100	100	97	87	96.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	83	96.6%
Z.AI GLM 4.7 Flash	100	99	97	95	92	96.6%
Mistral Medium 3.1	100	100	100	100	83	96.6%
ByteDance Seed 1.6	100	100	96	96	91	96.5%
Gemma 4 26B (Reasoning)	100	100	99	93	90	96.4%
Xiaomi MIMO v2.5	100	100	99	96	87	96.3%
MiniMax M3	100	99	97	95	91	96.3%
Gemma 4 26B	100	100	96	92	92	96.0%
Claude Sonnet 5 (Reasoning)	100	100	98	94	88	96.0%
ByteDance Seed 2.0 Lite	100	100	96	96	87	95.9%
Qwen3.7 Max	100	100	100	91	88	95.7%
Mistral Large 3	100	100	100	90	88	95.7%
ByteDance Seed 2.0 Mini	100	99	98	91	89	95.3%
Mistral Small 3.2 24B	100	100	100	100	76	95.2%
Cohere Command R+ (Aug. 2024)	100	100	96	93	86	95.1%
Gemma 3 12B	100	97	96	91	90	94.9%
Z.AI GLM 4.6	100	100	93	92	90	94.8%
Claude Sonnet 4.6 (Reasoning)	97	94	94	93	93	94.4%
Claude Opus 4.7	100	100	100	91	80	94.2%
Claude Sonnet 5	100	98	98	88	84	93.6%
Claude Opus 4.7 (Reasoning)	100	100	99	91	78	93.5%
DeepSeek V3.1	100	99	96	86	85	93.3%
Gemma 3 4B	100	95	92	91	87	93.1%
Ministral 3B	100	100	88	88	86	92.5%
Gemini 3 Flash (Preview)	100	99	94	85	82	91.9%
Claude Sonnet 4.6	97	93	91	90	88	91.9%
Llama 3.1 70B	100	89	88	80	62	83.7%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	99.9%
Inception Mercury 2	100	100	100	100	99	99.9%
Grok 4.20	100	100	100	100	99	99.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99.8%
o4 Mini High	100	100	100	100	98	99.7%
Qwen 3.6 27B	100	100	100	100	98	99.6%
Qwen 3.5 397B A17B	100	100	100	99	98	99.6%
GPT-5.4 Mini (Reasoning)	100	100	100	99	99	99.5%
GPT-5.4 Mini	100	100	100	99	98	99.4%
Writer: Palmyra X5	100	100	100	100	97	99.4%
Claude Sonnet 5 (Reasoning, Low)	100	100	99	99	98	99.3%
Qwen 3.5 27B	100	100	100	99	97	99.2%
GPT-5.4 Nano (Reasoning)	100	100	100	99	97	99.2%
MoonshotAI: Kimi K2.5	100	100	100	100	96	99.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	98	98	99.2%
MiniMax M2.7	100	100	100	100	96	99.1%
GPT-OSS 120B	100	100	100	98	97	99.1%
DeepSeek-V2 Chat	100	100	100	98	97	98.9%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	95	98.9%
Grok 4.20 (Reasoning)	100	100	100	99	95	98.8%
GPT-5	100	100	100	97	97	98.8%
Claude Opus 4	100	100	100	100	94	98.8%
Z.AI GLM 5	100	100	99	98	96	98.7%
Nemotron 3 Super	100	99	99	99	97	98.7%
GPT-5.4 (Reasoning, Low)	100	100	100	98	95	98.6%
Grok 4.3 (Reasoning)	100	100	100	98	94	98.5%
Claude Sonnet 5 (Reasoning)	100	100	100	100	92	98.4%
GPT-5.2	100	100	97	97	97	98.4%
Claude Sonnet 4.5	100	100	98	97	96	98.3%
Hermes 3 405B	100	100	100	98	93	98.2%
DeepSeek V3 (2025-03-24)	100	100	97	97	96	98.1%
Gemini 3.5 Flash (Reasoning)	100	100	100	96	94	98.1%
Gemini 2.5 Flash (Reasoning)	100	100	99	98	93	98.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	98	96	95	98.0%
Gemini 2.5 Flash	100	98	97	97	97	97.9%
GPT-4o Mini (temp=1)	100	100	100	99	91	97.9%
Hermes 3 70B	100	100	97	96	96	97.9%
GPT-4o Mini (temp=0)	100	100	99	96	94	97.7%
Claude Opus 4.8 (Reasoning)	100	100	100	94	94	97.6%
DeepSeek V4 Flash	100	100	99	99	89	97.5%
DeepSeek V4 Pro (Reasoning)	100	100	97	96	94	97.4%
Qwen 3.5 9B	100	100	100	100	86	97.2%
Claude Opus 4.6 (Reasoning)	100	100	97	95	93	97.1%
GPT-5.4	99	99	98	96	94	97.0%
Aion 3.0 Mini	100	98	97	95	94	97.0%
Claude Haiku 4.5	100	99	97	96	93	97.0%
Qwen 3 32B	100	100	100	92	92	96.8%
Claude Sonnet 4	100	98	96	96	93	96.6%
DeepSeek V3 (2024-12-26)	100	100	100	100	83	96.6%
GPT-5.4 Mini (Reasoning, Low)	100	98	96	96	93	96.6%
Ministral 3B	100	100	100	99	84	96.5%
Xiaomi MIMO v2.5 Pro	100	100	97	95	90	96.4%
Nemotron 3 Nano	100	100	100	98	84	96.4%
Qwen 3.5 122B	100	100	100	91	89	96.1%
DeepSeek V4 Flash (Reasoning)	100	99	96	96	90	96.1%
Claude Opus 4.5	100	100	100	93	87	96.0%
Z.AI GLM 5.2 (Reasoning, High)	100	97	97	96	89	95.7%
ByteDance Seed 1.6 Flash	100	99	94	93	92	95.6%
Z.AI GLM 5.1	100	100	97	91	89	95.4%
GPT-5.4 Nano	100	99	97	91	90	95.4%
Gemma 4 31B (Reasoning)	100	100	96	92	88	95.2%
Ministral 3 3B	100	100	98	94	84	95.1%
Qwen 3.5 Flash	100	100	96	96	84	95.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	95	81	95.1%
Mistral NeMO	100	100	100	89	86	95.1%
Mistral Small 4 (Reasoning)	100	97	95	93	89	95.0%
Qwen 3.5 35B	98	96	96	94	91	95.0%
MiniMax M3	100	100	97	92	85	94.9%
GPT-5 Nano	98	98	94	92	92	94.9%
Gemma 4 26B (Reasoning)	100	96	95	92	90	94.8%
Gemma 3 27B	100	100	94	93	86	94.6%
GPT-5 Mini	100	98	98	96	81	94.6%
Mistral Small 4	100	100	97	92	84	94.6%
Gemma 3 12B	100	96	95	94	87	94.4%
Qwen3.7 Max	100	100	97	89	86	94.4%
Claude Opus 4.6	100	97	96	90	89	94.4%
Claude Sonnet 4.6 (Reasoning)	100	98	94	92	87	94.3%
Mistral Small 3.2 24B	100	100	100	97	74	94.3%
Aion 3.0	98	98	96	91	88	94.2%
Xiaomi MIMO v2.5	100	100	99	90	81	94.1%
Gemini 3.1 Flash Lite (Reasoning)	100	96	92	91	90	94.0%
Z.AI GLM 4.7 Flash	100	98	96	94	82	93.9%
Ministral 8B	99	97	96	91	87	93.8%
Z.AI GLM 4.5 Air	100	98	97	89	84	93.7%
Aion 2.0	100	99	94	88	88	93.6%
Cohere Command R+ (Aug. 2024)	100	100	100	98	70	93.6%
Gemma 4 31B	100	100	95	87	86	93.5%
GPT-4.1 Nano	100	97	90	90	90	93.3%
Claude Sonnet 5	98	97	97	91	82	93.2%
Z.AI GLM 4.5	100	100	90	90	85	93.0%
Ministral 3 8B	100	98	92	88	87	92.8%
Arcee AI: Trinity Mini	100	100	92	88	84	92.8%
Z.AI GLM 5 Turbo	100	100	94	94	75	92.7%
GPT-4o, Aug. 6th (temp=0)	100	96	95	91	82	92.6%
Cydonia 24B V4.1	100	99	96	88	80	92.4%
Z.AI GLM 4.7	100	95	95	86	85	92.3%
Mistral Medium 3.1	96	95	94	88	86	91.9%
Gemma 3 4B	100	96	91	90	82	91.7%
DeepSeek V3.2	98	95	90	89	83	91.1%
MiniMax M2.5	96	95	93	88	82	90.9%
ByteDance Seed 1.6	100	90	89	89	87	90.9%
Ministral 3 14B	96	94	93	90	81	90.8%
Gemini 3.1 Flash Lite	100	99	94	81	78	90.4%
Gemini 3.1 Flash Lite (Preview)	97	93	91	86	84	90.3%
Llama 3.1 70B	100	99	96	94	61	89.9%
WizardLM 2 8x22b	95	94	92	84	84	89.8%
Gemini 3 Flash (Preview, Reasoning)	100	92	92	84	81	89.6%
Gemini 2.5 Pro	100	95	92	89	72	89.5%
DeepSeek V4 Pro	100	100	91	90	66	89.4%
Claude Opus 4.7 (Reasoning)	100	90	87	84	83	89.0%
Mistral Large 2	100	99	98	83	65	88.8%
Gemini 2.5 Flash Lite	98	97	91	81	76	88.7%
Mistral Large 3	96	91	88	87	78	88.0%
DeepSeek V3.1	99	92	88	86	75	88.0%
Claude Opus 4.7	100	88	86	83	82	87.9%
Gemini 2.5 Flash Lite (Reasoning)	96	90	87	83	83	87.6%
Claude Sonnet 4.6	100	95	88	78	74	87.2%
ByteDance Seed 2.0 Mini	97	96	91	88	64	87.0%
Z.AI GLM 4.6	100	96	83	81	75	87.0%
Gemini 3 Flash (Preview)	95	89	85	85	79	86.5%
Gemma 4 26B	96	92	85	80	79	86.1%
Qwen 2.5 72B	96	89	85	79	69	83.5%
ByteDance Seed 2.0 Lite	100	78	77	74	57	77.2%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	99.9%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	99.9%
GPT-5.4	100	100	100	100	100	99.9%
Z.AI GLM 4.5 Air	100	100	100	100	100	99.9%
Gemma 4 26B (Reasoning)	100	100	100	100	100	99.9%
Claude Sonnet 4	100	100	100	100	99	99.9%
Mistral Small 3.2 24B	100	100	100	100	99	99.9%
Hermes 3 405B	100	100	100	100	99	99.8%
DeepSeek V4 Pro	100	100	100	100	99	99.8%
Claude Opus 4.6 (Reasoning)	100	100	100	100	99	99.8%
Z.AI GLM 4.5	100	100	100	100	99	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	99	99.8%
DeepSeek-V2 Chat	100	100	100	100	99	99.8%
Qwen 3 32B	100	100	100	100	99	99.8%
Aion 3.0	100	100	100	100	99	99.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	99	99.7%
Claude Opus 4.5	100	100	100	100	99	99.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	99	99.7%
Gemini 3.1 Flash Lite	100	100	100	100	99	99.7%
Aion 3.0 Mini	100	100	100	100	98	99.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	98	99.6%
Mistral NeMO	100	100	100	100	98	99.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	98	99.6%
Qwen 3.5 397B A17B	100	100	100	100	98	99.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	98	99.6%
Arcee AI: Trinity Mini	100	100	100	99	99	99.6%
Gemini 2.5 Flash	100	100	100	100	97	99.5%
Gemma 4 31B (Reasoning)	100	100	100	99	98	99.5%
Qwen 3.5 27B	100	100	100	100	97	99.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	99	98	99.4%
Mistral Large 2	100	100	100	100	96	99.3%
Z.AI GLM 4.7	100	100	100	100	96	99.2%
Qwen 3.5 Flash	100	100	100	100	96	99.2%
Qwen 3.5 122B	100	100	100	100	96	99.2%
Mistral Medium 3.1	100	100	99	99	98	99.2%
GPT-5 Mini	100	100	100	99	97	99.2%
GPT-4.1 Mini	100	100	100	100	96	99.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	96	99.1%
Z.AI GLM 4.6	100	100	100	100	96	99.1%
Gemini 3 Flash (Preview)	100	100	100	99	96	99.1%
Mistral Small 4 (Reasoning)	100	100	100	100	95	99.1%
Z.AI GLM 4.7 Flash	100	100	99	98	98	99.0%
ByteDance Seed 1.6 Flash	100	100	100	100	95	99.0%
Mistral Small 4	100	100	100	100	95	99.0%
Xiaomi MIMO v2.5 Pro	100	100	100	99	96	98.9%
Gemma 3 12B	100	100	100	98	96	98.9%
Gemma 3 4B	100	100	100	100	94	98.8%
GPT-4.1 Nano	100	100	100	99	95	98.7%
Gemma 4 31B	100	100	100	100	94	98.7%
MiniMax M3	100	100	99	98	96	98.7%
Inception Mercury 2	100	100	100	100	93	98.7%
Claude Haiku 4.5	100	100	100	97	96	98.6%
Ministral 3B	100	100	100	98	95	98.5%
Gemini 2.5 Flash Lite	100	99	99	98	96	98.3%
Mistral Large 3	100	100	100	100	91	98.3%
GPT-5 Nano	100	100	99	96	96	98.2%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	97	93	98.2%
GPT-4o Mini (temp=0)	100	100	99	99	93	98.1%
DeepSeek V4 Flash	100	100	100	96	94	98.1%
Claude Sonnet 5	100	100	97	96	96	98.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	88	97.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	99	98	92	97.6%
Qwen 2.5 72B	100	100	100	95	93	97.6%
Claude Opus 4.7	100	100	100	96	92	97.5%
DeepSeek V3.2	99	98	98	97	96	97.5%
Xiaomi MIMO v2.5	100	100	99	97	91	97.4%
Ministral 3 3B	100	100	96	95	95	97.4%
ByteDance Seed 1.6	100	100	99	97	91	97.3%
Cydonia 24B V4.1	100	100	100	100	86	97.2%
Ministral 3 8B	100	100	100	100	86	97.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	85	97.1%
Cohere Command R+ (Aug. 2024)	100	100	100	100	85	96.9%
Gemini 3.1 Flash Lite (Preview)	100	98	98	95	94	96.8%
Gemma 3 27B	100	100	96	95	93	96.7%
Gemma 4 26B	100	100	98	93	92	96.7%
Ministral 8B	100	98	98	94	92	96.5%
Nemotron 3 Nano	100	100	100	96	86	96.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	79	95.7%
ByteDance Seed 2.0 Mini	100	99	97	92	88	95.3%
Claude Sonnet 4.6 (Reasoning)	100	100	98	93	83	94.9%
Claude Opus 4.7 (Reasoning)	100	99	95	91	90	94.9%
Llama 3.1 70B	100	100	96	92	86	94.8%
Claude Sonnet 4.6	100	100	96	94	82	94.2%
Gemini 2.5 Pro	100	96	92	90	90	93.7%
Hermes 3 70B	100	100	100	97	70	93.5%
Qwen 3.5 35B	100	100	100	100	39	87.8%
ByteDance Seed 2.0 Lite	100	100	97	52	50	79.9%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	99.9%
Qwen 3.5 122B	100	100	100	100	100	99.9%
GPT-5.4	100	100	100	100	100	99.9%
GPT-4.1 Nano	100	100	100	100	100	99.9%
Claude Opus 4	100	100	100	100	99	99.8%
Qwen 3.5 397B A17B	100	100	100	100	99	99.8%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	99	99.8%
Qwen 3.6 35B	100	100	100	100	99	99.7%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	99	99.7%
Inception Mercury 2	100	100	100	100	99	99.7%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	98	99.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	98	99.6%
Claude Sonnet 4	100	100	100	100	98	99.6%
Mistral Small 4 (Reasoning)	100	100	100	99	99	99.6%
Qwen 3.6 27B	100	100	100	100	98	99.6%
Aion 3.0	100	100	100	100	97	99.5%
GPT-5.2	100	100	100	100	97	99.3%
GPT-OSS 120B	100	100	100	99	98	99.3%
Gemini 2.5 Flash	100	100	100	100	97	99.3%
Mistral Small 3.2 24B	100	100	100	100	96	99.3%
Qwen 3.5 27B	100	100	100	99	98	99.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	96	99.3%
DeepSeek-V2 Chat	100	100	100	100	96	99.3%
Qwen 3 32B	100	100	100	99	97	99.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	96	99.2%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	97	99.2%
Claude Opus 4.6	100	100	100	99	97	99.1%
Claude Opus 4.5	100	100	100	98	97	99.1%
Gemma 4 26B	100	100	99	99	97	99.1%
Z.AI GLM 5.1	100	100	100	100	95	99.0%
Nemotron 3 Super	100	100	100	100	95	99.0%
MiniMax M2.7	100	100	100	99	96	99.0%
Qwen 3.5 9B	100	100	100	98	97	99.0%
Grok 4.3 (Reasoning)	100	100	100	99	96	99.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	99	99	96	99.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	95	98.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	94	98.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	98	96	98.8%
Gemma 4 31B (Reasoning)	100	100	100	100	94	98.8%
Ministral 3 14B	100	100	100	98	95	98.5%
MiniMax M3	100	100	100	100	92	98.4%
DeepSeek V3.2	100	100	99	97	96	98.4%
Aion 3.0 Mini	100	100	100	100	92	98.4%
Z.AI GLM 4.7	100	99	98	97	97	98.4%
MiniMax M2.5	100	100	100	97	95	98.3%
GPT-5.4 Nano	100	100	98	98	95	98.3%
GPT-5.4 Nano (Reasoning)	100	100	100	99	92	98.2%
Claude Opus 4.6 (Reasoning)	100	100	100	100	91	98.2%
Z.AI GLM 4.5 Air	100	100	100	99	92	98.2%
Claude Sonnet 5 (Reasoning)	100	100	100	96	95	98.2%
WizardLM 2 8x22b	100	100	100	99	92	98.2%
Z.AI GLM 5 Turbo	100	99	98	98	95	98.1%
Gemma 4 26B (Reasoning)	100	100	99	98	94	98.1%
Claude Sonnet 4.6 (Reasoning)	100	100	97	97	96	98.1%
Claude Opus 4.7 (Reasoning)	100	100	100	99	92	98.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	99	98	93	98.1%
Mistral Medium 3.1	100	100	100	100	90	97.9%
GPT-5 Mini	100	100	99	97	94	97.9%
Z.AI GLM 4.5	100	100	99	98	93	97.9%
Llama 3.1 70B	100	100	100	99	91	97.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	89	97.8%
Ministral 3 3B	100	100	100	100	89	97.8%
Gemma 3 12B	100	99	99	98	93	97.8%
Xiaomi MIMO v2.5	100	100	99	96	93	97.7%
ByteDance Seed 1.6 Flash	100	100	100	97	92	97.7%
GPT-4o Mini (temp=0)	100	100	100	97	91	97.6%
Cohere Command R+ (Aug. 2024)	100	100	99	99	89	97.5%
Qwen 3.5 35B	100	100	97	96	93	97.4%
Gemma 3 4B	100	100	97	96	93	97.3%
DeepSeek V4 Flash	100	98	97	96	95	97.3%
GPT-5 Nano	100	100	99	96	91	97.2%
Cydonia 24B V4.1	100	100	100	96	90	97.2%
Claude Sonnet 4.6	100	100	98	97	90	97.1%
Xiaomi MIMO v2.5 Pro	100	100	97	95	93	97.1%
Mistral Small 4	100	100	98	97	91	97.1%
Ministral 3B	100	100	99	96	90	97.0%
Claude Haiku 4.5	100	100	100	98	87	97.0%
Claude Opus 4.8 (Reasoning)	100	100	100	95	89	96.8%
Z.AI GLM 4.7 Flash	100	100	96	94	94	96.8%
Hermes 3 70B	100	100	100	99	83	96.4%
Gemma 4 31B	100	99	98	94	91	96.2%
ByteDance Seed 1.6	100	98	95	95	93	96.2%
Aion 2.0	100	100	99	92	89	95.9%
Arcee AI: Trinity Mini	100	100	100	92	88	95.9%
Z.AI GLM 5	100	100	95	94	90	95.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	98	80	95.6%
Claude Opus 4.7	100	100	94	93	90	95.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	93	92	91	95.3%
DeepSeek V3.1	100	97	95	94	89	95.2%
ByteDance Seed 2.0 Lite	100	99	96	96	85	95.0%
Gemini 3.1 Flash Lite	96	96	96	95	92	95.0%
Gemini 3.1 Flash Lite (Reasoning)	100	97	96	95	87	94.9%
Mistral Large 3	99	98	95	94	89	94.9%
Gemini 2.5 Pro	100	100	97	91	87	94.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	99	89	85	94.6%
Ministral 3 8B	99	97	96	94	86	94.4%
Qwen 2.5 72B	98	96	94	92	91	94.3%
Gemma 3 27B	100	100	93	92	85	94.1%
Ministral 8B	100	97	95	92	86	94.0%
Mistral Large 2	100	93	93	92	90	93.7%
Nemotron 3 Nano	100	100	100	97	70	93.4%
Gemini 3 Flash (Preview)	99	99	94	88	86	93.2%
Z.AI GLM 4.6	100	99	94	86	86	93.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	89	73	92.5%
Claude Sonnet 5	96	95	91	90	87	91.6%
Gemini 2.5 Flash Lite	94	93	92	89	87	91.0%
Mistral NeMO	98	93	85	85	78	87.9%
ByteDance Seed 2.0 Mini	94	89	69	67	66	77.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	99.9%
GPT-4.1 Mini	100	100	100	100	100	99.9%
Mistral Small 4	100	100	100	100	100	99.9%
Mistral Small 4 (Reasoning)	100	100	100	100	99	99.9%
GPT-4.1 Nano	100	100	100	100	99	99.9%
Writer: Palmyra X5	100	100	100	100	99	99.8%
Grok 4.20	100	100	100	100	99	99.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	99	99	99.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	99	99	99.6%
Grok 4.3 (Reasoning)	100	100	100	100	98	99.6%
Gemma 4 31B	100	100	99	99	99	99.5%
Qwen 3.5 122B	100	100	100	100	98	99.5%
o4 Mini High	100	100	100	100	98	99.5%
Qwen3.6 Max Preview	100	100	100	100	97	99.3%
GPT-5.4	100	100	100	100	96	99.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	98	99.3%
Grok 4.3	100	100	100	98	98	99.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	96	99.2%
Qwen 3.5 27B	100	100	100	98	98	99.1%
Mistral Large 3	100	100	100	100	95	99.1%
GPT-5.4 (Reasoning, Low)	100	100	100	98	97	99.0%
GPT-4o Mini (temp=0)	100	100	100	100	96	99.0%
MiniMax M2.5	100	100	100	100	95	99.0%
Z.AI GLM 4.7	100	100	100	99	96	99.0%
GPT-5.5	100	100	100	98	97	99.0%
GPT-5.4 (Reasoning)	100	100	99	98	97	98.9%
Grok 4.20 (Reasoning)	100	100	99	98	98	98.9%
Qwen 3.5 Plus (2026-02-15)	100	100	100	97	97	98.8%
Z.AI GLM 5	100	100	100	97	96	98.7%
GPT-5.1	100	100	99	97	97	98.6%
Mistral Large 2	100	100	100	97	96	98.6%
Ministral 3B	100	100	98	97	97	98.6%
Qwen 3 32B	100	100	100	98	95	98.6%
MoonshotAI: Kimi K2.6	100	100	100	97	96	98.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	99	99	95	98.6%
Gemma 3 27B	100	100	100	100	93	98.5%
Claude Opus 4.6	100	99	99	99	94	98.3%
ByteDance Seed 1.6 Flash	100	100	100	99	93	98.3%
Claude Sonnet 4	100	100	100	99	93	98.3%
Aion 3.0	100	100	100	99	93	98.3%
GPT-OSS 120B	100	99	99	98	96	98.3%
Qwen 3.6 Flash	100	100	100	97	94	98.1%
Claude Opus 4.5	100	100	100	97	93	98.1%
Qwen 3.5 397B A17B	100	100	100	100	90	98.1%
GPT-4.1	100	100	100	100	90	98.1%
Z.AI GLM 4.5 Air	100	100	100	100	90	98.1%
Nemotron 3 Nano	100	100	98	98	94	98.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	97	93	98.0%
Claude Sonnet 4.5	100	100	100	100	90	98.0%
GPT-5.2	100	99	99	96	96	98.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	95	95	98.0%
Z.AI GLM 5.1	100	100	100	97	93	97.9%
GPT-5	100	100	100	97	93	97.9%
MoonshotAI: Kimi K2.5	100	100	100	95	94	97.9%
Arcee AI: Trinity Mini	100	100	100	100	89	97.7%
DeepSeek-V2 Chat	100	100	100	95	94	97.7%
Cydonia 24B V4.1	100	100	100	98	90	97.7%
Mistral NeMO	100	100	100	98	90	97.7%
Gemini 3.5 Flash (Reasoning)	100	100	98	97	93	97.6%
ByteDance Seed 1.6	100	100	100	96	91	97.5%
Gemini 2.5 Flash	100	100	99	96	92	97.3%
Claude Opus 4.6 (Reasoning)	100	100	100	98	89	97.3%
Qwen 3.5 9B	100	100	100	96	90	97.2%
GPT-5.4 Nano (Reasoning, Low)	100	99	99	95	91	97.0%
DeepSeek V4 Pro	100	100	98	94	93	96.9%
Gemma 3 4B	99	99	99	94	93	96.9%
Aion 3.0 Mini	100	100	100	95	89	96.9%
Nemotron 3 Super	100	100	98	93	93	96.8%
Gemini 2.5 Flash Lite	100	100	98	94	92	96.8%
DeepSeek V4 Flash	100	100	96	96	92	96.7%
Hermes 3 70B	100	100	98	93	93	96.6%
Mistral Medium 3.1	100	100	100	94	89	96.6%
Cohere Command R+ (Aug. 2024)	100	100	99	93	92	96.6%
GPT-5.4 Mini	100	100	98	93	91	96.5%
Qwen 3.6 35B	100	100	100	94	89	96.5%
Z.AI GLM 5 Turbo	100	100	100	97	85	96.4%
GPT-5 Nano	100	99	97	95	91	96.4%
Claude Opus 4.8 (Reasoning)	100	100	99	95	88	96.4%
Gemini 3.1 Pro (Preview)	100	100	97	95	89	96.3%
Z.AI GLM 4.7 Flash	100	100	98	94	89	96.3%
Ministral 3 3B	100	100	100	93	88	96.1%
Z.AI GLM 4.5	100	100	100	96	84	96.1%
MiniMax M3	100	98	97	96	89	96.0%
Qwen 3.5 Flash	100	98	97	95	89	95.8%
GPT-5.4 Nano (Reasoning)	100	100	96	93	89	95.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	92	86	95.6%
Ministral 3 8B	100	100	97	91	89	95.4%
GPT-5.4 Nano	100	100	94	93	90	95.4%
Xiaomi MIMO v2.5 Pro	99	99	98	95	86	95.4%
DeepSeek V3.2	100	99	97	95	86	95.3%
Hermes 3 405B	100	99	95	92	90	95.2%
DeepSeek V4 Pro (Reasoning)	100	97	95	94	90	95.1%
Ministral 3 14B	98	96	95	94	92	95.1%
Gemma 4 26B	100	100	100	100	75	94.9%
Ministral 8B	98	98	94	93	92	94.7%
GPT-5.4 Mini (Reasoning, Low)	98	97	94	94	91	94.7%
Gemini 2.5 Pro	100	98	93	92	90	94.7%
Qwen 3.6 27B	100	95	93	93	92	94.6%
Z.AI GLM 5.2 (Reasoning, High)	100	100	97	93	82	94.2%
Claude Sonnet 5 (Reasoning)	100	98	98	92	82	94.0%
DeepSeek V3 (2024-12-26)	100	100	100	88	81	93.9%
Inception Mercury 2	96	96	94	93	89	93.7%
Gemini 3 Flash (Preview)	97	97	96	90	89	93.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	99	93	93	83	93.5%
Gemini 3.1 Flash Lite	100	95	93	91	87	93.3%
Z.AI GLM 4.6	96	94	93	91	91	92.9%
Gemma 4 31B (Reasoning)	100	97	92	90	85	92.7%
Aion 2.0	98	93	92	89	89	92.2%
Mistral Small 3.2 24B	100	100	100	82	79	92.2%
GPT-5 Mini	100	96	93	89	83	92.2%
Claude Opus 4.7	100	96	90	89	85	91.9%
Claude Sonnet 5 (Reasoning, Low)	100	98	89	89	81	91.5%
Claude Sonnet 4.6	98	95	91	88	86	91.4%
GPT-5.4 Mini (Reasoning)	99	95	91	89	83	91.4%
Qwen3.7 Max	99	97	89	87	85	91.3%
MiniMax M2.7	100	94	89	89	79	90.3%
Gemini 3.1 Flash Lite (Reasoning)	100	93	93	88	77	90.3%
Gemma 3 12B	93	92	92	91	83	89.9%
Gemini 3.1 Flash Lite (Preview)	96	92	90	89	82	89.8%
Xiaomi MIMO v2.5	100	97	86	83	78	89.0%
Qwen 3.5 35B	96	91	91	85	78	88.3%
DeepSeek V3.1	94	94	90	90	72	87.8%
ByteDance Seed 2.0 Lite	98	91	88	84	75	87.0%
Gemini 3 Flash (Preview, Reasoning)	100	92	92	84	68	87.0%
Qwen 2.5 72B	94	90	84	82	80	86.0%
WizardLM 2 8x22b	100	99	97	73	60	86.0%
Gemma 4 26B (Reasoning)	92	85	85	84	78	84.8%
Claude Sonnet 5	99	98	90	81	55	84.5%
Llama 3.1 70B	96	85	83	78	74	83.1%
ByteDance Seed 2.0 Mini	91	88	85	83	66	82.8%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	99	99.9%
Qwen3.6 Max Preview	100	100	100	100	98	99.5%
Ministral 3 3B	100	100	100	100	97	99.5%
GPT-5.5 (Reasoning, Low)	100	100	100	100	98	99.5%
DeepSeek V4 Pro	100	100	100	100	97	99.4%
Claude Opus 4.5	100	100	100	98	98	99.4%
GPT-5.4 Mini (Reasoning)	100	100	99	99	99	99.4%
Grok 4.20 (Reasoning)	100	100	100	99	97	99.3%
Claude Opus 4	100	100	100	100	96	99.3%
Claude Haiku 4.5	100	100	99	99	98	99.2%
GPT-4o Mini (temp=1)	100	100	100	100	95	99.1%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	95	99.0%
Gemma 3 27B	100	100	99	99	97	99.0%
Qwen 3.6 27B	100	100	100	98	97	99.0%
Aion 3.0	100	100	100	100	95	99.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	99	97	99.0%
Grok 4.5 (Reasoning, High)	100	100	100	99	96	99.0%
GPT-5.4	100	100	100	98	97	98.9%
Grok 4.3	100	100	100	99	96	98.9%
DeepSeek V3 (2024-12-26)	100	100	99	98	98	98.9%
GPT-5.1	100	100	99	98	97	98.8%
Xiaomi MIMO v2.5 Pro	100	100	99	99	96	98.8%
Claude Sonnet 5	100	100	100	100	94	98.8%
Cohere Command R+ (Aug. 2024)	100	100	100	99	94	98.6%
Mistral Small 4 (Reasoning)	100	100	100	97	96	98.6%
Writer: Palmyra X5	100	100	99	98	95	98.4%
GPT-4.1	100	100	100	96	95	98.3%
Qwen 3.6 35B	100	100	99	97	95	98.3%
Qwen3 235B A22B Instruct 2507	100	100	100	96	95	98.2%
Qwen 3.5 397B A17B	100	100	99	98	94	98.1%
GPT-5	100	98	97	97	97	98.0%
MoonshotAI: Kimi K2.5	100	100	99	96	94	97.8%
Qwen 3.5 35B	100	100	98	97	94	97.8%
Claude Opus 4.6	100	100	97	96	96	97.8%
GPT-5.4 Nano (Reasoning)	100	99	97	97	96	97.8%
Mistral Small 4	100	100	99	98	91	97.8%
Ministral 3 8B	100	100	99	98	91	97.7%
Z.AI GLM 5 Turbo	100	100	100	95	93	97.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	99	99	95	95	97.5%
Mistral Medium 3.1	100	100	100	99	88	97.4%
DeepSeek V3 (2025-03-24)	100	100	100	94	93	97.4%
Grok 4.20	100	100	97	97	93	97.4%
GPT-5.2	100	100	97	95	95	97.4%
Ministral 3B	100	100	99	94	93	97.2%
o4 Mini	100	100	99	98	88	97.2%
Claude Sonnet 4.6	99	99	97	96	94	97.1%
DeepSeek-V2 Chat	100	100	100	95	90	97.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	97	88	97.0%
Z.AI GLM 5.1	100	100	99	94	91	96.9%
Mistral Small 3.2 24B	100	100	100	95	90	96.9%
DeepSeek V4 Flash (Reasoning)	100	98	96	95	95	96.8%
Gemini 2.5 Flash	100	100	100	96	89	96.8%
DeepSeek V4 Pro (Reasoning)	100	100	98	95	90	96.7%
Claude Opus 4.6 (Reasoning)	100	100	99	93	92	96.7%
DeepSeek V3.2	100	99	95	94	94	96.6%
Claude Opus 4.8 (Reasoning)	100	100	97	95	91	96.6%
Cydonia 24B V4.1	100	100	98	93	92	96.5%
Gemma 3 12B	100	100	95	95	93	96.5%
Qwen 3.5 Plus (2026-02-15)	100	97	97	95	93	96.4%
Hermes 3 405B	100	99	98	97	88	96.4%
Aion 2.0	100	98	96	95	93	96.4%
GPT-4.1 Nano	100	100	96	95	90	96.3%
MoonshotAI: Kimi K2.6	100	97	96	95	94	96.3%
Gemini 2.5 Flash Lite (Reasoning)	100	97	97	96	91	96.1%
GPT-4.1 Mini	100	100	95	94	92	96.1%
Gemini 2.5 Flash (Reasoning)	100	97	96	95	92	96.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	94	85	95.8%
GPT-5.4 Mini	100	98	96	94	91	95.7%
GPT-4o Mini (temp=0)	100	100	96	92	90	95.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	97	97	84	95.5%
Claude Sonnet 4.6 (Reasoning)	100	97	96	95	88	95.4%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	91	86	95.3%
Arcee AI: Trinity Mini	99	99	96	92	90	95.3%
MiniMax M2.5	100	100	96	94	87	95.3%
Qwen 3.5 Flash	100	99	97	91	88	95.1%
Claude Opus 4.7	100	97	97	91	90	95.0%
Mistral Large 2	99	98	95	93	90	95.0%
Qwen 3.5 27B	100	98	95	92	90	95.0%
Z.AI GLM 4.7	99	99	94	92	91	94.9%
Claude Sonnet 4	100	96	94	93	91	94.8%
Qwen 3.6 Flash	100	95	95	94	90	94.7%
Mistral Large 3	100	100	100	98	74	94.5%
GPT-5.4 Nano (Reasoning, Low)	100	95	95	94	89	94.4%
Llama 3.1 70B	100	99	98	92	83	94.4%
WizardLM 2 8x22b	100	100	99	87	86	94.4%
Xiaomi MIMO v2.5	99	95	95	91	91	94.4%
Ministral 8B	100	94	94	93	90	94.3%
Gemini 3.1 Pro (Preview)	100	98	93	90	90	94.3%
Gemma 4 26B	99	96	96	95	85	94.1%
Hermes 3 70B	100	98	95	92	86	94.1%
Claude Sonnet 5 (Reasoning)	100	100	99	93	79	94.1%
ByteDance Seed 1.6 Flash	100	100	92	89	89	94.0%
Claude Opus 4.7 (Reasoning)	100	95	93	93	88	94.0%
Qwen3.7 Max	96	96	95	92	91	94.0%
Ministral 3 14B	100	100	97	87	86	94.0%
Qwen 3 32B	98	98	95	95	83	93.9%
Z.AI GLM 5	99	97	94	92	87	93.7%
Gemma 4 31B	98	97	94	93	84	93.2%
Gemma 3 4B	100	98	92	89	85	92.9%
DeepSeek V4 Flash	97	95	93	90	89	92.7%
MiniMax M2.7	100	93	92	90	89	92.7%
Gemma 4 31B (Reasoning)	98	96	91	90	88	92.6%
Mistral NeMO	100	92	92	91	89	92.6%
GPT-5.4 Nano	100	95	92	91	85	92.6%
Z.AI GLM 4.5 Air	94	93	92	91	90	92.2%
ByteDance Seed 2.0 Lite	100	100	88	87	86	92.2%
DeepSeek V3.1	98	94	92	89	88	92.2%
Z.AI GLM 4.5	100	95	95	93	78	92.2%
Inception Mercury 2	98	98	92	87	86	92.2%
Gemini 3.5 Flash (Reasoning)	99	95	93	91	82	92.1%
Gemini 2.5 Flash Lite	94	93	91	91	91	92.0%
Claude Sonnet 5 (Reasoning, Low)	100	99	93	85	83	91.9%
Qwen 2.5 72B	100	100	91	88	81	91.9%
Gemini 3.1 Flash Lite	99	95	94	90	81	91.8%
GPT-5 Mini	98	98	93	92	78	91.7%
Gemma 4 26B (Reasoning)	98	95	95	86	83	91.5%
Z.AI GLM 4.6	100	94	90	87	84	91.0%
Gemini 2.5 Pro	97	97	93	86	82	91.0%
Qwen 3.5 9B	97	96	93	90	79	90.9%
Qwen 3.5 122B	97	95	89	89	85	90.9%
MiniMax M3	100	92	89	87	86	90.9%
GPT-5 Nano	99	91	91	88	84	90.8%
Gemini 3 Flash (Preview)	96	94	91	88	80	89.8%
Z.AI GLM 4.7 Flash	95	93	88	87	84	89.6%
Nemotron 3 Super	98	89	89	88	79	88.7%
Gemini 3.1 Flash Lite (Preview)	92	90	89	88	83	88.7%
Gemini 3.1 Flash Lite (Reasoning)	97	91	89	84	77	87.5%
Nemotron 3 Nano	96	96	95	78	72	87.2%
Aion 3.0 Mini	100	100	84	77	75	87.2%
Gemini 3 Flash (Preview, Reasoning)	99	90	86	80	78	86.6%
GPT-OSS 120B	89	89	84	83	83	85.6%
ByteDance Seed 2.0 Mini	85	81	77	68	65	75.3%
ByteDance Seed 1.6	91	89	70	70	41	72.5%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.1	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	99.9%
Mistral Medium 3.1	100	100	100	100	99	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	99	99.7%
GPT-5.4	100	100	100	100	99	99.6%
Gemini 2.5 Flash	100	100	100	100	98	99.6%
Mistral Large 2	100	100	100	99	99	99.6%
Grok 4.5 (Reasoning, Low)	100	100	100	99	98	99.5%
Claude Sonnet 4.5	100	100	100	100	97	99.4%
GPT-5.5 (Reasoning)	100	100	100	100	97	99.3%
DeepSeek V3 (2025-03-24)	100	100	100	99	97	99.2%
Qwen3 235B A22B Instruct 2507	100	100	100	100	96	99.2%
Gemma 3 4B	100	100	100	100	96	99.2%
Grok 4.3	100	100	100	100	96	99.2%
GPT-4.1	100	100	100	98	98	99.2%
Mistral Small 3.2 24B	100	100	100	100	95	99.0%
Z.AI GLM 5.1	100	100	99	98	98	98.9%
GPT-5.4 Nano	100	100	100	98	97	98.9%
GPT-4o Mini (temp=1)	100	100	100	100	95	98.9%
Mistral Small 4 (Reasoning)	100	100	99	99	96	98.9%
GPT-5.5 (Reasoning, Low)	100	100	98	98	98	98.8%
DeepSeek-V2 Chat	100	100	100	100	94	98.8%
Aion 3.0 Mini	100	100	100	98	96	98.8%
Qwen 2.5 72B	100	100	100	100	94	98.7%
Mistral Small 4	100	100	100	99	95	98.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	97	97	98.7%
GPT-5.2	100	99	99	98	98	98.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	95	98.6%
Qwen 3 32B	100	100	100	100	93	98.6%
Hermes 3 405B	100	100	100	97	95	98.5%
Qwen3.7 Max	100	100	100	97	95	98.5%
Qwen 3.5 9B	100	100	99	98	95	98.5%
Ministral 8B	100	100	99	98	95	98.4%
Writer: Palmyra X5	100	100	100	100	92	98.3%
Claude Opus 4	100	100	100	100	91	98.2%
o4 Mini	100	100	100	99	92	98.2%
DeepSeek V3 (2024-12-26)	100	100	100	97	94	98.1%
Llama 3.1 70B	100	100	99	96	96	98.1%
Grok 4.20 (Reasoning)	100	100	100	99	91	98.1%
GPT-5 Nano	100	100	100	97	93	97.9%
Z.AI GLM 4.6	100	100	100	95	94	97.7%
Hermes 3 70B	100	100	100	96	92	97.7%
Qwen3.6 Max Preview	100	99	99	98	93	97.7%
Grok 4.20	100	100	97	97	95	97.6%
ByteDance Seed 1.6 Flash	100	100	100	100	88	97.6%
DeepSeek V4 Pro	100	100	100	96	92	97.6%
Gemini 2.5 Flash Lite	100	100	97	96	94	97.5%
Qwen 3.6 Flash	100	99	98	97	93	97.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	88	97.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	91	97.4%
Claude Haiku 4.5	100	100	100	100	87	97.4%
Ministral 3 14B	100	100	98	95	94	97.4%
Grok 4.3 (Reasoning)	100	100	99	97	91	97.3%
Gemini 3.1 Flash Lite (Preview)	100	100	98	95	94	97.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	95	92	97.3%
Claude Sonnet 4.6 (Reasoning)	100	100	100	93	93	97.2%
Xiaomi MIMO v2.5 Pro	98	97	97	97	96	97.1%
Qwen 3.5 Flash	100	100	100	94	91	97.1%
Z.AI GLM 4.7 Flash	100	100	96	96	93	97.0%
DeepSeek V3.2	100	99	98	95	92	97.0%
MiniMax M2.7	100	99	96	95	95	97.0%
Gemini 3.1 Pro (Preview)	100	100	97	96	92	96.9%
Z.AI GLM 4.5	100	100	100	100	85	96.9%
Xiaomi MIMO v2.5	100	100	98	94	92	96.8%
Ministral 3B	100	100	98	96	90	96.8%
DeepSeek V3.1	100	99	99	97	89	96.7%
Inception Mercury 2	100	99	99	96	89	96.7%
GPT-5.4 (Reasoning, Low)	100	98	97	95	94	96.7%
GPT-5.4 Mini	100	100	98	97	88	96.6%
Z.AI GLM 4.5 Air	100	100	97	94	93	96.6%
Qwen 3.5 122B	100	100	96	94	93	96.5%
DeepSeek V4 Flash (Reasoning)	100	100	98	96	88	96.5%
Claude Opus 4.8 (Reasoning, Low)	100	98	98	95	92	96.5%
Grok 4.5 (Reasoning, High)	100	100	95	94	93	96.5%
Cohere Command R+ (Aug. 2024)	100	100	99	99	85	96.4%
Qwen 3.5 397B A17B	100	100	97	96	89	96.3%
Cydonia 24B V4.1	100	100	100	98	84	96.3%
Z.AI GLM 4.7	100	98	96	95	92	96.1%
MoonshotAI: Kimi K2.6	100	100	100	93	88	96.1%
Mistral Large 3	100	100	95	93	92	96.0%
Claude Sonnet 5 (Reasoning)	100	98	96	96	90	96.0%
Gemini 3.1 Flash Lite	100	100	100	93	87	96.0%
DeepSeek V4 Pro (Reasoning)	100	99	97	92	92	96.0%
GPT-5.4 Nano (Reasoning)	100	100	98	96	85	96.0%
Gemini 2.5 Pro	100	98	96	94	92	95.9%
MiniMax M2.5	100	100	98	94	86	95.6%
Claude Opus 4.6 (Reasoning)	100	97	95	93	93	95.5%
Claude Opus 4.6	100	100	97	95	86	95.5%
GPT-OSS 120B	100	100	96	92	90	95.5%
Ministral 3 8B	100	100	99	90	89	95.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	95	93	90	95.5%
Gemma 3 12B	100	100	97	91	89	95.4%
GPT-4.1 Nano	100	99	99	91	87	95.2%
Z.AI GLM 5 Turbo	100	100	97	95	83	95.1%
MoonshotAI: Kimi K2.5	100	100	99	94	82	95.1%
Gemini 3 Flash (Preview)	100	98	97	93	87	95.1%
GPT-5 Mini	100	99	97	92	87	95.0%
Qwen 3.5 27B	100	100	94	92	88	95.0%
GPT-5	100	96	94	93	91	94.9%
Gemini 3 Flash (Preview, Reasoning)	100	96	94	93	92	94.8%
Z.AI GLM 5	100	100	97	89	88	94.7%
Gemini 3.1 Flash Lite (Reasoning)	100	98	95	93	87	94.5%
GPT-5.4 Mini (Reasoning)	100	99	95	91	88	94.5%
Gemini 3.5 Flash (Reasoning)	100	96	94	94	87	94.2%
ByteDance Seed 2.0 Mini	99	97	97	90	87	94.1%
DeepSeek V4 Flash	100	100	94	91	84	93.8%
ByteDance Seed 1.6	100	100	92	91	85	93.7%
Gemma 4 31B (Reasoning)	100	98	92	91	86	93.6%
Claude Opus 4.5	96	95	95	94	89	93.6%
Claude Opus 4.7 (Reasoning)	100	100	95	87	84	93.3%
Nemotron 3 Nano	100	95	94	92	85	93.2%
Qwen 3.5 35B	100	97	93	91	84	93.2%
Claude Sonnet 4	100	100	92	90	82	92.9%
Qwen 3.5 Plus (2026-02-15)	100	100	96	90	78	92.6%
Gemma 3 27B	99	98	97	85	84	92.5%
Gemma 4 26B	100	97	95	89	81	92.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	88	74	92.4%
GPT-4.1 Mini	100	99	98	91	73	92.3%
Aion 2.0	97	95	93	90	86	92.2%
Ministral 3 3B	100	100	100	87	73	92.2%
ByteDance Seed 2.0 Lite	100	100	92	87	80	91.8%
Claude Sonnet 5	98	98	95	88	80	91.8%
Qwen 3.6 27B	100	99	96	83	81	91.8%
Claude Sonnet 4.6	98	92	92	89	87	91.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	97	92	85	83	91.4%
Qwen 3.6 35B	100	99	98	87	73	91.3%
Aion 3.0	96	95	93	88	84	91.1%
Claude Opus 4.8 (Reasoning)	100	94	92	89	72	89.5%
MiniMax M3	100	89	88	86	83	89.2%
Nemotron 3 Super	100	89	87	82	81	87.8%
Claude Opus 4.7	100	95	85	77	77	87.0%
Arcee AI: Trinity Mini	100	91	91	81	71	86.9%
WizardLM 2 8x22b	100	100	100	100	32	86.4%
Gemma 4 26B (Reasoning)	96	93	92	75	73	85.7%
Gemma 4 31B	93	89	84	82	81	85.6%
Claude Sonnet 5 (Reasoning, Low)	96	81	80	78	69	80.7%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Hermes 3 405B	100	100	100	100	96	99.3%
DeepSeek V3 (2025-03-24)	100	100	99	98	97	98.7%
o4 Mini High	100	100	100	98	95	98.4%
o4 Mini	100	98	98	97	95	97.8%
GPT-4o Mini (temp=1)	100	100	99	94	94	97.3%
Qwen3 235B A22B Instruct 2507	100	99	98	96	94	97.3%
Gemma 3 12B	100	100	100	93	91	96.8%
Mistral Small 4	100	100	99	95	87	96.3%
Writer: Palmyra X5	100	96	96	95	93	96.0%
Grok 4.5 (Reasoning, High)	99	99	98	97	86	95.8%
Gemma 3 4B	100	100	100	95	82	95.4%
GPT-5.5 (Reasoning)	98	97	96	93	93	95.3%
GPT-5 Nano	100	98	95	94	89	95.0%
GPT-4.1	100	100	98	94	83	94.9%
Claude Opus 4	100	98	98	92	86	94.8%
Claude Sonnet 4.5	98	97	95	94	90	94.7%
Gemini 2.5 Flash Lite	100	100	99	98	76	94.6%
Hermes 3 70B	100	100	99	88	85	94.3%
GPT-5.1	100	97	97	90	87	94.2%
Llama 3.1 70B	100	98	97	90	85	93.9%
Qwen 3.5 9B	100	97	97	91	84	93.8%
Qwen 3.5 122B	96	96	94	94	89	93.8%
GPT-5.5 (Reasoning, Low)	100	95	92	91	90	93.7%
Z.AI GLM 5	99	97	97	90	85	93.7%
Ministral 3 3B	100	100	94	89	84	93.3%
GPT-5	100	95	95	93	83	93.2%
GPT-4.1 Mini	100	99	95	90	82	93.2%
Z.AI GLM 4.5 Air	98	97	91	91	87	92.9%
Mistral Small 4 (Reasoning)	100	96	95	90	84	92.9%
Grok 4.5 (Reasoning, Low)	100	97	91	90	86	92.8%
Gemma 3 27B	98	98	94	88	85	92.7%
Qwen3.7 Max	95	95	93	90	89	92.5%
DeepSeek V3.1	96	94	92	91	90	92.5%
Z.AI GLM 4.7	100	93	91	89	88	92.2%
DeepSeek V3 (2024-12-26)	96	95	94	91	85	92.1%
GPT-5.4	100	93	92	89	86	92.1%
Claude Sonnet 4	100	100	100	85	74	91.8%
Gemini 2.5 Flash	100	95	93	85	84	91.6%
DeepSeek V4 Flash (Reasoning)	95	94	91	90	87	91.5%
GPT-4o, Aug. 6th (temp=1)	100	100	92	85	80	91.2%
GPT-5.5	96	91	90	90	89	91.2%
GPT-5.4 (Reasoning)	92	92	92	90	89	91.1%
Gemini 3.5 Flash (Reasoning)	100	100	95	94	66	91.1%
MiniMax M2.5	95	93	90	89	87	91.0%
Mistral NeMO	97	95	92	87	83	90.9%
Ministral 3 8B	100	92	91	90	81	90.9%
Z.AI GLM 4.5	95	94	91	89	85	90.9%
Qwen 3 32B	99	97	91	87	79	90.8%
GPT-4.1 Nano	100	97	94	85	78	90.8%
Mistral Medium 3.1	100	98	97	82	76	90.6%
Claude Opus 4.7	100	92	91	91	78	90.5%
Ministral 3B	100	94	91	86	82	90.5%
GPT-5.2	99	90	88	87	87	90.3%
Gemini 3.1 Flash Lite (Reasoning)	97	94	94	86	80	90.2%
Gemini 2.5 Pro	96	96	95	87	76	90.1%
Gemini 3 Flash (Preview, Reasoning)	97	92	90	86	85	90.0%
Z.AI GLM 5.2 (Reasoning, High)	96	94	92	84	83	89.9%
Qwen 3.5 Flash	97	91	89	89	83	89.9%
Gemini 2.5 Flash Lite (Reasoning)	98	92	91	84	84	89.8%
MoonshotAI: Kimi K2.6	100	93	91	88	77	89.8%
Grok 4.20 (Reasoning)	97	92	89	87	83	89.8%
ByteDance Seed 1.6 Flash	99	95	92	87	75	89.6%
Aion 3.0	94	94	88	86	85	89.5%
Gemma 4 26B (Reasoning)	96	93	92	89	77	89.3%
Qwen 3.5 35B	96	95	90	84	82	89.3%
Qwen 3.5 27B	94	93	90	89	82	89.3%
Qwen3.6 Max Preview	96	93	88	86	84	89.3%
DeepSeek-V2 Chat	99	93	89	84	81	89.3%
Z.AI GLM 5.1	95	93	87	86	85	89.2%
Aion 3.0 Mini	97	90	88	86	84	89.2%
Qwen 3.5 Plus (2026-04-20)	97	92	90	87	80	89.1%
Qwen 3.6 35B	95	94	92	84	80	89.0%
Gemma 4 31B (Reasoning)	97	96	90	85	77	88.9%
Claude Opus 4.8 (Reasoning)	95	90	87	87	85	88.8%
GPT-4o Mini (temp=0)	92	89	89	87	86	88.7%
Gemini 2.5 Flash (Reasoning)	96	90	88	85	84	88.6%
Claude Sonnet 4.6	91	90	89	87	85	88.6%
DeepSeek V4 Flash	99	93	86	83	82	88.5%
Mistral Large 3	92	91	88	88	83	88.5%
WizardLM 2 8x22b	95	94	90	88	76	88.4%
Cohere Command R+ (Aug. 2024)	100	96	84	81	80	88.0%
Claude Sonnet 4.6 (Reasoning)	99	95	90	80	77	88.0%
Claude Opus 4.8 (Reasoning, Low)	100	92	90	89	68	87.8%
Gemini 3.1 Pro (Preview)	98	98	89	77	76	87.8%
GPT-5.4 Nano (Reasoning, Low)	92	90	89	84	84	87.6%
DeepSeek V4 Pro (Reasoning)	98	92	89	84	75	87.5%
Gemini 3.1 Flash Lite (Preview)	95	92	86	84	81	87.5%
Z.AI GLM 5 Turbo	92	91	90	88	75	87.3%
Z.AI GLM 4.6	93	93	89	86	75	87.2%
Qwen 3.5 Plus (2026-02-15)	100	86	85	84	81	87.2%
Claude Opus 4.5	98	97	91	78	72	87.1%
Xiaomi MIMO v2.5 Pro	99	94	88	81	73	87.1%
Z.AI GLM 4.7 Flash	95	90	88	83	79	87.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	90	85	82	77	86.8%
Gemini 3 Flash (Preview)	92	87	87	86	82	86.7%
Arcee AI: Trinity Mini	100	98	95	78	63	86.7%
Claude Haiku 4.5	100	98	81	79	76	86.7%
MoonshotAI: Kimi K2.5	96	93	92	83	71	86.7%
Grok 4.3	100	87	85	85	77	86.6%
GPT-5.4 Nano	90	89	86	85	81	86.2%
Mistral Small 3.2 24B	100	92	82	79	79	86.1%
Ministral 3 14B	93	93	93	83	69	86.0%
DeepSeek V4 Pro	100	99	83	78	70	86.0%
GPT-5.4 Mini (Reasoning, Low)	91	87	85	85	81	86.0%
Cydonia 24B V4.1	100	97	87	74	71	85.9%
GPT-5.4 (Reasoning, Low)	96	87	85	83	79	85.9%
MiniMax M2.7	93	89	86	84	76	85.7%
Gemma 4 26B	100	97	84	84	64	85.6%
GPT-5.4 Nano (Reasoning)	93	89	86	86	73	85.5%
Grok 4.20	93	91	85	82	76	85.5%
ByteDance Seed 2.0 Lite	98	87	86	82	74	85.5%
DeepSeek V3.2	100	93	82	80	71	85.4%
Xiaomi MIMO v2.5	94	93	84	83	72	85.3%
Claude Opus 4.7 (Reasoning)	92	89	86	82	77	85.2%
GPT-OSS 120B	93	93	92	84	63	85.1%
Gemini 3.1 Flash Lite	98	87	82	82	77	85.1%
Aion 2.0	91	88	87	81	78	84.9%
Claude Opus 4.6	96	89	84	78	76	84.9%
GPT-4o, Aug. 6th (temp=0)	90	90	88	86	67	84.4%
Qwen 3.6 Flash	96	95	82	76	72	84.3%
Qwen 2.5 72B	89	89	85	85	72	84.2%
GPT-5 Mini	94	91	83	78	74	84.1%
Qwen 3.5 397B A17B	95	94	84	76	70	84.0%
Qwen 3.6 27B	92	89	89	85	65	84.0%
Mistral Large 2	96	92	84	83	63	83.6%
Claude Sonnet 5 (Reasoning, Low)	100	91	89	72	65	83.4%
GPT-5.4 Mini	85	85	84	82	80	83.0%
ByteDance Seed 1.6	100	100	78	72	64	82.8%
Claude Opus 4.6 (Reasoning)	89	87	83	81	73	82.7%
Claude Sonnet 5 (Reasoning)	97	97	86	78	54	82.3%
Ministral 8B	97	84	84	77	67	81.8%
Claude Sonnet 5	95	93	80	69	69	81.1%
GPT-5.4 Mini (Reasoning)	96	85	79	73	71	80.9%
Gemma 4 31B	93	85	76	75	71	79.9%
Grok 4.3 (Reasoning)	84	83	79	76	73	78.9%
Inception Mercury 2	93	85	80	77	59	78.8%
MiniMax M3	84	81	81	74	73	78.6%
Nemotron 3 Nano	98	85	80	72	46	76.1%
Nemotron 3 Super	86	71	71	67	55	70.0%
ByteDance Seed 2.0 Mini	73	67	65	61	60	65.1%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	99.9%
GPT-5.1	100	100	100	100	100	99.9%
GPT-5.5 (Reasoning)	100	100	100	100	99	99.8%
Qwen3.6 Max Preview	100	100	100	100	99	99.7%
Grok 4.20	100	100	100	100	98	99.6%
Hermes 3 405B	100	100	100	100	98	99.6%
Aion 3.0 Mini	100	100	100	100	98	99.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	97	99.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	97	99.4%
GPT-5.5	100	100	100	100	97	99.4%
GPT-4.1	100	100	100	100	97	99.4%
Mistral Medium 3.1	100	100	100	99	98	99.3%
Qwen 3.5 122B	100	100	100	99	98	99.3%
Grok 4.3 (Reasoning)	100	100	100	100	96	99.3%
Grok 4.5 (Reasoning, Low)	100	100	100	99	97	99.2%
Mistral Large 2	100	100	100	99	97	99.2%
Ministral 3B	100	100	99	99	98	99.2%
GPT-4.1 Mini	100	100	100	99	97	99.2%
GPT-5	100	100	99	99	98	99.2%
DeepSeek-V2 Chat	100	100	100	100	96	99.2%
Mistral Small 4 (Reasoning)	100	100	100	98	98	99.2%
o4 Mini	100	100	100	100	95	99.1%
Claude Opus 4.6	100	99	99	98	98	99.0%
Z.AI GLM 5 Turbo	100	100	100	98	97	99.0%
GPT-4o Mini (temp=1)	100	100	100	99	96	99.0%
MoonshotAI: Kimi K2.5	100	100	100	99	96	99.0%
Writer: Palmyra X5	100	100	100	98	97	98.9%
Gemini 2.5 Flash	100	100	100	100	95	98.9%
GPT-5.4 Mini (Reasoning)	100	100	99	98	97	98.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	98	96	98.8%
Llama 3.1 70B	100	99	98	98	98	98.8%
Mistral Large 3	100	100	100	100	94	98.7%
Claude Opus 4	100	100	100	100	94	98.7%
Grok 4.5 (Reasoning, High)	100	100	100	100	94	98.7%
MiniMax M2.5	100	100	100	100	94	98.7%
Qwen 3.6 Flash	100	100	100	98	94	98.5%
GPT-5.2	100	99	98	98	97	98.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	97	95	98.5%
Qwen 3.5 9B	100	100	100	99	94	98.5%
Qwen3 235B A22B Instruct 2507	100	100	100	97	96	98.4%
Gemma 3 4B	100	100	100	99	93	98.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	96	96	98.4%
Claude Sonnet 4	100	100	100	100	92	98.4%
Qwen 3.5 Flash	100	100	99	99	95	98.4%
Claude Sonnet 4.5	100	100	100	97	94	98.4%
DeepSeek V3 (2024-12-26)	100	100	100	97	95	98.3%
Claude Sonnet 4.6	100	100	100	100	92	98.3%
GPT-OSS 120B	100	100	99	96	96	98.3%
Ministral 3 8B	100	100	100	98	93	98.3%
DeepSeek V4 Flash	100	100	100	100	91	98.2%
GPT-5.4 Nano (Reasoning)	100	100	100	96	96	98.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	97	93	98.1%
GPT-5.4 (Reasoning)	100	100	99	96	95	97.9%
GPT-4.1 Nano	100	100	99	97	94	97.9%
Ministral 8B	100	100	100	100	90	97.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	99	90	97.8%
GPT-5.4 Mini	100	100	98	96	95	97.8%
GPT-5.4 (Reasoning, Low)	100	100	99	97	92	97.7%
Grok 4.20 (Reasoning)	100	100	100	96	92	97.7%
Hermes 3 70B	100	100	100	98	90	97.6%
MiniMax M2.7	100	100	100	97	90	97.6%
GPT-5.4 Nano	100	99	98	97	94	97.6%
GPT-4o Mini (temp=0)	100	100	100	94	94	97.5%
Ministral 3 14B	100	100	100	95	93	97.5%
Aion 2.0	100	100	97	97	93	97.5%
Z.AI GLM 4.7	100	100	97	96	94	97.4%
ByteDance Seed 1.6 Flash	100	100	100	94	93	97.4%
Qwen 3.5 35B	100	99	97	96	94	97.3%
Claude Opus 4.7	100	100	100	94	93	97.3%
GPT-5 Nano	100	100	99	99	88	97.2%
Qwen 2.5 72B	100	100	100	100	87	97.2%
Arcee AI: Trinity Mini	100	100	98	96	92	97.2%
DeepSeek V4 Pro	100	100	100	98	88	97.2%
Gemini 3 Flash (Preview)	100	100	98	97	90	97.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	99	86	97.1%
Claude Opus 4.7 (Reasoning)	100	100	100	97	89	97.1%
GPT-4o, Aug. 6th (temp=1)	100	99	99	98	89	97.0%
Qwen 3.5 397B A17B	100	98	97	95	94	97.0%
Z.AI GLM 4.7 Flash	100	100	98	94	93	97.0%
Claude Opus 4.6 (Reasoning)	100	97	97	96	96	96.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	98	94	92	96.9%
Gemini 3.1 Pro (Preview)	100	100	99	98	88	96.8%
Gemma 4 31B	100	100	95	95	94	96.7%
Mistral NeMO	100	100	100	92	89	96.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	97	84	96.2%
MoonshotAI: Kimi K2.6	100	100	100	99	81	96.1%
Grok 4.3	100	100	96	94	90	96.0%
Gemini 2.5 Flash Lite	100	100	96	93	90	95.9%
Nemotron 3 Super	100	100	100	92	87	95.9%
Cydonia 24B V4.1	100	100	100	95	84	95.8%
Inception Mercury 2	100	100	97	93	89	95.7%
Claude Haiku 4.5	100	100	100	97	81	95.6%
DeepSeek V3.2	100	100	98	90	90	95.5%
Mistral Small 3.2 24B	100	100	100	93	84	95.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	95	82	95.4%
Z.AI GLM 5	100	98	98	96	84	95.3%
Qwen 3.5 27B	100	100	98	93	86	95.3%
Gemma 4 26B	100	100	96	91	89	95.2%
Claude Sonnet 4.6 (Reasoning)	100	100	97	96	84	95.2%
Gemini 2.5 Pro	100	100	96	96	84	95.2%
Aion 3.0	100	97	95	93	90	95.1%
Cohere Command R+ (Aug. 2024)	100	100	100	98	77	95.1%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	97	78	95.0%
Xiaomi MIMO v2.5	99	99	95	94	88	94.9%
WizardLM 2 8x22b	100	100	94	91	90	94.9%
Z.AI GLM 4.6	100	99	98	89	88	94.9%
DeepSeek V3.1	100	99	98	95	82	94.8%
Gemini 3.5 Flash (Reasoning)	100	100	97	92	85	94.7%
MiniMax M3	99	98	98	89	89	94.7%
Qwen3.7 Max	100	96	96	93	87	94.6%
ByteDance Seed 1.6	100	100	92	91	90	94.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	95	91	91	94.5%
Nemotron 3 Nano	98	97	94	93	90	94.4%
Xiaomi MIMO v2.5 Pro	100	95	94	93	89	94.3%
Z.AI GLM 5.1	100	100	98	95	78	94.3%
GPT-5 Mini	98	98	98	92	83	94.0%
Gemini 3.1 Flash Lite	100	100	92	89	88	93.9%
Z.AI GLM 5.2 (Reasoning, High)	100	100	95	89	85	93.9%
Claude Opus 4.8 (Reasoning)	100	98	95	95	80	93.6%
Gemma 4 26B (Reasoning)	100	96	92	89	89	93.1%
Qwen 3.6 27B	100	95	90	89	88	92.3%
Gemma 4 31B (Reasoning)	96	96	92	88	88	92.1%
Gemini 3.1 Flash Lite (Preview)	99	93	93	92	84	92.1%
Claude Sonnet 5	100	100	96	91	72	91.7%
Z.AI GLM 4.5	100	97	93	92	77	91.7%
ByteDance Seed 2.0 Lite	98	98	93	86	83	91.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	86	85	83	90.9%
ByteDance Seed 2.0 Mini	100	98	91	82	82	90.7%
Claude Sonnet 5 (Reasoning)	100	99	91	77	74	88.2%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	99.8%
GPT-5.5	100	100	100	99	98	99.6%
o4 Mini High	100	100	100	100	98	99.5%
GPT-5.5 (Reasoning)	100	100	100	100	98	99.5%
Writer: Palmyra X5	100	100	100	99	97	99.2%
Qwen 3.6 27B	100	100	100	100	96	99.1%
GPT-5.1	100	100	100	98	97	99.0%
o4 Mini	100	100	100	100	95	99.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	95	99.0%
Ministral 3 3B	100	99	99	98	98	98.9%
GPT-5.4 Mini (Reasoning)	100	99	99	98	98	98.8%
GPT-5.4 (Reasoning, Low)	100	100	100	98	96	98.8%
Qwen3 235B A22B Instruct 2507	100	100	100	97	97	98.8%
Claude Opus 4.8 (Reasoning)	100	100	100	97	96	98.7%
GPT-5	100	100	99	98	96	98.6%
Grok 4.5 (Reasoning, Low)	100	100	100	97	97	98.6%
GPT-4.1	100	100	99	98	95	98.4%
DeepSeek V3 (2024-12-26)	100	100	100	96	96	98.4%
Xiaomi MIMO v2.5	100	100	99	97	96	98.3%
Hermes 3 405B	100	100	100	96	93	97.9%
DeepSeek V3.1	100	100	99	96	94	97.8%
Qwen3.6 Max Preview	100	98	98	97	96	97.8%
Cydonia 24B V4.1	100	100	100	96	93	97.8%
Mistral Medium 3.1	100	99	97	96	95	97.7%
MoonshotAI: Kimi K2.6	100	99	97	96	96	97.7%
Ministral 3 14B	100	100	99	98	91	97.6%
Gemma 3 12B	100	99	99	98	91	97.5%
Gemma 3 27B	100	100	100	95	93	97.4%
Grok 4.20	100	98	98	97	93	97.3%
DeepSeek-V2 Chat	100	99	98	95	95	97.3%
Qwen 3.6 Flash	100	100	97	96	93	97.3%
GPT-5.2	100	98	98	98	92	97.2%
Mistral Small 4 (Reasoning)	100	99	98	97	92	97.2%
Z.AI GLM 4.5	100	100	100	94	92	97.1%
Qwen 3.5 122B	100	100	99	98	89	97.0%
Grok 4.3	100	99	98	95	93	97.0%
Grok 4.5 (Reasoning, High)	100	99	97	96	92	96.8%
GPT-5.4 Mini	98	97	97	96	94	96.5%
Ministral 3B	100	100	96	94	92	96.5%
Qwen 3 32B	100	100	95	94	93	96.4%
GPT-5.4	100	98	98	94	92	96.4%
Gemma 3 4B	99	99	96	96	92	96.4%
Gemini 3.1 Pro (Preview)	99	97	97	95	94	96.4%
Claude Opus 4	100	100	97	94	90	96.3%
Gemini 2.5 Flash Lite (Reasoning)	98	98	97	96	93	96.2%
Qwen 3.5 397B A17B	100	100	98	93	90	96.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	97	95	89	96.1%
GPT-4.1 Nano	100	100	97	95	88	96.0%
GPT-5.4 (Reasoning)	100	97	96	94	92	95.8%
Claude Haiku 4.5	100	100	97	92	90	95.8%
GPT-5.4 Nano (Reasoning)	100	97	95	94	93	95.7%
Mistral Small 4	100	100	94	92	91	95.5%
GPT-4o, Aug. 6th (temp=1)	100	99	93	93	92	95.4%
WizardLM 2 8x22b	100	100	100	98	79	95.3%
DeepSeek V4 Pro	100	99	99	93	86	95.3%
Mistral Small 3.2 24B	100	100	96	91	88	95.1%
Mistral Large 2	100	100	98	92	85	95.0%
GPT-4o, Aug. 6th (temp=0)	99	95	94	94	92	95.0%
Claude Sonnet 4.6	100	97	97	91	89	94.9%
GPT-4o Mini (temp=1)	100	96	95	94	89	94.9%
Z.AI GLM 5	100	96	94	93	90	94.8%
Gemini 2.5 Pro	100	99	97	95	82	94.7%
GPT-4.1 Mini	100	100	97	95	82	94.7%
Gemini 2.5 Flash Lite	100	100	93	91	89	94.7%
Gemini 2.5 Flash (Reasoning)	98	96	95	93	90	94.4%
Hermes 3 70B	100	98	97	91	85	94.3%
Nemotron 3 Super	98	96	94	92	91	94.2%
Aion 3.0	100	100	96	94	81	94.1%
Z.AI GLM 5.2 (Reasoning, High)	100	97	96	94	84	94.1%
Claude Opus 4.7	100	100	93	91	86	93.9%
GPT-OSS 120B	100	95	93	93	87	93.7%
Qwen 3.5 Plus (2026-02-15)	100	99	94	89	87	93.6%
Z.AI GLM 4.5 Air	100	97	92	91	87	93.5%
GPT-5 Nano	100	94	94	90	89	93.5%
MiniMax M2.5	100	96	93	90	88	93.4%
GPT-5.4 Nano (Reasoning, Low)	100	98	93	91	84	93.3%
Z.AI GLM 4.7	100	96	95	89	86	93.2%
Ministral 3 8B	100	100	89	89	87	93.1%
Inception Mercury 2	97	97	95	89	88	93.1%
Qwen 3.6 35B	100	99	94	90	83	93.1%
Mistral NeMO	98	97	92	90	89	93.0%
Ministral 8B	100	96	96	88	84	93.0%
ByteDance Seed 1.6 Flash	96	95	92	92	90	93.0%
Qwen 3.5 27B	95	94	93	92	90	92.8%
Z.AI GLM 4.6	97	96	93	90	87	92.7%
Claude Sonnet 4.6 (Reasoning)	100	100	91	89	82	92.3%
Grok 4.3 (Reasoning)	100	100	100	95	66	92.3%
Claude Opus 4.6	100	97	96	85	82	92.2%
Mistral Large 3	99	95	94	89	84	92.1%
Claude Sonnet 5 (Reasoning)	99	97	92	91	82	92.1%
MiniMax M2.7	100	95	90	89	86	92.1%
ByteDance Seed 1.6	99	96	96	93	77	92.1%
Qwen3.7 Max	100	98	91	87	83	92.0%
Gemini 3 Flash (Preview)	100	98	94	92	75	92.0%
Qwen 3.5 9B	96	94	94	91	84	91.7%
GPT-5.4 Nano	97	93	92	90	85	91.4%
Qwen 3.5 Plus (2026-04-20)	100	94	92	92	79	91.4%
Gemma 4 31B	98	98	95	91	76	91.3%
DeepSeek V4 Flash	97	97	96	89	79	91.3%
Qwen 3.5 Flash	98	96	91	87	85	91.3%
DeepSeek V3.2	98	95	95	88	80	91.2%
Z.AI GLM 4.7 Flash	98	92	92	89	86	91.2%
Z.AI GLM 5 Turbo	99	92	91	88	86	91.1%
Claude Opus 4.5	97	92	90	89	88	91.1%
Z.AI GLM 5.1	94	93	92	90	86	91.0%
Claude Sonnet 4.5	97	94	91	87	85	91.0%
Gemini 3.1 Flash Lite (Reasoning)	100	93	91	87	84	90.9%
Xiaomi MIMO v2.5 Pro	97	94	92	87	85	90.9%
MiniMax M3	99	95	91	87	82	90.8%
Arcee AI: Trinity Mini	98	97	93	91	73	90.5%
Gemma 4 26B	100	93	90	90	79	90.4%
Qwen 3.5 35B	98	92	91	86	85	90.2%
MoonshotAI: Kimi K2.5	100	98	97	91	65	90.2%
Claude Sonnet 5 (Reasoning, Low)	100	93	92	85	79	89.9%
Claude Sonnet 5	100	99	95	84	71	89.6%
Gemini 3.5 Flash (Reasoning)	100	89	89	89	81	89.6%
Nemotron 3 Nano	100	97	94	82	75	89.5%
Claude Opus 4.7 (Reasoning)	97	93	92	84	80	89.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	90	88	68	89.3%
Aion 2.0	95	95	92	85	79	89.3%
Grok 4.20 (Reasoning)	98	98	96	93	61	89.2%
Cohere Command R+ (Aug. 2024)	96	92	92	89	76	88.8%
Gemini 3.1 Flash Lite	100	100	87	81	77	88.8%
Gemini 2.5 Flash	100	94	92	86	72	88.8%
Qwen 2.5 72B	100	97	92	80	74	88.5%
Claude Opus 4.6 (Reasoning)	94	91	89	89	79	88.4%
GPT-5 Mini	96	89	88	87	81	88.3%
Gemma 4 26B (Reasoning)	92	90	90	85	83	88.1%
Claude Sonnet 4	96	94	87	82	82	88.0%
DeepSeek V4 Flash (Reasoning)	100	96	89	88	67	88.0%
Gemma 4 31B (Reasoning)	96	96	84	82	81	87.9%
Gemini 3.5 Flash (Reasoning, Minimal)	93	92	87	86	82	87.8%
Aion 3.0 Mini	98	96	91	81	72	87.6%
Gemini 3.1 Flash Lite (Preview)	100	95	88	79	74	87.1%
GPT-4o Mini (temp=0)	92	90	88	84	80	86.9%
Llama 3.1 70B	100	99	83	75	75	86.4%
Gemini 3 Flash (Preview, Reasoning)	96	94	85	81	73	85.8%
ByteDance Seed 2.0 Mini	89	86	86	84	82	85.4%
DeepSeek V4 Pro (Reasoning)	89	89	87	81	73	83.7%
ByteDance Seed 2.0 Lite	98	89	88	87	53	83.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	99.9%
MoonshotAI: Kimi K2.5	100	100	100	100	99	99.9%
GPT-5.4 Mini	100	100	100	100	99	99.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	99	99.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	99	99.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	99	99.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	99	99	99.7%
GPT-OSS 120B	100	100	100	100	98	99.7%
Mistral NeMO	100	100	100	100	98	99.6%
Aion 3.0	100	100	100	100	98	99.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	99	98	99.6%
Mistral Small 3.2 24B	100	100	100	100	97	99.5%
Nemotron 3 Super	100	100	100	100	97	99.4%
Inception Mercury 2	100	100	100	99	98	99.4%
Mistral Small 4	100	100	100	100	97	99.4%
Gemini 2.5 Flash	100	100	100	100	98	99.4%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	97	99.4%
Ministral 3 3B	100	100	100	99	98	99.2%
Qwen 3 32B	100	100	100	100	96	99.2%
Qwen3.7 Max	100	100	100	98	97	99.2%
DeepSeek V4 Flash	100	100	100	100	96	99.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	99	96	99.1%
Claude Opus 4.5	100	100	100	100	96	99.1%
Qwen 3.5 35B	100	100	100	98	98	99.1%
Gemma 4 26B	100	100	100	100	95	99.1%
Claude Sonnet 4.6	100	100	100	100	96	99.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	95	99.0%
GPT-5.4 (Reasoning, Low)	100	100	100	99	96	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	95	99.0%
Ministral 8B	100	100	100	98	97	99.0%
GPT-4.1 Mini	100	100	100	100	94	98.9%
DeepSeek V4 Pro (Reasoning)	100	100	100	98	96	98.9%
Gemma 4 26B (Reasoning)	100	100	100	100	94	98.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.7%
Claude Sonnet 4	100	100	100	99	95	98.7%
DeepSeek V4 Pro	100	100	99	98	96	98.7%
GPT-4.1 Nano	100	100	100	99	94	98.7%
Mistral Large 2	100	100	98	98	97	98.6%
Cohere Command R+ (Aug. 2024)	100	100	98	98	97	98.6%
Qwen 3.5 Flash	100	100	100	100	93	98.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	93	98.4%
Nemotron 3 Nano	100	100	100	100	92	98.4%
DeepSeek V3 (2024-12-26)	100	100	100	97	95	98.4%
Mistral Large 3	100	100	99	97	96	98.4%
ByteDance Seed 1.6 Flash	100	100	100	96	95	98.3%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	96	95	98.3%
Claude Opus 4.6	100	100	99	98	95	98.3%
Z.AI GLM 4.7	100	100	100	98	93	98.2%
MiniMax M2.7	100	100	100	96	94	98.2%
Gemma 3 12B	100	100	100	97	94	98.1%
Gemma 4 31B (Reasoning)	100	100	97	97	96	98.1%
GPT-5 Nano	100	100	99	98	93	98.1%
Claude Sonnet 5 (Reasoning)	100	100	100	96	95	98.1%
GPT-5 Mini	100	100	98	97	95	98.0%
Writer: Palmyra X5	100	100	100	96	94	98.0%
Hermes 3 405B	100	100	100	100	90	97.9%
MiniMax M2.5	100	100	100	100	89	97.8%
Z.AI GLM 4.6	100	100	99	96	94	97.8%
Ministral 3 8B	100	100	100	99	90	97.8%
Qwen3 235B A22B Instruct 2507	100	100	99	95	94	97.8%
GPT-5	100	100	100	96	93	97.7%
Ministral 3B	100	100	97	97	93	97.3%
Aion 3.0 Mini	100	100	100	94	92	97.3%
DeepSeek V3.2	100	99	98	97	93	97.3%
Z.AI GLM 5	100	100	100	98	88	97.3%
Arcee AI: Trinity Mini	100	100	97	97	92	97.3%
Gemma 3 27B	100	100	96	96	95	97.2%
Gemini 3.1 Flash Lite	100	100	97	95	92	96.8%
Claude Opus 4	100	100	100	96	88	96.8%
DeepSeek-V2 Chat	100	100	99	93	92	96.7%
Z.AI GLM 4.5 Air	100	100	100	97	86	96.7%
Ministral 3 14B	100	100	99	95	90	96.7%
Aion 2.0	100	99	98	95	91	96.6%
Gemma 4 31B	100	100	100	95	87	96.5%
Hermes 3 70B	100	100	99	94	89	96.4%
Claude Sonnet 5	100	100	96	96	89	96.2%
MiniMax M3	100	100	100	91	90	96.1%
WizardLM 2 8x22b	100	100	95	95	90	95.9%
Xiaomi MIMO v2.5 Pro	100	97	97	93	92	95.9%
Claude Sonnet 4.6 (Reasoning)	100	100	97	93	89	95.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	98	92	89	95.7%
Gemini 3 Flash (Preview, Reasoning)	100	98	97	92	90	95.5%
Claude Opus 4.7	100	99	96	93	89	95.4%
Gemma 3 4B	100	100	94	92	90	95.3%
Gemini 3 Flash (Preview)	100	100	96	95	84	94.9%
Cydonia 24B V4.1	100	100	95	93	85	94.5%
Claude Opus 4.7 (Reasoning)	100	100	100	91	81	94.5%
Gemini 3.1 Flash Lite (Preview)	100	100	96	90	86	94.3%
Xiaomi MIMO v2.5	100	95	93	92	89	93.9%
Z.AI GLM 4.7 Flash	98	95	95	93	88	93.7%
Qwen 2.5 72B	100	94	92	92	90	93.6%
ByteDance Seed 1.6	100	100	97	96	74	93.3%
ByteDance Seed 2.0 Mini	100	100	95	93	74	92.3%
ByteDance Seed 2.0 Lite	100	95	95	84	84	91.5%
Gemini 2.5 Pro	96	96	95	89	81	91.2%
DeepSeek V3.1	95	91	86	79	76	85.4%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	99.9%
Qwen 3.5 Flash	100	100	100	100	100	99.9%
DeepSeek V4 Pro	100	100	100	100	99	99.7%
GPT-4.1	100	100	100	100	98	99.6%
Claude Haiku 4.5	100	100	100	100	98	99.6%
Gemma 3 27B	100	100	100	99	99	99.6%
Mistral Large 3	100	100	100	100	98	99.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	98	99.5%
GPT-4.1 Nano	100	100	100	100	98	99.5%
Ministral 8B	100	100	100	100	98	99.5%
Aion 3.0	100	100	100	100	97	99.4%
Gemma 4 31B	100	100	100	99	98	99.4%
Gemma 4 26B	100	100	100	100	97	99.4%
Qwen3.7 Max	100	100	100	99	97	99.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	97	99.4%
Claude Opus 4	100	100	100	100	97	99.4%
Inception Mercury 2	100	100	100	98	98	99.4%
GPT-4.1 Mini	100	100	100	100	97	99.3%
Mistral Medium 3.1	100	100	99	99	98	99.3%
Claude Sonnet 4	100	100	100	100	96	99.3%
Gemma 4 26B (Reasoning)	100	100	99	99	98	99.3%
GPT-OSS 120B	100	100	100	100	96	99.2%
Claude Opus 4.8 (Reasoning)	100	100	100	100	96	99.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	99	97	99.2%
Z.AI GLM 4.5	100	100	100	98	97	99.2%
Gemini 3.1 Flash Lite (Preview)	100	100	100	98	98	99.1%
Gemini 3.5 Flash (Reasoning)	100	100	100	98	97	99.1%
Z.AI GLM 5 Turbo	100	100	100	100	96	99.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	98	97	99.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	99	96	98.9%
Claude Opus 4.6	100	100	100	100	94	98.8%
Writer: Palmyra X5	100	100	100	99	95	98.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	97	96	98.6%
MiniMax M2.7	100	100	100	98	96	98.6%
Gemini 2.5 Pro	100	100	100	99	94	98.6%
Qwen 3.5 35B	100	100	99	97	96	98.5%
Gemma 3 4B	100	100	99	98	96	98.5%
Claude Opus 4.5	100	100	100	97	95	98.5%
DeepSeek V3 (2024-12-26)	100	100	100	97	95	98.4%
Mistral Small 4 (Reasoning)	100	100	100	98	94	98.4%
Cohere Command R+ (Aug. 2024)	100	100	100	100	92	98.3%
Ministral 3 3B	100	100	100	100	92	98.3%
Ministral 3 14B	100	100	100	97	95	98.3%
Qwen 3.5 122B	100	100	100	99	92	98.3%
DeepSeek V3 (2025-03-24)	100	100	100	97	94	98.2%
DeepSeek V4 Flash (Reasoning)	100	100	100	96	95	98.1%
Claude Opus 4.6 (Reasoning)	100	99	99	98	95	98.1%
Z.AI GLM 5	100	99	98	97	97	98.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	96	94	98.1%
Mistral Small 4	100	100	100	96	94	98.0%
GPT-5 Mini	100	100	99	99	92	98.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	98	97	94	97.9%
Qwen 3.5 27B	100	100	99	97	93	97.8%
GPT-4o Mini (temp=0)	100	100	100	97	92	97.8%
Qwen 2.5 72B	100	100	97	96	96	97.7%
Ministral 3B	100	100	98	95	94	97.5%
Gemma 4 31B (Reasoning)	100	99	99	99	89	97.3%
Z.AI GLM 4.7 Flash	100	100	99	98	90	97.2%
Mistral Large 2	100	100	100	93	93	97.2%
DeepSeek-V2 Chat	100	100	97	94	94	97.1%
ByteDance Seed 1.6 Flash	100	100	100	95	91	97.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	98	94	93	97.0%
ByteDance Seed 1.6	100	100	98	97	89	96.9%
Xiaomi MIMO v2.5	100	100	100	98	86	96.8%
Claude Sonnet 5 (Reasoning)	100	100	99	95	90	96.8%
WizardLM 2 8x22b	100	100	98	93	92	96.8%
Nemotron 3 Nano	100	100	99	98	87	96.7%
GPT-5 Nano	100	99	95	95	94	96.5%
Xiaomi MIMO v2.5 Pro	100	100	99	94	90	96.5%
Claude Sonnet 4.6	100	100	100	100	82	96.3%
Gemini 2.5 Flash	100	100	96	93	92	96.2%
Gemini 3 Flash (Preview, Reasoning)	100	96	96	95	94	96.2%
Qwen 3 32B	100	100	100	94	86	96.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	91	88	95.8%
Claude Opus 4.7	98	97	95	94	94	95.8%
Nemotron 3 Super	100	100	100	90	88	95.7%
DeepSeek V4 Flash	100	100	97	96	85	95.7%
Gemini 2.5 Flash Lite	100	99	97	95	87	95.6%
Z.AI GLM 4.6	100	99	96	94	89	95.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	95	83	95.5%
Hermes 3 405B	100	100	96	92	89	95.5%
ByteDance Seed 2.0 Lite	100	100	100	91	85	95.3%
Claude Opus 4.7 (Reasoning)	100	98	94	93	92	95.3%
Aion 2.0	100	100	94	91	91	95.1%
Gemini 3 Flash (Preview)	97	97	96	94	91	95.1%
DeepSeek V3.2	100	100	94	92	89	95.0%
Arcee AI: Trinity Mini	100	100	100	97	78	95.0%
MiniMax M3	100	100	95	95	84	94.9%
MiniMax M2.5	100	100	96	88	87	94.3%
Z.AI GLM 4.7	100	100	92	90	89	94.2%
Gemini 3.1 Flash Lite	100	96	95	93	88	94.2%
Mistral NeMO	100	99	97	90	85	94.0%
Claude Sonnet 5	100	100	96	89	84	93.7%
Claude Sonnet 5 (Reasoning, Low)	99	95	93	91	88	93.3%
Cydonia 24B V4.1	100	100	96	93	76	93.2%
Z.AI GLM 4.5 Air	98	96	91	91	89	93.0%
Hermes 3 70B	100	98	93	89	78	91.5%
ByteDance Seed 2.0 Mini	100	96	93	88	76	90.5%
Mistral Small 3.2 24B	100	100	100	94	57	90.3%
DeepSeek V3.1	100	100	93	88	61	88.5%
Llama 3.1 70B	98	96	91	86	62	86.5%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	99.9%
Mistral Small 3.2 24B	100	100	100	100	100	99.9%
GPT-5.5 (Reasoning)	100	100	100	100	100	99.9%
DeepSeek-V2 Chat	100	100	100	100	100	99.9%
Mistral Large 2	100	100	100	100	99	99.9%
Qwen 3.5 9B	100	100	100	100	100	99.8%
GPT-OSS 120B	100	100	100	100	99	99.8%
GPT-4.1 Mini	100	100	100	100	99	99.8%
MoonshotAI: Kimi K2.5	100	100	100	100	99	99.7%
GPT-4o Mini (temp=0)	100	100	100	100	99	99.7%
Z.AI GLM 4.6	100	100	100	100	98	99.6%
Arcee AI: Trinity Mini	100	100	100	100	98	99.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	98	99.5%
Qwen3 235B A22B Instruct 2507	100	100	100	99	99	99.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	98	99.5%
Nemotron 3 Nano	100	100	100	100	98	99.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	97	99.4%
Gemini 2.5 Flash	100	100	100	100	97	99.4%
Gemma 3 4B	100	100	100	100	97	99.4%
Gemini 3.1 Flash Lite	100	100	100	99	98	99.4%
Z.AI GLM 4.5 Air	100	100	100	99	98	99.4%
Xiaomi MIMO v2.5 Pro	100	100	100	99	98	99.3%
MoonshotAI: Kimi K2.6	100	100	100	100	96	99.3%
Z.AI GLM 5 Turbo	100	100	100	99	97	99.2%
Claude Opus 4.5	100	100	100	98	98	99.2%
Qwen 3.6 Flash	100	100	100	100	96	99.2%
Claude Sonnet 4	100	100	100	98	98	99.2%
Z.AI GLM 4.7	100	100	100	98	97	99.1%
Aion 3.0	100	100	100	98	97	99.1%
Grok 4.20	100	100	100	99	96	99.1%
DeepSeek V3 (2024-12-26)	100	100	99	98	98	99.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	98	96	98.9%
Qwen3.7 Max	100	100	100	99	96	98.9%
Gemma 4 31B (Reasoning)	100	100	100	100	94	98.8%
Ministral 3 3B	100	100	100	99	95	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	98	96	98.8%
Gemini 3 Flash (Preview)	100	100	100	100	94	98.8%
Ministral 8B	100	100	99	98	97	98.8%
GPT-4.1 Nano	100	100	100	99	95	98.8%
MiniMax M2.7	100	100	100	100	94	98.7%
Mistral Small 4	100	100	100	99	94	98.7%
Hermes 3 405B	100	100	98	98	97	98.7%
ByteDance Seed 1.6 Flash	100	100	100	98	96	98.7%
DeepSeek V4 Pro	100	100	100	99	94	98.7%
Writer: Palmyra X5	100	100	100	99	94	98.7%
GPT-5.4 Mini	100	100	100	97	96	98.6%
Qwen 3.6 27B	100	100	100	100	93	98.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	99	93	98.5%
Mistral NeMO	100	100	100	99	94	98.4%
Aion 2.0	100	100	100	98	94	98.4%
Claude Sonnet 4.5	100	100	100	100	92	98.4%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	99	93	98.4%
Aion 3.0 Mini	100	100	100	99	93	98.4%
MiniMax M2.5	100	100	100	100	91	98.2%
Gemma 3 27B	100	100	100	96	95	98.1%
Ministral 3 8B	100	100	99	97	94	98.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	89	97.9%
Gemini 3.1 Flash Lite (Reasoning)	100	98	97	97	96	97.8%
Ministral 3 14B	100	100	100	97	92	97.8%
Nemotron 3 Super	100	100	99	95	95	97.8%
MiniMax M3	100	100	100	98	91	97.7%
Gemma 4 26B (Reasoning)	100	100	100	99	90	97.7%
Qwen 2.5 72B	100	100	100	94	93	97.5%
Z.AI GLM 5.1	100	100	97	97	93	97.5%
GPT-5 Nano	100	100	98	96	94	97.5%
Cydonia 24B V4.1	100	100	98	96	93	97.4%
Qwen 3 32B	100	100	96	95	95	97.2%
Claude Opus 4.8 (Reasoning)	100	100	99	94	92	97.0%
GPT-5 Mini	100	100	97	96	91	97.0%
DeepSeek V3.2	100	99	98	97	90	96.9%
WizardLM 2 8x22b	100	100	100	99	86	96.9%
Claude Sonnet 4.6	100	100	99	95	89	96.7%
Xiaomi MIMO v2.5	100	100	96	94	92	96.4%
DeepSeek V4 Flash	100	100	98	92	91	96.3%
Gemini 2.5 Flash Lite	100	100	100	94	87	96.1%
Hermes 3 70B	100	100	100	91	89	95.8%
Gemma 4 26B	100	100	98	93	87	95.8%
Gemma 4 31B	100	100	100	91	87	95.6%
Claude Opus 4.6	98	98	97	95	91	95.6%
Ministral 3B	100	100	99	93	86	95.6%
Z.AI GLM 4.7 Flash	100	100	99	90	89	95.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	97	96	84	95.5%
Claude Opus 4.7 (Reasoning)	100	100	100	97	81	95.5%
Z.AI GLM 5	100	97	97	95	88	95.4%
Gemma 3 12B	100	100	98	97	82	95.3%
Mistral Large 3	100	100	98	96	82	95.3%
Gemini 2.5 Pro	100	100	96	90	89	95.0%
Claude Opus 4.6 (Reasoning)	100	96	95	94	89	94.8%
Claude Haiku 4.5	100	96	94	93	91	94.7%
ByteDance Seed 1.6	100	98	96	91	88	94.3%
DeepSeek V3.1	100	100	94	89	87	94.0%
Gemini 3.1 Flash Lite (Preview)	100	100	94	92	84	93.9%
Cohere Command R+ (Aug. 2024)	100	98	96	90	85	93.8%
ByteDance Seed 2.0 Mini	100	100	95	87	85	93.5%
Claude Sonnet 5	100	98	96	88	84	93.2%
Claude Sonnet 5 (Reasoning)	97	97	94	91	86	93.1%
Z.AI GLM 5.2 (Reasoning, High)	97	94	94	92	89	93.0%
Claude Opus 4.7	99	99	99	84	79	92.1%
Llama 3.1 70B	100	94	93	88	82	91.5%
ByteDance Seed 2.0 Lite	99	93	91	88	82	90.6%
Claude Sonnet 4.6 (Reasoning)	97	96	92	92	73	90.0%
Claude Sonnet 5 (Reasoning, Low)	90	88	86	79	61	80.8%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	99	99.9%
Qwen 3.5 Flash	100	100	100	100	99	99.8%
GPT-5.2	100	100	100	100	99	99.8%
Claude Opus 4	100	100	100	100	99	99.8%
o4 Mini High	100	100	100	100	99	99.8%
Grok 4.20 (Reasoning)	100	100	100	100	99	99.7%
GPT-5	100	100	100	100	98	99.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	98	99.7%
Qwen 3.5 397B A17B	100	100	100	100	98	99.5%
GPT-4o Mini (temp=1)	100	100	100	99	99	99.5%
GPT-4.1	100	100	100	100	97	99.4%
MoonshotAI: Kimi K2.5	100	100	100	100	97	99.4%
Qwen 3.5 27B	100	100	100	100	97	99.3%
Mistral Small 4 (Reasoning)	100	100	99	98	97	99.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	99	96	98.9%
Mistral NeMO	100	100	99	99	96	98.9%
Grok 4.3	100	100	100	100	94	98.9%
MoonshotAI: Kimi K2.6	100	100	100	99	95	98.7%
Qwen 3 32B	100	100	100	98	95	98.6%
Gemini 2.5 Flash (Reasoning)	100	99	99	98	97	98.5%
GPT-4.1 Mini	100	100	100	100	93	98.5%
GPT-5.4 Nano (Reasoning)	100	100	100	98	94	98.5%
Claude Opus 4.8 (Reasoning)	100	100	100	100	92	98.4%
Qwen 3.5 9B	100	100	100	98	94	98.4%
Inception Mercury 2	100	100	99	99	94	98.4%
Grok 4.5 (Reasoning, Low)	100	100	100	100	91	98.2%
GPT-5.5 (Reasoning)	100	99	98	97	97	98.2%
GPT-OSS 120B	100	100	99	96	96	98.2%
Nemotron 3 Super	100	100	100	97	94	98.2%
GPT-5.4 Mini	100	100	98	96	95	97.9%
Qwen3 235B A22B Instruct 2507	100	100	100	97	91	97.6%
Qwen 3.5 122B	100	99	96	96	96	97.5%
Qwen 3.5 35B	100	100	100	98	90	97.5%
GPT-5.4 Nano (Reasoning, Low)	100	99	98	96	93	97.4%
Grok 4.20	100	100	100	94	92	97.2%
GPT-4o Mini (temp=0)	100	100	100	100	86	97.2%
Z.AI GLM 5	100	100	97	95	94	97.1%
GPT-5 Nano	100	100	96	95	93	97.0%
Gemma 4 26B (Reasoning)	100	100	100	96	90	97.0%
GPT-5.4 Nano	99	98	98	97	93	96.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	97	87	96.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	96	89	96.7%
GPT-5.5 (Reasoning, Low)	100	98	97	95	93	96.7%
GPT-5.4 (Reasoning, Low)	100	100	97	94	93	96.7%
Gemini 2.5 Flash Lite	100	100	97	94	92	96.6%
Qwen 3.5 Plus (2026-02-15)	100	97	95	95	95	96.6%
GPT-5.5	100	98	96	96	92	96.5%
Gemma 3 4B	100	100	96	94	92	96.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	94	89	96.4%
GPT-5.4 (Reasoning)	100	100	98	95	89	96.4%
GPT-5.4	100	100	98	92	91	96.2%
Hermes 3 405B	100	100	100	95	86	96.2%
MiniMax M2.7	100	100	100	97	82	95.9%
Mistral Small 4	100	95	95	95	94	95.8%
Gemma 3 12B	100	100	98	97	84	95.7%
ByteDance Seed 1.6 Flash	100	99	95	94	90	95.6%
Gemma 3 27B	100	98	96	93	91	95.6%
Gemma 4 26B	100	100	95	92	90	95.5%
Writer: Palmyra X5	100	100	94	92	91	95.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	96	81	95.3%
Ministral 3 3B	100	99	93	92	92	95.1%
Z.AI GLM 4.5	100	100	100	90	85	95.1%
Mistral Small 3.2 24B	100	100	100	99	76	95.0%
Ministral 3 8B	100	99	94	92	90	94.9%
Qwen 2.5 72B	99	98	97	92	88	94.6%
Gemini 3 Flash (Preview)	99	98	96	94	86	94.4%
Ministral 3 14B	100	100	96	93	82	94.3%
Z.AI GLM 5.1	100	100	97	94	80	94.2%
Cydonia 24B V4.1	100	99	91	91	90	94.1%
DeepSeek V3 (2024-12-26)	100	99	97	91	83	94.1%
Gemini 3 Flash (Preview, Reasoning)	98	94	93	92	92	93.9%
Gemini 2.5 Flash	98	96	93	91	91	93.8%
MiniMax M3	99	98	96	90	86	93.8%
Cohere Command R+ (Aug. 2024)	100	97	93	91	87	93.6%
MiniMax M2.5	100	96	96	89	87	93.6%
GPT-4.1 Nano	100	100	95	90	82	93.5%
Hermes 3 70B	100	100	95	91	81	93.5%
Mistral Medium 3.1	97	95	94	93	88	93.4%
Claude Opus 4.7 (Reasoning)	97	96	93	92	89	93.4%
DeepSeek V3 (2025-03-24)	100	99	95	91	80	93.0%
Claude Haiku 4.5	96	96	94	94	85	93.0%
Z.AI GLM 5 Turbo	100	100	95	91	79	92.9%
Llama 3.1 70B	100	100	97	88	78	92.5%
WizardLM 2 8x22b	100	95	93	92	80	92.2%
Aion 3.0 Mini	100	92	90	90	89	92.1%
DeepSeek V3.2	100	99	94	85	83	92.1%
Gemini 3.5 Flash (Reasoning)	96	94	92	92	86	92.0%
Ministral 3B	100	96	91	90	82	91.7%
GPT-5.4 Mini (Reasoning)	98	93	91	90	86	91.7%
DeepSeek V3.1	100	96	96	89	78	91.7%
Arcee AI: Trinity Mini	100	100	87	86	85	91.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	95	83	81	91.6%
Claude Opus 4.5	98	95	95	91	79	91.5%
Gemini 3.1 Flash Lite	97	96	93	86	85	91.5%
Claude Opus 4.8 (Reasoning, Low)	100	95	91	88	82	91.4%
Gemma 4 31B (Reasoning)	97	96	96	86	82	91.3%
GPT-5 Mini	99	94	90	88	86	91.3%
Mistral Large 2	100	99	92	85	81	91.3%
Z.AI GLM 4.7 Flash	100	98	91	84	82	91.2%
Ministral 8B	100	94	91	86	84	91.0%
Gemma 4 31B	93	92	91	90	87	90.6%
Claude Sonnet 4	100	90	88	87	87	90.5%
DeepSeek-V2 Chat	100	97	89	89	78	90.5%
Claude Opus 4.6 (Reasoning)	96	95	93	88	81	90.4%
Z.AI GLM 5.2 (Reasoning, High)	98	94	90	86	84	90.4%
Claude Sonnet 4.5	97	96	90	85	82	89.9%
Claude Sonnet 5	100	90	89	88	82	89.8%
DeepSeek V4 Pro (Reasoning)	98	93	90	85	81	89.6%
Qwen3.7 Max	100	94	92	83	79	89.5%
Xiaomi MIMO v2.5	96	94	92	85	80	89.5%
Nemotron 3 Nano	100	97	89	86	75	89.4%
DeepSeek V4 Flash	100	92	87	87	81	89.4%
Aion 3.0	100	96	89	80	80	88.9%
Claude Opus 4.6	95	92	92	84	81	88.8%
Gemini 2.5 Pro	99	91	88	86	77	88.5%
ByteDance Seed 1.6	100	91	89	87	75	88.4%
DeepSeek V4 Flash (Reasoning)	98	96	88	84	75	88.2%
ByteDance Seed 2.0 Lite	100	91	85	83	82	88.1%
Claude Opus 4.7	92	89	89	85	85	88.0%
Xiaomi MIMO v2.5 Pro	94	91	88	86	79	87.8%
ByteDance Seed 2.0 Mini	98	92	89	82	79	87.8%
Mistral Large 3	100	88	85	83	81	87.4%
DeepSeek V4 Pro	100	93	84	82	74	86.7%
Claude Sonnet 4.6	96	92	90	76	74	85.5%
Z.AI GLM 4.7	96	89	87	84	71	85.3%
Z.AI GLM 4.6	96	94	82	77	75	84.8%
Z.AI GLM 4.5 Air	99	87	87	81	65	83.8%
GPT-4o, Aug. 6th (temp=0)	100	98	86	70	66	83.8%
Claude Sonnet 4.6 (Reasoning)	95	87	83	80	73	83.6%
Claude Sonnet 5 (Reasoning, Low)	100	90	78	74	72	82.9%
Claude Sonnet 5 (Reasoning)	96	85	81	74	73	81.9%
Aion 2.0	93	85	84	75	70	81.2%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	99.9%
Qwen 3.5 9B	100	100	100	100	100	99.9%
GPT-4o Mini (temp=1)	100	100	100	100	100	99.9%
Ministral 3 14B	100	100	100	100	100	99.9%
GPT-5	100	100	100	100	99	99.9%
Qwen 3.5 35B	100	100	100	100	100	99.9%
Claude Opus 4.8 (Reasoning)	100	100	100	100	99	99.9%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99.9%
Grok 4.20	100	100	100	100	99	99.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.9%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	99	99.8%
GPT-4o Mini (temp=0)	100	100	100	100	99	99.8%
GPT-5 Nano	100	100	100	100	99	99.8%
Aion 3.0 Mini	100	100	100	100	99	99.8%
GPT-OSS 120B	100	100	100	100	99	99.7%
Mistral Medium 3.1	100	100	100	100	99	99.7%
Qwen 3.5 27B	100	100	100	100	98	99.7%
Z.AI GLM 5.1	100	100	100	100	98	99.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	98	99.7%
Ministral 3B	100	100	100	100	98	99.7%
Claude Opus 4.5	100	100	100	100	98	99.6%
Claude Sonnet 4	100	100	100	100	98	99.6%
Gemini 3 Flash (Preview)	100	100	100	100	98	99.6%
Hermes 3 405B	100	100	100	100	98	99.6%
MiniMax M3	100	100	100	100	98	99.6%
Hermes 3 70B	100	100	100	100	98	99.6%
MiniMax M2.5	100	100	100	100	98	99.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	98	99.6%
GPT-4.1 Mini	100	100	100	100	98	99.6%
Z.AI GLM 5	100	100	100	99	99	99.6%
Writer: Palmyra X5	100	100	100	100	98	99.5%
DeepSeek V4 Flash	100	100	100	100	97	99.5%
Xiaomi MIMO v2.5 Pro	100	100	100	100	97	99.5%
Z.AI GLM 4.5	100	100	100	100	97	99.5%
Gemma 4 26B (Reasoning)	100	100	100	99	98	99.4%
Z.AI GLM 4.5 Air	100	100	100	100	97	99.4%
Ministral 3 3B	100	100	100	99	97	99.3%
Gemma 4 26B	100	100	100	100	96	99.3%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	96	99.3%
GPT-5 Mini	100	100	100	100	96	99.3%
DeepSeek V3 (2024-12-26)	100	100	100	100	96	99.3%
Cohere Command R+ (Aug. 2024)	100	100	100	99	98	99.3%
ByteDance Seed 1.6 Flash	100	100	100	99	97	99.2%
Z.AI GLM 5 Turbo	100	100	100	100	96	99.1%
Aion 3.0	100	100	100	98	97	99.1%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	96	99.1%
Cydonia 24B V4.1	100	100	100	100	95	99.1%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	99	96	99.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	95	99.0%
Qwen 3.5 Flash	100	100	100	100	95	98.9%
Claude Opus 4.6	100	100	100	99	96	98.9%
Claude Opus 4	100	100	100	97	97	98.9%
Gemma 3 27B	100	100	100	97	97	98.9%
Claude Sonnet 5 (Reasoning)	100	100	100	100	94	98.9%
Mistral Large 3	100	100	100	100	94	98.7%
Ministral 8B	100	100	100	100	93	98.7%
Mistral Small 3.2 24B	100	100	99	99	95	98.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	99	95	98.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	93	98.6%
Arcee AI: Trinity Mini	100	100	99	99	95	98.5%
Claude Haiku 4.5	100	100	100	100	93	98.5%
Claude Opus 4.6 (Reasoning)	100	99	99	98	97	98.4%
MiniMax M2.7	100	100	100	98	94	98.4%
Claude Opus 4.7	100	100	99	98	94	98.3%
Claude Sonnet 4.6	100	100	99	98	94	98.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	96	94	98.1%
Gemini 2.5 Flash Lite	100	99	99	96	96	98.1%
Xiaomi MIMO v2.5	100	100	100	100	90	98.1%
Nemotron 3 Super	100	100	100	100	89	97.9%
Aion 2.0	100	100	99	98	92	97.8%
Gemini 3.1 Flash Lite	100	100	100	98	91	97.8%
Mistral Large 2	100	100	100	98	91	97.7%
Claude Opus 4.7 (Reasoning)	100	100	98	95	94	97.5%
Qwen 2.5 72B	100	99	98	97	93	97.3%
Z.AI GLM 4.7 Flash	100	100	96	95	95	97.2%
Claude Sonnet 5	100	100	100	94	92	97.2%
Mistral NeMO	100	100	100	94	92	97.2%
GPT-4.1 Nano	100	100	100	95	91	97.2%
Z.AI GLM 4.7	100	100	100	96	90	97.1%
Mistral Small 4	100	100	100	100	85	97.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	96	89	96.9%
Z.AI GLM 4.6	100	100	98	95	91	96.8%
Ministral 3 8B	100	100	100	95	88	96.7%
DeepSeek V3.1	100	98	97	95	93	96.6%
DeepSeek V3.2	100	100	100	96	84	96.1%
Qwen 3 32B	100	100	100	93	86	95.9%
Gemini 2.5 Pro	100	100	97	92	90	95.7%
ByteDance Seed 2.0 Lite	100	100	96	90	87	94.6%
Llama 3.1 70B	100	100	100	98	74	94.4%
GPT-4o, Aug. 6th (temp=0)	100	100	93	87	87	93.2%
ByteDance Seed 1.6	100	92	91	88	82	90.7%
ByteDance Seed 2.0 Mini	95	92	88	85	83	88.7%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	99	99.9%
GPT-5	100	100	100	100	100	99.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	99	99.8%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	99	99.8%
Qwen 3 32B	100	100	100	100	99	99.8%
GPT-5.4	100	100	100	100	99	99.7%
Z.AI GLM 4.5 Air	100	100	100	100	98	99.6%
GPT-4o Mini (temp=0)	100	100	100	100	98	99.6%
Qwen3.7 Max	100	100	100	100	98	99.6%
Grok 4.20	100	100	100	100	98	99.6%
Inception Mercury 2	100	100	100	100	97	99.5%
Gemma 3 12B	100	100	100	100	98	99.5%
Qwen 3.6 Flash	100	100	100	100	97	99.4%
GPT-4.1	100	100	100	100	97	99.4%
Qwen 3.5 27B	100	100	100	100	97	99.4%
Mistral Small 4 (Reasoning)	100	100	100	99	98	99.3%
GPT-5 Mini	100	100	100	100	96	99.2%
Mistral Large 2	100	100	100	100	95	99.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	97	99.0%
Writer: Palmyra X5	100	100	100	100	95	99.0%
DeepSeek V3 (2025-03-24)	100	100	99	99	96	98.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	98	96	98.7%
GPT-OSS 120B	100	100	100	100	93	98.7%
Z.AI GLM 5 Turbo	100	100	100	99	94	98.6%
Qwen 3.5 122B	100	100	100	98	95	98.6%
GPT-5.4 Nano	100	100	100	99	94	98.5%
DeepSeek V4 Flash	100	99	99	97	97	98.5%
DeepSeek V4 Pro	100	100	100	100	92	98.4%
Gemma 4 31B (Reasoning)	100	100	100	98	94	98.4%
MiniMax M3	100	100	98	97	97	98.4%
GPT-4.1 Nano	100	100	100	97	94	98.3%
Claude Sonnet 5	100	100	100	99	93	98.3%
Gemini 2.5 Flash Lite	100	100	100	100	91	98.3%
Gemini 3.1 Flash Lite	100	100	100	96	95	98.2%
Qwen3 235B A22B Instruct 2507	100	100	100	96	95	98.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	96	95	98.1%
Gemma 4 26B	100	99	99	98	95	98.1%
MiniMax M2.7	100	100	100	100	90	98.1%
DeepSeek V3 (2024-12-26)	100	100	100	96	95	98.0%
Ministral 3 8B	100	100	100	100	90	98.0%
GPT-4o, Aug. 6th (temp=0)	100	100	97	97	96	98.0%
Mistral Medium 3.1	100	100	99	96	95	98.0%
Gemma 4 31B	100	99	98	98	95	98.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	98	96	95	97.9%
Ministral 3B	100	100	100	95	94	97.8%
GPT-5 Nano	100	100	98	97	95	97.7%
Mistral Large 3	100	100	100	95	93	97.7%
Mistral NeMO	100	100	100	94	94	97.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	95	93	97.5%
DeepSeek V4 Flash (Reasoning)	100	100	99	98	91	97.5%
Gemma 3 4B	100	98	98	96	94	97.4%
Cohere Command R+ (Aug. 2024)	100	100	100	94	93	97.4%
GPT-4.1 Mini	100	100	100	95	92	97.3%
Qwen 3.5 Flash	100	100	100	96	91	97.3%
ByteDance Seed 1.6 Flash	100	100	100	94	92	97.2%
DeepSeek-V2 Chat	100	100	100	96	90	97.2%
WizardLM 2 8x22b	100	100	100	100	85	97.0%
Z.AI GLM 5	100	100	99	98	88	96.9%
Z.AI GLM 4.7	100	100	100	96	88	96.9%
Nemotron 3 Super	100	100	99	93	92	96.7%
Ministral 8B	100	100	100	100	83	96.6%
ByteDance Seed 2.0 Lite	100	96	96	96	95	96.6%
Claude Opus 4	100	100	97	96	90	96.5%
Claude Sonnet 5 (Reasoning)	100	99	99	93	92	96.5%
Gemini 3.5 Flash (Reasoning)	100	98	97	96	92	96.5%
Claude Opus 4.5	100	100	100	92	91	96.4%
Claude Opus 4.6	100	100	97	95	89	96.4%
Claude Sonnet 4.6 (Reasoning)	100	100	99	96	86	96.3%
Claude Opus 4.7 (Reasoning)	100	100	100	92	89	96.2%
Gemini 2.5 Pro	100	100	98	97	86	96.2%
MiniMax M2.5	100	100	98	95	87	96.0%
Aion 3.0	100	98	97	95	90	96.0%
DeepSeek V3.2	100	100	97	93	90	95.9%
Aion 3.0 Mini	100	97	97	93	91	95.6%
Ministral 3 3B	100	100	99	94	85	95.6%
Claude Haiku 4.5	99	99	96	93	90	95.5%
Arcee AI: Trinity Mini	100	100	96	94	88	95.5%
Gemini 2.5 Flash Lite (Reasoning)	100	99	97	92	87	94.9%
DeepSeek V3.1	99	99	96	90	90	94.8%
Ministral 3 14B	100	100	93	90	90	94.7%
Mistral Small 3.2 24B	100	100	99	86	86	94.3%
Gemini 2.5 Flash	100	100	100	100	70	94.0%
Gemini 3 Flash (Preview)	100	98	96	93	82	93.8%
Xiaomi MIMO v2.5	99	97	93	91	89	93.7%
Xiaomi MIMO v2.5 Pro	96	96	94	93	89	93.6%
Claude Sonnet 4	100	100	95	94	78	93.5%
Llama 3.1 70B	100	100	91	90	85	93.3%
Hermes 3 405B	100	99	95	91	82	93.3%
Z.AI GLM 4.7 Flash	100	97	94	88	87	93.2%
Claude Opus 4.7	100	93	93	89	89	92.8%
Qwen 2.5 72B	100	98	94	93	80	92.7%
Hermes 3 70B	100	95	94	91	84	92.7%
Claude Opus 4.8 (Reasoning)	100	100	92	88	84	92.7%
Claude Sonnet 5 (Reasoning, Low)	100	99	94	87	82	92.5%
Aion 2.0	100	99	93	92	78	92.4%
Z.AI GLM 4.6	100	93	91	90	87	92.0%
Claude Opus 4.8 (Reasoning, Low)	96	93	93	92	86	92.0%
ByteDance Seed 2.0 Mini	99	98	91	89	81	91.6%
Cydonia 24B V4.1	100	92	92	87	87	91.5%
Z.AI GLM 5.2 (Reasoning, High)	99	94	93	92	76	90.8%
ByteDance Seed 1.6	94	92	89	89	87	90.1%
Claude Sonnet 4.6	100	93	89	89	78	89.7%

Passive voice overuse

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets