Purple prose (modifier overload)

Test: Bad Writing Habits

Avg. Score

95.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Inception Mercury 2	98.9%	$0.0032	7.0s	95%
2	ByteDance Seed 1.6 Flash	99.1%	$0.0013	27.3s	95%
3	GPT-4o Mini (temp=0)	99.0%	$0.0012	34.8s	95%
4	DeepSeek V4 Flash	98.7%	$0.0006	31.6s	94%
5	Mistral NeMO	97.8%	$0.0005	10.1s	93%
6	Nemotron 3 Nano	98.9%	$0.0010	1.1m	95%
7	Ministral 3B	97.8%	$0.0001	8.1s	91%
8	GPT-4o, Aug. 6th (temp=0)	98.6%	$0.023	22.7s	95%
9	Qwen 2.5 72B	98.0%	$0.0010	36.7s	92%
10	Qwen 3.5 Flash	98.3%	$0.0025	47.5s	93%
11	o4 Mini	97.9%	$0.015	25.7s	94%
12	Grok 4.3	97.6%	$0.0069	30.5s	93%
13	Z.AI GLM 5 Turbo	97.8%	$0.0081	33.2s	93%
14	DeepSeek V4 Flash (Reasoning)	98.1%	$0.0007	31.1s	91%
15	Qwen 3.6 Flash	97.9%	$0.010	41.4s	93%
16	Nemotron 3 Super	98.6%	$0.0000	1.4m	93%
17	GPT-OSS 120B	99.0%	$0.0015	1.8m	95%
18	Qwen 3.5 9B	98.5%	$0.0011	1.4m	93%
19	GPT-5 Mini	97.7%	$0.0100	57.4s	93%
20	o4 Mini High	98.2%	$0.025	47.2s	94%
21	Arcee AI: Trinity Mini	96.3%	$0.0003	9.2s	90%
22	GPT-4o Mini (temp=1)	97.4%	$0.0012	34.8s	90%
23	Aion 3.0	98.5%	$0.024	1.0m	94%
24	DeepSeek V3 (2025-03-24)	97.3%	$0.0014	39.4s	90%
25	Mistral Large 3	97.0%	$0.0033	30.3s	90%
26	Hermes 3 70B	97.5%	$0.0010	1.2m	93%
27	Cohere Command R+ (Aug. 2024)	98.0%	$0.020	52.5s	93%
28	Qwen 3.5 Plus (2026-02-15)	96.7%	$0.0060	31.5s	91%
29	Z.AI GLM 5.2 (Reasoning, High)	97.8%	$0.011	1.0m	92%
30	Qwen 3.6 35B	97.4%	$0.0083	1.0m	92%
31	Qwen 3.5 35B	98.0%	$0.018	1.0m	92%
32	Aion 3.0 Mini	97.8%	$0.0053	1.2m	91%
33	Mistral Large 2	96.7%	$0.013	29.4s	90%
34	GPT-5.4 Nano (Reasoning, Low)	96.3%	$0.0055	20.6s	89%
35	Ministral 8B	95.6%	$0.0004	10.4s	88%
36	Qwen 3 32B	97.4%	$0.0015	54.6s	88%
37	Mistral Small 4	95.9%	$0.0014	18.2s	88%
38	Ministral 3 14B	96.0%	$0.0007	11.7s	87%
39	Qwen 3.5 122B	97.7%	$0.025	1.1m	92%
40	Z.AI GLM 5.1	97.8%	$0.014	1.5m	93%
41	Hermes 3 405B	96.8%	$0.0032	53.2s	89%
42	Xiaomi MIMO v2.5	96.2%	$0.0054	31.8s	88%
43	Ministral 3 3B	95.9%	$0.0005	11.1s	86%
44	DeepSeek V4 Pro	97.2%	$0.0048	1.3m	90%
45	Z.AI GLM 4.5 Air	96.6%	$0.0029	58.2s	89%
46	Z.AI GLM 5	97.3%	$0.0084	1.2m	90%
47	Ministral 3 8B	95.6%	$0.0008	19.6s	87%
48	Qwen 3.5 Plus (2026-04-20)	98.1%	$0.017	1.8m	93%
49	Mistral Medium 3.1	95.8%	$0.0048	36.5s	89%
50	GPT-4o, Aug. 6th (temp=1)	96.6%	$0.018	24.4s	87%
51	GPT-4.1	96.5%	$0.018	44.7s	90%
52	Aion 2.0	96.4%	$0.0064	1.3m	91%
53	MiniMax M2.7	96.6%	$0.0040	1.1m	89%
54	DeepSeek V3 (2024-12-26)	96.1%	$0.0021	54.6s	88%
55	Grok 4.3 (Reasoning)	98.6%	$0.021	2.3m	94%
56	DeepSeek-V2 Chat	95.8%	$0.0021	53.3s	88%
57	Writer: Palmyra X5	95.6%	$0.011	22.0s	87%
58	Qwen3 235B A22B Instruct 2507	96.0%	$0.0011	59.2s	88%
59	Xiaomi MIMO v2.5 Pro	96.0%	$0.0085	53.5s	89%
60	Claude Haiku 4.5	95.3%	$0.011	21.6s	87%
61	WizardLM 2 8x22b	96.9%	$0.0026	1.8m	90%
62	Qwen 3.5 27B	97.0%	$0.020	1.6m	92%
63	Llama 3.1 70B	96.2%	$0.0015	29.4s	83%
64	Claude Opus 4.8 (Reasoning)	98.0%	$0.071	41.7s	93%
65	Z.AI GLM 4.7 Flash	96.1%	$0.0017	1.2m	87%
66	GPT-5.4 Nano	95.3%	$0.0057	26.3s	85%
67	MiniMax M2.5	96.0%	$0.0034	1.3m	88%
68	GPT-5.4 Nano (Reasoning)	95.0%	$0.0061	24.5s	85%
69	GPT-5.4 Mini (Reasoning)	95.6%	$0.022	28.1s	87%
70	MiniMax M3	98.1%	$0.0060	3.1m	94%
71	Claude Opus 4.7 (Reasoning)	97.6%	$0.076	32.0s	92%
72	Claude Sonnet 4.5	96.0%	$0.035	38.1s	89%
73	ByteDance Seed 2.0 Lite	97.2%	$0.012	2.2m	91%
74	GPT-5 Nano	95.7%	$0.0042	1.4m	88%
75	GPT-5.4 Mini	94.8%	$0.015	16.8s	85%
76	Grok 4.20	95.2%	$0.0093	45.7s	86%
77	Claude Sonnet 4	95.9%	$0.032	43.7s	88%
78	Claude Opus 4.7	97.1%	$0.069	30.4s	91%
79	ByteDance Seed 1.6	97.4%	$0.013	2.5m	91%
80	Claude Opus 4.8 (Reasoning, Low)	97.6%	$0.071	41.9s	90%
81	Qwen 3.5 397B A17B	97.7%	$0.014	3.0m	94%
82	Mistral Small 4 (Reasoning)	94.5%	$0.0022	30.2s	83%
83	Gemma 4 31B	96.0%	$0.0010	1.6m	86%
84	GPT-5.4 Mini (Reasoning, Low)	94.6%	$0.015	16.8s	83%
85	MoonshotAI: Kimi K2.5	98.3%	$0.019	3.2m	93%
86	Grok 4.20 (Reasoning)	96.2%	$0.018	1.5m	87%
87	Z.AI GLM 4.7	96.0%	$0.010	1.4m	86%
88	Z.AI GLM 4.6	94.9%	$0.0065	51.5s	85%
89	GPT-4.1 Mini	93.7%	$0.0027	19.0s	83%
90	Z.AI GLM 4.5	94.7%	$0.0051	42.1s	83%
91	Gemini 3.1 Flash Lite (Reasoning)	93.7%	$0.0030	11.9s	82%
92	Grok 4.5 (Reasoning, Low)	95.3%	$0.018	1.1m	86%
93	DeepSeek V4 Pro (Reasoning)	97.3%	$0.015	3.1m	92%
94	Gemini 3 Flash (Preview)	94.1%	$0.0078	19.6s	81%
95	Gemini 3.1 Flash Lite (Preview)	93.5%	$0.0030	8.4s	81%
96	Claude Opus 4.6	97.3%	$0.078	1.2m	92%
97	GPT-5.2	96.7%	$0.056	1.5m	91%
98	Gemini 2.5 Flash Lite	93.4%	$0.0009	9.5s	80%
99	Gemini 3.1 Flash Lite	92.8%	$0.0030	12.1s	81%
100	Gemma 4 26B	93.5%	$0.0009	55.1s	83%
101	DeepSeek V3.2	95.2%	$0.0014	1.9m	83%
102	Claude Sonnet 4.6	94.2%	$0.031	39.3s	83%
103	Gemini 2.5 Pro	94.6%	$0.036	36.2s	83%
104	Claude Opus 4.6 (Reasoning)	96.9%	$0.088	1.4m	91%
105	Gemma 4 31B (Reasoning)	94.9%	$0.0014	2.2m	84%
106	Gemma 3 12B	92.9%	$0.0004	41.3s	79%
107	GPT-5	97.7%	$0.065	2.8m	93%
108	Grok 4.5 (Reasoning, High)	95.2%	$0.030	1.6m	84%
109	Gemini 2.5 Flash	91.5%	$0.0052	10.6s	80%
110	GPT-5.4	95.3%	$0.049	1.4m	86%
111	Qwen 3.6 27B	96.2%	$0.025	2.3m	82%
112	Claude Opus 4.5	94.8%	$0.070	53.4s	85%
113	Gemma 4 26B (Reasoning)	93.3%	$0.0013	2.0m	82%
114	DeepSeek V3.1	93.3%	$0.0020	1.8m	81%
115	Gemini 2.5 Flash Lite (Reasoning)	90.9%	$0.0028	30.8s	79%
116	GPT-5.1	95.1%	$0.054	1.8m	85%
117	Claude Sonnet 5 (Reasoning, Low)	92.4%	$0.031	38.4s	80%
118	Claude Sonnet 4.6 (Reasoning)	94.4%	$0.060	1.2m	83%
119	Claude Sonnet 5 (Reasoning)	92.0%	$0.030	38.9s	80%
120	Qwen3.6 Max Preview	96.9%	$0.050	3.5m	89%
121	Gemma 3 27B	91.7%	$0.0006	52.6s	75%
122	Claude Sonnet 5	91.7%	$0.027	33.5s	77%
123	GPT-5.4 (Reasoning, Low)	93.9%	$0.055	1.4m	82%
124	Gemini 3.5 Flash (Reasoning, Minimal)	89.5%	$0.018	12.0s	77%
125	ByteDance Seed 2.0 Mini	95.9%	$0.0045	4.9m	86%
126	GPT-5.5 (Reasoning, Low)	96.7%	$0.139	1.8m	91%
127	Gemini 3 Flash (Preview, Reasoning)	90.0%	$0.012	30.1s	74%
128	Gemma 3 4B	88.7%	$0.0002	20.0s	71%
129	GPT-4.1 Nano	87.6%	$0.0007	13.3s	73%
130	GPT-5.5 (Reasoning)	96.0%	$0.142	1.8m	88%
131	Gemini 2.5 Flash (Reasoning)	88.2%	$0.011	21.5s	72%
132	GPT-5.5	95.6%	$0.139	1.7m	86%
133	Qwen3.7 Max	92.4%	$0.068	2.3m	82%
134	Mistral Small 3.2 24B	95.3%	$0.0068	5.6m	83%
135	GPT-5.4 (Reasoning)	94.4%	$0.089	2.6m	82%
136	Claude Opus 4	96.9%	$0.209	1.4m	91%
137	MoonshotAI: Kimi K2.6	97.7%	$0.058	6.5m	90%
138	Gemini 3.5 Flash (Reasoning)	87.7%	$0.071	37.6s	71%
139	Cydonia 24B V4.1	83.8%	$0.0014	44.8s	53%
140	Gemini 3.1 Pro (Preview)	86.8%	$0.107	1.8m	73%
95.71%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	97	99.4%
Grok 4.3 (Reasoning)	100	100	100	100	97	99.4%
Z.AI GLM 4.5	100	100	99	98	97	98.9%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
DeepSeek-V2 Chat	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	94	98.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	94	98.8%
Mistral Small 3.2 24B	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
GPT-5.4 Nano	100	100	100	100	94	98.8%
Ministral 3 14B	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	100	94	98.8%
Grok 4.5 (Reasoning, Low)	100	100	100	99	94	98.6%
Mistral Medium 3.1	100	100	100	99	94	98.6%
Claude Opus 4	100	100	100	98	94	98.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	98	94	98.4%
Z.AI GLM 5 Turbo	100	100	100	97	94	98.2%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	96	94	98.0%
Grok 4.3	100	100	100	95	94	97.9%
Ministral 8B	100	100	100	100	89	97.9%
Ministral 3B	100	100	100	99	90	97.8%
Mistral Large 3	100	100	100	94	94	97.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	94	97.6%
GPT-5.4 (Reasoning)	100	100	100	94	94	97.6%
Claude Opus 4.6	100	100	100	94	94	97.6%
GPT-5	100	100	100	94	94	97.6%
GPT-5 Mini	100	100	100	94	94	97.6%
MoonshotAI: Kimi K2.5	100	100	100	100	88	97.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	94	94	97.6%
Qwen 3.6 27B	100	100	100	100	88	97.6%
GPT-OSS 120B	100	100	100	100	88	97.6%
DeepSeek V3 (2024-12-26)	100	100	100	100	88	97.6%
Cohere Command R+ (Aug. 2024)	100	100	100	94	94	97.6%
MiniMax M3	100	100	100	94	94	97.5%
Mistral Small 4	100	99	97	97	94	97.5%
ByteDance Seed 2.0 Mini	100	100	100	99	88	97.3%
MiniMax M2.7	100	100	100	95	92	97.3%
Grok 4.20 (Reasoning)	100	100	98	94	94	97.2%
Qwen3 235B A22B Instruct 2507	100	100	98	94	94	97.1%
Xiaomi MIMO v2.5 Pro	100	100	100	97	88	97.1%
Hermes 3 70B	100	100	100	94	90	96.8%
GPT-5.4 Mini	100	100	96	94	94	96.8%
ByteDance Seed 1.6	100	100	94	94	94	96.4%
GPT-5.2	100	100	94	94	94	96.4%
GPT-5.5	100	100	100	94	88	96.4%
Gemma 4 26B (Reasoning)	100	100	94	94	94	96.4%
DeepSeek V4 Flash (Reasoning)	100	100	94	94	94	96.4%
Z.AI GLM 4.7	100	100	100	94	88	96.4%
Qwen 3.6 35B	100	100	94	94	94	96.4%
Qwen 3.5 35B	100	100	100	94	88	96.4%
o4 Mini	100	100	94	94	94	96.4%
Qwen 3.5 Flash	100	100	94	94	94	96.4%
Gemma 4 26B	100	100	94	94	94	96.4%
ByteDance Seed 2.0 Lite	100	100	100	94	88	96.4%
Aion 3.0 Mini	100	100	100	94	88	96.4%
DeepSeek V3 (2025-03-24)	100	100	94	94	94	96.4%
ByteDance Seed 1.6 Flash	100	100	100	94	88	96.4%
GPT-4.1	100	100	96	94	92	96.3%
Mistral Small 4 (Reasoning)	100	100	99	94	88	96.2%
Ministral 3 8B	100	100	100	94	87	96.2%
Hermes 3 405B	100	100	100	100	80	96.0%
Claude Sonnet 4.6 (Reasoning)	100	100	94	92	91	95.6%
Writer: Palmyra X5	100	100	100	94	83	95.5%
Gemma 3 12B	100	95	94	94	94	95.4%
Qwen3.6 Max Preview	100	100	94	94	88	95.2%
Qwen 3.5 Plus (2026-02-15)	100	94	94	94	94	95.2%
GPT-5.4	100	100	94	94	88	95.2%
Qwen 3.5 9B	100	100	100	94	82	95.2%
Z.AI GLM 4.7 Flash	100	94	94	94	94	95.2%
Mistral Large 2	100	94	94	94	94	95.2%
GPT-5.4 Nano (Reasoning)	100	100	94	94	88	95.2%
Claude Sonnet 4.5	99	97	97	94	88	95.0%
Claude Opus 4.6 (Reasoning)	100	100	99	94	82	95.0%
Gemma 3 27B	100	100	100	88	87	95.0%
Grok 4.5 (Reasoning, High)	100	100	98	94	82	94.8%
Claude Sonnet 4.6	100	100	98	88	88	94.8%
Claude Sonnet 4	100	100	94	93	85	94.4%
Claude Opus 4.7	100	98	96	94	82	94.0%
GPT-5.5 (Reasoning, Low)	100	100	94	88	88	94.0%
Qwen 3.5 397B A17B	100	94	94	94	88	94.0%
GPT-5.4 Mini (Reasoning)	100	94	94	94	88	94.0%
Qwen 2.5 72B	100	100	94	88	88	94.0%
GPT-5.4 (Reasoning, Low)	94	94	94	94	94	94.0%
Gemini 2.5 Flash Lite	100	98	94	90	88	93.9%
Claude Opus 4.8 (Reasoning)	100	100	93	88	88	93.8%
Claude Haiku 4.5	100	95	94	91	87	93.4%
Gemini 2.5 Flash	100	94	93	92	88	93.4%
GPT-4.1 Nano	100	94	93	91	89	93.4%
GPT-4.1 Mini	94	94	94	94	90	93.1%
Xiaomi MIMO v2.5	100	100	94	88	83	93.1%
MiniMax M2.5	100	98	97	92	77	92.9%
DeepSeek V3.2	100	100	100	82	82	92.8%
MoonshotAI: Kimi K2.6	100	94	94	88	88	92.8%
Gemini 3.1 Flash Lite (Reasoning)	94	94	94	94	88	92.8%
Gemini 3.1 Flash Lite (Preview)	100	94	94	88	88	92.8%
Gemma 4 31B	100	94	94	88	88	92.8%
Claude Sonnet 5	97	95	93	90	88	92.6%
Claude Opus 4.8 (Reasoning, Low)	100	97	94	94	78	92.5%
Claude Opus 4.7 (Reasoning)	100	94	91	88	88	92.1%
Claude Opus 4.5	100	96	94	92	78	92.0%
Llama 3.1 70B	100	100	100	100	60	92.0%
WizardLM 2 8x22b	94	94	94	90	87	91.7%
Claude Sonnet 5 (Reasoning, Low)	99	98	91	88	82	91.6%
Gemini 3.5 Flash (Reasoning)	94	94	94	88	88	91.6%
Z.AI GLM 4.6	100	100	88	88	82	91.6%
Z.AI GLM 5	100	98	97	96	66	91.5%
Aion 2.0	100	94	88	88	87	91.4%
GPT-5 Nano	100	100	99	82	76	91.4%
GPT-5.5 (Reasoning)	100	94	88	88	82	90.4%
Gemma 4 31B (Reasoning)	100	94	88	88	82	90.4%
Ministral 3 3B	100	100	94	88	70	90.4%
Qwen3.7 Max	100	100	88	82	76	89.2%
GPT-5.1	100	94	88	88	76	89.2%
Gemini 2.5 Pro	100	88	88	88	82	89.2%
Gemini 3 Flash (Preview)	100	94	88	82	76	88.0%
Gemini 2.5 Flash (Reasoning)	94	90	87	86	82	87.8%
Gemini 2.5 Flash Lite (Reasoning)	100	88	87	86	78	87.8%
Claude Sonnet 5 (Reasoning)	96	94	86	86	78	87.8%
Gemini 3 Flash (Preview, Reasoning)	94	94	88	82	76	86.8%
DeepSeek V3.1	100	88	88	88	70	86.8%
Gemini 3.1 Pro (Preview)	94	94	82	82	76	85.6%
Gemma 3 4B	92	92	86	83	74	85.4%
Cydonia 24B V4.1	100	100	96	93	23	82.4%
Gemini 3.1 Flash Lite	94	88	82	76	70	82.0%
Gemini 3.5 Flash (Reasoning, Minimal)	88	82	82	76	70	79.6%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	98	99.5%
Grok 4.3 (Reasoning)	100	100	100	99	97	99.2%
Ministral 3 8B	100	100	100	100	96	99.1%
Z.AI GLM 5.1	100	100	100	100	94	98.8%
Qwen3.6 Max Preview	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	94	98.8%
Claude Opus 4.6	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Qwen 3.6 27B	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
Nemotron 3 Super	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	98	94	98.5%
Z.AI GLM 5 Turbo	100	100	100	100	91	98.2%
GPT-5.4 Nano	100	99	99	96	96	98.2%
MiniMax M3	100	100	100	97	94	98.1%
Ministral 3 14B	100	100	100	98	91	97.9%
DeepSeek V4 Flash	100	100	100	95	94	97.8%
ByteDance Seed 1.6	100	100	100	95	94	97.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	96	93	97.7%
GPT-5	100	100	100	94	94	97.6%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	88	97.6%
Z.AI GLM 4.7	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	94	94	97.6%
Qwen 3.5 Flash	100	100	100	94	94	97.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	94	94	97.6%
DeepSeek V4 Pro	100	100	100	94	94	97.6%
Qwen 3 32B	100	100	100	94	94	97.6%
Cohere Command R+ (Aug. 2024)	100	100	100	100	88	97.6%
GPT-5.4 Nano (Reasoning)	100	100	99	98	92	97.5%
GPT-5.5	100	100	100	94	93	97.5%
Mistral Medium 3.1	100	100	100	94	93	97.5%
GPT-5.4 Mini	100	100	96	96	95	97.4%
Hermes 3 70B	100	100	99	94	94	97.3%
Qwen3 235B A22B Instruct 2507	100	100	96	96	94	97.3%
Claude Opus 4	100	100	99	98	89	97.2%
Claude Sonnet 4.6 (Reasoning)	100	100	100	98	87	97.1%
DeepSeek V4 Pro (Reasoning)	100	100	99	94	91	96.8%
Aion 3.0 Mini	100	100	100	94	90	96.7%
Claude Opus 4.7 (Reasoning)	100	100	100	94	90	96.7%
Grok 4.20 (Reasoning)	100	100	100	95	88	96.6%
DeepSeek V3.1	100	100	100	94	89	96.6%
Claude Opus 4.8 (Reasoning)	100	100	100	95	88	96.6%
Claude Opus 4.8 (Reasoning, Low)	100	100	94	94	94	96.5%
Claude Opus 4.6 (Reasoning)	100	100	94	94	94	96.4%
MoonshotAI: Kimi K2.5	100	100	100	94	88	96.4%
Qwen 3.6 Flash	100	100	100	94	88	96.4%
Qwen 3.6 35B	100	100	94	94	94	96.4%
Aion 2.0	100	100	94	94	94	96.4%
Xiaomi MIMO v2.5 Pro	100	100	100	94	88	96.4%
Z.AI GLM 4.7 Flash	100	100	100	94	88	96.4%
Inception Mercury 2	100	100	94	94	94	96.4%
Llama 3.1 70B	100	100	100	100	82	96.4%
Qwen 2.5 72B	100	100	100	94	88	96.4%
Xiaomi MIMO v2.5	100	100	94	94	94	96.4%
ByteDance Seed 2.0 Mini	100	100	100	100	81	96.3%
Claude Sonnet 4	100	100	97	94	91	96.3%
Mistral Small 3.2 24B	100	100	100	94	87	96.2%
Mistral NeMO	100	100	100	100	81	96.2%
GPT-5.4 (Reasoning)	100	98	94	94	94	96.0%
GPT-5.4 Mini (Reasoning)	100	95	95	95	94	95.9%
GPT-4o Mini (temp=1)	100	99	95	94	91	95.9%
Claude Opus 4.5	100	98	96	94	91	95.8%
Grok 4.5 (Reasoning, Low)	100	100	94	94	91	95.7%
Mistral Large 2	100	100	95	94	89	95.6%
GPT-5.1	100	100	94	94	90	95.6%
Z.AI GLM 5	100	100	100	98	80	95.6%
Claude Opus 4.7	100	100	95	94	88	95.5%
Grok 4.3	100	100	96	93	87	95.3%
Qwen 3.5 27B	100	94	94	94	94	95.2%
o4 Mini High	100	100	94	94	88	95.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	94	88	95.2%
Z.AI GLM 4.5 Air	100	100	94	94	88	95.2%
Grok 4.20	100	100	94	92	90	95.1%
Writer: Palmyra X5	100	100	100	94	81	95.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	88	87	95.0%
WizardLM 2 8x22b	100	97	95	94	88	94.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	73	94.5%
MiniMax M2.5	100	100	94	93	85	94.2%
Claude Haiku 4.5	100	100	92	90	89	94.2%
DeepSeek V3 (2024-12-26)	100	100	97	90	84	94.1%
DeepSeek V3.2	100	100	94	94	82	94.0%
GPT-5.4 (Reasoning, Low)	100	94	93	92	90	93.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	94	93	82	93.9%
GPT-5.5 (Reasoning)	100	100	99	88	82	93.8%
GPT-5.4	98	95	94	94	86	93.6%
Mistral Small 4	100	100	94	91	82	93.5%
Z.AI GLM 4.6	100	94	93	92	88	93.4%
Grok 4.5 (Reasoning, High)	100	94	94	94	84	93.2%
Claude Sonnet 4.5	100	99	95	86	86	93.2%
Claude Sonnet 4.6	100	100	95	94	77	93.1%
Gemini 2.5 Flash Lite (Reasoning)	100	99	93	89	83	92.8%
Gemini 2.5 Pro	100	94	94	88	87	92.6%
GPT-5.4 Mini (Reasoning, Low)	96	95	95	92	85	92.5%
Gemini 3 Flash (Preview)	94	94	94	92	88	92.5%
GPT-5.2	100	94	94	88	83	91.8%
Qwen3.7 Max	94	94	94	88	88	91.6%
Mistral Small 4 (Reasoning)	99	95	94	88	82	91.5%
MiniMax M2.7	98	94	92	91	81	91.2%
Gemini 2.5 Flash Lite	100	100	96	89	70	91.1%
GPT-4.1 Nano	94	94	93	92	81	91.0%
Mistral Large 3	95	93	92	89	84	90.7%
GPT-4.1	100	94	94	91	74	90.6%
GPT-4.1 Mini	96	94	94	86	82	90.4%
Z.AI GLM 4.5	95	94	93	87	83	90.2%
Gemma 3 4B	100	98	96	80	76	89.9%
Claude Sonnet 5 (Reasoning)	100	90	90	84	82	89.2%
Gemma 4 26B (Reasoning)	100	100	88	82	76	89.2%
Gemini 3.1 Flash Lite (Reasoning)	100	94	94	82	70	88.0%
Gemini 3.1 Flash Lite	94	94	88	82	82	88.0%
Gemini 3.5 Flash (Reasoning)	94	94	94	82	76	88.0%
Gemini 3.1 Flash Lite (Preview)	94	94	88	88	76	88.0%
Gemma 4 26B	100	88	88	88	76	88.0%
DeepSeek-V2 Chat	94	89	88	84	81	87.1%
Gemma 3 12B	100	96	94	76	64	86.2%
Gemma 3 27B	100	91	90	75	71	85.6%
Ministral 3 3B	100	99	82	78	68	85.5%
Claude Sonnet 5	100	92	90	88	57	85.5%
Gemini 2.5 Flash	91	89	86	81	77	84.6%
Gemini 3.1 Pro (Preview)	100	88	82	82	70	84.4%
Gemma 4 31B (Reasoning)	94	88	88	82	70	84.4%
Claude Sonnet 5 (Reasoning, Low)	100	86	85	84	65	84.0%
Gemini 2.5 Flash (Reasoning)	88	88	86	72	72	81.2%
Gemini 3 Flash (Preview, Reasoning)	94	94	76	70	60	78.8%
Cydonia 24B V4.1	83	82	81	58	34	67.6%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	99.9%
DeepSeek-V2 Chat	100	100	100	100	100	99.9%
Grok 4.3	100	100	100	100	99	99.9%
Mistral Large 2	100	100	100	100	99	99.8%
DeepSeek V4 Flash	100	100	100	100	99	99.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	98	99.5%
Claude Opus 4.8 (Reasoning)	100	100	100	100	97	99.5%
Cohere Command R+ (Aug. 2024)	100	100	100	100	97	99.3%
MiniMax M3	100	100	100	100	97	99.3%
Z.AI GLM 5.1	100	100	100	100	96	99.3%
Mistral Large 3	100	100	100	99	97	99.2%
DeepSeek V3 (2025-03-24)	100	100	100	100	96	99.2%
Z.AI GLM 5	100	100	100	100	94	98.9%
GPT-5.4 (Reasoning)	100	100	100	100	94	98.8%
Qwen3.6 Max Preview	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
GPT-5 Mini	100	100	100	100	94	98.8%
Qwen 3.5 397B A17B	100	100	100	100	94	98.8%
GPT-5.4 (Reasoning, Low)	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Xiaomi MIMO v2.5	100	100	100	100	94	98.8%
DeepSeek V3 (2024-12-26)	100	100	100	100	94	98.8%
Z.AI GLM 4.7 Flash	100	100	100	100	94	98.8%
DeepSeek V4 Pro	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
Arcee AI: Trinity Mini	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	100	94	98.8%
WizardLM 2 8x22b	100	100	100	99	94	98.7%
Claude Sonnet 4.5	100	100	100	99	94	98.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	98	95	98.5%
Claude Sonnet 5 (Reasoning)	100	100	100	100	92	98.5%
Ministral 3B	100	100	100	100	92	98.5%
Grok 4.20 (Reasoning)	100	100	100	100	92	98.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	98	94	98.4%
GPT-5.4	100	100	100	98	94	98.3%
GPT-5.4 Mini (Reasoning)	100	100	100	96	96	98.3%
Ministral 8B	100	100	100	100	91	98.2%
GPT-5 Nano	100	100	99	97	95	98.2%
Aion 3.0 Mini	100	100	100	97	94	98.1%
MiniMax M2.7	100	100	100	96	94	98.1%
Z.AI GLM 4.5 Air	100	100	99	98	93	98.0%
Grok 4.20	100	100	100	96	94	97.9%
Claude Sonnet 4.6	100	100	98	98	93	97.9%
Claude Sonnet 5	100	100	100	95	94	97.8%
Ministral 3 3B	100	100	100	100	89	97.7%
Grok 4.5 (Reasoning, High)	100	100	100	94	94	97.6%
MoonshotAI: Kimi K2.6	100	100	100	94	94	97.6%
GPT-5.5 (Reasoning, Low)	100	100	100	100	88	97.6%
MoonshotAI: Kimi K2.5	100	100	100	94	94	97.6%
Gemma 4 31B (Reasoning)	100	100	100	100	88	97.6%
ByteDance Seed 1.6	100	100	100	100	88	97.6%
GPT-5.2	100	100	100	94	94	97.6%
Qwen 3.6 Flash	100	100	100	94	94	97.6%
GPT-4.1	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	88	97.6%
ByteDance Seed 2.0 Mini	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Lite	100	100	100	94	94	97.6%
Gemini 2.5 Flash	100	100	100	99	90	97.6%
Qwen 3.5 Plus (2026-02-15)	100	100	99	94	94	97.4%
GPT-5.4 Mini	100	100	100	98	90	97.4%
GPT-5.4 Nano (Reasoning)	100	99	98	97	92	97.4%
Z.AI GLM 4.5	100	100	99	94	94	97.4%
Mistral Medium 3.1	100	100	100	94	93	97.3%
Hermes 3 405B	100	100	100	94	93	97.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	92	97.3%
GPT-4.1 Mini	100	100	100	94	93	97.2%
Claude Sonnet 4.6 (Reasoning)	100	100	97	95	93	97.0%
Z.AI GLM 4.7	100	100	97	94	94	97.0%
Grok 4.5 (Reasoning, Low)	100	100	95	94	94	96.7%
Qwen3 235B A22B Instruct 2507	100	100	99	92	91	96.5%
o4 Mini High	100	100	94	94	94	96.4%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	94	88	96.4%
GPT-5.5 (Reasoning)	100	100	94	94	94	96.4%
Claude Opus 4.6	100	100	94	94	94	96.4%
GPT-5.1	100	100	94	94	94	96.4%
Qwen 3.5 122B	100	100	94	94	94	96.4%
Qwen 3.5 27B	100	100	94	94	94	96.4%
Qwen 3.6 27B	100	100	94	94	94	96.4%
GPT-4o, Aug. 6th (temp=0)	100	100	94	94	94	96.4%
Qwen 2.5 72B	100	100	100	94	88	96.4%
Claude Sonnet 4	100	100	100	94	87	96.2%
Claude Sonnet 5 (Reasoning, Low)	100	100	97	93	91	96.1%
Mistral Small 4 (Reasoning)	100	100	95	94	92	96.1%
Hermes 3 70B	100	98	94	94	94	96.0%
Claude Opus 4	100	100	96	92	90	95.7%
Writer: Palmyra X5	100	95	94	94	94	95.4%
Z.AI GLM 4.6	100	94	94	94	94	95.2%
DeepSeek V3.2	100	100	100	94	82	95.2%
Llama 3.1 70B	100	100	100	88	86	94.7%
Gemma 3 12B	100	100	98	91	85	94.6%
Mistral Small 4	99	97	94	94	88	94.5%
Qwen 3.5 35B	100	100	94	90	88	94.4%
GPT-5.5	100	94	94	94	88	94.0%
Ministral 3 8B	99	95	94	94	87	93.9%
Gemini 2.5 Flash Lite	100	95	94	93	88	93.9%
Gemma 4 26B	100	94	94	90	88	93.2%
Ministral 3 14B	100	99	96	93	77	93.1%
MiniMax M2.5	98	95	92	90	90	93.1%
DeepSeek V3.1	100	94	94	89	88	93.0%
Qwen3.7 Max	94	94	94	94	88	92.8%
Gemini 3 Flash (Preview)	100	100	100	88	76	92.8%
Gemma 4 31B	100	94	94	88	88	92.8%
Gemini 3.1 Flash Lite	100	100	94	88	82	92.8%
GPT-5.4 Nano	95	94	94	93	87	92.4%
GPT-4o, Aug. 6th (temp=1)	100	100	98	82	74	90.8%
Claude Opus 4.5	98	92	92	90	79	90.5%
Gemini 2.5 Pro	100	100	94	82	76	90.4%
Gemini 3.5 Flash (Reasoning, Minimal)	94	94	94	82	82	89.2%
Gemma 4 26B (Reasoning)	94	94	88	88	82	89.2%
GPT-4o Mini (temp=1)	100	94	94	84	72	88.8%
Gemini 2.5 Flash Lite (Reasoning)	100	96	85	85	78	88.8%
Gemini 3.1 Flash Lite (Preview)	100	94	88	82	76	88.0%
Claude Haiku 4.5	99	95	86	82	78	88.0%
Gemini 3.5 Flash (Reasoning)	94	88	88	82	82	86.8%
Gemini 3 Flash (Preview, Reasoning)	100	94	82	82	70	85.6%
Gemini 2.5 Flash (Reasoning)	100	94	90	76	67	85.4%
GPT-4.1 Nano	91	90	85	81	75	84.3%
Gemini 3.1 Pro (Preview)	88	88	82	82	76	83.2%
Gemma 3 27B	93	92	83	78	54	80.0%
Gemma 3 4B	92	84	82	79	50	77.4%
Mistral Small 3.2 24B	100	82	66	62	59	73.7%
Cydonia 24B V4.1	87	83	74	55	47	69.3%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	99	99.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	99	99.9%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.8%
Qwen3 235B A22B Instruct 2507	100	100	100	100	99	99.8%
Claude Sonnet 5 (Reasoning)	100	100	100	100	98	99.6%
Qwen 3.6 35B	100	100	100	100	98	99.6%
Z.AI GLM 4.5	100	100	100	99	99	99.6%
MiniMax M2.7	100	100	100	100	98	99.5%
GPT-4o Mini (temp=1)	100	100	100	100	97	99.5%
Grok 4.3	100	100	100	100	97	99.5%
Claude Haiku 4.5	100	100	100	99	98	99.3%
Claude Opus 4	100	100	100	100	94	98.9%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
Claude Opus 4.8 (Reasoning)	100	100	100	100	94	98.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
GPT-5 Mini	100	100	100	100	94	98.8%
MiniMax M3	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
Gemini 2.5 Pro	100	100	100	100	94	98.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
GPT-5.4	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
DeepSeek V4 Pro	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
Qwen 3 32B	100	100	100	100	94	98.8%
Llama 3.1 70B	100	100	100	100	94	98.8%
Mistral Small 3.2 24B	100	100	100	100	94	98.8%
Qwen 2.5 72B	100	100	100	100	94	98.8%
Hermes 3 70B	100	100	100	99	94	98.6%
Aion 3.0	100	100	100	100	93	98.6%
GPT-5.4 Mini	100	100	100	100	92	98.5%
Mistral Large 3	100	100	100	98	94	98.3%
Grok 4.20 (Reasoning)	100	100	100	97	94	98.2%
MiniMax M2.5	100	100	100	100	91	98.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	96	94	98.0%
Ministral 3 3B	100	100	100	95	94	97.8%
Mistral Small 4	100	100	100	100	89	97.8%
Claude Sonnet 4.6	100	100	100	95	94	97.7%
Gemini 2.5 Flash Lite	100	100	100	100	89	97.7%
GPT-5.4 (Reasoning)	100	100	100	94	94	97.6%
Z.AI GLM 5.1	100	100	100	94	94	97.6%
GPT-5.5 (Reasoning, Low)	100	100	100	94	94	97.6%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
GPT-5.4 (Reasoning, Low)	100	100	100	94	94	97.6%
GPT-5.1	100	100	100	94	94	97.6%
GPT-5.4 Mini (Reasoning)	100	100	100	94	94	97.6%
Gemma 4 31B (Reasoning)	100	100	100	94	94	97.6%
GPT-5.5	100	100	100	94	94	97.6%
Aion 2.0	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	94	94	97.6%
Xiaomi MIMO v2.5 Pro	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Lite	100	100	100	100	88	97.6%
Grok 4.20	100	100	100	94	94	97.6%
WizardLM 2 8x22b	100	100	100	94	94	97.6%
Cohere Command R+ (Aug. 2024)	100	100	100	97	91	97.6%
Writer: Palmyra X5	100	100	98	96	94	97.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	94	97.5%
Claude Opus 4.5	100	100	100	94	94	97.5%
Mistral Large 2	100	100	100	94	93	97.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	94	93	97.5%
Claude Sonnet 4.5	100	100	100	96	91	97.5%
GPT-5.4 Nano (Reasoning)	100	100	99	96	92	97.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	99	94	94	97.3%
Mistral Medium 3.1	100	100	99	95	91	96.9%
Ministral 8B	100	100	97	94	92	96.8%
DeepSeek V3 (2024-12-26)	100	99	99	94	90	96.4%
Grok 4.5 (Reasoning, Low)	100	100	100	94	88	96.4%
ByteDance Seed 1.6	100	100	94	94	94	96.4%
Z.AI GLM 4.7	100	100	94	94	94	96.4%
Xiaomi MIMO v2.5	100	100	100	94	88	96.4%
DeepSeek V3.1	100	100	94	94	94	96.4%
GPT-5 Nano	100	100	94	94	94	96.4%
Arcee AI: Trinity Mini	100	100	100	94	88	96.4%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	99	82	96.3%
Ministral 3 14B	100	100	98	92	91	96.3%
Claude Sonnet 5	100	100	94	93	91	95.6%
Claude Sonnet 4	100	100	96	93	88	95.5%
Mistral Small 4 (Reasoning)	100	100	100	94	83	95.4%
Qwen3.7 Max	100	94	94	94	94	95.2%
Grok 4.5 (Reasoning, High)	100	100	94	94	88	95.2%
Qwen 3.6 27B	100	100	100	88	88	95.2%
Z.AI GLM 4.6	100	100	94	94	88	95.2%
GPT-4.1	100	100	94	94	88	95.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	94	94	88	95.2%
ByteDance Seed 2.0 Mini	100	94	94	94	94	95.2%
Gemma 4 26B	100	94	94	94	94	95.2%
DeepSeek V3.2	100	100	94	94	88	95.2%
Gemma 3 12B	100	100	99	92	83	95.0%
Aion 3.0 Mini	100	100	95	90	88	94.6%
DeepSeek V3 (2025-03-24)	100	98	94	93	88	94.6%
Z.AI GLM 4.7 Flash	100	97	94	94	87	94.5%
Hermes 3 405B	100	100	99	95	78	94.3%
Gemma 4 26B (Reasoning)	100	100	100	88	82	94.0%
Gemma 4 31B	100	94	94	94	88	94.0%
GPT-5.4 Nano	100	100	94	88	87	93.8%
Ministral 3 8B	100	100	94	88	87	93.7%
GPT-4.1 Mini	100	97	94	88	87	93.2%
Gemini 2.5 Flash	100	100	93	89	85	93.1%
GPT-5.5 (Reasoning)	94	94	94	94	88	92.8%
Gemini 3.1 Flash Lite	100	94	94	94	82	92.8%
Gemma 3 27B	100	100	96	85	81	92.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	88	70	91.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	82	82	91.6%
GPT-4.1 Nano	93	93	91	88	82	89.3%
Gemini 3.5 Flash (Reasoning)	100	94	94	82	76	89.2%
Gemini 3 Flash (Preview)	100	94	94	82	76	89.2%
Cydonia 24B V4.1	99	96	90	84	59	85.7%
Gemini 2.5 Flash (Reasoning)	94	86	84	81	79	84.7%
Gemini 3.1 Pro (Preview)	94	88	82	82	64	82.0%
Gemma 3 4B	92	90	84	75	69	81.9%
Gemini 2.5 Flash Lite (Reasoning)	84	83	83	81	76	81.3%
Gemini 3 Flash (Preview, Reasoning)	94	88	82	70	60	78.8%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	99.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	99.9%
DeepSeek-V2 Chat	100	100	100	100	99	99.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	98	99.6%
ByteDance Seed 1.6 Flash	100	100	100	100	98	99.6%
Mistral Small 4	100	100	100	100	98	99.5%
MiniMax M2.5	100	100	100	100	98	99.5%
Aion 3.0 Mini	100	100	100	100	97	99.4%
GPT-5.4	100	100	100	100	96	99.3%
GPT-OSS 120B	100	100	100	100	96	99.2%
Claude Opus 4.8 (Reasoning)	100	100	100	99	96	98.9%
Aion 3.0	100	100	100	100	94	98.9%
Qwen3.6 Max Preview	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
Z.AI GLM 5	100	100	100	100	94	98.8%
GPT-5.5	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
Qwen 3.6 35B	100	100	100	100	94	98.8%
o4 Mini	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
Nemotron 3 Nano	100	100	100	100	94	98.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	93	98.6%
Grok 4.5 (Reasoning, Low)	100	100	100	98	95	98.6%
ByteDance Seed 2.0 Lite	100	100	100	100	93	98.5%
Z.AI GLM 5.1	100	100	100	100	93	98.5%
GPT-4o Mini (temp=1)	100	100	100	96	96	98.4%
Hermes 3 70B	100	100	100	100	91	98.3%
Claude Opus 4.6	100	100	100	97	94	98.2%
Ministral 3 14B	100	100	100	96	94	97.9%
GPT-5.4 Mini	100	100	99	99	93	97.9%
Ministral 3B	100	100	100	96	94	97.9%
Grok 4.20	100	100	99	98	92	97.9%
DeepSeek V4 Flash	100	100	100	94	94	97.6%
GPT-5.4 Mini (Reasoning, Low)	100	99	98	96	95	97.6%
Claude Opus 4.6 (Reasoning)	100	100	100	94	94	97.6%
GPT-5.5 (Reasoning)	100	100	100	94	94	97.6%
GPT-5.4 (Reasoning, Low)	100	100	100	94	94	97.6%
GPT-5.1	100	100	100	94	94	97.6%
ByteDance Seed 1.6	100	100	100	100	88	97.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	94	97.6%
Qwen 3.5 35B	100	100	100	94	94	97.6%
Aion 2.0	100	100	100	94	94	97.6%
Xiaomi MIMO v2.5	100	100	100	94	94	97.6%
DeepSeek V3.2	100	100	100	100	88	97.6%
Z.AI GLM 4.7 Flash	100	100	100	94	94	97.6%
Qwen3 235B A22B Instruct 2507	100	100	100	94	93	97.5%
Mistral NeMO	100	100	99	94	94	97.5%
DeepSeek V3 (2024-12-26)	100	100	99	94	94	97.3%
GPT-5.4 Mini (Reasoning)	100	100	100	94	93	97.3%
DeepSeek V4 Pro	100	100	100	100	86	97.3%
Claude Opus 4	100	100	99	93	93	97.0%
DeepSeek V3 (2025-03-24)	100	100	100	97	88	96.9%
Z.AI GLM 5 Turbo	100	100	100	94	91	96.9%
Claude Sonnet 4	100	100	100	94	90	96.8%
GPT-5 Nano	100	100	98	94	92	96.8%
MiniMax M3	100	100	100	94	90	96.8%
GPT-5.4 Nano (Reasoning, Low)	99	97	97	97	94	96.6%
GPT-4.1	100	100	100	95	88	96.5%
GPT-5.4 (Reasoning)	100	100	100	94	88	96.4%
Qwen 3.5 27B	100	100	94	94	94	96.4%
Z.AI GLM 4.7	100	100	94	94	94	96.4%
Claude Sonnet 4.5	100	100	100	94	88	96.3%
Grok 4.20 (Reasoning)	100	100	100	98	84	96.3%
Writer: Palmyra X5	100	100	100	94	85	95.9%
GPT-5 Mini	100	100	98	94	88	95.9%
Claude Sonnet 4.6 (Reasoning)	98	98	96	95	92	95.8%
Mistral Large 3	100	100	95	94	90	95.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	94	84	95.7%
Gemma 4 31B (Reasoning)	100	100	94	94	90	95.6%
GPT-5.4 Nano	100	95	95	94	94	95.6%
Hermes 3 405B	100	100	96	94	88	95.5%
Grok 4.5 (Reasoning, High)	100	100	94	94	88	95.2%
GPT-5.2	100	100	94	94	88	95.2%
Gemini 2.5 Pro	100	100	94	94	88	95.2%
Qwen 3.6 27B	100	94	94	94	94	95.2%
Z.AI GLM 4.6	100	94	94	94	94	95.2%
Mistral Small 3.2 24B	100	94	94	94	94	95.2%
Arcee AI: Trinity Mini	100	100	94	94	88	95.2%
Gemini 3 Flash (Preview)	100	100	100	88	88	95.1%
GPT-5.4 Nano (Reasoning)	100	98	95	91	90	94.9%
DeepSeek V3.1	100	94	94	94	92	94.7%
Gemini 2.5 Flash Lite (Reasoning)	99	98	96	94	86	94.6%
Mistral Large 2	100	100	100	90	82	94.5%
WizardLM 2 8x22b	100	100	96	89	88	94.4%
Ministral 3 8B	100	100	94	94	84	94.4%
Z.AI GLM 4.5 Air	100	100	95	88	88	94.2%
Qwen 3 32B	100	100	100	94	76	94.2%
Mistral Small 4 (Reasoning)	98	96	93	91	91	93.9%
Claude Sonnet 5 (Reasoning)	100	96	95	91	85	93.4%
GPT-4.1 Mini	100	100	94	87	85	93.1%
Mistral Medium 3.1	97	96	95	92	85	93.0%
Gemini 2.5 Flash Lite	100	100	94	85	85	92.8%
Qwen3.7 Max	100	94	94	88	88	92.8%
GPT-5.5 (Reasoning, Low)	100	100	94	88	82	92.8%
Gemma 4 26B (Reasoning)	100	94	94	88	88	92.8%
Gemma 4 31B	94	94	94	94	88	92.8%
Gemini 3.1 Flash Lite (Reasoning)	100	94	93	88	88	92.7%
Claude Opus 4.5	99	96	93	88	87	92.6%
Claude Sonnet 4.6	99	97	92	88	87	92.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	97	82	82	92.2%
Gemini 3.1 Flash Lite (Preview)	100	100	88	88	82	91.6%
Ministral 3 3B	100	100	100	90	67	91.4%
Llama 3.1 70B	100	93	90	90	83	91.0%
Gemini 2.5 Flash	96	94	90	88	85	90.8%
Gemma 3 27B	100	93	93	85	80	90.2%
MiniMax M2.7	100	100	91	91	67	90.0%
Claude Sonnet 5	100	94	91	87	79	90.0%
Claude Haiku 4.5	96	91	90	90	80	89.4%
Gemini 3.1 Flash Lite	94	94	94	82	82	89.2%
Gemma 3 12B	100	94	92	81	79	89.0%
Ministral 8B	100	99	87	86	73	88.9%
Gemini 2.5 Flash (Reasoning)	92	91	89	89	83	88.8%
GPT-4.1 Nano	99	87	86	86	83	88.3%
Gemma 4 26B	94	92	88	82	82	87.6%
Claude Sonnet 5 (Reasoning, Low)	90	88	86	85	84	86.8%
Z.AI GLM 4.5	94	93	91	88	67	86.7%
Gemini 3.1 Pro (Preview)	94	88	83	82	82	85.7%
Gemini 3 Flash (Preview, Reasoning)	94	94	82	76	76	84.4%
Gemini 3.5 Flash (Reasoning)	100	94	82	82	60	83.6%
Gemma 3 4B	77	73	71	66	58	69.1%
Cydonia 24B V4.1	98	83	72	37	0	58.1%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	99.9%
Claude Haiku 4.5	100	100	100	100	99	99.8%
Claude Opus 4.5	100	100	100	100	99	99.8%
Z.AI GLM 5.1	100	100	100	100	94	98.8%
Qwen3.6 Max Preview	100	100	100	100	94	98.8%
Z.AI GLM 5 Turbo	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Z.AI GLM 5	100	100	100	100	94	98.8%
Claude Sonnet 4	100	100	100	100	94	98.8%
GPT-4.1	100	100	100	100	94	98.8%
MiniMax M2.7	100	100	100	100	94	98.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
Mistral Large 2	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	94	98.8%
Qwen 3 32B	100	100	100	100	94	98.8%
Llama 3.1 70B	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
Nemotron 3 Nano	100	100	100	100	94	98.8%
Ministral 3 14B	100	100	100	100	94	98.8%
Ministral 3 8B	100	100	100	100	94	98.8%
Hermes 3 70B	100	100	100	100	94	98.8%
Arcee AI: Trinity Mini	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	100	94	98.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	94	98.8%
Mistral Small 4	100	100	100	100	94	98.7%
Z.AI GLM 4.5	100	100	100	100	93	98.7%
Mistral Small 4 (Reasoning)	100	100	100	100	93	98.6%
Grok 4.3	100	100	100	97	94	98.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	91	98.1%
DeepSeek-V2 Chat	100	100	100	96	94	98.0%
Mistral Large 3	100	100	100	96	94	97.9%
Claude Sonnet 5 (Reasoning)	100	100	100	100	88	97.7%
Grok 4.5 (Reasoning, High)	100	100	100	94	94	97.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	94	94	97.6%
GPT-5.5 (Reasoning, Low)	100	100	100	100	88	97.6%
Claude Opus 4.6	100	100	100	94	94	97.6%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
Grok 4.3 (Reasoning)	100	100	100	100	88	97.6%
Qwen 3.6 Flash	100	100	100	94	94	97.6%
Z.AI GLM 4.7	100	100	100	100	88	97.6%
Qwen 3.6 35B	100	100	100	94	94	97.6%
o4 Mini	100	100	100	100	88	97.6%
Gemma 4 31B	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Lite	100	100	100	100	88	97.6%
DeepSeek V3.2	100	100	100	94	94	97.6%
Z.AI GLM 4.5 Air	100	100	100	94	94	97.6%
GPT-5.4 Mini	100	100	100	100	88	97.6%
GPT-5.4 Nano (Reasoning)	100	100	100	94	94	97.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	94	94	97.6%
ByteDance Seed 1.6 Flash	100	100	100	94	94	97.6%
o4 Mini High	100	100	99	94	94	97.4%
GPT-4.1 Nano	100	100	100	97	88	96.9%
Aion 3.0	100	100	94	94	94	96.5%
Claude Opus 4.6 (Reasoning)	100	100	94	94	94	96.4%
GPT-5.4 (Reasoning)	100	100	100	94	88	96.4%
Grok 4.5 (Reasoning, Low)	100	100	94	94	94	96.4%
GPT-5.1	100	100	100	94	88	96.4%
ByteDance Seed 1.6	100	100	100	94	88	96.4%
GPT-5.2	100	100	94	94	94	96.4%
Gemini 2.5 Pro	100	100	100	94	88	96.4%
Z.AI GLM 4.6	100	100	100	94	88	96.4%
Aion 2.0	100	100	94	94	94	96.4%
Qwen 3.5 Plus (2026-02-15)	100	100	94	94	94	96.4%
GPT-4.1 Mini	100	100	100	94	88	96.4%
GPT-5 Nano	100	100	100	94	88	96.4%
Ministral 8B	100	100	94	94	94	96.4%
Writer: Palmyra X5	100	100	94	94	93	96.2%
Grok 4.20	100	99	94	94	94	96.2%
Hermes 3 405B	100	100	94	94	93	96.2%
Gemini 2.5 Flash Lite	100	100	100	99	81	95.9%
GPT-4o Mini (temp=1)	100	100	100	94	85	95.9%
Gemma 3 4B	100	100	96	94	88	95.6%
GPT-5	100	100	94	94	88	95.2%
Grok 4.20 (Reasoning)	100	100	94	94	88	95.2%
MoonshotAI: Kimi K2.5	100	94	94	94	94	95.2%
MiniMax M2.5	100	100	94	94	88	95.2%
Gemini 3 Flash (Preview)	100	100	94	94	88	95.2%
Z.AI GLM 4.7 Flash	100	100	94	94	88	95.2%
Qwen3 235B A22B Instruct 2507	100	100	100	88	88	95.1%
GPT-5.4 Nano	100	100	96	88	88	94.4%
Qwen3.7 Max	100	100	94	94	82	94.0%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	82	94.0%
Gemma 4 26B	100	100	100	88	82	94.0%
GPT-5.4 (Reasoning, Low)	100	100	94	94	82	94.0%
GPT-5.5	100	100	94	88	88	94.0%
Xiaomi MIMO v2.5 Pro	100	94	94	94	88	94.0%
Gemma 3 12B	100	100	100	96	73	93.9%
Gemma 3 27B	100	100	100	100	69	93.7%
Claude Sonnet 5	100	97	91	91	88	93.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	88	88	88	92.8%
Gemma 4 26B (Reasoning)	100	94	94	94	82	92.8%
Xiaomi MIMO v2.5	100	94	94	88	88	92.8%
DeepSeek V3.1	94	94	94	94	88	92.8%
Mistral Medium 3.1	100	100	94	88	81	92.6%
GPT-5.5 (Reasoning)	100	100	94	94	70	91.6%
Gemma 4 31B (Reasoning)	100	94	88	88	88	91.6%
Gemini 3.1 Flash Lite (Reasoning)	100	94	88	88	88	91.6%
Gemini 3.1 Flash Lite	94	94	94	94	82	91.6%
Gemini 2.5 Flash	100	96	94	84	82	91.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	82	70	90.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	94	82	62	87.5%
Cydonia 24B V4.1	100	100	93	91	46	85.9%
Qwen 3.6 27B	100	100	100	100	22	84.4%
Gemini 3.5 Flash (Reasoning)	94	88	82	82	76	84.4%
Gemini 3.1 Pro (Preview)	94	88	88	70	70	82.0%
Gemini 3 Flash (Preview, Reasoning)	100	94	82	64	60	80.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-OSS 120B	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	99	99.9%
Hermes 3 405B	100	100	100	100	99	99.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.8%
Claude Opus 4.6	100	100	100	100	97	99.4%
GPT-4o Mini (temp=1)	100	100	100	100	96	99.3%
Ministral 3B	100	100	100	100	96	99.2%
Mistral Large 3	100	100	100	100	95	99.0%
GPT-5.5 (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
DeepSeek V4 Pro	100	100	100	100	94	98.8%
DeepSeek V4 Flash	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
WizardLM 2 8x22b	100	100	100	100	94	98.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	94	98.7%
Llama 3.1 70B	100	100	100	99	93	98.5%
Ministral 3 3B	100	100	100	97	94	98.3%
GPT-4.1 Mini	100	100	100	97	94	98.3%
Mistral Small 4	100	100	100	97	94	98.3%
Hermes 3 70B	100	100	100	97	94	98.1%
GPT-5	100	100	100	94	94	97.6%
MoonshotAI: Kimi K2.5	100	100	100	94	94	97.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Mini	100	100	100	100	88	97.6%
Qwen 3.5 Flash	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Lite	100	100	100	94	94	97.6%
Qwen 3.5 9B	100	100	100	100	88	97.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	94	94	97.6%
GPT-5 Nano	100	100	100	94	94	97.6%
Qwen 3 32B	100	100	100	94	94	97.6%
ByteDance Seed 1.6 Flash	100	100	100	94	94	97.6%
Mistral NeMO	100	100	100	100	88	97.6%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	97	91	97.6%
Z.AI GLM 4.7 Flash	100	100	100	94	93	97.5%
Z.AI GLM 4.7	100	100	98	94	93	97.1%
Z.AI GLM 5.1	100	100	100	97	88	97.0%
Z.AI GLM 5	100	100	100	94	90	96.8%
Claude Opus 4	100	100	99	94	90	96.7%
Ministral 3 8B	100	100	100	94	90	96.7%
Qwen3 235B A22B Instruct 2507	100	100	96	94	94	96.7%
Mistral Large 2	100	100	100	95	88	96.6%
Grok 4.20	100	100	99	94	89	96.5%
Gemma 3 4B	100	100	98	94	90	96.4%
MoonshotAI: Kimi K2.6	100	100	100	94	88	96.4%
Qwen 3.5 397B A17B	100	100	94	94	94	96.4%
ByteDance Seed 1.6	100	100	94	94	94	96.4%
Qwen 3.6 Flash	100	100	94	94	94	96.4%
DeepSeek V4 Pro (Reasoning)	100	100	94	94	94	96.4%
o4 Mini High	100	100	100	94	88	96.4%
Qwen 2.5 72B	100	100	100	94	88	96.4%
Arcee AI: Trinity Mini	100	100	94	94	94	96.4%
Ministral 8B	100	100	100	98	84	96.3%
Gemma 3 27B	100	99	98	94	91	96.3%
Claude Opus 4.8 (Reasoning)	100	98	96	94	93	96.1%
Writer: Palmyra X5	100	98	96	94	92	96.0%
Claude Opus 4.5	100	97	97	94	93	96.0%
Z.AI GLM 4.6	100	100	100	94	86	95.9%
Claude Sonnet 4	100	98	97	96	89	95.9%
Grok 4.3 (Reasoning)	100	100	100	91	88	95.9%
GPT-5.4 Nano (Reasoning, Low)	100	99	97	94	88	95.5%
GPT-5.2	100	100	100	96	82	95.5%
Xiaomi MIMO v2.5	100	100	94	92	90	95.4%
Gemma 3 12B	100	100	95	93	88	95.3%
GPT-5 Mini	100	100	94	94	88	95.2%
Qwen 3.5 122B	100	100	100	94	82	95.2%
Qwen 3.6 35B	100	100	94	94	88	95.2%
Aion 2.0	100	94	94	94	94	95.2%
o4 Mini	100	100	94	94	88	95.2%
Qwen 3.5 Plus (2026-02-15)	100	94	94	94	94	95.2%
DeepSeek V3.2	100	100	94	94	88	95.2%
Grok 4.3	100	94	94	94	94	95.2%
Grok 4.20 (Reasoning)	100	99	94	94	88	94.9%
Xiaomi MIMO v2.5 Pro	100	100	97	94	82	94.6%
Gemma 4 26B	100	100	93	91	88	94.5%
Gemini 2.5 Flash Lite (Reasoning)	100	96	94	91	91	94.3%
GPT-5.5 (Reasoning, Low)	100	94	94	94	89	94.3%
Claude Haiku 4.5	100	100	94	93	84	94.2%
GPT-5.5	100	94	93	92	92	94.2%
MiniMax M2.7	100	100	94	90	87	94.1%
DeepSeek V3 (2024-12-26)	100	99	93	93	86	94.1%
Gemma 4 31B (Reasoning)	100	94	94	94	88	94.0%
Claude Opus 4.6 (Reasoning)	100	94	94	94	87	93.9%
Ministral 3 14B	98	98	95	95	83	93.8%
Aion 3.0	100	94	94	94	87	93.7%
Z.AI GLM 5 Turbo	100	94	93	92	89	93.5%
Claude Opus 4.7 (Reasoning)	100	100	94	93	80	93.3%
Z.AI GLM 4.5 Air	100	96	93	88	87	92.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	94	88	82	92.8%
Qwen 3.5 27B	100	94	94	88	88	92.8%
GPT-5.4 Nano	100	100	99	94	69	92.4%
GPT-5.4 Mini (Reasoning)	94	94	93	93	87	92.4%
GPT-4.1	100	94	93	93	82	92.4%
Cydonia 24B V4.1	100	100	94	88	80	92.3%
GPT-5.4 Nano (Reasoning)	96	94	93	90	87	92.1%
Mistral Small 4 (Reasoning)	94	94	94	91	86	91.7%
Qwen 3.5 Plus (2026-04-20)	100	94	89	88	88	91.7%
Qwen 3.6 27B	100	94	94	88	82	91.6%
Gemini 3 Flash (Preview)	100	100	100	82	76	91.6%
Gemini 3.1 Flash Lite (Preview)	100	94	88	88	88	91.6%
Gemma 4 31B	94	94	94	88	88	91.6%
Mistral Medium 3.1	100	100	94	88	76	91.6%
Aion 3.0 Mini	100	100	100	88	68	91.3%
Z.AI GLM 4.5	100	92	90	88	86	91.3%
Grok 4.5 (Reasoning, Low)	97	93	92	88	85	91.0%
Claude Sonnet 4.5	100	93	93	87	81	91.0%
DeepSeek-V2 Chat	100	91	89	88	87	91.0%
Claude Opus 4.8 (Reasoning, Low)	100	95	94	91	74	90.7%
Claude Opus 4.7	100	94	92	87	79	90.5%
GPT-5.4 (Reasoning)	99	97	95	83	78	90.4%
Grok 4.5 (Reasoning, High)	96	94	91	88	83	90.4%
Gemini 2.5 Pro	94	94	92	88	82	89.9%
GPT-5.4 Mini (Reasoning, Low)	97	91	88	88	84	89.4%
Gemma 4 26B (Reasoning)	100	94	94	82	76	89.2%
Claude Sonnet 5	92	92	90	89	82	88.9%
Claude Sonnet 5 (Reasoning, Low)	92	91	89	85	84	88.2%
Gemini 3 Flash (Preview, Reasoning)	94	88	88	88	82	88.0%
GPT-5.4	95	95	86	84	79	87.9%
GPT-4.1 Nano	93	92	89	85	80	87.8%
Gemini 2.5 Flash	89	88	88	87	87	87.6%
MiniMax M2.5	97	94	87	83	75	87.2%
GPT-5.1	93	88	87	85	82	87.2%
GPT-5.4 Mini	96	92	91	84	72	87.0%
Qwen3.7 Max	94	88	88	88	76	86.8%
Claude Sonnet 4.6	94	92	86	80	78	86.0%
Gemini 3.1 Flash Lite	94	88	82	82	82	85.6%
Gemini 2.5 Flash Lite	88	88	87	86	78	85.3%
Claude Sonnet 4.6 (Reasoning)	94	91	84	81	74	84.9%
Qwen3.6 Max Preview	100	88	82	76	76	84.4%
DeepSeek V3.1	94	88	88	82	70	84.4%
GPT-5.4 (Reasoning, Low)	87	85	85	84	79	83.8%
Claude Sonnet 5 (Reasoning)	91	90	83	79	73	83.2%
Gemini 3.5 Flash (Reasoning, Minimal)	94	88	82	76	64	80.8%
Gemini 2.5 Flash (Reasoning)	94	87	82	70	66	79.5%
Gemini 3.1 Pro (Preview)	94	86	81	74	62	79.5%
Gemini 3.5 Flash (Reasoning)	88	82	76	76	60	76.4%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	99.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	99	99.8%
Llama 3.1 70B	100	100	100	98	98	99.2%
ByteDance Seed 1.6	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
GPT-OSS 120B	100	100	100	100	94	98.8%
DeepSeek V4 Flash	100	100	100	100	94	98.8%
ByteDance Seed 1.6 Flash	100	100	100	100	94	98.8%
Hermes 3 70B	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
Z.AI GLM 5.1	100	100	100	99	94	98.5%
Ministral 3 3B	100	100	100	99	92	98.3%
Ministral 3B	100	100	99	97	95	98.2%
ByteDance Seed 2.0 Lite	100	100	100	98	91	98.0%
GPT-5.5 (Reasoning, Low)	100	100	98	97	94	97.9%
Qwen3.6 Max Preview	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	88	97.6%
Inception Mercury 2	100	100	100	94	94	97.6%
MiniMax M3	100	100	100	94	94	97.6%
Hermes 3 405B	100	100	100	99	89	97.5%
ByteDance Seed 2.0 Mini	100	100	100	100	87	97.4%
Z.AI GLM 4.5 Air	100	100	99	94	94	97.4%
GPT-5.5 (Reasoning)	100	100	100	94	93	97.4%
Mistral Large 3	100	100	99	98	89	97.2%
MiniMax M2.5	100	99	97	95	95	97.2%
Qwen 3.6 Flash	100	100	100	94	92	97.2%
Gemini 3 Flash (Preview)	100	100	98	94	94	97.1%
Claude Opus 4.6 (Reasoning)	100	100	97	95	94	97.1%
Claude Opus 4.7	100	100	96	95	94	97.0%
GPT-5.2	100	100	100	94	91	97.0%
Gemini 3.1 Flash Lite	100	100	100	94	90	96.8%
Gemini 2.5 Flash Lite	100	99	96	96	94	96.7%
GPT-4.1	100	99	97	94	94	96.7%
Ministral 3 14B	100	100	98	94	92	96.7%
Qwen 3.5 Plus (2026-04-20)	100	100	95	94	94	96.6%
GPT-4o Mini (temp=1)	100	100	97	94	92	96.5%
GPT-5	100	100	100	94	88	96.4%
GPT-5 Mini	100	100	100	94	88	96.4%
Qwen 3.5 397B A17B	100	100	94	94	94	96.4%
o4 Mini High	100	100	100	94	88	96.4%
Qwen 3.5 35B	100	100	94	94	94	96.4%
Aion 2.0	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	94	88	96.4%
Qwen 3.5 9B	100	100	100	94	88	96.4%
Qwen 3 32B	100	100	94	94	94	96.4%
Z.AI GLM 5	100	100	97	97	87	96.1%
Claude Opus 4.7 (Reasoning)	100	99	97	94	90	95.8%
Mistral Small 4	100	96	95	94	94	95.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	94	84	95.6%
Cohere Command R+ (Aug. 2024)	100	100	94	94	88	95.2%
Qwen 3.6 27B	100	100	94	94	88	95.2%
DeepSeek V3.2	100	100	94	94	88	95.2%
Mistral Small 3.2 24B	100	94	94	94	94	95.2%
Qwen 3.5 122B	100	94	94	94	94	95.1%
Arcee AI: Trinity Mini	100	98	95	94	88	95.1%
Claude Opus 4.8 (Reasoning)	100	100	96	91	88	95.0%
Claude Haiku 4.5	100	100	93	91	90	94.8%
MiniMax M2.7	100	100	95	93	86	94.7%
Gemma 4 31B	100	100	94	92	86	94.5%
Qwen 3.5 Plus (2026-02-15)	100	100	95	94	82	94.2%
DeepSeek V3 (2025-03-24)	100	100	93	91	87	94.1%
Writer: Palmyra X5	100	99	96	89	86	94.1%
Qwen 3.6 35B	100	100	93	88	88	93.8%
Qwen 3.5 27B	100	99	94	88	88	93.8%
Gemini 2.5 Flash Lite (Reasoning)	100	95	95	94	84	93.6%
Xiaomi MIMO v2.5	100	100	97	88	82	93.5%
Ministral 3 8B	100	95	93	90	89	93.4%
Claude Opus 4.6	100	96	92	91	88	93.2%
Z.AI GLM 5 Turbo	100	92	92	92	90	93.2%
Gemma 3 4B	100	94	93	89	89	93.1%
Ministral 8B	100	95	93	89	89	93.1%
Claude Sonnet 4.6 (Reasoning)	100	98	91	88	88	93.1%
Claude Opus 4	100	100	94	91	79	92.9%
DeepSeek V4 Pro (Reasoning)	100	100	94	88	82	92.8%
Z.AI GLM 4.7	94	94	94	94	88	92.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	99	65	92.7%
Mistral Small 4 (Reasoning)	97	94	93	92	88	92.7%
GPT-5.4 Nano	100	94	94	93	82	92.6%
Mistral Large 2	98	95	94	90	86	92.6%
Mistral Medium 3.1	100	94	91	89	87	92.3%
Grok 4.5 (Reasoning, Low)	100	100	88	87	86	92.1%
Claude Opus 4.8 (Reasoning, Low)	100	100	94	85	81	92.0%
Claude Opus 4.5	97	94	94	88	87	92.0%
Grok 4.5 (Reasoning, High)	99	94	91	90	86	91.9%
GPT-5.1	100	98	90	86	85	91.9%
Z.AI GLM 4.6	100	95	94	88	82	91.8%
Z.AI GLM 4.7 Flash	100	100	94	82	82	91.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	94	88	76	91.6%
Gemma 4 26B	100	100	88	88	82	91.6%
Claude Sonnet 4.5	100	99	88	86	85	91.6%
Claude Sonnet 5 (Reasoning, Low)	99	98	94	91	76	91.6%
GPT-5.4 Nano (Reasoning, Low)	98	96	95	84	83	91.5%
GPT-5.5	100	95	91	88	82	91.3%
DeepSeek V4 Pro	94	94	92	88	87	91.1%
GPT-5 Nano	100	94	88	88	85	91.0%
Grok 4.3	94	92	91	90	88	90.9%
Claude Sonnet 5 (Reasoning)	99	92	90	88	85	90.9%
MoonshotAI: Kimi K2.6	100	100	100	88	65	90.6%
Xiaomi MIMO v2.5 Pro	96	94	94	91	74	89.9%
Qwen3 235B A22B Instruct 2507	97	94	93	90	76	89.9%
Gemma 4 31B (Reasoning)	98	94	88	87	81	89.7%
Cydonia 24B V4.1	100	100	91	86	72	89.6%
Claude Sonnet 4	93	91	90	89	85	89.5%
GPT-4.1 Mini	95	92	90	90	79	89.4%
Z.AI GLM 4.5	96	94	93	89	74	89.4%
Gemini 2.5 Pro	100	94	88	82	82	89.2%
GPT-5.4 Mini (Reasoning, Low)	96	93	89	89	75	88.5%
DeepSeek V3 (2024-12-26)	95	94	93	86	73	88.1%
GPT-5.4 Mini (Reasoning)	94	90	88	86	82	87.9%
Gemma 4 26B (Reasoning)	94	94	88	82	78	87.2%
Claude Sonnet 4.6	92	90	88	84	79	86.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	82	82	76	86.7%
GPT-5.4 (Reasoning, Low)	100	86	86	83	79	86.6%
Gemini 2.5 Flash	100	94	83	81	74	86.2%
GPT-5.4 Mini	100	90	88	75	75	85.8%
DeepSeek-V2 Chat	95	89	89	85	70	85.5%
Gemma 3 12B	97	88	87	83	72	85.3%
Claude Sonnet 5	100	92	89	79	67	85.3%
Qwen3.7 Max	100	85	85	82	73	84.9%
Gemma 3 27B	100	89	86	84	65	84.8%
Gemini 3.1 Pro (Preview)	100	94	81	76	72	84.5%
Gemini 3.1 Flash Lite (Reasoning)	94	88	82	82	76	84.4%
DeepSeek V3.1	100	88	82	81	70	84.1%
GPT-5.4 Nano (Reasoning)	99	89	88	75	68	83.8%
Grok 4.20	94	86	86	82	70	83.7%
Grok 4.20 (Reasoning)	94	94	78	76	73	83.3%
GPT-5.4	91	85	82	81	75	82.9%
Gemini 3.5 Flash (Reasoning)	100	82	76	70	70	79.6%
GPT-4.1 Nano	88	87	86	74	62	79.4%
GPT-5.4 (Reasoning)	88	82	78	76	73	79.3%
Gemini 2.5 Flash (Reasoning)	100	89	76	72	57	78.7%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
MoonshotAI: Kimi K2.5	100	100	100	100	99	99.8%
Nemotron 3 Super	100	100	100	100	98	99.6%
DeepSeek V4 Flash	100	100	100	100	98	99.6%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	95	98.9%
Claude Opus 4.6 (Reasoning)	100	100	100	100	94	98.8%
Claude Sonnet 4	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
Aion 3.0 Mini	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
Mistral Large 2	100	100	99	98	96	98.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	93	98.5%
Nemotron 3 Nano	100	100	100	98	94	98.5%
Grok 4.20 (Reasoning)	100	100	100	97	95	98.4%
Qwen 2.5 72B	100	100	100	100	92	98.4%
MiniMax M3	100	100	100	100	91	98.2%
Qwen 3 32B	100	100	100	100	90	98.0%
Grok 4.3 (Reasoning)	100	100	100	95	94	97.9%
ByteDance Seed 1.6	100	100	100	100	89	97.9%
Mistral Large 3	100	100	100	98	91	97.8%
Aion 2.0	100	100	100	95	94	97.7%
MoonshotAI: Kimi K2.6	100	100	100	94	94	97.6%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
Qwen 3.6 Flash	100	100	100	94	94	97.6%
o4 Mini High	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Mini	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	94	94	97.5%
GPT-4.1	100	100	100	100	88	97.5%
Claude Opus 4.6	100	100	100	95	91	97.3%
Aion 3.0	100	100	100	100	87	97.3%
GPT-5	100	100	100	99	88	97.3%
DeepSeek V3 (2024-12-26)	100	100	99	94	93	97.3%
Qwen3.6 Max Preview	100	100	100	94	92	97.3%
Arcee AI: Trinity Mini	100	100	100	94	92	97.2%
MiniMax M2.7	100	100	100	94	92	97.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	92	97.1%
Claude Opus 4.8 (Reasoning)	100	100	98	96	92	97.1%
ByteDance Seed 1.6 Flash	100	100	97	94	94	97.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	97	88	96.9%
Ministral 3 14B	100	100	98	95	91	96.8%
Claude Opus 4.7 (Reasoning)	100	99	97	94	94	96.7%
Claude Opus 4.7	100	100	100	92	92	96.7%
Claude Sonnet 4.5	100	100	100	92	91	96.6%
Z.AI GLM 5 Turbo	100	100	100	98	85	96.5%
Mistral Medium 3.1	100	100	96	95	92	96.5%
Grok 4.3	100	100	98	95	90	96.4%
Cohere Command R+ (Aug. 2024)	100	98	96	94	94	96.4%
GPT-5 Mini	100	100	94	94	94	96.4%
Gemma 4 31B (Reasoning)	100	100	94	94	94	96.4%
ByteDance Seed 2.0 Lite	100	100	100	94	88	96.4%
Qwen 3.5 9B	100	100	100	94	88	96.4%
GPT-4o Mini (temp=1)	100	100	100	94	88	96.4%
Z.AI GLM 5.1	100	100	100	93	88	96.3%
DeepSeek-V2 Chat	100	100	100	90	90	96.0%
Z.AI GLM 5	100	100	98	94	88	96.0%
GPT-OSS 120B	100	100	100	94	85	95.9%
DeepSeek V4 Pro	100	100	96	94	89	95.8%
Qwen 3.6 35B	100	99	94	94	92	95.8%
Mistral Small 3.2 24B	100	100	94	94	91	95.8%
GPT-5.4 Nano (Reasoning, Low)	100	98	97	92	92	95.8%
DeepSeek V3 (2025-03-24)	100	100	100	89	88	95.4%
Qwen 3.5 27B	100	94	94	94	94	95.2%
Gemini 3 Flash (Preview)	100	94	94	94	94	95.2%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	88	95.2%
Xiaomi MIMO v2.5	100	100	100	94	82	95.2%
GPT-4o, Aug. 6th (temp=0)	100	94	94	94	94	95.2%
Mistral NeMO	100	94	94	94	94	95.2%
Qwen 3.5 35B	100	100	100	94	82	95.1%
MiniMax M2.5	100	98	94	94	90	95.0%
Ministral 3 3B	100	99	98	93	85	94.8%
Xiaomi MIMO v2.5 Pro	100	94	94	94	92	94.8%
Claude Opus 4	100	100	97	89	88	94.8%
Gemini 3.1 Flash Lite	100	94	94	94	91	94.7%
Grok 4.20	100	100	95	93	85	94.6%
Z.AI GLM 4.5 Air	100	100	100	95	77	94.4%
Mistral Small 4 (Reasoning)	100	99	97	94	82	94.4%
Ministral 8B	100	100	99	95	77	94.3%
GPT-5.5 (Reasoning)	100	100	93	91	87	94.3%
Claude Haiku 4.5	100	100	96	87	87	94.1%
Gemma 4 26B (Reasoning)	94	94	94	94	94	94.0%
Qwen 3.5 Plus (2026-02-15)	100	94	94	94	88	94.0%
GPT-4o Mini (temp=0)	94	94	94	94	94	94.0%
Z.AI GLM 4.7	100	100	93	88	88	93.8%
Z.AI GLM 4.5	100	95	92	92	91	93.8%
DeepSeek V3.2	100	100	94	88	86	93.6%
GPT-5.2	99	98	96	94	80	93.5%
Claude Opus 4.5	100	94	94	91	89	93.5%
Gemini 2.5 Pro	100	100	94	89	85	93.4%
Ministral 3B	100	100	90	89	88	93.3%
GPT-5.4	99	96	92	91	88	93.2%
Gemma 3 27B	100	97	94	93	81	92.9%
Qwen3 235B A22B Instruct 2507	100	94	93	89	88	92.9%
GPT-5.5	100	96	95	89	84	92.9%
Qwen3.7 Max	100	94	94	88	88	92.8%
Gemini 3 Flash (Preview, Reasoning)	94	94	94	94	88	92.8%
Z.AI GLM 4.7 Flash	94	94	94	94	88	92.8%
Hermes 3 70B	100	98	94	88	84	92.8%
WizardLM 2 8x22b	100	100	94	94	75	92.7%
Qwen 3.6 27B	100	100	94	87	82	92.7%
DeepSeek V3.1	100	99	94	88	82	92.6%
Claude Sonnet 5 (Reasoning, Low)	98	96	95	90	84	92.5%
Ministral 3 8B	100	97	95	94	76	92.4%
GPT-5 Nano	100	100	94	92	76	92.3%
GPT-5.4 Nano	100	100	95	90	76	92.3%
Writer: Palmyra X5	100	96	93	91	81	92.3%
Mistral Small 4	99	95	92	91	84	92.2%
GPT-5.4 (Reasoning, Low)	96	94	92	90	89	92.1%
Gemini 2.5 Flash Lite (Reasoning)	100	97	94	88	79	91.9%
GPT-5.4 Nano (Reasoning)	100	100	92	88	78	91.7%
Qwen 3.5 122B	94	94	94	88	88	91.6%
Gemini 3.1 Flash Lite (Reasoning)	94	94	94	88	88	91.6%
Gemini 3.5 Flash (Reasoning, Minimal)	94	94	94	88	88	91.6%
Gemma 4 26B	94	94	94	88	88	91.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	79	78	91.5%
Gemma 4 31B	94	94	93	88	88	91.5%
GPT-4.1 Mini	94	94	93	90	86	91.5%
Gemma 3 12B	98	94	91	88	87	91.5%
GPT-5.4 Mini (Reasoning)	98	97	93	86	84	91.4%
Z.AI GLM 4.6	94	94	92	88	88	91.2%
Grok 4.5 (Reasoning, High)	95	94	93	89	84	91.0%
Claude Sonnet 4.6	96	95	92	86	84	90.6%
Hermes 3 405B	100	100	94	92	66	90.5%
GPT-5.5 (Reasoning, Low)	98	94	88	87	85	90.3%
Claude Sonnet 4.6 (Reasoning)	100	99	91	87	75	90.3%
GPT-5.1	100	93	91	87	79	90.1%
Gemini 2.5 Flash (Reasoning)	100	97	89	83	81	90.0%
Claude Sonnet 5	100	91	90	84	84	89.9%
Gemma 3 4B	99	96	92	82	79	89.5%
Gemini 3.5 Flash (Reasoning)	100	88	88	86	82	88.7%
Claude Sonnet 5 (Reasoning)	97	96	90	86	74	88.7%
GPT-5.4 (Reasoning)	98	92	90	87	74	88.3%
Grok 4.5 (Reasoning, Low)	95	94	89	84	77	87.8%
Gemini 2.5 Flash	95	93	84	84	82	87.6%
Gemini 3.1 Pro (Preview)	99	94	91	84	67	87.1%
Gemini 2.5 Flash Lite	100	98	93	78	65	86.7%
Llama 3.1 70B	100	97	94	88	37	83.1%
GPT-5.4 Mini	88	84	82	80	75	81.8%
Cydonia 24B V4.1	88	82	81	80	77	81.5%
GPT-5.4 Mini (Reasoning, Low)	88	87	77	75	68	78.9%
GPT-4.1 Nano	97	75	75	67	66	75.9%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	99.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	99.9%
Z.AI GLM 5	100	100	100	100	99	99.8%
Grok 4.20 (Reasoning)	100	100	100	100	99	99.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	98	99.7%
Ministral 3B	100	100	100	100	98	99.6%
DeepSeek V4 Pro	100	100	100	100	97	99.5%
DeepSeek V3 (2024-12-26)	100	100	100	100	96	99.2%
Z.AI GLM 5.1	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	94	98.8%
Claude Opus 4.8 (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 397B A17B	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	94	98.8%
Qwen 3.6 27B	100	100	100	100	94	98.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.8%
Z.AI GLM 4.6	100	100	100	100	94	98.8%
Xiaomi MIMO v2.5 Pro	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
ByteDance Seed 2.0 Lite	100	100	100	100	94	98.8%
DeepSeek V3.1	100	100	100	100	94	98.8%
Hermes 3 405B	100	100	100	100	94	98.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	94	98.8%
Llama 3.1 70B	100	100	100	100	94	98.8%
Nemotron 3 Nano	100	100	100	100	94	98.8%
Arcee AI: Trinity Mini	100	100	100	100	94	98.8%
MiniMax M2.7	100	100	100	99	94	98.7%
Qwen3 235B A22B Instruct 2507	100	100	99	99	95	98.6%
Z.AI GLM 4.5	100	100	100	100	93	98.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	99	94	98.5%
MoonshotAI: Kimi K2.6	100	100	100	98	94	98.5%
GPT-5	100	100	100	98	94	98.3%
GPT-5.4 Mini (Reasoning)	100	100	100	98	93	98.3%
Mistral Large 2	100	100	100	98	94	98.3%
Gemma 3 27B	100	100	100	100	91	98.3%
GPT-5.4	100	100	99	97	94	98.2%
Z.AI GLM 5 Turbo	100	100	100	98	93	98.2%
Writer: Palmyra X5	100	100	100	98	92	98.0%
Mistral Small 4	100	100	100	96	93	97.8%
Z.AI GLM 4.5 Air	100	100	100	95	94	97.8%
Claude Sonnet 4.5	100	100	100	94	94	97.7%
Claude Opus 4.7 (Reasoning)	100	100	100	94	94	97.7%
Qwen3.7 Max	100	100	100	94	94	97.6%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	88	97.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	94	94	97.6%
Claude Opus 4.5	100	100	100	94	94	97.6%
ByteDance Seed 1.6	100	100	100	94	94	97.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	94	97.6%
Gemma 4 26B (Reasoning)	100	100	100	94	94	97.6%
Qwen 3.6 35B	100	100	100	94	94	97.6%
Qwen 3.5 35B	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
Gemini 3.1 Flash Lite	100	100	100	100	88	97.6%
Xiaomi MIMO v2.5	100	100	100	94	94	97.6%
Aion 3.0 Mini	100	100	100	94	94	97.6%
DeepSeek V4 Flash	100	100	100	94	94	97.6%
GPT-5 Nano	100	100	100	94	94	97.6%
Hermes 3 70B	100	100	100	94	94	97.6%
Mistral NeMO	100	100	100	94	94	97.6%
Cohere Command R+ (Aug. 2024)	100	100	100	100	87	97.4%
DeepSeek-V2 Chat	100	100	100	94	93	97.3%
Claude Sonnet 4.6	100	100	99	99	88	97.2%
Qwen 3.5 Plus (2026-02-15)	100	100	100	98	88	97.2%
Grok 4.3	100	100	100	94	92	97.2%
Ministral 3 3B	100	100	100	94	91	97.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	98	94	92	96.9%
Gemini 2.5 Flash	100	100	99	94	92	96.9%
Gemini 2.5 Flash Lite	100	100	100	94	90	96.8%
Cydonia 24B V4.1	100	100	98	94	92	96.7%
Claude Opus 4	100	97	96	95	94	96.5%
Gemini 3.5 Flash (Reasoning)	100	100	94	94	94	96.4%
GPT-5 Mini	100	100	94	94	94	96.4%
Gemini 2.5 Pro	100	100	100	94	88	96.4%
GPT-4.1	100	100	94	94	94	96.4%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	94	96.4%
Gemma 4 31B	100	100	94	94	94	96.4%
Gemma 4 26B	100	100	100	94	88	96.4%
DeepSeek V3.2	100	100	100	94	88	96.4%
Nemotron 3 Super	100	100	100	94	88	96.4%
GPT-4o Mini (temp=1)	100	99	94	94	94	96.3%
Grok 4.5 (Reasoning, Low)	100	100	97	94	90	96.2%
GPT-5.4 Mini	100	100	100	93	88	96.2%
Qwen 3 32B	100	100	100	94	85	95.8%
Mistral Medium 3.1	100	100	100	90	88	95.5%
GPT-5.4 Nano	100	100	100	89	88	95.3%
Qwen3.6 Max Preview	100	100	94	94	88	95.2%
GPT-5.5	100	100	94	94	88	95.2%
Aion 2.0	100	100	100	88	88	95.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	94	88	95.2%
Z.AI GLM 4.7 Flash	100	94	94	94	94	95.2%
GPT-5.2	100	100	94	94	88	95.1%
Ministral 3 14B	98	98	96	94	89	95.0%
Grok 4.5 (Reasoning, High)	100	94	94	94	91	94.6%
Claude Haiku 4.5	100	99	94	90	88	94.3%
Claude Opus 4.6	100	94	94	94	88	94.0%
Z.AI GLM 4.7	100	100	94	88	88	94.0%
GPT-5.5 (Reasoning)	100	100	100	88	82	93.9%
GPT-4o, Aug. 6th (temp=1)	100	100	93	91	85	93.9%
GPT-5.4 Nano (Reasoning)	100	94	94	91	90	93.6%
GPT-5.4 (Reasoning)	100	96	94	90	88	93.6%
Claude Opus 4.6 (Reasoning)	97	94	94	94	88	93.5%
Mistral Small 4 (Reasoning)	100	94	94	90	90	93.5%
Claude Sonnet 5 (Reasoning, Low)	100	97	90	90	89	93.4%
Ministral 8B	100	96	93	89	88	93.2%
Claude Sonnet 4	100	94	94	94	82	92.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	94	88	82	92.8%
Gemini 3 Flash (Preview)	100	94	94	88	88	92.8%
Claude Sonnet 4.6 (Reasoning)	100	96	94	87	86	92.5%
Claude Sonnet 5	100	94	93	88	85	92.0%
Grok 4.20	100	95	94	88	82	91.9%
GPT-5.1	98	94	91	88	88	91.8%
Gemini 2.5 Flash (Reasoning)	97	94	91	88	87	91.2%
Claude Sonnet 5 (Reasoning)	100	96	88	87	84	91.1%
Ministral 3 8B	100	94	93	89	79	90.9%
Gemini 3.1 Pro (Preview)	98	94	91	88	80	90.1%
GPT-5.4 (Reasoning, Low)	100	92	88	88	82	90.0%
Gemma 3 12B	100	97	94	79	78	89.7%
Gemini 2.5 Flash Lite (Reasoning)	100	94	88	83	81	89.1%
GPT-4.1 Mini	97	90	88	87	80	88.5%
ByteDance Seed 2.0 Mini	100	94	88	88	70	88.0%
Gemma 3 4B	95	94	89	82	71	86.1%
GPT-4.1 Nano	94	85	84	81	75	83.8%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	99.9%
ByteDance Seed 2.0 Lite	100	100	100	100	98	99.6%
Qwen 3 32B	100	100	100	100	95	98.9%
Qwen 3.5 122B	100	100	100	100	94	98.8%
ByteDance Seed 1.6	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
o4 Mini	100	100	100	100	94	98.8%
Llama 3.1 70B	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.5	100	100	100	100	94	98.8%
Mistral Medium 3.1	100	100	100	100	94	98.7%
GPT-5.2	100	100	99	99	96	98.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	93	98.6%
Ministral 8B	100	100	100	100	93	98.6%
Mistral Large 2	100	100	100	97	96	98.5%
Aion 3.0	100	100	100	98	93	98.1%
Qwen 3.5 Plus (2026-02-15)	100	99	99	98	94	98.1%
Ministral 3B	100	100	100	97	93	98.0%
Z.AI GLM 5	100	100	97	97	94	97.7%
MiniMax M3	100	100	100	95	94	97.7%
Hermes 3 70B	100	100	100	98	90	97.7%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
GPT-OSS 120B	100	100	100	94	94	97.6%
Inception Mercury 2	100	100	100	94	94	97.6%
Qwen 2.5 72B	100	100	100	94	94	97.6%
ByteDance Seed 1.6 Flash	100	100	100	94	94	97.6%
Claude Opus 4	100	100	100	96	91	97.5%
o4 Mini High	100	100	100	99	88	97.4%
Mistral NeMO	100	100	99	94	94	97.4%
GPT-5.5 (Reasoning)	100	100	98	94	94	97.1%
MiniMax M2.7	100	97	96	96	95	97.0%
Z.AI GLM 5 Turbo	100	98	96	95	95	96.9%
GPT-4.1	100	100	96	95	94	96.9%
Claude Opus 4.6 (Reasoning)	100	100	99	98	87	96.8%
Claude Opus 4.6	100	100	100	100	84	96.8%
DeepSeek V4 Flash	100	100	100	94	90	96.8%
DeepSeek-V2 Chat	100	100	96	94	94	96.7%
Grok 4.3 (Reasoning)	100	99	99	94	92	96.7%
MoonshotAI: Kimi K2.6	100	100	95	94	94	96.6%
Qwen 3.5 Flash	100	100	100	94	88	96.4%
GPT-4o, Aug. 6th (temp=0)	100	100	94	94	94	96.4%
WizardLM 2 8x22b	100	100	94	94	94	96.4%
Ministral 3 8B	100	100	100	99	83	96.3%
Z.AI GLM 4.7	100	100	94	94	93	96.2%
Qwen 3.5 27B	100	100	94	94	93	96.2%
Xiaomi MIMO v2.5 Pro	100	99	94	94	93	96.0%
GPT-5.5 (Reasoning, Low)	100	100	100	93	87	96.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	80	95.9%
Grok 4.3	100	99	94	93	93	95.9%
GPT-5	100	100	97	94	88	95.8%
Claude Opus 4.8 (Reasoning)	100	98	96	94	90	95.8%
Qwen 3.6 35B	100	100	94	94	90	95.5%
Claude Opus 4.7 (Reasoning)	100	100	98	90	88	95.3%
DeepSeek V4 Pro (Reasoning)	100	98	96	94	89	95.2%
Gemma 4 31B	100	94	94	94	94	95.2%
Qwen 3.5 9B	100	100	100	88	88	95.2%
GPT-5 Nano	100	98	96	94	89	95.2%
Claude Sonnet 4.6	100	97	95	91	91	94.9%
GPT-5 Mini	100	100	94	92	88	94.8%
Claude Haiku 4.5	100	100	100	89	85	94.8%
Qwen3.6 Max Preview	100	94	94	94	90	94.5%
Qwen3 235B A22B Instruct 2507	100	100	94	90	88	94.5%
Mistral Large 3	100	100	98	94	80	94.4%
GPT-4o Mini (temp=1)	100	100	100	98	73	94.2%
Qwen 3.5 Plus (2026-04-20)	100	100	94	91	86	94.1%
Aion 2.0	100	100	94	94	82	94.0%
Z.AI GLM 4.6	100	100	94	88	88	94.0%
Z.AI GLM 4.7 Flash	100	100	94	88	88	94.0%
Hermes 3 405B	100	97	94	92	85	93.8%
Qwen 3.6 Flash	100	94	94	93	88	93.7%
Gemini 2.5 Pro	100	100	94	91	83	93.7%
Mistral Small 4	100	96	94	90	85	93.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	93	89	84	93.0%
MiniMax M2.5	100	100	92	87	85	92.9%
DeepSeek V3.2	100	94	94	89	88	92.9%
Z.AI GLM 5.2 (Reasoning, High)	100	100	90	88	87	92.9%
Claude Opus 4.7	100	99	93	86	86	92.7%
Mistral Small 3.2 24B	100	99	94	93	77	92.7%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	89	73	92.5%
Ministral 3 14B	98	94	94	92	84	92.5%
Claude Sonnet 5 (Reasoning)	100	98	98	85	82	92.5%
Xiaomi MIMO v2.5	100	100	100	84	78	92.5%
Gemini 3 Flash (Preview)	100	94	94	88	86	92.4%
Writer: Palmyra X5	100	99	95	93	75	92.4%
Claude Sonnet 4.5	100	96	93	88	84	92.2%
Claude Sonnet 4	100	98	90	88	85	92.2%
Qwen 3.6 27B	100	100	88	88	85	92.1%
GPT-4o, Aug. 6th (temp=1)	100	100	94	91	75	92.0%
GPT-5.5	100	94	91	88	87	92.0%
Gemma 4 26B (Reasoning)	100	94	94	88	84	92.0%
Grok 4.5 (Reasoning, High)	100	94	94	87	85	91.9%
DeepSeek V4 Pro	100	100	94	91	74	91.6%
Gemma 4 31B (Reasoning)	100	94	94	88	82	91.6%
Z.AI GLM 5.1	96	94	91	89	88	91.6%
GPT-5.4 Nano	100	92	90	89	86	91.4%
Mistral Small 4 (Reasoning)	96	93	90	90	87	91.2%
Ministral 3 3B	99	94	90	90	83	91.1%
GPT-5.4 Nano (Reasoning)	94	91	91	90	88	91.0%
Gemini 3.1 Flash Lite	100	91	88	88	86	90.6%
Gemma 3 12B	100	98	88	84	83	90.6%
Gemma 4 26B	94	94	88	88	88	90.4%
GPT-5.1	96	95	94	91	76	90.4%
Claude Opus 4.5	100	100	94	85	73	90.3%
Gemini 2.5 Flash	100	94	90	85	79	89.7%
DeepSeek V3 (2024-12-26)	100	100	87	81	79	89.3%
Gemini 3.1 Flash Lite (Reasoning)	100	88	88	88	82	89.2%
Cydonia 24B V4.1	100	95	92	82	77	89.1%
Arcee AI: Trinity Mini	95	94	92	88	77	89.1%
Z.AI GLM 4.5 Air	95	94	91	88	76	88.8%
GPT-4.1 Mini	99	92	87	83	82	88.6%
Z.AI GLM 4.5	94	93	89	88	78	88.5%
Gemini 3.5 Flash (Reasoning)	94	91	88	88	81	88.3%
Grok 4.20 (Reasoning)	100	89	86	85	81	88.1%
Gemini 3 Flash (Preview, Reasoning)	94	94	88	82	82	88.0%
DeepSeek V3.1	94	93	88	82	82	87.7%
Qwen3.7 Max	94	92	87	82	82	87.3%
Grok 4.5 (Reasoning, Low)	92	89	86	85	84	87.0%
Claude Sonnet 4.6 (Reasoning)	93	93	87	84	77	86.9%
Gemini 3.1 Flash Lite (Preview)	100	88	88	88	70	86.8%
Claude Sonnet 5	97	87	86	85	78	86.8%
GPT-5.4	90	89	87	85	82	86.7%
GPT-5.4 (Reasoning)	92	91	85	85	80	86.6%
Gemini 3.5 Flash (Reasoning, Minimal)	88	88	88	87	82	86.6%
Grok 4.20	94	89	86	86	76	86.1%
Gemini 2.5 Flash Lite (Reasoning)	100	97	86	73	73	85.8%
Gemini 3.1 Pro (Preview)	93	93	90	77	76	85.7%
GPT-5.4 Mini (Reasoning)	90	89	86	83	80	85.6%
Gemini 2.5 Flash Lite	94	94	86	84	70	85.6%
GPT-5.4 Mini	89	89	89	81	80	85.5%
GPT-5.4 Mini (Reasoning, Low)	90	88	87	84	74	84.6%
Gemini 2.5 Flash (Reasoning)	91	86	84	81	71	82.7%
Gemma 3 27B	92	88	86	78	67	82.2%
GPT-5.4 (Reasoning, Low)	87	85	84	79	74	81.7%
Gemma 3 4B	93	91	88	81	40	78.6%
GPT-4.1 Nano	89	89	81	75	59	78.5%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	99.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	99	99.9%
Grok 4.3	100	100	100	100	98	99.6%
WizardLM 2 8x22b	100	100	100	100	96	99.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	94	98.8%
Z.AI GLM 5 Turbo	100	100	100	100	94	98.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	94	98.8%
Qwen 3.5 397B A17B	100	100	100	100	94	98.8%
GPT-5.1	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	100	94	98.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
Qwen 3.6 27B	100	100	100	100	94	98.8%
MiniMax M2.5	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
Gemma 4 31B	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
GPT-4.1 Mini	100	100	100	100	94	98.8%
Qwen 2.5 72B	100	100	100	100	94	98.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	94	98.8%
Ministral 3B	100	100	100	100	94	98.8%
Ministral 3 8B	100	100	100	100	93	98.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	99	94	98.5%
Gemma 3 12B	100	100	100	98	94	98.5%
Ministral 3 14B	100	100	100	97	94	98.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	94	98.1%
Writer: Palmyra X5	100	100	100	94	94	97.6%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	98	90	97.6%
Qwen3.6 Max Preview	100	100	100	94	94	97.6%
GPT-5	100	100	100	94	94	97.6%
GPT-5 Mini	100	100	100	94	94	97.6%
Grok 4.3 (Reasoning)	100	100	100	100	88	97.6%
Gemma 4 31B (Reasoning)	100	100	100	94	94	97.6%
Z.AI GLM 5	100	100	100	94	94	97.6%
ByteDance Seed 1.6	100	100	100	94	94	97.6%
Gemma 4 26B (Reasoning)	100	100	100	94	94	97.6%
Gemini 2.5 Pro	100	100	100	94	94	97.6%
Claude Sonnet 4.5	100	100	100	94	94	97.6%
Aion 2.0	100	100	100	94	94	97.6%
o4 Mini	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	88	97.6%
Xiaomi MIMO v2.5 Pro	100	100	100	100	88	97.6%
Z.AI GLM 4.5	100	100	100	94	94	97.6%
GPT-5.4	100	100	100	94	94	97.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	94	94	97.6%
DeepSeek V4 Flash	100	100	100	94	94	97.6%
Grok 4.20	100	100	100	94	94	97.6%
Z.AI GLM 4.5 Air	100	100	100	94	94	97.6%
Qwen 3 32B	100	100	100	94	94	97.6%
Qwen3 235B A22B Instruct 2507	100	100	100	94	94	97.6%
Llama 3.1 70B	100	100	100	100	88	97.6%
Mistral Small 4 (Reasoning)	100	100	99	94	94	97.5%
Claude Sonnet 4.6 (Reasoning)	100	100	99	94	92	96.9%
Claude Sonnet 5	100	100	97	94	93	96.8%
Gemma 3 4B	100	99	99	96	89	96.5%
Claude Haiku 4.5	100	100	99	93	91	96.5%
GPT-4.1 Nano	100	100	96	94	92	96.4%
Claude Sonnet 4.6	100	100	96	94	92	96.4%
Grok 4.5 (Reasoning, High)	100	100	100	94	88	96.4%
Z.AI GLM 5.1	100	100	100	94	88	96.4%
MoonshotAI: Kimi K2.6	100	100	100	94	88	96.4%
MiniMax M3	100	100	100	94	88	96.4%
Qwen 3.6 35B	100	100	100	94	88	96.4%
MiniMax M2.7	100	100	94	94	94	96.4%
GPT-OSS 120B	100	100	94	94	94	96.4%
ByteDance Seed 2.0 Lite	100	100	100	94	88	96.4%
DeepSeek V3.1	100	100	100	94	88	96.4%
DeepSeek V4 Pro	100	100	100	94	88	96.4%
Mistral Large 2	100	100	100	94	88	96.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	94	88	96.4%
Mistral Small 3.2 24B	100	100	94	94	94	96.4%
Mistral Medium 3.1	100	100	100	94	88	96.4%
Nemotron 3 Nano	100	100	94	94	94	96.4%
Gemini 2.5 Flash Lite	100	100	100	94	88	96.3%
GPT-4.1	100	100	94	94	92	96.0%
GPT-5.4 Nano (Reasoning)	100	99	96	94	88	95.5%
Gemini 2.5 Flash	98	96	94	94	94	95.3%
Gemini 2.5 Flash (Reasoning)	100	100	94	94	88	95.3%
Claude Opus 4.6 (Reasoning)	100	100	100	94	82	95.2%
GPT-5.4 (Reasoning)	100	100	94	94	88	95.2%
MoonshotAI: Kimi K2.5	100	100	94	94	88	95.2%
Qwen 3.5 27B	100	100	94	94	88	95.2%
DeepSeek V4 Pro (Reasoning)	100	100	94	94	88	95.2%
Z.AI GLM 4.7	100	100	94	94	88	95.2%
Z.AI GLM 4.6	100	94	94	94	94	95.2%
ByteDance Seed 2.0 Mini	100	100	94	94	88	95.2%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	88	95.2%
DeepSeek V3.2	100	100	100	100	76	95.2%
Nemotron 3 Super	100	100	94	94	88	95.2%
Arcee AI: Trinity Mini	100	100	94	94	88	95.2%
GPT-5.4 Nano	100	100	94	92	90	95.2%
Mistral NeMO	100	100	98	89	88	94.8%
GPT-5.4 Mini (Reasoning, Low)	100	99	94	92	88	94.6%
Gemma 3 27B	100	96	94	94	88	94.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	94	90	88	94.4%
Cydonia 24B V4.1	100	100	94	94	83	94.2%
GPT-5.4 (Reasoning, Low)	100	100	96	94	81	94.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	94	94	82	94.0%
GPT-5.2	100	100	94	94	82	93.9%
Claude Sonnet 5 (Reasoning)	100	94	94	89	88	93.0%
Mistral Small 4	100	100	100	82	82	92.8%
Qwen3.7 Max	100	100	94	88	82	92.8%
GPT-5.5 (Reasoning)	100	94	94	88	82	91.6%
Grok 4.20 (Reasoning)	100	100	94	88	76	91.6%
GPT-5.5	100	94	94	88	82	91.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	94	94	88	82	91.6%
Gemini 3.1 Pro (Preview)	95	94	94	88	82	90.5%
Grok 4.5 (Reasoning, Low)	94	94	94	94	76	90.4%
Gemini 3.1 Flash Lite	100	100	88	88	76	90.4%
Gemma 4 26B	94	94	94	88	82	90.4%
GPT-5 Nano	100	88	88	88	88	90.4%
Gemini 3.5 Flash (Reasoning)	94	88	88	76	70	83.2%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	99	99.7%
Grok 4.3 (Reasoning)	100	100	100	100	98	99.5%
Llama 3.1 70B	100	100	100	100	96	99.3%
Z.AI GLM 4.5 Air	100	100	100	100	96	99.1%
GPT-4o Mini (temp=1)	100	100	100	100	96	99.1%
Ministral 3 8B	100	100	100	100	95	99.1%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	95	99.0%
Z.AI GLM 5 Turbo	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
ByteDance Seed 1.6	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
Qwen 3.6 35B	100	100	100	100	94	98.8%
GPT-4.1	100	100	100	100	94	98.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	94	98.8%
Gemma 4 31B	100	100	100	100	94	98.8%
GPT-5.4 Mini	100	100	100	100	94	98.8%
Ministral 3 3B	100	100	100	100	94	98.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	93	98.7%
Claude Opus 4	100	100	100	97	95	98.5%
Claude Sonnet 4	100	100	100	98	94	98.4%
Mistral Large 3	100	100	100	98	94	98.4%
Writer: Palmyra X5	100	100	100	98	93	98.3%
Mistral Small 4	100	100	100	99	93	98.3%
DeepSeek V4 Pro	100	100	100	96	94	98.1%
Mistral Medium 3.1	100	100	100	100	90	98.1%
Z.AI GLM 5.1	100	100	100	96	94	97.9%
GPT-5.4 Nano (Reasoning)	100	100	98	97	94	97.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	94	94	97.6%
GPT-5	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	88	97.6%
Gemma 4 31B (Reasoning)	100	100	100	94	94	97.6%
GPT-5.5	100	100	100	100	88	97.6%
Z.AI GLM 4.7	100	100	100	94	94	97.6%
Qwen 3.5 35B	100	100	100	94	94	97.6%
ByteDance Seed 2.0 Mini	100	100	100	100	88	97.6%
Qwen 3.5 Flash	100	100	100	94	94	97.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	94	94	97.6%
Z.AI GLM 4.7 Flash	100	100	100	94	94	97.6%
Nemotron 3 Super	100	100	100	100	88	97.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	88	97.6%
WizardLM 2 8x22b	100	100	100	94	94	97.6%
Ministral 3B	100	100	100	94	94	97.6%
Mistral Small 3.2 24B	100	100	100	100	88	97.5%
Aion 3.0 Mini	100	100	99	94	94	97.4%
Gemma 3 27B	100	100	100	99	88	97.4%
GPT-5.1	100	100	99	94	94	97.3%
DeepSeek V3 (2025-03-24)	100	100	98	94	94	97.2%
Qwen3 235B A22B Instruct 2507	100	100	100	93	92	97.1%
Claude Sonnet 4.5	100	100	99	94	93	97.1%
MiniMax M2.7	100	100	100	97	88	97.0%
Mistral Large 2	100	100	100	97	88	97.0%
Gemma 3 4B	100	100	96	94	94	96.9%
Grok 4.3	100	98	98	97	91	96.9%
Gemini 2.5 Flash Lite	100	100	100	93	90	96.7%
GPT-5.5 (Reasoning, Low)	100	100	94	94	94	96.4%
GPT-5 Mini	100	100	94	94	94	96.4%
Grok 4.5 (Reasoning, Low)	100	100	100	100	82	96.4%
GPT-5.4 (Reasoning, Low)	100	100	94	94	94	96.4%
MoonshotAI: Kimi K2.5	100	100	100	94	88	96.4%
GPT-5.2	100	100	94	94	94	96.4%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	88	96.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	88	96.4%
o4 Mini	100	100	94	94	94	96.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	94	96.4%
Grok 4.20	100	100	100	94	88	96.4%
Hermes 3 405B	100	100	100	94	88	96.4%
Qwen 3 32B	100	100	94	94	94	96.4%
Qwen 2.5 72B	100	100	100	94	88	96.4%
GPT-5.4 Nano	100	100	94	94	94	96.4%
GPT-4o, Aug. 6th (temp=1)	100	100	94	94	94	96.4%
MiniMax M3	100	100	99	94	88	96.3%
Gemma 3 12B	100	100	94	94	94	96.2%
MiniMax M2.5	100	100	99	91	91	96.2%
Cydonia 24B V4.1	100	100	97	96	89	96.2%
Claude Sonnet 4.6 (Reasoning)	100	100	94	94	91	95.7%
GPT-4.1 Mini	100	100	95	94	87	95.3%
Grok 4.5 (Reasoning, High)	100	100	100	94	82	95.2%
Qwen3.6 Max Preview	100	100	100	88	88	95.2%
Qwen 3.5 397B A17B	100	100	94	94	88	95.2%
GPT-5.4 Mini (Reasoning)	100	100	94	94	88	95.2%
Qwen 3.6 27B	100	100	94	94	88	95.2%
Z.AI GLM 4.6	100	100	94	94	88	95.2%
Gemma 4 26B	100	100	94	94	88	95.2%
ByteDance Seed 2.0 Lite	100	100	100	88	88	95.2%
DeepSeek V3.2	100	94	94	94	94	95.2%
GPT-5.4	100	100	94	94	88	95.1%
Z.AI GLM 4.5	100	100	94	93	88	94.9%
DeepSeek V3.1	100	98	94	94	88	94.9%
DeepSeek V3 (2024-12-26)	100	99	94	92	89	94.8%
Claude Haiku 4.5	100	100	96	91	85	94.5%
Mistral Small 4 (Reasoning)	100	100	100	99	72	94.2%
DeepSeek-V2 Chat	100	100	97	91	83	94.0%
Ministral 8B	100	94	94	92	90	94.0%
Gemma 4 26B (Reasoning)	94	94	94	94	94	94.0%
Aion 2.0	100	94	94	94	88	94.0%
Gemini 3.1 Flash Lite	100	100	94	88	88	94.0%
Claude Opus 4.7	95	94	94	94	93	93.9%
GPT-5 Nano	100	100	94	88	87	93.8%
GPT-5.4 (Reasoning)	96	94	94	94	88	93.3%
Ministral 3 14B	100	99	95	89	83	93.0%
Gemini 2.5 Pro	100	94	94	94	82	92.8%
Claude Opus 4.6 (Reasoning)	100	94	94	94	82	92.8%
Xiaomi MIMO v2.5	100	100	100	94	70	92.8%
Claude Sonnet 4.6	100	100	94	85	84	92.5%
Claude Opus 4.5	100	100	94	88	81	92.5%
Hermes 3 70B	94	94	93	89	88	91.7%
Qwen3.7 Max	94	94	94	94	82	91.6%
Qwen 3.6 Flash	100	94	88	88	88	91.6%
Gemini 2.5 Flash	100	94	94	88	82	91.6%
Z.AI GLM 5	95	94	91	89	88	91.5%
GPT-4.1 Nano	95	94	94	89	81	90.6%
Gemini 3 Flash (Preview, Reasoning)	100	94	94	88	76	90.4%
Gemini 3 Flash (Preview)	100	100	94	82	76	90.4%
Arcee AI: Trinity Mini	100	94	88	88	82	90.4%
Claude Opus 4.6	94	93	92	88	84	90.3%
Claude Sonnet 5 (Reasoning, Low)	94	91	89	89	87	90.1%
Claude Sonnet 5	100	100	87	87	73	89.4%
Gemini 2.5 Flash Lite (Reasoning)	100	92	88	87	79	89.1%
Claude Sonnet 5 (Reasoning)	97	96	82	80	79	86.8%
Xiaomi MIMO v2.5 Pro	94	94	88	82	70	85.6%
Gemini 2.5 Flash (Reasoning)	94	88	82	82	82	85.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	94	76	70	70	82.0%
Gemini 3.5 Flash (Reasoning)	94	88	82	82	60	81.2%
Gemini 3.1 Pro (Preview)	94	82	76	76	76	80.8%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	–	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	99.9%
ByteDance Seed 1.6 Flash	100	100	100	100	99	99.9%
GPT-5.4	100	100	100	100	98	99.6%
GPT-5.4 (Reasoning, Low)	100	100	99	99	98	99.2%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
GPT-5 Mini	100	100	100	100	94	98.8%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	94	98.8%
Qwen 3.6 35B	100	100	100	100	94	98.8%
Aion 2.0	100	100	100	100	94	98.8%
GPT-OSS 120B	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
Qwen 3 32B	100	100	100	100	94	98.8%
Hermes 3 70B	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	99	94	98.7%
Aion 3.0	100	100	100	99	94	98.6%
Llama 3.1 70B	100	100	100	99	94	98.6%
Z.AI GLM 4.7 Flash	100	100	100	100	92	98.5%
Mistral Medium 3.1	100	100	100	98	94	98.3%
Hermes 3 405B	100	100	100	98	94	98.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	92	98.3%
GPT-4.1	100	100	99	98	93	98.1%
Grok 4.3	100	100	100	96	94	98.1%
Z.AI GLM 4.5	100	100	98	98	94	98.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	89	97.9%
Grok 4.5 (Reasoning, High)	100	100	99	99	90	97.8%
Qwen3.6 Max Preview	100	100	100	100	88	97.6%
Claude Opus 4.6	100	100	100	94	94	97.6%
MoonshotAI: Kimi K2.5	100	100	100	94	94	97.6%
GPT-5.1	100	100	100	94	94	97.6%
ByteDance Seed 1.6	100	100	100	94	94	97.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	94	94	97.6%
o4 Mini High	100	100	100	94	94	97.6%
Qwen 3.5 Flash	100	100	100	94	94	97.6%
Z.AI GLM 4.5 Air	100	100	100	100	88	97.6%
Gemini 2.5 Flash Lite	100	100	100	95	92	97.3%
Z.AI GLM 5.1	100	100	99	94	94	97.3%
GPT-5.4 (Reasoning)	100	100	100	94	93	97.3%
Claude Opus 4.8 (Reasoning)	100	100	100	94	92	97.3%
Grok 4.20 (Reasoning)	100	100	100	100	86	97.3%
Xiaomi MIMO v2.5 Pro	100	100	100	98	88	97.2%
Cohere Command R+ (Aug. 2024)	100	100	100	100	86	97.2%
Grok 4.20	100	100	99	98	88	96.9%
Ministral 3 14B	100	100	99	94	92	96.9%
MiniMax M2.5	100	100	97	94	93	96.8%
MiniMax M2.7	100	100	100	95	89	96.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	92	91	96.6%
Claude Opus 4.6 (Reasoning)	100	100	98	94	91	96.6%
MiniMax M3	100	100	95	94	94	96.6%
GPT-5.4 Nano	100	100	96	93	93	96.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	94	88	96.4%
Qwen 3.5 122B	100	100	94	94	94	96.4%
Gemma 4 31B (Reasoning)	100	100	100	94	88	96.4%
GPT-5.5	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	94	88	96.4%
Gemini 3 Flash (Preview)	100	100	94	94	94	96.4%
Gemma 4 31B	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite	100	100	100	94	88	96.4%
Aion 3.0 Mini	100	100	94	94	94	96.4%
Nemotron 3 Nano	100	100	94	94	94	96.4%
Claude Opus 4.7 (Reasoning)	100	98	97	94	92	96.4%
GPT-5.4 Mini (Reasoning)	100	100	97	94	91	96.3%
Xiaomi MIMO v2.5	100	100	100	94	88	96.3%
DeepSeek V3 (2025-03-24)	100	99	97	94	91	96.2%
Z.AI GLM 5 Turbo	99	98	96	94	94	96.2%
DeepSeek V4 Flash	100	100	100	94	87	96.2%
Qwen 2.5 72B	100	100	99	94	88	96.1%
Gemma 4 26B (Reasoning)	100	98	94	94	94	96.1%
GPT-5.4 Mini (Reasoning, Low)	100	99	97	97	86	95.9%
Gemma 3 4B	100	100	96	93	88	95.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	95	94	88	95.4%
GPT-5.4 Nano (Reasoning)	100	99	94	93	91	95.3%
Claude Sonnet 4.5	99	97	96	94	90	95.3%
Qwen 3.5 397B A17B	100	94	94	94	94	95.2%
ByteDance Seed 2.0 Lite	100	100	100	94	82	95.2%
GPT-5.5 (Reasoning)	100	100	100	100	76	95.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	99	76	95.1%
GPT-4o Mini (temp=1)	100	100	95	94	86	95.0%
Ministral 3B	100	100	95	92	88	95.0%
GPT-5 Nano	100	100	100	94	81	94.9%
Claude Opus 4.5	100	98	94	94	88	94.8%
Ministral 3 3B	100	97	97	91	88	94.8%
Arcee AI: Trinity Mini	99	94	94	94	93	94.7%
Claude Sonnet 4.6 (Reasoning)	99	99	98	92	85	94.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	94	94	85	94.5%
DeepSeek-V2 Chat	100	99	96	89	88	94.3%
GPT-5.4 Mini	100	97	94	92	88	94.2%
Gemini 2.5 Pro	100	94	94	94	88	94.0%
Z.AI GLM 4.7	100	94	94	94	88	94.0%
GPT-4.1 Mini	100	94	93	92	91	94.0%
Claude Haiku 4.5	100	100	93	89	88	93.8%
Gemma 3 12B	100	100	97	92	79	93.7%
Writer: Palmyra X5	100	100	92	90	85	93.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	94	94	79	93.4%
Claude Opus 4.7	100	100	94	86	86	93.3%
DeepSeek V4 Pro	100	100	100	87	79	93.1%
Qwen 3.5 Plus (2026-02-15)	100	100	100	82	82	92.8%
Nemotron 3 Super	100	94	94	88	88	92.8%
Claude Sonnet 4.6	100	93	93	90	88	92.7%
Mistral Small 4 (Reasoning)	100	94	93	89	86	92.6%
DeepSeek V3.1	100	100	88	88	87	92.4%
Gemma 4 26B	100	100	94	88	79	92.2%
DeepSeek V3 (2024-12-26)	100	94	94	93	80	92.2%
Mistral Small 4	100	97	94	88	83	92.2%
Z.AI GLM 4.6	100	97	88	88	87	92.0%
Qwen3.7 Max	100	94	94	88	82	91.6%
Gemini 3.1 Flash Lite (Preview)	100	94	94	88	82	91.6%
WizardLM 2 8x22b	100	94	94	88	79	91.0%
Claude Sonnet 4	100	96	94	88	76	90.7%
Cydonia 24B V4.1	96	94	91	87	83	90.5%
Gemini 3.5 Flash (Reasoning, Minimal)	94	94	94	88	82	90.4%
DeepSeek V3.2	94	94	94	88	82	90.4%
Claude Opus 4	100	94	92	87	78	90.2%
GPT-4.1 Nano	95	93	89	87	82	89.5%
Claude Sonnet 5	100	97	89	87	71	88.8%
Qwen3 235B A22B Instruct 2507	100	96	92	78	74	88.2%
Claude Sonnet 5 (Reasoning)	100	91	85	83	82	88.1%
Gemini 3.1 Pro (Preview)	94	88	88	88	82	88.0%
Ministral 8B	97	88	85	85	84	87.9%
Ministral 3 8B	100	95	89	85	65	86.8%
Mistral Large 2	94	94	90	79	77	86.8%
Gemini 2.5 Flash	100	88	88	83	69	85.6%
Mistral Large 3	94	88	87	81	76	85.3%
Gemini 2.5 Flash (Reasoning)	100	94	86	75	71	85.2%
Gemma 3 27B	100	93	92	81	59	84.9%
Claude Sonnet 5 (Reasoning, Low)	91	88	85	80	78	84.4%
ByteDance Seed 2.0 Mini	99	88	75	70	70	80.3%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	99	99.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	98	99.6%
MiniMax M2.7	100	100	100	98	98	99.2%
GPT-5.4 Mini	100	100	100	100	96	99.1%
Claude Opus 4.6 (Reasoning)	100	100	100	100	94	98.8%
Grok 4.5 (Reasoning, High)	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning)	100	100	100	100	94	98.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
GPT-5 Mini	100	100	100	100	94	98.8%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.8%
GPT-5.4 (Reasoning, Low)	100	100	100	100	94	98.8%
Grok 4.20 (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 122B	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Gemma 4 31B (Reasoning)	100	100	100	100	94	98.8%
ByteDance Seed 1.6	100	100	100	100	94	98.8%
GPT-5.2	100	100	100	100	94	98.8%
GPT-5.5	100	100	100	100	94	98.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.6 35B	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	94	98.8%
GPT-5.4	100	100	100	100	94	98.8%
ByteDance Seed 2.0 Lite	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
DeepSeek V3.1	100	100	100	100	94	98.8%
DeepSeek V4 Pro	100	100	100	100	94	98.8%
Grok 4.3	100	100	100	100	94	98.8%
GPT-4o Mini (temp=1)	100	100	100	100	94	98.8%
Nemotron 3 Nano	100	100	100	100	94	98.8%
Qwen 2.5 72B	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	99	97	97	98.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	94	98.8%
GPT-5 Nano	100	100	100	99	94	98.7%
DeepSeek-V2 Chat	100	100	100	100	93	98.6%
GPT-5.4 Nano (Reasoning)	100	100	100	99	94	98.5%
Qwen3 235B A22B Instruct 2507	100	100	100	98	94	98.5%
Mistral Large 2	100	100	99	98	95	98.5%
GPT-4.1	100	100	100	98	94	98.4%
Claude Opus 4.8 (Reasoning)	100	100	100	98	94	98.4%
Claude Sonnet 4.5	100	100	100	100	92	98.4%
DeepSeek V3 (2025-03-24)	100	100	100	97	94	98.3%
MiniMax M3	100	100	100	97	94	98.1%
Hermes 3 70B	100	100	100	96	95	98.1%
Gemma 3 27B	100	100	99	95	94	97.7%
Z.AI GLM 5.1	100	100	100	94	94	97.6%
Qwen 3.5 397B A17B	100	100	100	94	94	97.6%
MoonshotAI: Kimi K2.5	100	100	100	100	88	97.6%
Gemini 2.5 Pro	100	100	100	100	88	97.6%
Gemma 4 26B	100	100	100	94	94	97.6%
Aion 3.0 Mini	100	100	100	100	88	97.6%
DeepSeek V3.2	100	100	100	94	94	97.6%
DeepSeek V4 Flash	100	100	100	100	88	97.6%
Gemini 3 Flash (Preview)	100	100	100	94	94	97.6%
Claude Haiku 4.5	100	100	100	97	91	97.5%
DeepSeek V3 (2024-12-26)	100	100	100	99	88	97.4%
Arcee AI: Trinity Mini	100	100	98	96	91	97.1%
Mistral Large 3	100	100	100	94	91	97.1%
Gemma 3 12B	100	100	99	94	91	97.0%
Cohere Command R+ (Aug. 2024)	100	100	100	96	88	96.9%
Ministral 3 8B	100	100	98	97	89	96.9%
Ministral 3 3B	100	100	100	94	89	96.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	98	85	96.5%
Mistral Small 4	100	100	98	94	91	96.5%
Z.AI GLM 5	100	100	99	96	87	96.4%
Qwen3.7 Max	100	100	94	94	94	96.4%
GPT-5.5 (Reasoning, Low)	100	100	100	94	88	96.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	94	94	94	96.4%
Xiaomi MIMO v2.5 Pro	100	100	94	94	94	96.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite	100	100	94	94	94	96.4%
Z.AI GLM 4.7 Flash	100	100	94	94	94	96.4%
WizardLM 2 8x22b	100	100	94	94	94	96.4%
GPT-5.4 Nano (Reasoning, Low)	100	97	97	94	94	96.3%
GPT-5.4 Mini (Reasoning, Low)	99	98	96	94	94	96.1%
GPT-5.4 Nano	100	98	97	93	93	96.1%
Z.AI GLM 4.6	100	98	94	94	94	96.0%
Claude Opus 4	100	100	94	94	91	95.8%
Qwen 3 32B	100	100	100	100	79	95.8%
Mistral NeMO	100	97	94	94	94	95.8%
Z.AI GLM 4.5	100	100	100	90	88	95.6%
Mistral Medium 3.1	100	100	100	90	89	95.6%
Z.AI GLM 4.5 Air	100	100	100	100	78	95.5%
Grok 4.20	100	100	100	100	78	95.5%
Writer: Palmyra X5	100	97	95	94	90	95.2%
Qwen 3.5 27B	100	100	94	94	88	95.2%
Qwen 3.5 35B	100	100	100	94	82	95.2%
Qwen 3.5 Plus (2026-02-15)	100	94	94	94	94	95.2%
ByteDance Seed 2.0 Mini	100	100	94	94	88	95.2%
Mistral Small 3.2 24B	100	94	94	94	94	95.2%
Claude Opus 4.5	100	100	98	94	84	95.1%
GPT-4o Mini (temp=0)	100	94	94	94	93	95.0%
Claude Sonnet 4.6 (Reasoning)	100	100	96	90	88	94.8%
Claude Sonnet 4	100	100	96	91	86	94.6%
Hermes 3 405B	100	98	94	91	90	94.6%
Claude Sonnet 5 (Reasoning)	100	100	94	93	85	94.5%
MiniMax M2.5	100	99	99	88	86	94.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	88	82	94.0%
Gemini 3.1 Pro (Preview)	100	94	94	94	88	94.0%
Gemini 3.5 Flash (Reasoning)	100	94	94	94	88	94.0%
Z.AI GLM 4.7	100	94	94	94	88	94.0%
Claude Sonnet 5 (Reasoning, Low)	100	99	98	86	86	93.9%
Aion 2.0	100	100	94	93	82	93.8%
Ministral 8B	100	100	91	89	89	93.8%
Llama 3.1 70B	100	94	94	92	88	93.6%
Ministral 3B	100	100	100	87	80	93.5%
Mistral Small 4 (Reasoning)	100	100	98	94	73	92.9%
Gemini 2.5 Flash (Reasoning)	100	99	94	86	83	92.5%
Gemini 2.5 Flash	100	94	94	90	80	91.6%
Claude Sonnet 4.6	95	93	90	89	88	90.9%
Gemma 3 4B	100	94	93	86	79	90.7%
Gemini 2.5 Flash Lite (Reasoning)	94	92	90	90	86	90.3%
Cydonia 24B V4.1	98	94	92	83	83	89.8%
Claude Sonnet 5	100	92	90	89	77	89.7%
Ministral 3 14B	100	100	97	86	65	89.5%
GPT-4.1 Mini	100	90	90	86	77	88.7%
Gemma 4 26B (Reasoning)	94	94	88	82	82	88.0%
Gemini 2.5 Flash Lite	100	98	94	78	69	87.7%
GPT-4.1 Nano	91	89	80	78	70	81.6%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	99.9%
MiniMax M2.7	100	100	100	100	99	99.9%
GPT-5.4 Mini	100	100	100	100	99	99.8%
GPT-4o Mini (temp=1)	100	100	100	100	99	99.8%
Writer: Palmyra X5	100	100	100	100	99	99.8%
Ministral 3 3B	100	100	100	100	99	99.8%
Ministral 3 14B	100	100	100	100	97	99.4%
Hermes 3 405B	100	100	100	100	96	99.3%
Ministral 8B	100	100	100	99	96	98.9%
Z.AI GLM 5.1	100	100	100	100	94	98.8%
GPT-5.5 (Reasoning)	100	100	100	100	94	98.8%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	94	98.8%
Z.AI GLM 5 Turbo	100	100	100	100	94	98.8%
Claude Opus 4.8 (Reasoning)	100	100	100	100	94	98.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.8%
GPT-5 Mini	100	100	100	100	94	98.8%
Grok 4.5 (Reasoning, Low)	100	100	100	100	94	98.8%
Grok 4.20 (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 27B	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	100	94	98.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Z.AI GLM 5	100	100	100	100	94	98.8%
GPT-5.5	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	94	98.8%
Gemma 4 26B (Reasoning)	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.8%
Claude Opus 4	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
GPT-4.1	100	100	100	100	94	98.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	94	98.8%
GPT-OSS 120B	100	100	100	100	94	98.8%
Mistral Large 3	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	94	98.8%
Nemotron 3 Super	100	100	100	100	94	98.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	94	98.8%
Z.AI GLM 4.5 Air	100	100	100	100	94	98.8%
GPT-5 Nano	100	100	100	100	94	98.8%
o4 Mini	100	100	100	99	94	98.7%
Qwen 2.5 72B	100	100	100	99	94	98.6%
Mistral NeMO	100	100	100	100	93	98.6%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	98	94	98.4%
Ministral 3 8B	100	100	100	97	94	98.2%
Claude Sonnet 5	100	100	100	98	93	98.2%
Claude Sonnet 4	100	100	98	98	94	98.1%
Mistral Small 4 (Reasoning)	100	100	100	96	95	98.1%
Z.AI GLM 4.6	100	100	100	100	90	98.1%
Z.AI GLM 4.5	100	100	100	100	90	98.0%
Qwen3 235B A22B Instruct 2507	100	100	99	97	94	98.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	88	97.6%
GPT-5.4 (Reasoning, Low)	100	100	100	94	94	97.6%
Claude Opus 4.5	100	100	100	94	94	97.6%
GPT-5.2	100	100	100	94	94	97.6%
Qwen 3.6 35B	100	100	100	94	94	97.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	94	94	97.6%
Xiaomi MIMO v2.5 Pro	100	100	100	100	88	97.6%
Gemini 3 Flash (Preview)	100	100	100	94	94	97.6%
Gemma 4 31B	100	100	100	94	94	97.6%
Gemma 4 26B	100	100	100	94	94	97.6%
DeepSeek V3.1	100	100	100	94	94	97.6%
DeepSeek V4 Pro	100	100	100	94	94	97.6%
Inception Mercury 2	100	100	100	94	94	97.6%
Mistral Large 2	100	100	100	94	94	97.6%
Grok 4.3	100	100	100	94	94	97.6%
Cohere Command R+ (Aug. 2024)	100	100	100	94	94	97.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	94	94	97.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	98	95	94	97.4%
Claude Haiku 4.5	100	100	100	94	93	97.4%
GPT-5.4 Nano (Reasoning)	100	100	100	98	88	97.2%
Hermes 3 70B	100	100	100	94	91	97.1%
Llama 3.1 70B	100	100	100	94	90	96.8%
Claude Sonnet 4.5	100	100	100	94	89	96.6%
Grok 4.5 (Reasoning, High)	100	100	100	94	88	96.4%
Claude Opus 4.6	100	100	94	94	94	96.4%
GPT-5.1	100	100	100	94	88	96.4%
Gemma 4 31B (Reasoning)	100	100	100	100	82	96.4%
Z.AI GLM 4.7	100	100	100	94	88	96.4%
Aion 2.0	100	100	94	94	94	96.4%
ByteDance Seed 2.0 Mini	100	100	94	94	94	96.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite	100	100	94	94	94	96.4%
GPT-5.4	100	100	100	94	88	96.4%
ByteDance Seed 2.0 Lite	100	100	100	94	88	96.4%
Z.AI GLM 4.7 Flash	100	100	100	94	88	96.4%
Grok 4.20	100	100	100	94	88	96.4%
GPT-4.1 Mini	100	100	95	94	93	96.4%
GPT-5.4 Nano	100	100	94	94	93	96.1%
DeepSeek V3 (2024-12-26)	100	99	94	94	94	96.1%
Gemini 2.5 Flash Lite	100	100	97	94	89	95.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	99	94	86	95.8%
DeepSeek V3 (2025-03-24)	100	100	94	93	91	95.6%
Gemma 3 27B	100	100	95	95	88	95.6%
Arcee AI: Trinity Mini	100	98	94	94	90	95.3%
Qwen3.7 Max	100	100	94	94	88	95.2%
Gemini 3.5 Flash (Reasoning)	100	100	94	94	88	95.2%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	88	88	95.2%
Mistral Medium 3.1	100	100	94	93	89	95.1%
Claude Sonnet 5 (Reasoning)	100	100	99	89	87	95.0%
DeepSeek-V2 Chat	99	96	94	94	88	94.2%
Gemini 3.1 Pro (Preview)	100	94	94	94	88	94.0%
DeepSeek V3.2	100	100	94	88	88	94.0%
Mistral Small 4	100	100	92	91	86	93.6%
Gemini 2.5 Flash (Reasoning)	100	100	94	91	82	93.4%
ByteDance Seed 1.6	100	100	100	88	76	92.8%
Gemini 2.5 Flash	100	94	91	91	88	92.7%
GPT-4.1 Nano	100	97	90	88	86	92.0%
Gemma 3 4B	97	95	94	87	82	91.2%
Cydonia 24B V4.1	94	94	94	89	82	90.5%
Gemma 3 12B	100	100	94	79	76	89.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	94	88	88	76	89.2%
Mistral Small 3.2 24B	100	100	88	88	59	87.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	99	99.9%
Mistral Large 2	100	100	100	100	99	99.8%
GPT-4o Mini (temp=1)	100	100	100	100	99	99.7%
Claude Opus 4.7	100	100	100	100	98	99.6%
DeepSeek V3 (2024-12-26)	100	100	100	100	98	99.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	97	99.5%
Claude Sonnet 4	100	100	100	99	98	99.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	97	99.4%
Qwen 3.6 Flash	100	100	100	100	97	99.3%
Z.AI GLM 5 Turbo	100	100	100	100	97	99.3%
Claude Haiku 4.5	100	100	100	99	98	99.3%
GPT-5.4 Nano	100	100	100	100	96	99.3%
Grok 4.20 (Reasoning)	100	100	100	100	96	99.2%
Z.AI GLM 5	100	100	100	100	95	99.1%
Grok 4.5 (Reasoning, Low)	100	100	100	98	97	99.1%
Hermes 3 70B	100	100	100	98	96	98.9%
GPT-5.5 (Reasoning)	100	100	100	100	94	98.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
GPT-5.5	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
Gemini 2.5 Pro	100	100	100	100	94	98.8%
Qwen 3.5 35B	100	100	100	100	94	98.8%
o4 Mini	100	100	100	100	94	98.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	94	98.8%
GPT-OSS 120B	100	100	100	100	94	98.8%
DeepSeek V4 Flash	100	100	100	100	94	98.8%
Nemotron 3 Super	100	100	100	100	94	98.8%
WizardLM 2 8x22b	100	100	100	100	94	98.8%
GPT-5.2	100	100	100	99	95	98.7%
Gemma 4 31B (Reasoning)	100	100	100	99	94	98.7%
Claude Opus 4.8 (Reasoning)	100	100	100	100	93	98.6%
Cohere Command R+ (Aug. 2024)	100	100	100	100	92	98.5%
DeepSeek V3 (2025-03-24)	100	100	100	100	92	98.3%
MiniMax M3	100	100	100	100	91	98.1%
GPT-5.4 Nano (Reasoning)	100	98	98	98	96	98.1%
Arcee AI: Trinity Mini	100	100	100	99	92	98.1%
Claude Opus 4.7 (Reasoning)	100	100	100	96	94	98.0%
MiniMax M2.5	100	100	98	97	95	98.0%
Gemini 3.1 Flash Lite	100	100	100	96	94	97.9%
Claude Opus 4.6	100	100	100	95	94	97.9%
Qwen 2.5 72B	100	100	100	100	88	97.7%
Claude Opus 4.6 (Reasoning)	100	100	100	94	94	97.6%
Qwen3.7 Max	100	100	100	94	94	97.6%
Grok 4.5 (Reasoning, High)	100	100	100	94	94	97.6%
Qwen3.6 Max Preview	100	100	100	100	88	97.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	94	97.6%
Aion 2.0	100	100	100	94	94	97.6%
Gemini 3 Flash (Preview)	100	100	100	100	88	97.6%
Nemotron 3 Nano	100	100	100	100	88	97.6%
ByteDance Seed 2.0 Lite	100	100	100	94	94	97.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	95	91	97.1%
GPT-5.4 (Reasoning)	100	100	97	94	94	97.0%
Z.AI GLM 5.1	100	100	97	95	92	96.7%
GPT-5.4	100	99	97	94	94	96.7%
GPT-5.4 (Reasoning, Low)	100	100	98	95	90	96.5%
Ministral 3 14B	100	100	99	94	89	96.5%
Grok 4.20	100	98	96	94	94	96.4%
Grok 4.3 (Reasoning)	100	100	100	94	88	96.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	94	88	96.4%
Z.AI GLM 4.7	100	100	100	94	88	96.4%
Xiaomi MIMO v2.5 Pro	100	100	100	94	88	96.4%
Xiaomi MIMO v2.5	100	100	94	94	94	96.4%
Mistral NeMO	100	100	94	94	94	96.4%
GPT-5.4 Mini (Reasoning)	100	100	98	92	91	96.2%
Ministral 3 8B	100	100	94	93	93	96.0%
Claude Opus 4	100	100	95	94	91	96.0%
Claude Sonnet 4.5	100	100	100	94	85	95.7%
Hermes 3 405B	100	100	100	94	85	95.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	78	95.7%
Llama 3.1 70B	100	100	94	94	90	95.6%
Gemini 2.5 Flash	100	100	94	92	92	95.6%
GPT-5.4 Mini	100	98	96	95	88	95.5%
Qwen3 235B A22B Instruct 2507	100	100	97	94	85	95.3%
Gemini 3.1 Flash Lite (Preview)	100	100	94	94	88	95.2%
Gemma 4 26B	100	94	94	94	94	95.2%
Z.AI GLM 4.7 Flash	100	100	94	94	88	95.2%
Mistral Small 4	100	98	97	94	86	95.0%
Mistral Small 4 (Reasoning)	100	100	93	92	89	94.9%
GPT-5.4 Nano (Reasoning, Low)	99	98	98	94	85	94.8%
Mistral Small 3.2 24B	95	95	94	94	94	94.5%
MiniMax M2.7	100	100	98	98	76	94.5%
DeepSeek-V2 Chat	100	100	94	93	85	94.4%
Z.AI GLM 4.5 Air	100	97	94	94	86	94.4%
GPT-5 Nano	100	100	94	92	86	94.3%
Mistral Medium 3.1	100	100	97	91	83	94.1%
Gemini 3.1 Pro (Preview)	100	94	94	94	88	94.0%
Gemma 4 26B (Reasoning)	100	94	94	94	88	94.0%
GPT-4.1 Mini	100	100	99	86	84	93.8%
Claude Sonnet 4.6	100	100	96	93	79	93.6%
Ministral 3 3B	100	96	95	94	83	93.5%
Claude Opus 4.5	100	97	94	90	86	93.5%
Z.AI GLM 4.6	100	100	94	91	82	93.4%
Ministral 8B	100	94	94	93	85	93.2%
Ministral 3B	100	100	100	88	77	93.1%
DeepSeek V3.1	98	94	94	92	87	93.0%
Gemini 2.5 Flash Lite	100	94	94	88	88	92.7%
GPT-4.1	100	94	94	94	80	92.5%
Gemma 3 12B	98	97	95	94	77	92.4%
Claude Sonnet 4.6 (Reasoning)	94	93	93	91	90	92.2%
Claude Sonnet 5 (Reasoning, Low)	100	99	92	87	81	91.7%
Writer: Palmyra X5	100	100	89	88	79	91.2%
Gemini 2.5 Flash Lite (Reasoning)	100	94	90	87	81	90.3%
Claude Sonnet 5	98	97	86	85	85	90.1%
Z.AI GLM 4.5	94	94	88	88	86	90.0%
Gemma 3 27B	98	94	94	90	73	89.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	97	94	82	76	89.8%
Gemini 2.5 Flash (Reasoning)	94	91	91	88	85	89.8%
Claude Sonnet 5 (Reasoning)	97	95	87	84	82	89.0%
Qwen 3 32B	100	100	90	86	62	87.7%
Gemini 3.5 Flash (Reasoning)	94	94	88	88	70	86.8%
Gemma 3 4B	100	99	76	72	68	83.1%
GPT-4.1 Nano	97	79	78	77	75	81.2%
Cydonia 24B V4.1	79	77	66	34	0	51.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Z.AI GLM 5.1	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	99	99.8%
Claude Haiku 4.5	100	100	100	100	98	99.6%
Hermes 3 70B	100	100	100	100	97	99.5%
Claude Sonnet 5	100	100	100	100	97	99.4%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	95	99.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.6	100	100	100	100	94	98.8%
Qwen 3.5 397B A17B	100	100	100	100	94	98.8%
MoonshotAI: Kimi K2.5	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	100	94	98.8%
GPT-5.2	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	94	98.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	94	98.8%
Aion 3.0	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
Z.AI GLM 4.7	100	100	100	100	94	98.8%
Z.AI GLM 4.6	100	100	100	100	94	98.8%
Claude Opus 4	100	100	100	100	94	98.8%
GPT-4.1	100	100	100	100	94	98.8%
MiniMax M2.5	100	100	100	100	94	98.8%
Aion 2.0	100	100	100	100	94	98.8%
MiniMax M2.7	100	100	100	100	94	98.8%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	94	98.8%
Xiaomi MIMO v2.5 Pro	100	100	100	100	94	98.8%
Mistral Large 3	100	100	100	100	94	98.8%
DeepSeek-V2 Chat	100	100	100	100	94	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
DeepSeek V3.1	100	100	100	100	94	98.8%
Inception Mercury 2	100	100	100	100	94	98.8%
Mistral Large 2	100	100	100	100	94	98.8%
Z.AI GLM 4.5 Air	100	100	100	100	94	98.8%
GPT-5 Nano	100	100	100	100	94	98.8%
Gemini 2.5 Flash Lite	100	100	100	100	94	98.8%
Grok 4.3	100	100	100	100	94	98.8%
GPT-4o Mini (temp=1)	100	100	100	100	94	98.8%
Mistral Small 3.2 24B	100	100	100	100	94	98.8%
GPT-4o Mini (temp=0)	100	100	100	100	94	98.8%
Gemma 3 27B	100	100	100	100	94	98.8%
Qwen 2.5 72B	100	100	100	100	94	98.8%
GPT-5.4 Nano	100	100	100	100	94	98.8%
ByteDance Seed 1.6 Flash	100	100	100	100	94	98.8%
Mistral NeMO	100	100	100	100	94	98.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	94	98.8%
Gemma 3 12B	100	100	100	100	94	98.7%
Hermes 3 405B	100	100	100	100	93	98.5%
Cohere Command R+ (Aug. 2024)	100	100	100	100	92	98.5%
Claude Sonnet 4.6	100	100	100	98	91	97.9%
Claude Opus 4.6 (Reasoning)	100	100	100	94	94	97.6%
Grok 4.5 (Reasoning, High)	100	100	100	94	94	97.6%
Z.AI GLM 5 Turbo	100	100	100	94	94	97.6%
GPT-5 Mini	100	100	100	94	94	97.6%
Grok 4.3 (Reasoning)	100	100	100	94	94	97.6%
GPT-5.4 (Reasoning, Low)	100	100	100	94	94	97.6%
GPT-5.1	100	100	100	94	94	97.6%
Qwen 3.5 27B	100	100	100	100	88	97.6%
Z.AI GLM 5	100	100	100	94	94	97.6%
Gemini 2.5 Pro	100	100	100	94	94	97.6%
Claude Sonnet 4	100	100	100	94	94	97.6%
Claude Sonnet 4.5	100	100	100	94	94	97.6%
Gemma 4 31B	100	100	100	94	94	97.6%
Z.AI GLM 4.5	100	100	100	94	94	97.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	94	94	97.6%
DeepSeek V3 (2024-12-26)	100	100	100	94	94	97.6%
Z.AI GLM 4.7 Flash	100	100	100	94	94	97.6%
GPT-5.4 Mini	100	100	100	94	94	97.6%
Writer: Palmyra X5	100	100	100	94	94	97.6%
Qwen3 235B A22B Instruct 2507	100	100	100	94	94	97.6%
Arcee AI: Trinity Mini	100	100	100	94	94	97.6%
Claude Sonnet 5 (Reasoning)	100	100	97	97	93	97.4%
Cydonia 24B V4.1	100	100	100	100	86	97.2%
Ministral 3 14B	100	100	100	100	86	97.2%
GPT-4.1 Nano	100	100	99	97	86	96.5%
Qwen3.6 Max Preview	100	100	100	94	88	96.4%
GPT-5.5 (Reasoning, Low)	100	100	100	94	88	96.4%
MiniMax M3	100	100	94	94	94	96.4%
GPT-5.4 Mini (Reasoning)	100	100	100	94	88	96.4%
Gemma 4 26B (Reasoning)	100	100	100	94	88	96.4%
o4 Mini	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	94	88	96.4%
Gemini 3.1 Flash Lite	100	100	94	94	94	96.4%
GPT-5.4	100	100	94	94	94	96.4%
Xiaomi MIMO v2.5	100	100	100	94	88	96.4%
Aion 3.0 Mini	100	100	94	94	94	96.4%
DeepSeek V4 Pro	100	100	100	94	88	96.4%
Nemotron 3 Super	100	100	100	94	88	96.4%
Grok 4.20	100	100	94	94	94	96.4%
Gemini 2.5 Flash	100	100	94	94	94	96.4%
Mistral Small 4 (Reasoning)	100	100	100	94	88	96.4%
Nemotron 3 Nano	100	100	100	94	88	96.4%
WizardLM 2 8x22b	100	100	100	94	88	96.4%
Mistral Medium 3.1	100	100	94	94	92	96.0%
Claude Opus 4.5	100	100	98	94	88	96.0%
GPT-5.4 (Reasoning)	100	100	94	94	88	95.2%
Grok 4.5 (Reasoning, Low)	100	100	94	94	88	95.2%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	94	82	95.2%
ByteDance Seed 1.6	100	100	100	88	88	95.2%
GPT-5.5	100	94	94	94	94	95.2%
Qwen 3.6 35B	100	100	100	88	88	95.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	94	94	94	94	95.2%
Gemma 4 26B	100	100	94	94	88	95.2%
DeepSeek V3.2	100	94	94	94	94	95.2%
GPT-5.4 Nano (Reasoning)	100	94	94	94	94	95.2%
Claude Sonnet 5 (Reasoning, Low)	100	99	96	94	84	94.6%
GPT-5	94	94	94	94	94	94.0%
Qwen 3.5 122B	100	100	94	88	88	94.0%
Gemma 4 31B (Reasoning)	100	100	100	94	76	94.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	94	88	88	94.0%
ByteDance Seed 2.0 Mini	100	94	94	94	88	94.0%
Gemini 2.5 Flash Lite (Reasoning)	100	94	94	94	88	94.0%
Qwen3.7 Max	100	94	94	94	82	92.8%
Qwen 3.5 Flash	100	100	94	94	76	92.8%
ByteDance Seed 2.0 Lite	100	100	94	88	82	92.8%
Gemini 3 Flash (Preview)	100	94	94	88	88	92.8%
Gemini 3.1 Pro (Preview)	100	94	94	88	82	91.6%
Gemini 3.5 Flash (Reasoning)	94	94	94	82	76	88.0%

Purple prose (modifier overload)

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets