AI-ism character names

Test: Bad Writing Habits

Avg. Score

98.8%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Ministral 3B	100.0%	$0.0001	8.1s	100%
2	Ministral 3 3B	100.0%	$0.0005	11.1s	100%
3	Ministral 3 14B	100.0%	$0.0007	11.7s	100%
4	Mistral Small 4	100.0%	$0.0014	18.2s	100%
5	Gemini 3 Flash (Preview)	100.0%	$0.0078	19.6s	100%
6	DeepSeek V3 (2025-03-24)	100.0%	$0.0014	39.4s	100%
7	Gemma 4 26B	100.0%	$0.0009	55.1s	100%
8	Ministral 8B	99.8%	$0.0004	10.4s	96%
9	Inception Mercury 2	99.8%	$0.0032	7.0s	96%
10	Gemini 3.1 Flash Lite (Reasoning)	99.8%	$0.0030	11.9s	96%
11	Gemini 3.1 Flash Lite	99.8%	$0.0030	12.1s	96%
12	Ministral 3 8B	99.8%	$0.0008	19.6s	96%
13	Z.AI GLM 4.7 Flash	100.0%	$0.0017	1.2m	100%
14	GPT-5.4 Nano (Reasoning, Low)	99.8%	$0.0055	20.6s	96%
15	Arcee AI: Trinity Mini	99.6%	$0.0003	9.2s	94%
16	GPT-4o Mini (temp=1)	99.8%	$0.0012	34.8s	96%
17	Gemini 3.1 Flash Lite (Preview)	99.6%	$0.0030	8.4s	94%
18	Gemini 3.5 Flash (Reasoning, Minimal)	99.8%	$0.018	12.0s	96%
19	Grok 4.5 (Reasoning, Low)	100.0%	$0.018	1.1m	100%
20	Mistral Medium 3.1	99.8%	$0.0048	36.5s	96%
21	Gemma 4 31B	100.0%	$0.0010	1.6m	100%
22	Gemini 2.5 Flash	99.6%	$0.0052	10.6s	94%
23	GPT-OSS 120B	100.0%	$0.0015	1.8m	100%
24	GPT-4o, Aug. 6th (temp=1)	99.8%	$0.018	24.4s	96%
25	DeepSeek V3 (2024-12-26)	99.8%	$0.0021	54.6s	96%
26	Gemini 2.5 Flash Lite	99.3%	$0.0009	9.5s	93%
27	GPT-5.4 Nano (Reasoning)	99.6%	$0.0061	24.5s	94%
28	GPT-5.4 Mini (Reasoning)	99.8%	$0.022	28.1s	96%
29	Nemotron 3 Nano	99.8%	$0.0010	1.1m	96%
30	GPT-5.4 Mini (Reasoning, Low)	99.6%	$0.015	16.8s	94%
31	GPT-5.4 Mini	99.6%	$0.015	16.8s	94%
32	GPT-4.1 Mini	99.3%	$0.0027	19.0s	93%
33	Hermes 3 70B	99.8%	$0.0010	1.2m	96%
34	Gemini 3 Flash (Preview, Reasoning)	99.6%	$0.012	30.1s	94%
35	Llama 3.1 70B	99.3%	$0.0015	29.4s	93%
36	Qwen 3 32B	99.6%	$0.0015	54.6s	94%
37	Mistral Large 3	99.3%	$0.0033	30.3s	93%
38	Qwen3 235B A22B Instruct 2507	99.6%	$0.0011	59.2s	94%
39	Cohere Command R+ (Aug. 2024)	99.8%	$0.020	52.5s	96%
40	Z.AI GLM 4.6	99.6%	$0.0065	51.5s	94%
41	GPT-4o, Aug. 6th (temp=0)	99.6%	$0.023	22.7s	94%
42	Qwen 3.5 Plus (2026-02-15)	99.3%	$0.0060	31.5s	93%
43	GPT-5 Nano	99.8%	$0.0042	1.4m	96%
44	GPT-5 Mini	99.6%	$0.0100	57.4s	94%
45	GPT-5.4 Nano	99.1%	$0.0057	26.3s	92%
46	DeepSeek-V2 Chat	99.3%	$0.0021	53.3s	93%
47	Qwen 2.5 72B	99.1%	$0.0010	36.7s	92%
48	Z.AI GLM 5.2 (Reasoning, High)	99.6%	$0.011	1.0m	94%
49	Hermes 3 405B	99.3%	$0.0032	53.2s	93%
50	Gemini 2.5 Flash (Reasoning)	99.1%	$0.011	21.5s	92%
51	Qwen 3.5 9B	99.6%	$0.0011	1.4m	94%
52	Nemotron 3 Super	99.6%	$0.0000	1.4m	94%
53	Gemini 3.5 Flash (Reasoning)	100.0%	$0.071	37.6s	100%
54	GPT-4.1 Nano	98.7%	$0.0007	13.3s	90%
55	Z.AI GLM 4.5	99.1%	$0.0051	42.1s	92%
56	Qwen 3.5 Flash	99.1%	$0.0025	47.5s	92%
57	o4 Mini High	99.6%	$0.025	47.2s	94%
58	Mistral Small 4 (Reasoning)	98.9%	$0.0022	30.2s	91%
59	Qwen 3.5 35B	99.6%	$0.018	1.0m	94%
60	Mistral Large 2	99.1%	$0.013	29.4s	92%
61	Gemini 2.5 Flash Lite (Reasoning)	98.9%	$0.0028	30.8s	91%
62	Gemma 4 26B (Reasoning)	99.8%	$0.0013	2.0m	96%
63	o4 Mini	99.3%	$0.015	25.7s	91%
64	Qwen 3.6 35B	99.3%	$0.0083	1.0m	93%
65	Writer: Palmyra X5	98.9%	$0.011	22.0s	91%
66	Z.AI GLM 4.7	99.6%	$0.010	1.4m	94%
67	Gemma 4 31B (Reasoning)	99.8%	$0.0014	2.2m	96%
68	DeepSeek V4 Flash (Reasoning)	98.7%	$0.0007	31.1s	90%
69	Qwen 3.5 122B	99.6%	$0.025	1.1m	94%
70	GPT-4o Mini (temp=0)	98.7%	$0.0012	34.8s	90%
71	Grok 4.3	98.7%	$0.0069	30.5s	90%
72	Qwen 3.6 Flash	99.1%	$0.010	41.4s	90%
73	Grok 4.5 (Reasoning, High)	99.8%	$0.030	1.6m	96%
74	DeepSeek V3.1	99.3%	$0.0020	1.8m	93%
75	Qwen 3.5 Plus (2026-04-20)	99.6%	$0.017	1.8m	94%
76	ByteDance Seed 1.6	99.8%	$0.013	2.5m	96%
77	Gemma 3 27B	98.4%	$0.0006	52.6s	89%
78	Aion 2.0	98.9%	$0.0064	1.3m	91%
79	Mistral NeMO	97.8%	$0.0005	10.1s	87%
80	WizardLM 2 8x22b	99.1%	$0.0026	1.8m	92%
81	Z.AI GLM 4.5 Air	98.7%	$0.0029	58.2s	88%
82	Grok 4.20 (Reasoning)	99.1%	$0.018	1.5m	92%
83	Claude Sonnet 5 (Reasoning, Low)	98.7%	$0.031	38.4s	90%
84	ByteDance Seed 2.0 Lite	99.3%	$0.012	2.2m	93%
85	Qwen 3.5 27B	99.3%	$0.020	1.6m	91%
86	Xiaomi MIMO v2.5	98.0%	$0.0054	31.8s	87%
87	Claude Sonnet 4.6 (Reasoning)	99.6%	$0.060	1.2m	94%
88	Cydonia 24B V4.1	98.0%	$0.0014	44.8s	87%
89	GPT-4.1	98.2%	$0.018	44.7s	89%
90	Claude Sonnet 4.6	98.4%	$0.031	39.3s	89%
91	Grok 4.3 (Reasoning)	99.3%	$0.021	2.3m	93%
92	Claude Sonnet 5 (Reasoning)	98.2%	$0.030	38.9s	89%
93	MiniMax M2.5	98.0%	$0.0034	1.3m	88%
94	DeepSeek V3.2	98.7%	$0.0014	1.9m	88%
95	Gemini 2.5 Pro	98.2%	$0.036	36.2s	89%
96	GPT-5.2	99.3%	$0.056	1.5m	93%
97	Gemini 3.1 Pro (Preview)	100.0%	$0.107	1.8m	100%
98	Qwen 3.5 397B A17B	99.3%	$0.014	3.0m	93%
99	Claude Opus 4.8 (Reasoning, Low)	98.9%	$0.071	41.9s	91%
100	ByteDance Seed 1.6 Flash	96.9%	$0.0013	27.3s	84%
101	MiniMax M3	99.1%	$0.0060	3.1m	92%
102	Qwen 3.6 27B	98.9%	$0.025	2.3m	91%
103	Claude Opus 4.7 (Reasoning)	98.7%	$0.076	32.0s	90%
104	GPT-5.4	98.7%	$0.049	1.4m	90%
105	Gemma 3 12B	96.4%	$0.0004	41.3s	85%
106	Xiaomi MIMO v2.5 Pro	97.1%	$0.0085	53.5s	85%
107	Claude Sonnet 5	97.1%	$0.027	33.5s	86%
108	GPT-5.4 (Reasoning, Low)	98.9%	$0.055	1.4m	89%
109	Claude Opus 4.7	98.2%	$0.069	30.4s	89%
110	Claude Opus 4.6	98.9%	$0.078	1.2m	91%
111	ByteDance Seed 2.0 Mini	99.8%	$0.0045	4.9m	96%
112	Z.AI GLM 5 Turbo	96.7%	$0.0081	33.2s	83%
113	MiniMax M2.7	97.3%	$0.0040	1.1m	83%
114	Qwen3.6 Max Preview	99.8%	$0.050	3.5m	96%
115	Grok 4.20	96.4%	$0.0093	45.7s	85%
116	Claude Opus 4.8 (Reasoning)	98.2%	$0.071	41.7s	89%
117	Claude Opus 4.6 (Reasoning)	99.1%	$0.088	1.4m	92%
118	Aion 3.0	97.3%	$0.024	1.0m	85%
119	Gemma 3 4B	95.6%	$0.0002	20.0s	83%
120	DeepSeek V4 Flash	96.4%	$0.0006	31.6s	81%
121	Claude Haiku 4.5	96.0%	$0.011	21.6s	82%
122	GPT-5.1	98.2%	$0.054	1.8m	89%
123	GPT-5.4 (Reasoning)	99.6%	$0.089	2.6m	94%
124	MoonshotAI: Kimi K2.5	98.7%	$0.019	3.2m	88%
125	DeepSeek V4 Pro (Reasoning)	98.4%	$0.015	3.1m	88%
126	Qwen3.7 Max	98.9%	$0.068	2.3m	91%
127	Aion 3.0 Mini	96.2%	$0.0053	1.2m	82%
128	Mistral Small 3.2 24B	99.6%	$0.0070	5.7m	94%
129	GPT-5	98.7%	$0.065	2.8m	90%
130	Claude Sonnet 4.5	95.8%	$0.035	38.1s	81%
131	Z.AI GLM 5.1	96.2%	$0.014	1.5m	80%
132	GPT-5.5 (Reasoning)	99.1%	$0.142	1.8m	92%
133	DeepSeek V4 Pro	95.1%	$0.0048	1.3m	79%
134	Claude Sonnet 4	94.4%	$0.032	43.7s	78%
135	Z.AI GLM 5	94.4%	$0.0084	1.2m	75%
136	MoonshotAI: Kimi K2.6	99.3%	$0.058	6.5m	93%
137	GPT-5.5	96.9%	$0.139	1.7m	84%
138	Claude Opus 4.5	94.7%	$0.070	53.4s	76%
139	GPT-5.5 (Reasoning, Low)	96.7%	$0.139	1.8m	83%
140	Claude Opus 4	90.0%	$0.209	1.4m	64%
98.78%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	80	96.0%
Grok 4.20 (Reasoning)	100	100	100	100	80	96.0%
Qwen 3.6 27B	100	100	100	100	80	96.0%
Claude Sonnet 4.5	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
GPT-5.4	100	100	100	100	80	96.0%
DeepSeek V3.2	100	100	100	100	80	96.0%
DeepSeek V4 Flash	100	100	100	100	80	96.0%
Hermes 3 405B	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
Cydonia 24B V4.1	100	100	100	100	80	96.0%
Hermes 3 70B	100	100	100	100	80	96.0%
GPT-5.5	100	100	100	100	60	92.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	80	96.0%
Qwen 3 32B	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Gemma 3 4B	100	100	100	100	80	96.0%
Claude Opus 4	100	100	100	80	80	92.0%
DeepSeek V4 Pro	100	100	100	100	40	88.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	80	96.0%
Qwen3.7 Max	100	100	100	100	80	96.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	80	96.0%
Grok 4.3 (Reasoning)	100	100	100	100	80	96.0%
GPT-5.1	100	100	100	100	80	96.0%
Claude Sonnet 4.6	100	100	100	100	80	96.0%
Gemma 4 26B (Reasoning)	100	100	100	100	80	96.0%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
Claude Sonnet 4	100	100	100	100	80	96.0%
Aion 2.0	100	100	100	100	80	96.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	80	96.0%
Claude Haiku 4.5	100	100	100	100	80	96.0%
DeepSeek V4 Pro	100	100	100	100	80	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	80	96.0%
Qwen 3 32B	100	100	100	100	80	96.0%
Writer: Palmyra X5	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
WizardLM 2 8x22b	100	100	100	100	80	96.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	80	80	92.0%
Z.AI GLM 5 Turbo	100	100	100	80	80	92.0%
Qwen 3.5 27B	100	100	100	100	60	92.0%
Z.AI GLM 5	100	100	100	80	80	92.0%
Qwen 3.6 Flash	100	100	100	100	60	92.0%
Qwen 3.5 35B	100	100	100	80	80	92.0%
Xiaomi MIMO v2.5 Pro	100	100	100	80	80	92.0%
Z.AI GLM 4.5	100	100	100	80	80	92.0%
Xiaomi MIMO v2.5	100	100	100	100	60	92.0%
Aion 3.0 Mini	100	100	100	80	80	92.0%
Z.AI GLM 4.5 Air	100	100	100	100	60	92.0%
ByteDance Seed 1.6 Flash	100	100	100	80	80	92.0%
Claude Opus 4.6	100	100	80	80	80	88.0%
Claude Sonnet 4.5	100	100	80	80	80	88.0%
MiniMax M2.5	100	100	80	80	80	88.0%
Z.AI GLM 5.1	100	100	80	60	60	80.0%
Claude Opus 4.5	80	80	80	80	80	80.0%
Claude Opus 4	100	80	80	60	60	76.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	80	96.0%
Grok 4.20 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 4.6	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	80	96.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	80	96.0%
GPT-5.2	100	100	100	100	80	96.0%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
Claude Sonnet 4.5	100	100	100	100	80	96.0%
GPT-4.1	100	100	100	100	80	96.0%
MiniMax M2.5	100	100	100	100	80	96.0%
o4 Mini	100	100	100	100	80	96.0%
MiniMax M2.7	100	100	100	100	80	96.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	80	96.0%
Z.AI GLM 4.5	100	100	100	100	80	96.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5	100	100	100	100	80	96.0%
DeepSeek V3.1	100	100	100	100	80	96.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	80	96.0%
Inception Mercury 2	100	100	100	100	80	96.0%
Nemotron 3 Super	100	100	100	100	80	96.0%
Z.AI GLM 4.5 Air	100	100	100	100	80	96.0%
GPT-5 Nano	100	100	100	100	80	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	80	96.0%
GPT-4o Mini (temp=0)	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	80	96.0%
Mistral NeMO	100	100	100	100	80	96.0%
Z.AI GLM 5 Turbo	100	100	100	80	80	92.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	60	92.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	80	80	92.0%
GPT-5	100	100	100	80	80	92.0%
MoonshotAI: Kimi K2.5	100	100	100	100	60	92.0%
GPT-5.1	100	100	100	80	80	92.0%
Claude Opus 4.7	100	100	100	80	80	92.0%
Aion 3.0	100	100	100	100	60	92.0%
Qwen 3.6 27B	100	100	100	80	80	92.0%
Claude Haiku 4.5	100	100	100	80	80	92.0%
DeepSeek V3.2	100	100	100	80	80	92.0%
Mistral Small 4 (Reasoning)	100	100	100	80	80	92.0%
Grok 4.3	100	100	100	80	80	92.0%
Cydonia 24B V4.1	100	100	100	100	60	92.0%
ByteDance Seed 1.6 Flash	100	100	100	80	80	92.0%
Claude Opus 4.8 (Reasoning)	100	100	80	80	80	88.0%
GPT-5.4 (Reasoning, Low)	100	100	100	80	60	88.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	80	60	88.0%
Qwen 3.5 Flash	100	100	80	80	80	88.0%
GPT-5.4 Nano	100	100	80	80	80	88.0%
Claude Opus 4.5	100	100	100	80	60	88.0%
Claude Sonnet 5	100	100	80	80	80	88.0%
Aion 3.0 Mini	100	100	80	80	80	88.0%
GPT-5.5	100	80	80	80	80	84.0%
Claude Opus 4	100	100	80	80	60	84.0%
Xiaomi MIMO v2.5 Pro	100	100	80	80	60	84.0%
DeepSeek V4 Pro	100	80	80	80	80	84.0%
DeepSeek V4 Flash	100	100	80	80	60	84.0%
Gemma 3 4B	100	80	80	80	80	84.0%
Z.AI GLM 5	100	100	100	60	40	80.0%
Grok 4.20	80	80	80	80	80	80.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	80	96.0%
GPT-5	100	100	100	100	80	96.0%
Grok 4.20 (Reasoning)	100	100	100	100	80	96.0%
MiniMax M3	100	100	100	100	80	96.0%
Qwen 3.6 Flash	100	100	100	100	80	96.0%
Aion 3.0	100	100	100	100	80	96.0%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
Claude Sonnet 5	100	100	100	100	80	96.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	80	96.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	80	96.0%
DeepSeek V4 Pro	100	100	100	100	80	96.0%
Mistral Large 2	100	100	100	100	80	96.0%
Grok 4.20	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
Cydonia 24B V4.1	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Gemma 3 4B	100	100	100	100	80	96.0%
Z.AI GLM 5.1	100	100	100	100	60	92.0%
MoonshotAI: Kimi K2.6	100	100	100	80	80	92.0%
Claude Sonnet 4	100	100	100	80	80	92.0%
Aion 3.0 Mini	100	100	100	80	80	92.0%
Z.AI GLM 5	100	100	80	80	80	88.0%
Claude Opus 4	100	80	60	40	20	60.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	80	96.0%
Gemma 4 31B (Reasoning)	100	100	100	100	80	96.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 4	100	100	100	100	80	96.0%
Claude Sonnet 5	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
Qwen 3.5 9B	100	100	100	100	80	96.0%
Aion 3.0 Mini	100	100	100	100	80	96.0%
Hermes 3 405B	100	100	100	100	80	96.0%
Mistral Small 4 (Reasoning)	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
MiniMax M2.7	100	100	100	100	60	92.0%
Gemma 3 4B	100	100	80	80	80	88.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	80	96.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	80	96.0%
Grok 4.3	100	100	100	100	80	96.0%
GPT-4.1	100	100	100	80	80	92.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 4.5	100	100	100	100	80	96.0%
DeepSeek V4 Pro	100	100	100	100	80	96.0%
Grok 4.20	100	100	100	100	80	96.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	80	96.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	80	96.0%
GPT-5	100	100	100	100	80	96.0%
GPT-5 Mini	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.7	100	100	100	100	80	96.0%
ByteDance Seed 1.6	100	100	100	100	80	96.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	80	96.0%
Z.AI GLM 4.7	100	100	100	100	80	96.0%
Z.AI GLM 4.6	100	100	100	100	80	96.0%
Aion 2.0	100	100	100	100	80	96.0%
MiniMax M2.7	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	80	96.0%
Qwen 3.5 9B	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5	100	100	100	100	80	96.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	80	96.0%
Mistral Small 4 (Reasoning)	100	100	100	100	80	96.0%
Mistral NeMO	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning)	100	100	100	80	80	92.0%
Aion 3.0	100	100	100	80	80	92.0%
Claude Sonnet 4.5	100	100	100	80	80	92.0%
Claude Sonnet 5	100	100	100	80	80	92.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	80	80	92.0%
Aion 3.0 Mini	100	100	100	100	60	92.0%
DeepSeek V4 Pro	100	100	100	80	80	92.0%
Z.AI GLM 4.5 Air	100	100	100	80	80	92.0%
Gemini 2.5 Flash Lite	100	100	100	80	80	92.0%
Z.AI GLM 5.1	100	100	100	80	60	88.0%
Claude Haiku 4.5	100	100	80	80	80	88.0%
Claude Opus 4.5	100	100	100	60	40	80.0%
Gemma 3 12B	80	80	80	80	80	80.0%
Claude Sonnet 4	100	80	80	60	60	76.0%
Claude Opus 4	100	80	60	60	40	68.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	80	96.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	80	96.0%
GPT-5.4 (Reasoning)	100	100	100	100	80	96.0%
Z.AI GLM 5.1	100	100	100	100	80	96.0%
Qwen3.6 Max Preview	100	100	100	100	80	96.0%
GPT-5.5 (Reasoning)	100	100	100	100	80	96.0%
GPT-5 Mini	100	100	100	100	80	96.0%
Grok 4.3 (Reasoning)	100	100	100	100	80	96.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	80	96.0%
GPT-5.1	100	100	100	100	80	96.0%
Claude Sonnet 4.6	100	100	100	100	80	96.0%
MiniMax M3	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	80	96.0%
Claude Opus 4.5	100	100	100	100	80	96.0%
GPT-5.2	100	100	100	100	80	96.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	80	96.0%
Qwen 3.6 27B	100	100	100	100	80	96.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 5	100	100	100	100	80	96.0%
MiniMax M2.7	100	100	100	100	80	96.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
ByteDance Seed 2.0 Mini	100	100	100	100	80	96.0%
Z.AI GLM 4.5	100	100	100	100	80	96.0%
GPT-5.4	100	100	100	100	80	96.0%
Mistral Large 3	100	100	100	100	80	96.0%
DeepSeek-V2 Chat	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5	100	100	100	100	80	96.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	80	96.0%
Nemotron 3 Super	100	100	100	100	80	96.0%
Hermes 3 405B	100	100	100	100	80	96.0%
Gemini 2.5 Flash	100	100	100	100	80	96.0%
GPT-5.4 Mini	100	100	100	100	80	96.0%
GPT-4o Mini (temp=1)	100	100	100	100	80	96.0%
GPT-4o Mini (temp=0)	100	100	100	100	80	96.0%
Mistral Medium 3.1	100	100	100	100	80	96.0%
Nemotron 3 Nano	100	100	100	100	80	96.0%
WizardLM 2 8x22b	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning)	100	100	100	80	80	92.0%
Qwen 3.5 397B A17B	100	100	100	80	80	92.0%
Claude Sonnet 4	100	100	100	100	60	92.0%
GPT-4.1	100	100	100	80	80	92.0%
Aion 3.0 Mini	100	100	100	80	80	92.0%
GPT-4.1 Mini	100	100	100	80	80	92.0%
Qwen3 235B A22B Instruct 2507	100	100	100	80	80	92.0%
Llama 3.1 70B	100	100	100	80	80	92.0%
Mistral Small 3.2 24B	100	100	100	80	80	92.0%
Qwen 2.5 72B	100	100	100	80	80	92.0%
GPT-4.1 Nano	100	100	100	80	80	92.0%
GPT-5.5 (Reasoning, Low)	100	100	80	80	80	88.0%
Claude Opus 4.7	100	100	80	80	80	88.0%
Z.AI GLM 5	100	100	100	80	60	88.0%
Aion 3.0	100	100	80	80	80	88.0%
Grok 4.3	100	100	80	80	80	88.0%
Mistral Large 2	100	100	80	80	80	88.0%
GPT-5.5	100	80	80	80	80	84.0%
Claude Sonnet 4.5	100	80	80	80	80	84.0%
Claude Opus 4	100	100	100	60	60	84.0%
Claude Haiku 4.5	100	100	80	80	60	84.0%
Grok 4.20	100	80	80	80	80	84.0%
ByteDance Seed 1.6 Flash	100	100	80	80	60	84.0%
Gemma 3 4B	100	80	80	80	80	84.0%
Z.AI GLM 5 Turbo	100	80	80	80	60	80.0%
DeepSeek V4 Pro	100	80	80	80	60	80.0%
DeepSeek V4 Flash	100	80	80	80	60	80.0%
Mistral NeMO	80	80	80	80	80	80.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	80	96.0%
MoonshotAI: Kimi K2.6	100	100	100	100	80	96.0%
GPT-5.1	100	100	100	100	80	96.0%
Claude Opus 4.7	100	100	100	100	80	96.0%
GPT-5.5	100	100	100	100	80	96.0%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
Claude Sonnet 4.5	100	100	100	100	80	96.0%
GPT-4.1	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
Mistral Large 3	100	100	100	100	80	96.0%
DeepSeek-V2 Chat	100	100	100	100	80	96.0%
Claude Haiku 4.5	100	100	100	100	80	96.0%
DeepSeek V3.1	100	100	100	100	80	96.0%
Mistral Small 4 (Reasoning)	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
Gemma 3 4B	100	100	100	100	80	96.0%
Qwen 3.6 35B	100	100	100	80	80	92.0%
Claude Sonnet 4	100	100	100	80	80	92.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	80	96.0%
Claude Sonnet 4.6	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	80	96.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	80	96.0%
ByteDance Seed 2.0 Lite	100	100	100	100	80	96.0%
Claude Haiku 4.5	100	100	100	100	80	96.0%
DeepSeek V4 Pro	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Gemma 3 4B	100	100	100	100	80	96.0%
Claude Opus 4	100	100	100	100	60	92.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
MiniMax M2.5	100	100	100	100	80	96.0%
Aion 2.0	100	100	100	100	80	96.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	80	96.0%
Gemini 3.1 Flash Lite	100	100	100	100	80	96.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	80	96.0%
Writer: Palmyra X5	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
Cydonia 24B V4.1	100	100	100	100	80	96.0%
Gemma 3 4B	100	100	100	100	80	96.0%
GPT-5.4	100	100	100	80	80	92.0%
DeepSeek V4 Flash	100	100	100	100	60	92.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	–	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	80	96.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.6	100	100	100	100	80	96.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	80	96.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.5	100	100	100	100	80	96.0%
Qwen 3.6 Flash	100	100	100	100	80	96.0%
Aion 3.0	100	100	100	100	80	96.0%
Qwen 3.6 27B	100	100	100	100	80	96.0%
Z.AI GLM 4.7	100	100	100	100	80	96.0%
Qwen 3.6 35B	100	100	100	100	80	96.0%
GPT-4.1	100	100	100	100	80	96.0%
MiniMax M2.5	100	100	100	100	80	96.0%
ByteDance Seed 2.0 Lite	100	100	100	100	80	96.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	80	96.0%
Gemini 2.5 Flash Lite	100	100	100	100	80	96.0%
Qwen 2.5 72B	100	100	100	100	80	96.0%
WizardLM 2 8x22b	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Ministral 3 8B	100	100	100	100	80	96.0%
Claude Opus 4.6 (Reasoning)	100	100	100	80	80	92.0%
Qwen3.7 Max	100	100	100	80	80	92.0%
MoonshotAI: Kimi K2.5	100	100	100	80	80	92.0%
Claude Sonnet 5 (Reasoning)	100	100	100	80	80	92.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	80	80	92.0%
Xiaomi MIMO v2.5	100	100	100	80	80	92.0%
Aion 3.0 Mini	100	100	100	80	80	92.0%
DeepSeek V4 Pro	100	100	100	80	80	92.0%
Gemma 3 12B	100	100	100	80	80	92.0%
Z.AI GLM 5 Turbo	100	100	100	80	60	88.0%
DeepSeek V4 Flash (Reasoning)	100	100	80	80	80	88.0%
Claude Sonnet 5	100	100	80	80	80	88.0%
Claude Haiku 4.5	100	100	100	80	60	88.0%
Claude Sonnet 4	100	100	80	80	80	88.0%
MiniMax M2.7	100	100	100	60	60	84.0%
Z.AI GLM 5	100	100	60	60	60	76.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	80	96.0%
Z.AI GLM 5 Turbo	100	100	100	100	80	96.0%
Claude Opus 4.6	100	100	100	100	80	96.0%
Qwen 3.5 397B A17B	100	100	100	100	80	96.0%
Grok 4.3 (Reasoning)	100	100	100	100	80	96.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	80	96.0%
MiniMax M3	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Qwen 3.5 122B	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	80	96.0%
Qwen 3.5 27B	100	100	100	100	80	96.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4.7	100	100	100	100	80	96.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	80	96.0%
GPT-5.2	100	100	100	100	80	96.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	80	96.0%
GPT-4.1	100	100	100	100	80	96.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
Qwen 3.5 Flash	100	100	100	100	80	96.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	80	96.0%
Mistral Large 3	100	100	100	100	80	96.0%
DeepSeek-V2 Chat	100	100	100	100	80	96.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	80	96.0%
DeepSeek V3.1	100	100	100	100	80	96.0%
DeepSeek V3.2	100	100	100	100	80	96.0%
GPT-4.1 Mini	100	100	100	100	80	96.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	80	96.0%
Gemini 2.5 Flash	100	100	100	100	80	96.0%
GPT-5.4 Mini	100	100	100	100	80	96.0%
Writer: Palmyra X5	100	100	100	100	80	96.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	80	96.0%
Llama 3.1 70B	100	100	100	100	80	96.0%
Gemma 3 27B	100	100	100	100	80	96.0%
Qwen 2.5 72B	100	100	100	100	80	96.0%
GPT-5.4 Nano	100	100	100	100	80	96.0%
WizardLM 2 8x22b	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Ministral 8B	100	100	100	100	80	96.0%
Claude Opus 4.7 (Reasoning)	100	100	100	80	80	92.0%
GPT-5	100	100	100	80	80	92.0%
MoonshotAI: Kimi K2.5	100	100	100	80	80	92.0%
GPT-5.5	100	100	100	80	80	92.0%
o4 Mini High	100	100	100	80	80	92.0%
Claude Sonnet 5	100	100	100	80	80	92.0%
MiniMax M2.5	100	100	100	80	80	92.0%
Aion 2.0	100	100	100	80	80	92.0%
o4 Mini	100	100	100	100	60	92.0%
MiniMax M2.7	100	100	100	80	80	92.0%
GPT-5.4	100	100	100	80	80	92.0%
Xiaomi MIMO v2.5	100	100	100	80	80	92.0%
Aion 3.0 Mini	100	100	100	100	60	92.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	80	80	92.0%
DeepSeek V4 Pro	100	100	100	80	80	92.0%
Arcee AI: Trinity Mini	100	100	100	80	80	92.0%
Gemma 3 4B	100	100	100	80	80	92.0%
GPT-5.1	100	100	80	80	80	88.0%
Claude Sonnet 4.6	100	100	80	80	80	88.0%
Gemini 2.5 Pro	100	100	80	80	80	88.0%
Claude Haiku 4.5	100	100	80	80	80	88.0%
Cydonia 24B V4.1	100	100	80	80	80	88.0%
Mistral NeMO	100	100	80	80	80	88.0%
Z.AI GLM 5.1	100	100	80	80	80	88.0%
Aion 3.0	100	100	80	80	80	88.0%
DeepSeek V4 Flash	100	100	80	80	60	84.0%
GPT-4o Mini (temp=0)	100	80	80	80	80	84.0%
GPT-4.1 Nano	100	80	80	80	80	84.0%
Z.AI GLM 5	100	80	80	80	60	80.0%
Claude Sonnet 4	100	100	80	60	60	80.0%
Grok 4.20	80	80	80	80	80	80.0%
GPT-5.5 (Reasoning, Low)	80	80	80	80	60	76.0%
Claude Sonnet 4.5	100	80	80	80	40	76.0%
Claude Opus 4.5	100	80	60	60	60	72.0%
Claude Opus 4	100	80	60	60	40	68.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	80	96.0%
GPT-5.5 (Reasoning)	100	100	100	100	80	96.0%
Z.AI GLM 5 Turbo	100	100	100	100	80	96.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	80	96.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	80	96.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	80	96.0%
Claude Opus 4	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	80	80	92.0%
GPT-5.5 (Reasoning, Low)	100	100	100	80	80	92.0%
Claude Opus 4.5	100	100	100	80	80	92.0%
DeepSeek V3.2	100	100	100	100	60	92.0%
Writer: Palmyra X5	100	100	100	80	80	92.0%
Claude Sonnet 4	100	100	80	80	80	88.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	80	96.0%
Z.AI GLM 5 Turbo	100	100	100	100	80	96.0%
MiniMax M3	100	100	100	100	80	96.0%
GPT-5.5	100	100	100	100	80	96.0%
MiniMax M2.5	100	100	100	100	80	96.0%
MiniMax M2.7	100	100	100	100	80	96.0%
Aion 3.0 Mini	100	100	100	100	80	96.0%
Z.AI GLM 4.5 Air	100	100	100	100	80	96.0%
Cydonia 24B V4.1	100	100	100	100	80	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	80	96.0%
Gemma 3 12B	100	100	100	80	80	92.0%
Gemma 3 4B	100	100	100	80	80	92.0%

AI-ism character names

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets