Cliché density

Test: Bad Writing Habits

Avg. Score

94.6%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Grok 4.3	100.0%	$0.0069	30.5s	100%
2	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.011	1.0m	100%
3	Gemini 3.1 Flash Lite	98.5%	$0.0030	12.1s	86%
4	Gemini 3.1 Flash Lite (Preview)	98.9%	$0.0030	8.4s	84%
5	Gemma 4 26B	99.6%	$0.0009	55.1s	93%
6	Xiaomi MIMO v2.5	99.3%	$0.0054	31.8s	90%
7	Gemini 3.1 Flash Lite (Reasoning)	98.9%	$0.0030	11.9s	84%
8	Gemini 3 Flash (Preview)	98.9%	$0.0078	19.6s	88%
9	Claude Sonnet 5 (Reasoning)	100.0%	$0.030	38.9s	100%
10	Z.AI GLM 5 Turbo	99.3%	$0.0081	33.2s	90%
11	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.031	38.4s	100%
12	ByteDance Seed 1.6 Flash	98.5%	$0.0013	27.3s	86%
13	Gemini 3 Flash (Preview, Reasoning)	99.3%	$0.012	30.1s	90%
14	Claude Sonnet 4.5	100.0%	$0.035	38.1s	100%
15	Gemini 3.5 Flash (Reasoning, Minimal)	98.9%	$0.018	12.0s	88%
16	Ministral 3 14B	97.4%	$0.0007	11.7s	82%
17	Claude Sonnet 5	99.6%	$0.027	33.5s	93%
18	Claude Haiku 4.5	98.9%	$0.011	21.6s	84%
19	Grok 4.20	98.9%	$0.0093	45.7s	88%
20	GPT-5 Mini	99.3%	$0.0100	57.4s	90%
21	Mistral Large 2	98.5%	$0.013	29.4s	86%
22	Mistral Small 4	97.0%	$0.0014	18.2s	81%
23	DeepSeek V3 (2025-03-24)	98.5%	$0.0014	39.4s	83%
24	Qwen 3 32B	98.5%	$0.0015	54.6s	86%
25	DeepSeek V4 Flash (Reasoning)	97.4%	$0.0007	31.1s	82%
26	Claude Sonnet 4.6	99.6%	$0.031	39.3s	93%
27	Writer: Palmyra X5	97.8%	$0.011	22.0s	83%
28	GPT-4.1 Mini	96.3%	$0.0027	19.0s	79%
29	Qwen 3.6 Flash	98.5%	$0.010	41.4s	83%
30	DeepSeek V4 Flash	98.1%	$0.0006	31.6s	77%
31	GPT-4o, Aug. 6th (temp=1)	97.8%	$0.018	24.4s	83%
32	Gemma 4 31B	99.3%	$0.0010	1.6m	90%
33	Qwen3 235B A22B Instruct 2507	97.8%	$0.0011	59.2s	83%
34	Arcee AI: Trinity Mini	95.6%	$0.0003	9.2s	75%
35	Claude Sonnet 4	99.3%	$0.032	43.7s	90%
36	MiniMax M2.5	98.5%	$0.0034	1.3m	86%
37	MiniMax M2.7	98.1%	$0.0040	1.1m	85%
38	DeepSeek V4 Pro	98.5%	$0.0048	1.3m	86%
39	Z.AI GLM 5	98.5%	$0.0084	1.2m	86%
40	Mistral Large 3	96.7%	$0.0033	30.3s	78%
41	Claude Opus 4.7	100.0%	$0.069	30.4s	100%
42	GPT-5.4 Mini	96.3%	$0.015	16.8s	79%
43	Aion 3.0 Mini	98.5%	$0.0053	1.2m	83%
44	Gemma 4 31B (Reasoning)	99.6%	$0.0014	2.2m	93%
45	GPT-4.1	97.8%	$0.018	44.7s	83%
46	Grok 4.5 (Reasoning, Low)	98.5%	$0.018	1.1m	86%
47	Gemma 4 26B (Reasoning)	99.3%	$0.0013	2.0m	90%
48	Qwen 3.5 9B	97.8%	$0.0011	1.4m	83%
49	Cydonia 24B V4.1	96.3%	$0.0014	44.8s	77%
50	Grok 4.3 (Reasoning)	100.0%	$0.021	2.3m	100%
51	Mistral Small 4 (Reasoning)	96.3%	$0.0022	30.2s	73%
52	GPT-5.4 Nano (Reasoning)	94.8%	$0.0061	24.5s	76%
53	Qwen 3.5 Flash	96.3%	$0.0025	47.5s	77%
54	GPT-5.4 Mini (Reasoning)	96.7%	$0.022	28.1s	80%
55	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.060	1.2m	100%
56	Grok 4.5 (Reasoning, High)	99.6%	$0.030	1.6m	93%
57	Aion 3.0	98.1%	$0.024	1.0m	85%
58	Mistral Medium 3.1	97.0%	$0.0048	36.5s	73%
59	Xiaomi MIMO v2.5 Pro	97.4%	$0.0085	53.5s	77%
60	Qwen 3.6 35B	97.0%	$0.0083	1.0m	79%
61	Gemini 2.5 Flash Lite (Reasoning)	94.4%	$0.0028	30.8s	73%
62	Z.AI GLM 5.1	98.1%	$0.014	1.5m	85%
63	Aion 2.0	96.7%	$0.0064	1.3m	80%
64	Grok 4.20 (Reasoning)	98.1%	$0.018	1.5m	85%
65	Z.AI GLM 4.5 Air	95.6%	$0.0029	58.2s	75%
66	Claude Opus 4.7 (Reasoning)	99.6%	$0.076	32.0s	93%
67	Z.AI GLM 4.7 Flash	96.7%	$0.0017	1.2m	76%
68	Claude Opus 4.8 (Reasoning)	99.6%	$0.071	41.7s	93%
69	Qwen 3.5 Plus (2026-02-15)	94.1%	$0.0060	31.5s	73%
70	Claude Opus 4.8 (Reasoning, Low)	99.6%	$0.071	41.9s	93%
71	Z.AI GLM 4.5	94.1%	$0.0051	42.1s	75%
72	GPT-5.4 Mini (Reasoning, Low)	94.4%	$0.015	16.8s	71%
73	Gemma 3 4B	93.3%	$0.0002	20.0s	65%
74	DeepSeek V3.1	96.7%	$0.0020	1.8m	80%
75	ByteDance Seed 2.0 Lite	98.5%	$0.012	2.2m	86%
76	Qwen 3.5 35B	96.7%	$0.018	1.0m	76%
77	Z.AI GLM 4.7	96.7%	$0.010	1.4m	78%
78	DeepSeek V3.2	96.7%	$0.0014	1.9m	80%
79	o4 Mini	94.1%	$0.015	25.7s	69%
80	Z.AI GLM 4.6	94.8%	$0.0065	51.5s	70%
81	Gemma 3 27B	93.7%	$0.0006	52.6s	69%
82	Gemini 2.5 Pro	96.3%	$0.036	36.2s	75%
83	GPT-5 Nano	95.6%	$0.0042	1.4m	73%
84	MiniMax M3	99.3%	$0.0060	3.1m	90%
85	GPT-5.4	98.5%	$0.049	1.4m	86%
86	Ministral 8B	91.1%	$0.0004	10.4s	59%
87	o4 Mini High	95.2%	$0.025	47.2s	71%
88	Qwen 3.5 122B	95.2%	$0.025	1.1m	75%
89	GPT-5.4 Nano (Reasoning, Low)	90.4%	$0.0055	20.6s	64%
90	Claude Opus 4.6	99.3%	$0.078	1.2m	90%
91	GPT-5.4 (Reasoning, Low)	98.1%	$0.055	1.4m	85%
92	Gemini 2.5 Flash Lite	91.1%	$0.0009	9.5s	57%
93	Ministral 3B	90.7%	$0.0001	8.1s	57%
94	Hermes 3 405B	92.6%	$0.0032	53.2s	64%
95	Claude Opus 4.5	97.8%	$0.070	53.4s	83%
96	MoonshotAI: Kimi K2.5	99.3%	$0.019	3.2m	90%
97	Claude Opus 4.6 (Reasoning)	99.6%	$0.088	1.4m	93%
98	Gemini 3.5 Flash (Reasoning)	97.0%	$0.071	37.6s	79%
99	Nemotron 3 Super	92.2%	$0.0000	1.4m	67%
100	Gemini 2.5 Flash (Reasoning)	90.0%	$0.011	21.5s	60%
101	Gemma 3 12B	90.7%	$0.0004	41.3s	58%
102	GPT-4o Mini (temp=1)	88.9%	$0.0012	34.8s	59%
103	GPT-5.4 Nano	87.0%	$0.0057	26.3s	61%
104	Ministral 3 8B	90.7%	$0.0008	19.6s	49%
105	WizardLM 2 8x22b	93.3%	$0.0026	1.8m	65%
106	ByteDance Seed 1.6	95.9%	$0.013	2.5m	74%
107	GPT-5.1	96.7%	$0.054	1.8m	80%
108	Qwen 3.5 Plus (2026-04-20)	93.3%	$0.017	1.8m	70%
109	Qwen 3.5 27B	93.0%	$0.020	1.6m	68%
110	GPT-4.1 Nano	86.3%	$0.0007	13.3s	51%
111	DeepSeek V4 Pro (Reasoning)	97.8%	$0.015	3.1m	76%
112	Qwen 3.6 27B	94.4%	$0.025	2.3m	75%
113	GPT-5	99.3%	$0.065	2.8m	90%
114	Gemini 3.1 Pro (Preview)	99.3%	$0.107	1.8m	90%
115	Gemini 2.5 Flash	84.4%	$0.0052	10.6s	46%
116	Qwen3.7 Max	96.7%	$0.068	2.3m	80%
117	GPT-5.4 (Reasoning)	98.9%	$0.089	2.6m	88%
118	Ministral 3 3B	85.6%	$0.0005	11.1s	40%
119	DeepSeek-V2 Chat	86.3%	$0.0021	53.3s	48%
120	Cohere Command R+ (Aug. 2024)	86.7%	$0.020	52.5s	55%
121	Qwen3.6 Max Preview	97.8%	$0.050	3.5m	83%
122	Hermes 3 70B	87.0%	$0.0010	1.2m	49%
123	DeepSeek V3 (2024-12-26)	86.3%	$0.0021	54.6s	46%
124	Qwen 3.5 397B A17B	93.0%	$0.014	3.0m	65%
125	GPT-5.5 (Reasoning)	99.3%	$0.142	1.8m	90%
126	GPT-5.5 (Reasoning, Low)	98.1%	$0.139	1.8m	85%
127	ByteDance Seed 2.0 Mini	96.3%	$0.0045	4.9m	71%
128	Mistral NeMO	78.1%	$0.0005	10.1s	36%
129	GPT-5.2	88.5%	$0.056	1.5m	59%
130	GPT-5.5	97.0%	$0.139	1.7m	81%
131	Nemotron 3 Nano	80.4%	$0.0010	1.1m	44%
132	MoonshotAI: Kimi K2.6	100.0%	$0.058	6.5m	100%
133	Claude Opus 4	99.3%	$0.209	1.4m	90%
134	GPT-OSS 120B	77.4%	$0.0015	1.8m	41%
135	Llama 3.1 70B	70.4%	$0.0015	29.4s	24%
136	Inception Mercury 2	64.1%	$0.0032	7.0s	24%
137	GPT-4o, Aug. 6th (temp=0)	68.1%	$0.023	22.7s	24%
138	GPT-4o Mini (temp=0)	63.7%	$0.0012	34.8s	18%
139	Qwen 2.5 72B	61.1%	$0.0010	36.7s	16%
140	Mistral Small 3.2 24B	52.4%	$0.0068	5.6m	9%
94.55%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	67	93.3%
MoonshotAI: Kimi K2.5	100	100	100	100	67	93.3%
o4 Mini High	100	100	100	100	67	93.3%
Qwen 3.6 27B	100	100	100	100	67	93.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.6 35B	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	100	67	93.3%
Xiaomi MIMO v2.5 Pro	100	100	100	100	67	93.3%
Qwen 3.5 Flash	100	100	100	100	67	93.3%
DeepSeek V3.1	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
Qwen 2.5 72B	100	100	100	100	67	93.3%
ByteDance Seed 1.6 Flash	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	67	86.7%
Mistral Large 3	100	100	100	67	67	86.7%
Qwen 3.5 9B	100	100	100	67	67	86.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	33	86.7%
Hermes 3 405B	100	100	100	100	33	86.7%
Mistral Small 4 (Reasoning)	100	100	100	67	67	86.7%
Llama 3.1 70B	100	100	100	100	33	86.7%
GPT-5.4 Nano	100	100	100	67	67	86.7%
Qwen 3.5 27B	100	100	100	100	33	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	33	86.7%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	67	33	80.0%
GPT-4o Mini (temp=0)	100	100	100	67	0	73.3%
Inception Mercury 2	100	67	67	33	33	60.0%
Mistral NeMO	100	67	67	67	0	60.0%
GPT-OSS 120B	100	100	67	0	0	53.3%
Mistral Small 3.2 24B	33	0	0	0	0	6.7%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.6 27B	100	100	100	100	67	93.3%
Z.AI GLM 4.6	100	100	100	100	67	93.3%
MiniMax M2.7	100	100	100	100	67	93.3%
Gemma 4 31B	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Mistral Large 2	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
GPT-5.4 Mini	100	100	100	100	67	93.3%
Qwen 3 32B	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
Llama 3.1 70B	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
Cydonia 24B V4.1	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
Hermes 3 70B	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	67	67	86.7%
Qwen 3.5 Flash	100	100	100	100	33	86.7%
GPT-4o Mini (temp=0)	100	100	100	67	67	86.7%
GPT-OSS 120B	100	100	100	100	0	80.0%
Inception Mercury 2	100	100	100	67	33	80.0%
Mistral NeMO	100	100	100	33	33	73.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	33	0	66.7%
GPT-4.1 Nano	100	100	67	67	0	66.7%
Qwen 2.5 72B	100	67	67	33	33	60.0%
Mistral Small 3.2 24B	100	100	33	0	0	46.7%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
Z.AI GLM 5.1	100	100	100	100	67	93.3%
Z.AI GLM 5 Turbo	100	100	100	100	67	93.3%
Claude Opus 4.6	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	100	67	93.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	67	93.3%
Gemma 4 26B (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.6 35B	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
Z.AI GLM 4.7 Flash	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
GPT-5 Nano	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite	100	100	100	100	67	93.3%
Qwen 3 32B	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Cydonia 24B V4.1	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
Gemini 3.5 Flash (Reasoning)	100	100	100	67	67	86.7%
GPT-5.2	100	100	100	67	67	86.7%
Qwen 3.6 27B	100	100	100	67	67	86.7%
Qwen 3.5 Flash	100	100	100	67	67	86.7%
Gemini 3.1 Flash Lite	100	100	100	67	67	86.7%
Z.AI GLM 4.5	100	100	100	67	67	86.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	67	67	86.7%
DeepSeek-V2 Chat	100	100	100	67	67	86.7%
GPT-5.4 Nano (Reasoning)	100	100	100	67	67	86.7%
Gemma 3 27B	100	100	100	67	67	86.7%
GPT-4.1 Nano	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	33	86.7%
Ministral 8B	100	100	100	67	67	86.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	33	86.7%
Z.AI GLM 4.6	100	100	67	67	67	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	67	33	80.0%
DeepSeek V4 Flash	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	67	67	67	80.0%
GPT-OSS 120B	100	100	67	67	33	73.3%
Gemini 2.5 Flash Lite (Reasoning)	100	67	67	67	67	73.3%
Ministral 3B	100	100	100	33	33	73.3%
Qwen 3.5 397B A17B	100	100	67	67	0	66.7%
o4 Mini High	100	100	67	33	33	66.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	33	0	66.7%
Nemotron 3 Nano	100	100	67	67	0	66.7%
Gemma 3 4B	100	100	67	67	0	66.7%
Mistral Small 3.2 24B	100	100	67	0	0	53.3%
Qwen 2.5 72B	100	67	67	33	0	53.3%
Ministral 3 3B	100	100	33	33	0	53.3%
Llama 3.1 70B	100	33	33	33	0	40.0%
Inception Mercury 2	67	33	33	33	0	33.3%
GPT-4o Mini (temp=0)	33	33	0	0	0	13.3%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	67	93.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	67	93.3%
ByteDance Seed 1.6	100	100	100	100	67	93.3%
GPT-5.2	100	100	100	100	67	93.3%
Gemini 2.5 Pro	100	100	100	100	67	93.3%
Qwen 3.6 27B	100	100	100	100	67	93.3%
Qwen 3.6 35B	100	100	100	100	67	93.3%
Z.AI GLM 4.6	100	100	100	100	67	93.3%
Qwen 3.5 35B	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
MiniMax M2.5	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Mini	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
GPT-OSS 120B	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
Claude Haiku 4.5	100	100	100	100	67	93.3%
Mistral Large 2	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
GPT-5.4 Mini	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Hermes 3 70B	100	100	100	100	67	93.3%
Arcee AI: Trinity Mini	100	100	100	100	67	93.3%
Qwen 3.5 397B A17B	100	100	100	100	33	86.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	67	67	86.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	33	86.7%
Nemotron 3 Super	100	100	100	67	67	86.7%
GPT-5 Nano	100	100	100	67	67	86.7%
GPT-5.4 Nano	100	100	100	67	67	86.7%
ByteDance Seed 1.6 Flash	100	100	100	67	67	86.7%
o4 Mini High	100	100	100	67	33	80.0%
GPT-4o, Aug. 6th (temp=0)	100	67	67	67	67	73.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	67	67	33	73.3%
Cohere Command R+ (Aug. 2024)	100	100	67	67	33	73.3%
Inception Mercury 2	100	100	67	67	0	66.7%
Llama 3.1 70B	100	67	67	67	33	66.7%
GPT-4o Mini (temp=0)	67	67	33	33	0	40.0%
Qwen 2.5 72B	100	33	33	33	0	40.0%
Mistral Small 3.2 24B	100	33	0	0	0	26.7%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	67	93.3%
Claude Opus 4.6	100	100	100	100	67	93.3%
GPT-5 Mini	100	100	100	100	67	93.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	67	93.3%
Grok 4.20 (Reasoning)	100	100	100	100	67	93.3%
MiniMax M3	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	67	93.3%
ByteDance Seed 1.6	100	100	100	100	67	93.3%
o4 Mini High	100	100	100	100	67	93.3%
Claude Sonnet 5	100	100	100	100	67	93.3%
Claude Opus 4	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
MiniMax M2.5	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	100	67	93.3%
GPT-5.4	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
Mistral Large 2	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Grok 4.20	100	100	100	100	67	93.3%
Hermes 3 405B	100	100	100	100	67	93.3%
GPT-5 Nano	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	67	93.3%
Mistral Medium 3.1	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
Qwen 3.5 397B A17B	100	100	100	100	33	86.7%
Qwen 3.5 27B	100	100	100	67	67	86.7%
Qwen 3.6 27B	100	100	100	67	67	86.7%
Qwen 3.5 35B	100	100	100	100	33	86.7%
MiniMax M2.7	100	100	100	67	67	86.7%
Qwen 3.5 Plus (2026-02-15)	100	100	100	67	67	86.7%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	33	86.7%
Qwen 3.5 Flash	100	100	100	67	67	86.7%
Z.AI GLM 4.5	100	100	100	67	67	86.7%
GPT-4o Mini (temp=1)	100	100	100	67	67	86.7%
GPT-5.4 Nano	100	100	100	67	67	86.7%
Gemma 3 4B	100	100	100	67	67	86.7%
Mistral NeMO	100	100	100	100	33	86.7%
Qwen 3.6 Flash	100	100	100	67	33	80.0%
Qwen 3.6 35B	100	100	100	67	33	80.0%
o4 Mini	100	100	100	67	33	80.0%
GPT-OSS 120B	100	100	100	67	33	80.0%
Mistral Large 3	100	100	100	67	33	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	67	33	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	67	33	80.0%
Gemini 2.5 Flash	100	100	100	67	33	80.0%
Hermes 3 70B	100	100	100	67	33	80.0%
GPT-5.2	100	100	67	67	33	73.3%
DeepSeek-V2 Chat	100	100	67	67	33	73.3%
Z.AI GLM 4.7 Flash	100	100	100	33	33	73.3%
GPT-4o, Aug. 6th (temp=0)	100	100	67	67	33	73.3%
Qwen 2.5 72B	100	100	100	67	0	73.3%
Ministral 3 3B	100	100	100	67	0	73.3%
Inception Mercury 2	100	100	67	33	33	66.7%
Gemma 3 12B	100	100	67	33	33	66.7%
Gemma 3 27B	100	100	67	33	33	66.7%
GPT-4.1 Nano	100	100	100	33	0	66.7%
Ministral 8B	100	67	67	67	33	66.7%
Llama 3.1 70B	100	67	67	33	33	60.0%
Gemini 2.5 Flash (Reasoning)	100	67	67	33	33	60.0%
Ministral 3 8B	100	100	100	0	0	60.0%
Nemotron 3 Nano	100	67	67	33	0	53.3%
Gemini 2.5 Flash Lite	100	67	33	33	0	46.7%
Mistral Small 3.2 24B	67	0	0	0	0	13.3%
GPT-4o Mini (temp=0)	67	0	0	0	0	13.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	67	93.3%
ByteDance Seed 1.6	100	100	100	100	67	93.3%
Aion 3.0	100	100	100	100	67	93.3%
Claude Sonnet 4	100	100	100	100	67	93.3%
Qwen 3.5 35B	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	67	93.3%
Xiaomi MIMO v2.5 Pro	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Lite	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
Qwen 3.5 9B	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Grok 4.20	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
GPT-5 Nano	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite	100	100	100	100	67	93.3%
Qwen 3 32B	100	100	100	100	67	93.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
Ministral 3 3B	100	100	100	100	67	93.3%
GPT-5.2	100	100	100	67	67	86.7%
Gemma 3 12B	100	100	100	100	33	86.7%
Gemma 3 27B	100	100	100	100	33	86.7%
Ministral 3 8B	100	100	100	100	33	86.7%
Ministral 8B	100	100	100	100	33	86.7%
Ministral 3B	100	100	100	100	33	86.7%
GPT-4o, Aug. 6th (temp=0)	100	100	67	67	67	80.0%
GPT-4o Mini (temp=1)	100	100	100	100	0	80.0%
GPT-4.1 Nano	100	100	67	67	67	80.0%
GPT-OSS 120B	100	67	67	67	67	73.3%
Nemotron 3 Nano	100	100	100	33	0	66.7%
Cohere Command R+ (Aug. 2024)	100	100	67	67	0	66.7%
Mistral Small 3.2 24B	100	100	67	33	0	60.0%
GPT-4o Mini (temp=0)	100	100	67	33	0	60.0%
Inception Mercury 2	100	67	67	0	0	46.7%
Llama 3.1 70B	100	67	67	0	0	46.7%
Qwen 2.5 72B	100	33	33	0	0	33.3%
Mistral NeMO	100	33	0	0	0	26.7%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
Qwen3.6 Max Preview	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning)	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	100	67	93.3%
Claude Sonnet 4.6	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	67	93.3%
Z.AI GLM 5	100	100	100	100	67	93.3%
GPT-5.2	100	100	100	100	67	93.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.6 35B	100	100	100	100	67	93.3%
Z.AI GLM 4.6	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	67	93.3%
Gemini 3 Flash (Preview)	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
Mistral Large 3	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Hermes 3 405B	100	100	100	100	67	93.3%
GPT-5.4 Mini	100	100	100	100	67	93.3%
Qwen 3 32B	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
Llama 3.1 70B	100	100	100	100	67	93.3%
Mistral Small 3.2 24B	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Mistral Small 4 (Reasoning)	100	100	100	100	33	86.7%
Qwen3 235B A22B Instruct 2507	100	100	100	67	67	86.7%
Hermes 3 70B	100	100	100	100	33	86.7%
Ministral 8B	100	100	100	67	67	86.7%
Ministral 3B	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	33	86.7%
ByteDance Seed 2.0 Mini	100	100	100	67	33	80.0%
GPT-OSS 120B	100	100	67	67	67	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	67	33	80.0%
GPT-4o Mini (temp=0)	100	100	67	67	67	80.0%
Qwen 2.5 72B	100	100	100	67	33	80.0%
Mistral NeMO	100	100	67	67	67	80.0%
GPT-5.5	100	67	67	67	67	73.3%
DeepSeek V3 (2024-12-26)	100	67	67	67	67	73.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	67	0	73.3%
Inception Mercury 2	100	100	100	67	0	73.3%
Nemotron 3 Nano	100	100	67	67	33	73.3%
Ministral 3 8B	100	100	100	67	0	73.3%
Ministral 3 3B	100	100	100	67	0	73.3%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	67	93.3%
Qwen3.6 Max Preview	100	100	100	100	67	93.3%
MiniMax M3	100	100	100	100	67	93.3%
GPT-5.5	100	100	100	100	67	93.3%
Gemini 2.5 Pro	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
DeepSeek V4 Pro	100	100	100	100	67	93.3%
Inception Mercury 2	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
Mistral Small 4 (Reasoning)	100	100	100	100	67	93.3%
Gemma 3 12B	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	100	67	93.3%
Hermes 3 70B	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
GPT-5	100	100	100	67	67	86.7%
GPT-5.1	100	100	100	67	67	86.7%
Mistral Small 3.2 24B	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	67	67	86.7%
GPT-OSS 120B	100	100	100	67	33	80.0%
GPT-4o Mini (temp=0)	100	100	67	67	67	80.0%
Nemotron 3 Nano	100	100	67	67	67	80.0%
Qwen 2.5 72B	100	100	100	67	33	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	67	67	33	73.3%
Ministral 3 3B	100	100	100	67	0	73.3%
Mistral NeMO	100	100	100	33	33	73.3%
Llama 3.1 70B	100	67	67	67	33	66.7%
GPT-4.1 Nano	100	67	67	33	33	60.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	67	93.3%
Qwen3.7 Max	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning)	100	100	100	100	67	93.3%
Qwen3.6 Max Preview	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
Gemma 4 31B (Reasoning)	100	100	100	100	67	93.3%
Claude Opus 4.5	100	100	100	100	67	93.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	67	93.3%
Gemini 2.5 Pro	100	100	100	100	67	93.3%
Xiaomi MIMO v2.5 Pro	100	100	100	100	67	93.3%
Gemini 3 Flash (Preview)	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Lite	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
Writer: Palmyra X5	100	100	100	100	67	93.3%
Gemma 3 27B	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
Qwen 3.5 397B A17B	100	100	100	67	67	86.7%
GPT-5.4 Mini (Reasoning)	100	100	100	67	67	86.7%
DeepSeek V4 Flash (Reasoning)	100	100	100	67	67	86.7%
Z.AI GLM 4.6	100	100	100	100	33	86.7%
Qwen 3.5 35B	100	100	100	67	67	86.7%
Aion 2.0	100	100	100	67	67	86.7%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	33	86.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	67	67	86.7%
DeepSeek V3.1	100	100	100	67	67	86.7%
Nemotron 3 Super	100	100	100	67	67	86.7%
GPT-4o Mini (temp=1)	100	100	100	100	33	86.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	67	67	86.7%
Cydonia 24B V4.1	100	100	100	67	67	86.7%
WizardLM 2 8x22b	100	100	100	67	67	86.7%
Gemma 3 4B	100	100	100	67	67	86.7%
Ministral 3 3B	100	100	100	100	33	86.7%
Mistral Medium 3.1	100	100	100	100	33	86.7%
GPT-5.4 Nano (Reasoning)	100	100	67	67	67	80.0%
Qwen 3.5 27B	100	100	67	67	67	80.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	33	80.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	67	33	80.0%
GPT-OSS 120B	100	100	100	100	0	80.0%
Aion 3.0 Mini	100	100	100	67	33	80.0%
Inception Mercury 2	100	100	100	67	33	80.0%
Hermes 3 405B	100	100	100	67	33	80.0%
Nemotron 3 Nano	100	100	100	67	33	80.0%
GPT-4.1 Nano	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	67	0	73.3%
GPT-5.4 Nano	100	67	67	67	67	73.3%
GPT-5.2	67	67	67	67	67	66.7%
GPT-4o Mini (temp=0)	100	100	67	67	0	66.7%
Gemma 3 12B	100	67	67	67	33	66.7%
Hermes 3 70B	100	100	67	67	0	66.7%
Mistral Small 3.2 24B	100	100	100	0	0	60.0%
Gemini 2.5 Flash	67	67	33	33	0	40.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	67	93.3%
MoonshotAI: Kimi K2.5	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	100	67	93.3%
o4 Mini High	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Lite	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
Gemma 3 12B	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Hermes 3 70B	100	100	100	100	67	93.3%
Mistral NeMO	100	100	100	100	67	93.3%
Gemini 3.5 Flash (Reasoning)	100	100	100	67	67	86.7%
GPT-5.2	100	100	100	100	33	86.7%
Z.AI GLM 4.5	100	100	100	67	67	86.7%
DeepSeek V3.1	100	100	100	67	67	86.7%
Hermes 3 405B	100	100	100	67	67	86.7%
Gemini 2.5 Flash	100	100	100	67	67	86.7%
GPT-5.4 Mini	100	100	100	67	67	86.7%
GPT-5 Nano	100	100	100	100	33	86.7%
GPT-5.4 Nano (Reasoning)	100	100	100	67	67	86.7%
Writer: Palmyra X5	100	100	100	67	67	86.7%
GPT-5.4 Mini (Reasoning)	100	100	67	67	67	80.0%
ByteDance Seed 1.6	100	100	100	67	33	80.0%
Gemini 2.5 Pro	100	100	100	67	33	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	67	33	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	67	67	67	80.0%
Nemotron 3 Super	100	100	100	67	33	80.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	67	67	67	80.0%
Nemotron 3 Nano	100	100	67	67	67	80.0%
GPT-5.4 Nano	100	100	67	67	67	80.0%
Cohere Command R+ (Aug. 2024)	100	100	67	67	67	80.0%
Ministral 3 3B	100	100	100	67	33	80.0%
Llama 3.1 70B	100	100	67	67	33	73.3%
GPT-4o Mini (temp=0)	100	67	67	67	67	73.3%
WizardLM 2 8x22b	100	100	67	67	33	73.3%
Ministral 8B	100	100	100	33	33	73.3%
GPT-OSS 120B	100	67	33	33	33	53.3%
Inception Mercury 2	67	67	67	67	0	53.3%
Qwen 2.5 72B	100	67	67	33	0	53.3%
Mistral Small 3.2 24B	100	33	33	0	0	33.3%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	100	67	93.3%
GPT-5.5	100	100	100	100	67	93.3%
Qwen 3.6 Flash	100	100	100	100	67	93.3%
Aion 3.0	100	100	100	100	67	93.3%
Z.AI GLM 4.6	100	100	100	100	67	93.3%
Qwen 3.5 35B	100	100	100	100	67	93.3%
MiniMax M2.5	100	100	100	100	67	93.3%
MiniMax M2.7	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
GPT-OSS 120B	100	100	100	100	67	93.3%
Mistral Large 3	100	100	100	100	67	93.3%
Qwen 3.5 9B	100	100	100	100	67	93.3%
DeepSeek V3 (2024-12-26)	100	100	100	100	67	93.3%
DeepSeek V3.1	100	100	100	100	67	93.3%
Z.AI GLM 4.7 Flash	100	100	100	100	67	93.3%
DeepSeek V4 Pro	100	100	100	100	67	93.3%
DeepSeek V4 Flash	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Mistral Large 2	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite	100	100	100	100	67	93.3%
Writer: Palmyra X5	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-4o Mini (temp=0)	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
Cydonia 24B V4.1	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Arcee AI: Trinity Mini	100	100	100	100	67	93.3%
Gemma 3 4B	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	67	67	86.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	67	86.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	33	86.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	67	67	86.7%
Mistral Small 3.2 24B	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	67	67	86.7%
Ministral 3 3B	100	100	100	67	67	86.7%
GPT-5.2	100	100	100	100	33	86.7%
Ministral 3B	100	100	100	100	33	86.7%
Z.AI GLM 5	100	100	67	67	67	80.0%
Qwen 3.6 27B	100	100	67	67	67	80.0%
Gemma 3 27B	100	100	67	67	67	80.0%
Claude Opus 4.5	100	100	67	67	67	80.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	0	80.0%
Gemini 2.5 Pro	100	100	100	67	33	80.0%
Z.AI GLM 4.7	100	100	67	67	67	80.0%
Qwen 3.5 Plus (2026-02-15)	100	100	67	67	67	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	67	33	80.0%
Z.AI GLM 4.5 Air	100	100	100	67	33	80.0%
Llama 3.1 70B	100	100	67	67	33	73.3%
Gemma 3 12B	100	100	100	67	0	73.3%
WizardLM 2 8x22b	100	100	67	67	33	73.3%
Ministral 3 8B	100	100	67	67	33	73.3%
GPT-4o, Aug. 6th (temp=0)	100	100	67	33	33	66.7%
GPT-4o Mini (temp=1)	100	100	67	33	33	66.7%
Ministral 8B	100	100	67	67	0	66.7%
DeepSeek-V2 Chat	100	67	67	33	0	53.3%
Gemini 2.5 Flash	67	67	67	67	0	53.3%
Mistral NeMO	100	67	33	33	33	53.3%
Inception Mercury 2	67	67	33	33	33	46.7%
Qwen 2.5 72B	67	67	33	0	0	33.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	67	93.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	67	93.3%
Grok 4.20 (Reasoning)	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	67	93.3%
GPT-5.2	100	100	100	100	67	93.3%
Qwen 3.6 35B	100	100	100	100	67	93.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	67	93.3%
Qwen 3.5 Flash	100	100	100	100	67	93.3%
Gemma 4 31B	100	100	100	100	67	93.3%
Mistral Large 3	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
DeepSeek V3 (2024-12-26)	100	100	100	100	67	93.3%
DeepSeek V3.1	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
GPT-5 Nano	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
Mistral Medium 3.1	100	100	100	100	67	93.3%
Gemma 3 27B	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Cydonia 24B V4.1	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
Ministral 3 8B	100	100	100	100	67	93.3%
Qwen3.7 Max	100	100	100	67	67	86.7%
Xiaomi MIMO v2.5	100	100	100	67	67	86.7%
Hermes 3 405B	100	100	100	100	33	86.7%
GPT-4.1 Nano	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	67	67	86.7%
ByteDance Seed 1.6	100	100	100	100	33	86.7%
Gemma 3 12B	100	100	100	100	33	86.7%
GPT-4o Mini (temp=0)	100	100	67	67	67	80.0%
Nemotron 3 Nano	100	100	67	67	67	80.0%
Hermes 3 70B	100	100	100	67	33	80.0%
Ministral 3B	100	100	67	67	67	80.0%
Inception Mercury 2	100	67	67	67	67	73.3%
Llama 3.1 70B	100	100	100	33	33	73.3%
WizardLM 2 8x22b	100	100	100	67	0	73.3%
Ministral 3 3B	100	100	100	67	0	73.3%
GPT-OSS 120B	100	100	67	67	0	66.7%
Mistral NeMO	100	100	100	33	0	66.7%
GPT-4o, Aug. 6th (temp=0)	100	67	67	0	0	46.7%
Mistral Small 3.2 24B	100	67	67	0	0	46.7%
Qwen 2.5 72B	100	33	33	0	0	33.3%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning)	100	100	100	100	67	93.3%
Z.AI GLM 5.1	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning)	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	67	93.3%
Claude Opus 4.8 (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 397B A17B	100	100	100	100	67	93.3%
Claude Opus 4.5	100	100	100	100	67	93.3%
GPT-5.5	100	100	100	100	67	93.3%
Aion 3.0	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 Flash	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite	100	100	100	100	67	93.3%
GPT-5.4	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
Qwen 3.5 9B	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
DeepSeek V4 Pro	100	100	100	100	67	93.3%
Grok 4.20	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	100	100	67	93.3%
GPT-5.4 Mini	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	67	93.3%
Writer: Palmyra X5	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
GPT-4o Mini (temp=0)	100	100	100	100	67	93.3%
Mistral Medium 3.1	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	67	86.7%
Qwen 3.6 27B	100	100	100	67	67	86.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	67	67	86.7%
Nemotron 3 Super	100	100	100	100	33	86.7%
Hermes 3 405B	100	100	100	67	67	86.7%
Mistral Small 4 (Reasoning)	100	100	100	100	33	86.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	67	67	86.7%
GPT-5.4 Nano	100	100	100	67	67	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	33	86.7%
Gemma 3 4B	100	100	100	67	67	86.7%
Qwen3.6 Max Preview	100	100	67	67	67	80.0%
GPT-5.2	100	100	100	67	33	80.0%
GPT-OSS 120B	100	100	100	67	33	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	67	33	80.0%
Inception Mercury 2	100	100	67	67	67	80.0%
Llama 3.1 70B	100	100	100	67	33	80.0%
Qwen 2.5 72B	100	100	67	67	67	80.0%
Hermes 3 70B	100	100	67	67	67	80.0%
Qwen 3.5 27B	100	100	67	33	33	66.7%
Mistral NeMO	100	100	67	67	0	66.7%
Nemotron 3 Nano	100	100	67	33	0	60.0%
Mistral Small 3.2 24B	100	100	33	0	0	46.7%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	67	93.3%
ByteDance Seed 1.6	100	100	100	100	67	93.3%
o4 Mini High	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
Hermes 3 405B	100	100	100	100	67	93.3%
Arcee AI: Trinity Mini	100	100	100	100	67	93.3%
Mistral NeMO	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	67	67	86.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	33	86.7%
GPT-4o Mini (temp=1)	100	100	100	67	67	86.7%
Llama 3.1 70B	100	100	100	100	33	86.7%
DeepSeek-V2 Chat	100	100	100	100	33	86.7%
Qwen 3.5 397B A17B	100	100	67	67	67	80.0%
GPT-5.2	100	100	100	67	33	80.0%
GPT-OSS 120B	100	100	100	67	33	80.0%
GPT-4.1 Nano	100	100	100	67	33	80.0%
Ministral 3 3B	100	100	100	100	0	80.0%
Nemotron 3 Nano	100	100	100	67	0	73.3%
Qwen 2.5 72B	100	100	100	67	0	73.3%
Mistral Small 3.2 24B	100	100	67	0	–	66.7%
GPT-4o, Aug. 6th (temp=0)	100	67	33	33	33	53.3%
Inception Mercury 2	67	67	33	0	0	33.3%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning)	100	100	100	100	67	93.3%
Z.AI GLM 5.1	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	67	93.3%
GPT-5 Mini	100	100	100	100	67	93.3%
Qwen 3.5 397B A17B	100	100	100	100	67	93.3%
Grok 4.20 (Reasoning)	100	100	100	100	67	93.3%
GPT-5.1	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	67	93.3%
Gemini 2.5 Pro	100	100	100	100	67	93.3%
Qwen 3.6 27B	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Mini	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
Gemma 4 26B	100	100	100	100	67	93.3%
GPT-5.4	100	100	100	100	67	93.3%
Aion 3.0 Mini	100	100	100	100	67	93.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	67	93.3%
DeepSeek V3.1	100	100	100	100	67	93.3%
Z.AI GLM 4.7 Flash	100	100	100	100	67	93.3%
GPT-5.4 Mini	100	100	100	100	67	93.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	67	93.3%
Gemma 3 27B	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Hermes 3 70B	100	100	100	100	67	93.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	67	93.3%
Gemma 3 4B	100	100	100	100	67	93.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	67	67	86.7%
Z.AI GLM 4.7	100	100	100	67	67	86.7%
Aion 2.0	100	100	100	67	67	86.7%
DeepSeek-V2 Chat	100	100	100	100	33	86.7%
DeepSeek V3.2	100	100	100	67	67	86.7%
Inception Mercury 2	100	100	100	67	67	86.7%
Gemini 2.5 Flash Lite	100	100	100	67	67	86.7%
Mistral NeMO	100	100	100	67	67	86.7%
Ministral 8B	100	100	100	100	33	86.7%
GPT-5 Nano	100	100	100	100	33	86.7%
GPT-5.4 Nano	100	100	67	67	67	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
GPT-5.4 Nano (Reasoning)	100	100	67	67	67	80.0%
Ministral 3 8B	100	100	100	100	0	80.0%
Ministral 3 3B	100	100	100	100	0	80.0%
GPT-OSS 120B	100	100	100	33	33	73.3%
GPT-4o, Aug. 6th (temp=0)	100	100	67	67	33	73.3%
GPT-4o Mini (temp=1)	100	100	67	67	33	73.3%
Nemotron 3 Nano	100	100	67	67	33	73.3%
Qwen 2.5 72B	100	100	100	67	0	73.3%
Cydonia 24B V4.1	100	100	67	67	33	73.3%
GPT-5.2	100	100	67	33	33	66.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	67	33	33	66.7%
Gemini 2.5 Flash	100	100	100	0	0	60.0%
Gemini 2.5 Flash (Reasoning)	100	67	33	33	33	53.3%
Llama 3.1 70B	100	67	67	33	0	53.3%
Mistral Small 3.2 24B	100	100	0	0	0	40.0%
GPT-4o Mini (temp=0)	67	0	0	0	0	13.3%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
GPT-5.5	100	100	100	100	67	93.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Mini	100	100	100	100	67	93.3%
Mistral Large 3	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Lite	100	100	100	100	67	93.3%
Qwen 3.5 9B	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
GPT-4.1 Mini	100	100	100	100	67	93.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	67	93.3%
Hermes 3 405B	100	100	100	100	67	93.3%
Gemini 2.5 Flash	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite	100	100	100	100	67	93.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	67	93.3%
Mistral NeMO	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
o4 Mini	100	100	100	100	33	86.7%
Z.AI GLM 4.5	100	100	100	67	67	86.7%
GPT-OSS 120B	100	100	100	67	67	86.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	67	67	86.7%
Hermes 3 70B	100	100	100	100	33	86.7%
Arcee AI: Trinity Mini	100	100	100	67	67	86.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	67	33	80.0%
GPT-5.4 Mini	100	100	67	67	67	80.0%
GPT-4o Mini (temp=1)	100	100	67	67	67	80.0%
GPT-5.4 Nano	100	100	100	67	33	80.0%
Mistral Small 3.2 24B	100	100	67	67	33	73.3%
DeepSeek V3 (2024-12-26)	100	100	67	67	33	73.3%
GPT-4o Mini (temp=0)	100	100	67	67	33	73.3%
Qwen 2.5 72B	100	100	67	67	33	73.3%
Inception Mercury 2	100	67	67	67	33	66.7%
Llama 3.1 70B	100	100	67	33	33	66.7%
DeepSeek-V2 Chat	100	67	67	67	0	60.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	67	93.3%
Z.AI GLM 5 Turbo	100	100	100	100	67	93.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	100	67	93.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	67	93.3%
Claude Opus 4.5	100	100	100	100	67	93.3%
Gemma 4 26B (Reasoning)	100	100	100	100	67	93.3%
o4 Mini High	100	100	100	100	67	93.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	67	93.3%
Claude Sonnet 4	100	100	100	100	67	93.3%
Claude Opus 4	100	100	100	100	67	93.3%
GPT-4.1	100	100	100	100	67	93.3%
MiniMax M2.7	100	100	100	100	67	93.3%
Gemini 3 Flash (Preview)	100	100	100	100	67	93.3%
GPT-5.4	100	100	100	100	67	93.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
DeepSeek-V2 Chat	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	67	93.3%
DeepSeek V4 Pro	100	100	100	100	67	93.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
Gemma 3 27B	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
ByteDance Seed 1.6 Flash	100	100	100	100	67	93.3%
Ministral 3 14B	100	100	100	100	67	93.3%
Ministral 3 8B	100	100	100	100	67	93.3%
Ministral 3 3B	100	100	100	100	67	93.3%
Ministral 8B	100	100	100	100	67	93.3%
ByteDance Seed 1.6	100	100	100	67	67	86.7%
Aion 3.0	100	100	100	67	67	86.7%
Qwen 3.6 27B	100	100	100	67	67	86.7%
Qwen 3.5 35B	100	100	100	100	33	86.7%
Z.AI GLM 4.5	100	100	100	67	67	86.7%
Claude Haiku 4.5	100	100	100	100	33	86.7%
Z.AI GLM 4.7 Flash	100	100	100	67	67	86.7%
GPT-5 Nano	100	100	100	67	67	86.7%
Mistral Small 4 (Reasoning)	100	100	100	100	33	86.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	67	67	86.7%
Hermes 3 70B	100	100	100	100	33	86.7%
Qwen 3.5 397B A17B	100	100	67	67	67	80.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	67	33	80.0%
o4 Mini	100	100	100	67	33	80.0%
Qwen 3.5 Plus (2026-02-15)	100	100	67	67	67	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	67	33	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	67	33	80.0%
Z.AI GLM 4.5 Air	100	100	67	67	67	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	67	33	80.0%
Mistral Medium 3.1	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	67	33	80.0%
Gemma 3 4B	100	100	100	67	33	80.0%
Mistral NeMO	100	100	67	67	67	80.0%
Qwen 3.5 122B	100	100	67	67	33	73.3%
Z.AI GLM 4.7	100	100	67	67	33	73.3%
GPT-OSS 120B	100	100	67	67	33	73.3%
Cohere Command R+ (Aug. 2024)	100	100	67	67	33	73.3%
Z.AI GLM 4.6	100	100	67	33	33	66.7%
Inception Mercury 2	100	100	67	33	33	66.7%
Nemotron 3 Super	100	67	67	67	33	66.7%
Mistral Small 3.2 24B	100	100	100	33	0	66.7%
Gemma 3 12B	100	67	67	67	33	66.7%
GPT-5.4 Nano	100	100	67	33	33	66.7%
Llama 3.1 70B	100	100	67	33	0	60.0%
GPT-4o Mini (temp=0)	100	67	67	33	33	60.0%
Gemini 2.5 Flash	67	67	67	67	0	53.3%
Ministral 3B	100	100	67	0	0	53.3%
Qwen 2.5 72B	100	67	33	33	0	46.7%
Gemini 2.5 Flash Lite	67	67	33	33	0	40.0%
GPT-4o, Aug. 6th (temp=0)	67	67	33	0	0	33.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	67	93.3%
Qwen 3.5 122B	100	100	100	100	67	93.3%
MiniMax M2.5	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	100	67	93.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	67	93.3%
ByteDance Seed 2.0 Mini	100	100	100	100	67	93.3%
Qwen 3.5 Flash	100	100	100	100	67	93.3%
Z.AI GLM 4.5	100	100	100	100	67	93.3%
GPT-OSS 120B	100	100	100	100	67	93.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	67	93.3%
DeepSeek V3.1	100	100	100	100	67	93.3%
DeepSeek V4 Flash	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	100	67	93.3%
Mistral Small 4 (Reasoning)	100	100	100	100	67	93.3%
Writer: Palmyra X5	100	100	100	100	67	93.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	100	67	93.3%
Gemma 3 27B	100	100	100	100	67	93.3%
Mistral Small 4	100	100	100	100	67	93.3%
Nemotron 3 Nano	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
Ministral 3 8B	100	100	100	100	67	93.3%
GPT-4.1 Nano	100	100	100	100	67	93.3%
Arcee AI: Trinity Mini	100	100	100	100	67	93.3%
Ministral 3 3B	100	100	100	100	67	93.3%
Ministral 8B	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
Qwen 3.5 27B	100	100	100	67	67	86.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	67	86.7%
Xiaomi MIMO v2.5 Pro	100	100	100	100	33	86.7%
DeepSeek V3.2	100	100	100	67	67	86.7%
Hermes 3 405B	100	100	100	100	33	86.7%
Gemini 2.5 Flash	100	100	100	67	67	86.7%
Gemma 3 4B	100	100	100	100	33	86.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	33	86.7%
o4 Mini	100	100	67	67	67	80.0%
GPT-4.1 Mini	100	100	67	67	67	80.0%
GPT-5.4 Nano	100	100	100	33	33	73.3%
Mistral NeMO	100	100	100	67	0	73.3%
DeepSeek V3 (2024-12-26)	100	100	100	33	0	66.7%
DeepSeek-V2 Chat	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	33	33	0	53.3%
GPT-4o, Aug. 6th (temp=0)	67	67	33	33	33	46.7%
Inception Mercury 2	100	67	33	33	0	46.7%
Llama 3.1 70B	100	67	33	33	0	46.7%
GPT-4o Mini (temp=0)	100	67	33	33	0	46.7%
Mistral Small 3.2 24B	100	67	33	0	0	40.0%
Qwen 2.5 72B	100	0	0	0	0	20.0%

Cliché density

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets