Em-dash & semicolon overuse

Test: Bad Writing Habits

Avg. Score

50.0%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5.4 Mini	97.4%	$0.015	16.8s	81%
2	GPT-5.4 Mini (Reasoning)	98.0%	$0.022	28.1s	85%
3	Qwen 3.6 Flash	97.4%	$0.010	41.4s	81%
4	Mistral NeMO	95.0%	$0.0005	10.1s	63%
5	GPT-5.4 Mini (Reasoning, Low)	95.0%	$0.015	16.8s	72%
6	Qwen 3.5 Flash	94.4%	$0.0025	47.5s	67%
7	Qwen 2.5 72B	93.0%	$0.0010	36.7s	64%
8	Qwen 3.5 9B	95.9%	$0.0011	1.4m	72%
9	Qwen 3.6 35B	95.3%	$0.0083	1.0m	66%
10	Qwen 3.5 122B	94.6%	$0.025	1.1m	69%
11	Qwen 3.5 35B	94.3%	$0.018	1.0m	64%
12	Gemini 2.5 Flash	86.7%	$0.0052	10.6s	51%
13	Gemini 2.5 Flash Lite	82.2%	$0.0009	9.5s	48%
14	Qwen 3.5 27B	94.5%	$0.020	1.6m	66%
15	Qwen3.7 Max	99.6%	$0.068	2.3m	92%
16	Qwen 3.5 397B A17B	98.3%	$0.014	3.0m	78%
17	Qwen3.6 Max Preview	100.0%	$0.050	3.5m	100%
18	Qwen 3.5 Plus (2026-04-20)	94.2%	$0.017	1.8m	62%
19	Gemini 2.5 Flash (Reasoning)	83.4%	$0.011	21.5s	42%
20	Z.AI GLM 4.6	84.0%	$0.0065	51.5s	43%
21	Gemini 2.5 Pro	83.7%	$0.036	36.2s	50%
22	GPT-5.4 (Reasoning, Low)	91.3%	$0.055	1.4m	62%
23	Qwen 3.6 27B	91.2%	$0.025	2.3m	52%
24	GPT-5.4	88.6%	$0.049	1.4m	52%
25	GPT-4o, Aug. 6th (temp=0)	79.3%	$0.023	22.7s	30%
26	Gemma 3 27B	73.5%	$0.0006	52.6s	30%
27	GPT-5.5 (Reasoning, Low)	97.0%	$0.139	1.8m	84%
28	GPT-5.5	96.6%	$0.139	1.7m	83%
29	Gemini 3.1 Pro (Preview)	95.9%	$0.107	1.8m	67%
30	Qwen 3.5 Plus (2026-02-15)	71.3%	$0.0060	31.5s	22%
31	Hermes 3 405B	73.8%	$0.0032	53.2s	24%
32	ByteDance Seed 2.0 Lite	83.7%	$0.012	2.2m	38%
33	GPT-4o Mini (temp=0)	66.3%	$0.0012	34.8s	24%
34	GPT-5.5 (Reasoning)	96.8%	$0.142	1.8m	74%
35	GPT-5.4 (Reasoning)	91.6%	$0.089	2.6m	63%
36	Grok 4.3	60.1%	$0.0069	30.5s	8%
37	Gemini 2.5 Flash Lite (Reasoning)	50.7%	$0.0028	30.8s	15%
38	Inception Mercury 2	52.0%	$0.0032	7.0s	7%
39	Z.AI GLM 4.7	64.3%	$0.010	1.4m	17%
40	Llama 3.1 70B	54.4%	$0.0015	29.4s	6%
41	Gemini 3.5 Flash (Reasoning, Minimal)	54.2%	$0.018	12.0s	9%
42	DeepSeek V3.2	60.4%	$0.0014	1.9m	19%
43	DeepSeek V3.1	59.9%	$0.0020	1.8m	19%
44	Hermes 3 70B	57.7%	$0.0010	1.2m	11%
45	Cohere Command R+ (Aug. 2024)	60.2%	$0.020	52.5s	12%
46	Grok 4.20 (Reasoning)	68.7%	$0.018	1.5m	12%
47	Z.AI GLM 5 Turbo	55.8%	$0.0081	33.2s	6%
48	Aion 2.0	55.9%	$0.0064	1.3m	13%
49	Xiaomi MIMO v2.5 Pro	53.2%	$0.0085	53.5s	11%
50	GPT-5.4 Nano (Reasoning, Low)	47.6%	$0.0055	20.6s	3%
51	DeepSeek V4 Flash	46.1%	$0.0006	31.6s	5%
52	Grok 4.20	53.8%	$0.0093	45.7s	4%
53	GPT-5.4 Nano	46.2%	$0.0057	26.3s	4%
54	GPT-5.4 Nano (Reasoning)	45.9%	$0.0061	24.5s	3%
55	Mistral Small 3.2 24B	88.0%	$0.0069	5.7m	43%
56	Grok 4.3 (Reasoning)	71.9%	$0.021	2.3m	13%
57	Gemma 3 12B	41.2%	$0.0004	41.3s	8%
58	Gemini 3.5 Flash (Reasoning)	64.3%	$0.071	37.6s	17%
59	Z.AI GLM 4.7 Flash	47.2%	$0.0017	1.2m	8%
60	WizardLM 2 8x22b	54.5%	$0.0026	1.8m	11%
61	Xiaomi MIMO v2.5	43.8%	$0.0054	31.8s	3%
62	Gemma 4 26B	43.5%	$0.0009	55.1s	7%
63	GPT-5.1	69.9%	$0.054	1.8m	18%
64	Aion 3.0 Mini	48.6%	$0.0053	1.2m	6%
65	Arcee AI: Trinity Mini	32.0%	$0.0003	9.2s	2%
66	Gemini 3 Flash (Preview, Reasoning)	41.5%	$0.012	30.1s	4%
67	MiniMax M2.7	46.7%	$0.0040	1.1m	3%
68	Grok 4.5 (Reasoning, Low)	50.6%	$0.018	1.1m	2%
69	o4 Mini	38.1%	$0.015	25.7s	2%
70	Gemma 4 31B (Reasoning)	53.1%	$0.0014	2.2m	5%
71	Claude Sonnet 4.5	46.5%	$0.035	38.1s	2%
72	DeepSeek V4 Flash (Reasoning)	30.5%	$0.0007	31.1s	0%
73	o4 Mini High	42.8%	$0.025	47.2s	4%
74	Gemma 4 31B	42.2%	$0.0010	1.6m	5%
75	Aion 3.0	47.9%	$0.024	1.0m	1%
76	Gemini 3.1 Flash Lite (Preview)	24.7%	$0.0030	8.4s	0%
77	DeepSeek V4 Pro	42.8%	$0.0048	1.3m	0%
78	Claude Sonnet 5	42.5%	$0.027	33.5s	0%
79	Gemini 3.1 Flash Lite (Reasoning)	25.3%	$0.0030	11.9s	0%
80	Ministral 3 3B	22.9%	$0.0005	11.1s	0%
81	Z.AI GLM 5	41.9%	$0.0084	1.2m	0%
82	Z.AI GLM 5.2 (Reasoning, High)	40.2%	$0.011	1.0m	0%
83	Gemma 4 26B (Reasoning)	46.4%	$0.0013	2.0m	4%
84	Gemini 3 Flash (Preview)	25.7%	$0.0078	19.6s	0%
85	Z.AI GLM 4.5	28.3%	$0.0051	42.1s	2%
86	Claude Haiku 4.5	27.6%	$0.011	21.6s	0%
87	Claude Sonnet 5 (Reasoning)	40.9%	$0.030	38.9s	0%
88	Ministral 3B	17.9%	$0.0001	8.1s	0%
89	Gemini 3.1 Flash Lite	20.0%	$0.0030	12.1s	0%
90	Z.AI GLM 4.5 Air	31.8%	$0.0029	58.2s	0%
91	Ministral 3 8B	20.2%	$0.0008	19.6s	0%
92	Nemotron 3 Nano	32.5%	$0.0010	1.1m	0%
93	Claude Sonnet 5 (Reasoning, Low)	39.4%	$0.031	38.4s	0%
94	Mistral Large 3	23.8%	$0.0033	30.3s	0%
95	GPT-5.2	56.0%	$0.056	1.5m	7%
96	Mistral Large 2	25.7%	$0.013	29.4s	0%
97	DeepSeek V3 (2024-12-26)	27.1%	$0.0021	54.6s	0%
98	Grok 4.5 (Reasoning, High)	47.3%	$0.030	1.6m	3%
99	GPT-5	69.5%	$0.065	2.8m	18%
100	Claude Sonnet 4.6	36.5%	$0.031	39.3s	0%
101	Ministral 8B	14.0%	$0.0004	10.4s	0%
102	DeepSeek-V2 Chat	24.3%	$0.0021	53.3s	1%
103	Claude Sonnet 4	36.4%	$0.032	43.7s	0%
104	Z.AI GLM 5.1	39.3%	$0.014	1.5m	0%
105	GPT-5 Mini	27.9%	$0.0100	57.4s	0%
106	Gemma 3 4B	11.5%	$0.0002	20.0s	0%
107	MiniMax M3	53.6%	$0.0060	3.1m	4%
108	Ministral 3 14B	8.0%	$0.0007	11.7s	0%
109	MiniMax M2.5	24.0%	$0.0034	1.3m	0%
110	Claude Opus 4.7	43.9%	$0.069	30.4s	0%
111	Claude Opus 4.7 (Reasoning)	43.8%	$0.076	32.0s	1%
112	GPT-4o Mini (temp=1)	10.0%	$0.0012	34.8s	0%
113	Claude Opus 4.8 (Reasoning)	42.9%	$0.071	41.7s	1%
114	GPT-4.1 Mini	5.0%	$0.0027	19.0s	0%
115	Mistral Small 4	4.0%	$0.0014	18.2s	0%
116	GPT-4.1 Nano	2.2%	$0.0007	13.3s	0%
117	Qwen 3 32B	12.3%	$0.0015	54.6s	0%
118	Mistral Medium 3.1	9.1%	$0.0048	36.5s	0%
119	Cydonia 24B V4.1	9.3%	$0.0014	44.8s	0%
120	ByteDance Seed 1.6 Flash	4.7%	$0.0013	27.3s	0%
121	Writer: Palmyra X5	8.0%	$0.011	22.0s	0%
122	GPT-OSS 120B	24.5%	$0.0015	1.8m	0%
123	DeepSeek V3 (2025-03-24)	6.3%	$0.0014	39.4s	0%
124	Mistral Small 4 (Reasoning)	4.2%	$0.0022	30.2s	0%
125	Claude Opus 4.8 (Reasoning, Low)	40.2%	$0.071	41.9s	0%
126	Nemotron 3 Super	17.5%	$0.0000	1.4m	0%
127	GPT-4o, Aug. 6th (temp=1)	7.0%	$0.018	24.4s	0%
128	Qwen3 235B A22B Instruct 2507	6.9%	$0.0011	59.2s	0%
129	Claude Opus 4.5	36.6%	$0.070	53.4s	0%
130	Claude Sonnet 4.6 (Reasoning)	33.3%	$0.060	1.2m	0%
131	GPT-4.1	5.6%	$0.018	44.7s	0%
132	DeepSeek V4 Pro (Reasoning)	38.9%	$0.015	3.1m	0%
133	MoonshotAI: Kimi K2.5	37.7%	$0.019	3.2m	0%
134	Claude Opus 4.6	33.4%	$0.078	1.2m	0%
135	GPT-5 Nano	0.8%	$0.0042	1.4m	0%
136	Claude Opus 4.6 (Reasoning)	33.9%	$0.088	1.4m	0%
137	ByteDance Seed 2.0 Mini	42.2%	$0.0045	4.9m	3%
138	ByteDance Seed 1.6	0.0%	$0.013	2.5m	0%
139	MoonshotAI: Kimi K2.6	60.8%	$0.058	6.5m	11%
140	Claude Opus 4	34.6%	$0.209	1.4m	0%
50.01%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	98	99.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	97	99.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	94	98.8%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.7%
Claude Opus 4.7 (Reasoning)	100	100	100	100	93	98.6%
Grok 4.5 (Reasoning, High)	100	100	100	100	89	97.8%
Z.AI GLM 5	100	100	100	100	69	93.8%
GPT-5.4 Nano (Reasoning)	100	100	100	100	55	91.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	81	66	89.3%
Z.AI GLM 4.7	100	100	100	99	18	83.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	3	80.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	0	80.0%
Claude Sonnet 4.6	100	100	100	100	0	80.0%
Gemma 4 26B (Reasoning)	100	100	75	68	54	79.4%
GPT-4o Mini (temp=0)	100	100	91	83	18	78.4%
Gemini 2.5 Pro	100	100	100	50	38	77.6%
Claude Opus 4	100	100	100	64	19	76.5%
Z.AI GLM 4.6	100	100	75	65	38	75.5%
o4 Mini High	100	100	96	66	11	74.6%
Gemini 2.5 Flash	100	100	100	37	29	73.1%
Xiaomi MIMO v2.5 Pro	100	100	82	64	14	72.1%
Gemini 2.5 Flash (Reasoning)	100	100	57	55	38	70.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	43	0	68.5%
GPT-OSS 120B	100	93	79	56	11	67.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	38	0	67.6%
Gemini 2.5 Flash Lite	100	100	60	49	19	65.4%
Claude Sonnet 4	100	100	100	0	0	60.0%
MiniMax M2.7	100	100	100	0	0	60.0%
Grok 4.3	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	100	0	0	60.0%
Gemma 3 27B	100	61	58	56	13	57.7%
GPT-5 Mini	100	83	71	22	10	57.1%
DeepSeek V3.2	100	95	67	24	0	57.1%
ByteDance Seed 2.0 Mini	100	100	73	9	0	56.4%
Inception Mercury 2	100	79	76	23	0	55.7%
Gemma 4 26B	84	67	66	34	26	55.4%
Nemotron 3 Nano	100	83	79	7	0	53.9%
Aion 3.0 Mini	100	100	68	0	0	53.5%
Gemma 4 31B	100	100	24	20	0	48.8%
Llama 3.1 70B	100	100	43	0	0	48.5%
DeepSeek V3.1	86	48	43	40	25	48.4%
Gemini 2.5 Flash Lite (Reasoning)	78	54	52	50	0	46.6%
MoonshotAI: Kimi K2.5	100	100	20	0	0	44.1%
o4 Mini	100	61	37	20	0	43.6%
Xiaomi MIMO v2.5	100	100	4	0	0	40.8%
WizardLM 2 8x22b	78	66	54	6	0	40.6%
Z.AI GLM 4.7 Flash	100	60	43	0	0	40.4%
MiniMax M2.5	100	100	0	0	0	40.0%
Hermes 3 405B	100	100	0	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	100	0	0	0	40.0%
Claude Haiku 4.5	100	76	0	0	0	35.3%
DeepSeek V4 Flash	88	85	0	0	0	34.6%
Aion 2.0	73	50	26	16	0	33.1%
Z.AI GLM 4.5 Air	100	19	0	0	0	23.7%
DeepSeek-V2 Chat	80	36	0	0	0	23.2%
DeepSeek V3 (2024-12-26)	76	7	0	0	0	16.6%
GPT-4.1	78	0	0	0	0	15.7%
Qwen 3 32B	67	9	0	0	0	15.1%
Z.AI GLM 4.5	43	24	0	0	0	13.5%
Gemini 3.1 Flash Lite (Preview)	47	16	3	0	0	13.2%
Gemma 3 12B	52	2	0	0	0	10.7%
Arcee AI: Trinity Mini	25	24	0	0	0	9.8%
GPT-4o, Aug. 6th (temp=1)	30	0	0	0	0	6.0%
DeepSeek V4 Flash (Reasoning)	22	0	0	0	0	4.4%
Mistral Large 2	22	0	0	0	0	4.4%
Gemini 3.1 Flash Lite (Reasoning)	19	0	0	0	0	3.7%
Nemotron 3 Super	14	0	0	0	0	2.8%
Mistral Large 3	11	0	0	0	0	2.2%
Gemini 3.1 Flash Lite	3	0	0	0	0	0.7%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	99	99.8%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	94	98.8%
ByteDance Seed 2.0 Mini	100	100	100	96	94	97.9%
Gemma 4 31B (Reasoning)	100	100	100	100	84	96.8%
Gemini 2.5 Flash Lite	100	100	100	100	83	96.7%
Gemini 2.5 Flash	100	100	100	100	80	96.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	70	93.9%
Gemini 2.5 Pro	100	100	100	100	68	93.7%
Hermes 3 405B	100	100	99	94	75	93.5%
Grok 4.5 (Reasoning, High)	100	100	100	100	58	91.6%
Gemma 3 12B	100	100	100	94	63	91.3%
Z.AI GLM 4.6	100	100	100	86	66	90.5%
Z.AI GLM 4.7 Flash	100	100	100	99	47	89.2%
Gemma 4 26B (Reasoning)	100	100	100	79	66	89.1%
Gemma 4 31B	100	100	100	91	50	88.1%
Grok 4.3	100	100	100	100	29	85.7%
MoonshotAI: Kimi K2.5	100	100	100	100	25	84.9%
DeepSeek V3.2	100	100	100	85	19	81.0%
Claude Sonnet 4.5	100	100	100	100	0	80.0%
MiniMax M2.7	100	100	100	100	0	80.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	0	78.8%
Hermes 3 70B	100	100	100	90	0	78.0%
Gemma 3 27B	100	100	100	71	18	77.8%
Claude Opus 4	100	100	100	87	0	77.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	68	59	50	75.3%
Gemma 4 26B	100	100	92	43	40	75.0%
Z.AI GLM 4.7	94	89	77	68	36	73.0%
DeepSeek V3.1	100	89	77	29	24	63.8%
Xiaomi MIMO v2.5	100	100	64	52	0	63.2%
Aion 3.0 Mini	100	100	60	36	11	61.5%
Aion 2.0	100	83	57	54	7	60.2%
o4 Mini	100	98	52	50	0	60.0%
WizardLM 2 8x22b	100	100	93	2	0	59.0%
o4 Mini High	100	100	74	12	0	57.3%
Z.AI GLM 4.5	100	100	49	35	2	57.1%
GPT-5 Mini	100	96	46	41	0	56.5%
Llama 3.1 70B	100	100	68	0	0	53.5%
Xiaomi MIMO v2.5 Pro	100	92	49	0	0	48.1%
GPT-4o Mini (temp=0)	100	80	53	0	0	46.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	30	0	0	46.0%
Gemini 2.5 Flash Lite (Reasoning)	83	79	42	11	0	42.9%
Cohere Command R+ (Aug. 2024)	100	66	44	0	0	42.0%
DeepSeek V4 Flash	100	100	0	0	0	40.0%
Z.AI GLM 4.5 Air	96	56	40	0	0	38.3%
Gemini 3 Flash (Preview)	64	38	37	17	0	31.1%
Gemini 3.1 Flash Lite (Preview)	77	63	8	0	0	29.8%
Inception Mercury 2	100	47	0	0	0	29.3%
GPT-OSS 120B	61	46	5	0	0	22.4%
DeepSeek V3 (2024-12-26)	62	41	0	0	0	20.6%
Mistral Small 4	100	0	0	0	0	20.0%
MiniMax M2.5	74	0	0	0	0	14.9%
Mistral Small 4 (Reasoning)	64	0	0	0	0	12.8%
Gemini 3.1 Flash Lite (Reasoning)	32	30	0	0	0	12.3%
GPT-4.1	57	0	0	0	0	11.4%
Ministral 3 3B	51	3	0	0	0	10.8%
Qwen 3 32B	32	9	0	0	0	8.2%
Nemotron 3 Nano	17	11	0	0	0	5.6%
Ministral 8B	26	0	0	0	0	5.2%
Gemini 3.1 Flash Lite	19	3	0	0	0	4.3%
Ministral 3 14B	14	0	0	0	0	2.8%
DeepSeek-V2 Chat	12	0	0	0	0	2.4%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	99	99.8%
ByteDance Seed 2.0 Lite	100	100	100	100	93	98.5%
Aion 2.0	100	100	100	100	92	98.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	91	98.2%
Gemini 2.5 Flash Lite	100	100	100	100	89	97.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	88	97.6%
Qwen 2.5 72B	100	100	100	100	83	96.7%
Gemma 4 31B	100	100	100	100	79	95.9%
MiniMax M2.5	100	100	100	100	76	95.3%
Hermes 3 405B	100	100	100	100	76	95.3%
Grok 4.5 (Reasoning, High)	100	100	100	100	71	94.1%
Z.AI GLM 4.5	100	100	94	85	83	92.6%
WizardLM 2 8x22b	100	100	96	89	75	92.0%
Xiaomi MIMO v2.5	100	100	100	100	60	92.0%
MoonshotAI: Kimi K2.5	100	100	100	82	76	91.7%
Claude Opus 4	100	100	100	100	58	91.6%
o4 Mini	100	100	92	78	78	89.6%
Z.AI GLM 4.7 Flash	100	100	100	95	37	86.4%
Claude Haiku 4.5	100	100	100	74	47	84.1%
Aion 3.0 Mini	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
MiniMax M2.7	100	100	98	98	0	79.3%
GPT-OSS 120B	100	100	92	89	8	77.8%
ByteDance Seed 2.0 Mini	100	100	100	69	17	77.1%
Gemini 3.1 Flash Lite	100	100	100	73	10	76.6%
Gemma 3 27B	100	100	99	71	0	74.0%
Cohere Command R+ (Aug. 2024)	100	100	66	54	51	74.0%
Ministral 3 3B	100	100	100	70	0	73.9%
Qwen3 235B A22B Instruct 2507	100	88	83	68	19	71.7%
Gemini 3.1 Flash Lite (Preview)	100	100	75	75	0	69.9%
Z.AI GLM 4.5 Air	100	100	93	41	9	68.5%
Gemini 3 Flash (Preview)	100	100	77	28	26	66.3%
GPT-4o Mini (temp=0)	100	100	85	46	0	66.2%
GPT-5 Mini	100	100	68	57	0	65.0%
o4 Mini High	100	100	87	35	0	64.4%
Arcee AI: Trinity Mini	100	100	100	16	0	63.2%
Mistral Large 3	82	63	55	54	42	59.0%
Llama 3.1 70B	100	100	93	0	0	58.5%
DeepSeek V3 (2024-12-26)	100	100	73	14	0	57.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	79	0	0	55.7%
Nemotron 3 Nano	100	100	66	0	0	53.1%
Gemini 2.5 Flash Lite (Reasoning)	100	86	76	0	0	52.5%
Writer: Palmyra X5	100	98	33	25	2	51.6%
Qwen 3 32B	100	72	71	14	0	51.5%
Gemma 3 12B	100	75	46	32	0	50.7%
Nemotron 3 Super	100	91	59	0	0	50.0%
DeepSeek-V2 Chat	100	89	40	17	0	49.2%
GPT-4.1	100	100	30	13	0	48.7%
Mistral Large 2	61	56	55	44	2	43.9%
Ministral 3B	68	60	37	34	0	39.8%
Ministral 3 8B	64	51	39	7	5	33.3%
Ministral 3 14B	100	56	7	0	0	32.6%
Ministral 8B	85	37	28	12	0	32.3%
Cydonia 24B V4.1	89	34	27	0	0	30.1%
Mistral Small 4 (Reasoning)	85	43	0	0	0	25.7%
Mistral Medium 3.1	70	38	0	0	0	21.7%
DeepSeek V3 (2025-03-24)	100	0	0	0	0	20.0%
GPT-4.1 Mini	45	32	22	0	0	19.9%
ByteDance Seed 1.6 Flash	69	27	0	0	0	19.2%
Gemma 3 4B	59	37	0	0	0	19.2%
Mistral Small 4	68	8	0	0	0	15.1%
GPT-4o Mini (temp=1)	66	0	0	0	0	13.3%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	96	99.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	95	99.0%
Mistral Small 3.2 24B	100	100	100	100	93	98.5%
Gemini 2.5 Flash	100	100	100	100	92	98.4%
Qwen 3.6 27B	100	100	100	100	76	95.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	75	95.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	93	80	94.6%
WizardLM 2 8x22b	100	100	100	88	78	93.1%
DeepSeek V4 Flash	100	100	100	100	52	90.5%
Cohere Command R+ (Aug. 2024)	100	100	100	79	71	90.2%
Xiaomi MIMO v2.5 Pro	100	100	100	74	72	89.2%
Aion 3.0 Mini	100	100	100	81	63	88.9%
Hermes 3 405B	100	100	100	100	44	88.9%
MiniMax M2.7	100	100	100	100	44	88.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	70	60	86.1%
DeepSeek V3.2	100	100	81	77	72	86.0%
Gemma 4 31B	100	100	100	72	56	85.7%
Claude Haiku 4.5	100	100	100	89	39	85.6%
o4 Mini	100	100	100	91	32	84.6%
Gemma 4 26B	100	100	88	82	50	84.0%
Claude Opus 4	100	100	100	59	57	83.2%
Inception Mercury 2	100	100	86	63	62	82.2%
Gemma 3 27B	100	100	100	95	11	81.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	0	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite	100	100	89	65	39	78.5%
GPT-5 Mini	100	100	100	82	10	78.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	43	38	76.2%
DeepSeek V3.1	100	100	100	79	0	75.7%
Nemotron 3 Nano	100	100	100	62	0	72.5%
ByteDance Seed 2.0 Mini	100	100	82	70	0	70.3%
MiniMax M2.5	100	100	92	36	16	69.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	74	66	5	68.9%
Z.AI GLM 4.5 Air	100	100	100	18	0	63.5%
Llama 3.1 70B	100	100	100	7	0	61.4%
Mistral Large 3	100	91	62	54	0	61.3%
Hermes 3 70B	100	100	100	0	0	60.0%
Z.AI GLM 4.5	100	100	44	15	9	53.7%
Gemini 3.1 Flash Lite (Preview)	100	87	70	0	0	51.4%
Gemini 3.1 Flash Lite (Reasoning)	100	81	72	0	0	50.6%
GPT-4o Mini (temp=0)	100	83	48	16	0	49.4%
Mistral Large 2	94	55	40	38	16	48.5%
Nemotron 3 Super	66	66	61	30	0	44.5%
Gemini 3 Flash (Preview)	73	62	47	32	0	42.7%
GPT-4o, Aug. 6th (temp=1)	100	99	0	0	0	39.7%
Cydonia 24B V4.1	76	62	51	0	0	37.8%
Arcee AI: Trinity Mini	100	59	22	0	0	36.2%
DeepSeek-V2 Chat	100	27	2	2	0	26.3%
ByteDance Seed 1.6 Flash	79	42	0	0	0	24.2%
DeepSeek V3 (2024-12-26)	70	27	5	0	0	20.5%
Gemma 3 12B	53	48	0	0	0	20.2%
Ministral 3 3B	54	37	3	0	0	18.8%
Qwen 3 32B	78	4	0	0	0	16.4%
Ministral 3 8B	73	0	0	0	0	14.6%
Writer: Palmyra X5	29	14	0	0	0	8.4%
Qwen3 235B A22B Instruct 2507	29	13	0	0	0	8.3%
GPT-OSS 120B	36	0	0	0	0	7.2%
GPT-4.1 Mini	35	0	0	0	0	7.0%
DeepSeek V3 (2025-03-24)	35	0	0	0	0	7.0%
Gemma 3 4B	31	0	0	0	0	6.2%
Ministral 3B	19	0	0	0	0	3.7%
Ministral 8B	17	0	0	0	0	3.4%
Mistral Medium 3.1	1	0	0	0	0	0.3%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	99	99.8%
Gemini 2.5 Flash	100	100	100	100	99	99.8%
ByteDance Seed 2.0 Mini	100	100	100	100	98	99.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	96	99.2%
Z.AI GLM 4.7	100	100	100	100	89	97.9%
Z.AI GLM 4.6	100	100	100	100	87	97.5%
Qwen 2.5 72B	100	100	100	100	85	96.9%
o4 Mini	100	100	100	100	81	96.3%
Gemini 2.5 Pro	100	100	97	92	86	95.1%
Grok 4.3 (Reasoning)	100	100	100	100	74	94.7%
Grok 4.3	100	100	100	88	80	93.7%
Z.AI GLM 5.1	100	100	100	100	65	92.9%
Grok 4.20 (Reasoning)	100	100	100	100	64	92.8%
Gemma 4 26B (Reasoning)	100	100	100	95	67	92.4%
Inception Mercury 2	100	100	100	83	74	91.5%
Aion 3.0 Mini	100	100	100	95	60	90.9%
Hermes 3 405B	100	100	100	100	51	90.1%
GPT-4o Mini (temp=0)	100	100	100	94	55	90.0%
Mistral Small 3.2 24B	100	100	100	94	39	86.7%
Mistral NeMO	100	100	100	87	45	86.6%
Xiaomi MIMO v2.5 Pro	100	100	100	100	27	85.4%
Claude Sonnet 4	100	100	100	100	21	84.3%
Gemma 4 31B	100	100	100	85	30	83.0%
Gemini 2.5 Flash Lite	100	100	100	100	14	82.8%
Z.AI GLM 4.7 Flash	100	100	79	67	57	80.4%
Gemma 3 12B	100	100	77	74	43	79.0%
GPT-5 Mini	100	87	74	69	61	78.1%
Cohere Command R+ (Aug. 2024)	100	100	100	82	0	76.4%
DeepSeek V3.1	100	86	73	68	54	76.3%
Hermes 3 70B	100	100	100	79	0	75.9%
DeepSeek V3.2	100	100	100	43	34	75.3%
o4 Mini High	100	100	100	60	0	72.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	85	73	0	71.7%
WizardLM 2 8x22b	100	100	100	54	0	70.9%
Llama 3.1 70B	100	100	98	48	0	69.0%
Gemma 4 26B	100	100	98	47	0	69.0%
MiniMax M2.5	100	100	100	34	0	66.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	82	50	0	66.4%
Gemma 3 27B	100	89	61	56	19	64.9%
DeepSeek V4 Flash	100	100	75	44	0	63.9%
DeepSeek V3 (2024-12-26)	97	89	65	33	27	62.1%
Z.AI GLM 4.5 Air	100	89	57	41	22	61.7%
DeepSeek V4 Flash (Reasoning)	100	100	62	43	0	61.0%
DeepSeek-V2 Chat	100	81	73	26	15	58.9%
Ministral 3 3B	98	84	52	43	0	55.3%
Mistral Large 2	89	68	43	40	19	51.6%
Grok 4.5 (Reasoning, High)	100	100	50	0	0	49.9%
Nemotron 3 Nano	100	96	50	0	0	49.2%
Gemini 3.1 Flash Lite	100	45	44	38	13	48.2%
Ministral 8B	100	65	39	22	0	45.3%
Ministral 3 8B	98	54	47	16	3	43.5%
Z.AI GLM 4.5	100	63	25	14	8	42.2%
Claude Haiku 4.5	100	63	41	0	0	40.7%
Writer: Palmyra X5	60	53	25	5	0	28.4%
Gemini 3.1 Flash Lite (Preview)	70	38	20	0	0	25.6%
Mistral Large 3	63	50	11	4	0	25.4%
Qwen 3 32B	63	36	24	0	0	24.5%
Gemini 3 Flash (Preview)	63	46	12	0	0	24.2%
GPT-4o Mini (temp=1)	79	32	0	0	0	22.2%
Cydonia 24B V4.1	56	36	19	0	0	22.0%
Ministral 3 14B	60	25	18	5	0	21.6%
Ministral 3B	55	36	0	0	0	18.2%
Arcee AI: Trinity Mini	37	32	10	0	0	15.7%
Qwen3 235B A22B Instruct 2507	53	11	0	0	0	12.8%
GPT-OSS 120B	33	20	0	0	0	10.6%
ByteDance Seed 1.6 Flash	29	20	0	0	0	9.9%
Gemini 3.1 Flash Lite (Reasoning)	43	0	0	0	0	8.6%
GPT-4.1 Mini	34	0	0	0	0	6.8%
Nemotron 3 Super	31	0	0	0	0	6.2%
Mistral Medium 3.1	29	0	0	0	0	5.8%
Gemma 3 4B	23	0	0	0	0	4.5%
GPT-4.1	14	4	0	0	0	3.7%
DeepSeek V3 (2025-03-24)	11	0	0	0	0	2.2%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	98	99.5%
Gemma 4 26B (Reasoning)	100	100	100	100	96	99.2%
Grok 4.3	100	100	100	100	96	99.2%
Mistral NeMO	100	100	100	100	94	98.7%
Gemini 2.5 Pro	100	100	100	100	88	97.6%
Qwen 2.5 72B	100	100	100	97	90	97.3%
Xiaomi MIMO v2.5 Pro	100	100	100	100	85	97.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	75	95.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	95	77	94.4%
Gemini 2.5 Flash (Reasoning)	100	100	100	96	75	94.2%
Z.AI GLM 4.6	100	100	100	100	68	93.5%
Aion 2.0	100	100	100	100	65	93.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	63	92.7%
Aion 3.0 Mini	100	100	100	100	62	92.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	59	91.8%
Gemma 3 27B	100	94	94	82	60	86.2%
DeepSeek V3.2	100	100	100	96	35	86.2%
ByteDance Seed 2.0 Mini	100	100	100	68	62	86.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	20	83.9%
GPT-5 Mini	100	100	100	88	20	81.6%
Grok 4.5 (Reasoning, High)	100	100	92	79	29	80.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	0	80.0%
Gemma 4 31B	100	100	100	88	5	78.7%
GPT-4o Mini (temp=0)	100	98	83	76	16	74.9%
Mistral Small 3.2 24B	100	100	98	75	0	74.5%
Claude Opus 4	100	100	100	53	0	70.6%
Claude Haiku 4.5	100	100	100	46	0	69.2%
Z.AI GLM 4.7 Flash	100	100	91	45	7	68.5%
Gemini 2.5 Flash Lite	100	87	76	58	16	67.5%
DeepSeek V3.1	100	100	74	45	12	66.2%
Gemma 4 26B	98	85	75	52	20	65.8%
Llama 3.1 70B	100	100	90	21	0	62.2%
Hermes 3 405B	100	100	88	0	0	57.6%
MiniMax M2.5	100	100	63	12	0	54.9%
Inception Mercury 2	100	69	46	31	17	52.6%
o4 Mini	93	74	59	35	0	52.1%
WizardLM 2 8x22b	100	81	59	1	0	48.2%
o4 Mini High	100	59	45	25	0	45.7%
Cohere Command R+ (Aug. 2024)	100	100	13	0	0	42.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	0	0	0	40.0%
Hermes 3 70B	81	56	29	0	0	33.1%
Gemini 2.5 Flash Lite (Reasoning)	71	51	34	0	0	31.3%
Gemini 3 Flash (Preview)	73	36	28	13	0	29.9%
Z.AI GLM 4.5	97	25	13	12	0	29.4%
Gemini 3.1 Flash Lite	77	50	13	0	0	28.0%
GPT-OSS 120B	100	40	0	0	0	28.0%
Ministral 3 8B	87	51	1	0	0	27.9%
Gemma 3 12B	67	52	14	0	0	26.7%
DeepSeek V3 (2024-12-26)	100	0	0	0	0	20.0%
Writer: Palmyra X5	45	28	27	0	0	20.0%
DeepSeek-V2 Chat	97	0	0	0	0	19.4%
Ministral 3B	88	0	0	0	0	17.5%
Nemotron 3 Nano	50	31	0	0	0	16.1%
Qwen 3 32B	25	23	22	0	0	13.9%
Nemotron 3 Super	63	0	0	0	0	12.7%
Arcee AI: Trinity Mini	63	0	0	0	0	12.7%
Z.AI GLM 4.5 Air	63	0	0	0	0	12.6%
Gemini 3.1 Flash Lite (Preview)	47	10	0	0	0	11.4%
Ministral 3 3B	39	0	0	0	0	7.8%
Ministral 3 14B	19	0	0	0	0	3.7%
Mistral Medium 3.1	18	0	0	0	0	3.6%
ByteDance Seed 1.6 Flash	15	0	0	0	0	3.0%
Qwen3 235B A22B Instruct 2507	12	0	0	0	0	2.4%
Ministral 8B	10	0	0	0	0	2.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning)	100	100	100	98	80	95.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	98	68	93.2%
Mistral NeMO	100	100	89	88	85	92.5%
Qwen3.7 Max	100	100	100	100	62	92.4%
Qwen 2.5 72B	100	100	100	83	71	91.0%
Qwen 3.6 35B	100	100	100	94	52	89.2%
Llama 3.1 70B	100	100	100	73	56	85.9%
GPT-5.5	100	90	89	79	59	83.5%
GPT-5.5 (Reasoning, Low)	100	86	86	79	65	83.1%
GPT-4o Mini (temp=0)	100	100	100	71	38	82.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	80	29	81.8%
Gemini 2.5 Flash	100	97	91	72	47	81.4%
Qwen 3.5 397B A17B	100	100	100	81	0	76.1%
GPT-5.4 Mini	100	95	82	63	38	75.7%
Qwen 3.5 122B	100	100	87	54	23	72.9%
Qwen 3.5 9B	100	100	97	49	12	71.6%
Gemini 2.5 Flash Lite	100	100	88	34	34	71.3%
GPT-5.4 (Reasoning, Low)	90	88	60	51	45	66.9%
GPT-5.5 (Reasoning)	100	91	86	42	2	64.3%
Gemma 3 27B	100	100	100	10	2	62.3%
Gemini 3.1 Pro (Preview)	100	99	61	20	19	59.8%
Gemini 2.5 Pro	89	75	63	61	0	57.7%
Qwen 3.5 Flash	85	81	62	60	0	57.3%
GPT-5.4 Mini (Reasoning, Low)	100	75	67	32	12	57.0%
Cohere Command R+ (Aug. 2024)	100	100	83	0	0	56.5%
Qwen 3.5 35B	100	100	61	15	0	55.3%
Qwen 3.6 27B	100	100	52	0	0	50.5%
Hermes 3 405B	100	100	35	13	0	49.6%
DeepSeek V3.2	100	82	43	14	0	47.9%
Gemini 2.5 Flash (Reasoning)	100	100	20	12	0	46.3%
Qwen 3.5 27B	95	63	40	32	0	46.1%
GPT-5.4 (Reasoning)	77	65	41	25	13	44.2%
Hermes 3 70B	100	80	15	0	0	39.0%
Z.AI GLM 4.6	76	69	40	0	0	36.8%
Grok 4.5 (Reasoning, High)	100	83	0	0	0	36.7%
ByteDance Seed 2.0 Lite	73	56	29	24	0	36.4%
WizardLM 2 8x22b	83	48	37	2	2	34.5%
Qwen 3.5 Plus (2026-02-15)	100	64	0	0	0	32.8%
Gemini 2.5 Flash Lite (Reasoning)	60	48	3	0	0	22.0%
Arcee AI: Trinity Mini	76	29	0	0	0	21.0%
DeepSeek V3.1	84	19	0	0	0	20.5%
Aion 3.0 Mini	100	1	0	0	0	20.2%
MiniMax M2.7	100	0	0	0	0	20.0%
Grok 4.3	87	0	0	0	0	17.4%
GPT-5.4	33	30	7	3	0	14.6%
GPT-4o Mini (temp=1)	71	0	0	0	0	14.1%
Gemini 3.1 Flash Lite (Preview)	67	0	0	0	0	13.3%
Xiaomi MIMO v2.5 Pro	66	0	0	0	0	13.3%
ByteDance Seed 2.0 Mini	49	0	0	0	0	9.7%
Ministral 3 8B	30	11	0	0	0	8.3%
Gemini 3.1 Flash Lite	37	0	0	0	0	7.4%
DeepSeek V3 (2024-12-26)	36	0	0	0	0	7.2%
Z.AI GLM 4.7	27	8	0	0	0	6.9%
Gemma 3 12B	29	0	0	0	0	5.7%
MoonshotAI: Kimi K2.6	22	6	0	0	0	5.5%
DeepSeek V4 Flash	28	0	0	0	0	5.5%
Gemini 3.5 Flash (Reasoning, Minimal)	26	0	0	0	0	5.2%
o4 Mini High	25	0	0	0	0	4.9%
Grok 4.20	21	0	0	0	0	4.2%
GPT-5.1	15	6	0	0	0	4.1%
Aion 2.0	10	6	0	0	0	3.1%
Z.AI GLM 4.5 Air	12	0	0	0	0	2.4%
Gemini 3 Flash (Preview, Reasoning)	11	0	0	0	0	2.1%
Gemini 3.1 Flash Lite (Reasoning)	10	0	0	0	0	2.0%
Qwen 3 32B	10	0	0	0	0	2.0%
Gemini 3.5 Flash (Reasoning)	9	0	0	0	0	1.8%
GPT-5	7	0	0	0	0	1.4%
DeepSeek-V2 Chat	4	0	0	0	0	0.8%
Grok 4.20 (Reasoning)	2	0	0	0	0	0.4%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Z.AI GLM 5 Turbo	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
MiniMax M3	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
Z.AI GLM 5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0.0%
DeepSeek V4 Pro (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Aion 3.0	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
Z.AI GLM 4.7 Flash	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	93	98.6%
GPT-5.5 (Reasoning, Low)	100	100	100	100	82	96.4%
Qwen 3.5 397B A17B	100	100	100	100	64	92.8%
ByteDance Seed 2.0 Lite	100	100	100	93	71	92.7%
Qwen 3.6 35B	100	100	100	100	63	92.6%
Gemma 3 27B	100	100	100	93	70	92.5%
Qwen 3.5 9B	100	100	100	97	63	92.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	97	86	68	90.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	49	89.8%
Qwen 2.5 72B	100	100	100	100	44	88.9%
GPT-5.4 Mini (Reasoning)	100	100	94	82	62	87.6%
Gemini 2.5 Flash	100	100	100	75	56	86.2%
Qwen 3.5 Flash	100	92	91	78	59	84.1%
Qwen 3.6 Flash	100	100	100	77	39	83.3%
GPT-5.4 (Reasoning)	100	100	78	65	58	80.3%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
GPT-5.5	92	91	79	71	66	79.7%
Qwen 3.5 35B	100	85	83	73	38	75.7%
Llama 3.1 70B	100	100	90	86	0	75.1%
Qwen 3.5 27B	100	100	77	59	38	74.8%
Z.AI GLM 4.6	100	94	93	84	0	74.1%
Qwen 3.5 122B	100	90	78	61	24	70.6%
Gemini 2.5 Pro	100	84	57	56	29	65.2%
Qwen 3.6 27B	100	100	49	45	32	65.1%
Qwen 3.5 Plus (2026-04-20)	100	100	100	8	0	61.6%
GPT-5.4 (Reasoning, Low)	100	78	45	43	39	61.2%
WizardLM 2 8x22b	98	94	91	0	0	56.5%
Gemini 2.5 Flash Lite	74	67	56	51	27	55.0%
Xiaomi MIMO v2.5 Pro	84	72	68	49	0	54.7%
GPT-5.4	74	74	48	42	24	52.6%
Cohere Command R+ (Aug. 2024)	100	100	50	8	0	51.6%
Gemini 2.5 Flash (Reasoning)	100	94	38	11	3	49.3%
Aion 3.0 Mini	100	86	56	0	0	48.3%
Hermes 3 70B	100	76	62	0	0	47.8%
Grok 4.3 (Reasoning)	100	64	55	16	0	47.2%
DeepSeek V3.1	100	72	33	20	9	46.8%
Hermes 3 405B	100	78	51	0	0	45.7%
Gemma 3 12B	79	65	33	32	16	45.0%
Aion 3.0	100	100	0	0	0	40.0%
GPT-4o Mini (temp=0)	76	69	44	0	0	37.7%
Gemini 3.5 Flash (Reasoning)	73	67	25	15	0	36.0%
Aion 2.0	60	36	32	24	0	30.3%
Ministral 3 3B	66	55	26	0	0	29.4%
DeepSeek V3.2	39	34	33	23	13	28.4%
GPT-5	67	34	16	14	3	26.9%
Gemini 2.5 Flash Lite (Reasoning)	76	38	13	0	0	25.4%
Grok 4.20 (Reasoning)	77	29	18	0	0	24.8%
Xiaomi MIMO v2.5	77	44	0	0	0	24.3%
MoonshotAI: Kimi K2.6	100	16	0	0	0	23.3%
Grok 4.5 (Reasoning, Low)	100	15	0	0	0	23.0%
Claude Sonnet 4.5	65	30	0	0	0	19.1%
GPT-5.1	36	25	17	12	0	18.0%
Arcee AI: Trinity Mini	44	44	0	0	0	17.7%
Qwen 3.5 Plus (2026-02-15)	78	0	0	0	0	15.7%
MiniMax M3	37	31	0	0	0	13.7%
Z.AI GLM 5 Turbo	32	30	0	0	0	12.4%
DeepSeek V4 Flash	59	0	0	0	0	11.8%
Claude Opus 4.8 (Reasoning)	42	0	0	0	0	8.4%
DeepSeek V4 Flash (Reasoning)	38	1	0	0	0	7.9%
Grok 4.3	24	14	0	0	0	7.6%
Ministral 8B	23	14	0	0	0	7.4%
GPT-5.2	34	0	0	0	0	6.8%
DeepSeek V4 Pro (Reasoning)	33	0	0	0	0	6.6%
Gemini 3.5 Flash (Reasoning, Minimal)	18	15	0	0	0	6.5%
Z.AI GLM 5.1	30	0	0	0	0	6.1%
Z.AI GLM 4.7	28	0	0	0	0	5.6%
Z.AI GLM 4.7 Flash	28	0	0	0	0	5.5%
Z.AI GLM 5	25	0	0	0	0	5.0%
Inception Mercury 2	18	0	0	0	0	3.5%
DeepSeek V3 (2024-12-26)	18	0	0	0	0	3.5%
Claude Opus 4	17	0	0	0	0	3.4%
DeepSeek V4 Pro	5	0	0	0	0	0.9%
DeepSeek-V2 Chat	4	0	0	0	0	0.8%
Qwen 3 32B	1	0	0	0	0	0.3%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
MiniMax M2.7	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Mini	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	90	98.0%
GPT-5.4 Mini	100	100	100	100	86	97.2%
GPT-5.4 Mini (Reasoning)	100	100	100	94	85	96.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	75	95.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	74	94.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	71	94.2%
Qwen 3.5 9B	100	100	100	100	71	94.2%
GPT-5.5 (Reasoning)	100	100	100	95	71	93.3%
GPT-5.4	100	100	100	100	66	93.3%
GPT-5.5	100	100	98	88	81	93.2%
Qwen 3.6 Flash	100	100	100	100	55	91.0%
Gemini 2.5 Flash Lite	100	100	100	100	48	89.4%
Gemini 2.5 Pro	100	100	100	100	32	86.5%
Z.AI GLM 4.6	100	100	92	85	53	86.0%
Qwen 3.5 35B	100	100	100	98	29	85.3%
Qwen 3.5 122B	100	100	92	90	42	84.9%
ByteDance Seed 2.0 Lite	100	100	96	94	33	84.7%
GPT-5.4 (Reasoning)	100	100	82	73	65	84.0%
Gemini 2.5 Flash	100	94	90	88	46	83.4%
GPT-4o Mini (temp=0)	100	100	94	84	37	82.9%
GPT-5.4 (Reasoning, Low)	100	100	98	82	31	82.1%
Aion 2.0	100	100	92	73	43	81.6%
Hermes 3 405B	100	100	100	100	3	80.7%
Qwen 3.6 35B	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	100	60	38	79.8%
Hermes 3 70B	100	100	100	92	0	78.4%
Gemma 3 27B	100	100	93	81	0	74.8%
Qwen 3.6 27B	100	100	100	63	0	72.5%
WizardLM 2 8x22b	100	100	100	54	0	70.7%
DeepSeek V3.2	100	100	73	47	31	70.2%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	26	0	65.2%
Xiaomi MIMO v2.5 Pro	100	100	83	35	0	63.7%
DeepSeek V3.1	97	80	63	47	19	61.3%
Ministral 3 3B	100	63	51	48	33	59.1%
Aion 3.0 Mini	100	76	42	29	25	54.3%
Z.AI GLM 4.5	100	100	36	24	0	51.9%
Z.AI GLM 4.5 Air	89	79	63	22	0	50.8%
MiniMax M2.7	99	88	63	0	0	50.2%
Ministral 3B	85	83	74	0	0	48.3%
Gemma 3 12B	100	100	27	11	0	47.5%
Qwen 3.5 Plus (2026-02-15)	100	85	29	19	0	46.4%
Z.AI GLM 5 Turbo	100	100	12	8	0	44.0%
Cohere Command R+ (Aug. 2024)	66	54	47	34	9	41.8%
MiniMax M3	100	100	0	0	0	40.0%
Inception Mercury 2	100	59	29	0	0	37.8%
Arcee AI: Trinity Mini	100	43	43	0	0	37.0%
GPT-5	83	70	28	0	0	36.3%
GPT-5.1	67	65	28	17	0	35.6%
Gemma 3 4B	79	77	3	0	0	31.9%
Gemini 3.1 Flash Lite (Reasoning)	93	49	8	7	0	31.3%
DeepSeek V4 Pro	100	27	19	0	0	29.1%
DeepSeek V4 Flash	100	42	2	0	0	28.9%
DeepSeek V4 Pro (Reasoning)	61	59	24	0	0	28.8%
Llama 3.1 70B	100	30	5	0	0	26.9%
MoonshotAI: Kimi K2.6	52	51	28	0	0	26.4%
Gemini 3.5 Flash (Reasoning, Minimal)	66	60	0	0	0	25.2%
ByteDance Seed 2.0 Mini	100	25	0	0	0	25.1%
Aion 3.0	100	24	0	0	0	24.8%
Claude Opus 4.7	76	42	5	0	0	24.6%
Z.AI GLM 4.7 Flash	63	59	0	0	0	24.5%
DeepSeek V3 (2024-12-26)	100	21	0	0	0	24.3%
Xiaomi MIMO v2.5	87	30	0	0	0	23.4%
Claude Sonnet 4	66	22	14	13	0	22.9%
Ministral 3 8B	58	34	21	0	0	22.8%
Ministral 8B	69	45	0	0	0	22.8%
Z.AI GLM 4.7	76	32	0	0	0	21.7%
Claude Opus 4.8 (Reasoning, Low)	86	20	0	0	0	21.3%
Grok 4.3 (Reasoning)	100	0	0	0	0	20.0%
Gemma 4 26B	60	37	0	0	0	19.3%
MoonshotAI: Kimi K2.5	47	35	10	0	0	18.3%
DeepSeek-V2 Chat	65	23	0	0	0	17.6%
Qwen 3 32B	61	21	0	0	0	16.4%
Mistral Large 2	65	16	1	0	0	16.3%
GPT-4o Mini (temp=1)	56	11	0	0	0	13.6%
Gemini 3 Flash (Preview)	65	0	0	0	0	13.0%
Mistral Medium 3.1	58	4	0	0	0	12.5%
Claude Opus 4	40	19	0	0	0	11.7%
Cydonia 24B V4.1	57	0	0	0	0	11.4%
Grok 4.20	33	24	0	0	0	11.4%
Claude Sonnet 5	56	0	0	0	0	11.3%
Mistral Large 3	37	18	0	0	0	11.0%
Gemini 3.1 Flash Lite (Preview)	31	23	0	0	0	10.7%
Writer: Palmyra X5	48	0	0	0	0	9.6%
ByteDance Seed 1.6 Flash	47	0	0	0	0	9.3%
Ministral 3 14B	30	8	0	0	0	7.8%
Gemma 4 31B	38	0	0	0	0	7.7%
Gemini 3.5 Flash (Reasoning)	37	0	0	0	0	7.4%
DeepSeek V4 Flash (Reasoning)	28	7	2	0	0	7.3%
GPT-5.4 Nano (Reasoning, Low)	34	0	0	0	0	6.9%
Gemini 3 Flash (Preview, Reasoning)	33	0	0	0	0	6.6%
Grok 4.3	15	15	0	0	0	6.1%
Claude Sonnet 4.6	22	8	0	0	0	6.0%
o4 Mini High	22	0	0	0	0	4.4%
Claude Opus 4.7 (Reasoning)	21	0	0	0	0	4.3%
Grok 4.5 (Reasoning, High)	18	0	0	0	0	3.5%
Grok 4.20 (Reasoning)	17	0	0	0	0	3.4%
o4 Mini	16	0	0	0	0	3.2%
Claude Opus 4.8 (Reasoning)	14	0	0	0	0	2.9%
MiniMax M2.5	13	0	0	0	0	2.6%
GPT-5.4 Nano (Reasoning)	13	0	0	0	0	2.6%
Gemini 3.1 Flash Lite	12	0	0	0	0	2.4%
Claude Sonnet 5 (Reasoning)	9	0	0	0	0	1.8%
GPT-4o, Aug. 6th (temp=1)	9	0	0	0	0	1.8%
Claude Sonnet 4.6 (Reasoning)	1	0	0	0	0	0.2%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
Z.AI GLM 5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	99.9%
GPT-5.5 (Reasoning, Low)	100	100	100	100	98	99.6%
GPT-5.5 (Reasoning)	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	97	99.3%
Gemini 3.1 Pro (Preview)	100	100	100	100	93	98.6%
Qwen 3.5 Flash	100	100	100	100	90	98.0%
Qwen 3.5 9B	100	100	100	100	89	97.8%
Gemini 2.5 Flash	100	100	100	100	86	97.3%
GPT-5.5	100	100	100	98	85	96.6%
Qwen 3.6 Flash	100	100	100	100	81	96.2%
Gemini 2.5 Flash Lite	100	100	100	100	81	96.2%
Qwen 3.5 122B	100	100	100	100	81	96.1%
Qwen 3.5 27B	100	100	100	100	77	95.5%
Qwen 2.5 72B	100	100	100	100	66	93.1%
Hermes 3 405B	100	100	95	85	81	92.2%
Gemini 2.5 Pro	100	100	100	80	78	91.6%
GPT-5.4 Mini	100	100	100	100	57	91.4%
GPT-5.4 (Reasoning)	100	100	86	84	83	90.7%
Z.AI GLM 4.6	100	100	100	100	51	90.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	89	46	86.9%
GPT-5.4 (Reasoning, Low)	100	100	100	100	29	85.7%
Qwen 3.6 27B	100	100	100	96	10	81.3%
GPT-5.4	100	100	100	54	42	79.2%
Qwen 3.6 35B	100	100	100	72	21	78.6%
Cohere Command R+ (Aug. 2024)	100	100	95	55	41	78.2%
DeepSeek V3.2	89	84	82	70	58	76.6%
Gemini 2.5 Flash (Reasoning)	100	100	86	83	0	73.7%
Mistral NeMO	100	100	93	68	0	72.2%
DeepSeek V3.1	100	100	80	49	30	71.7%
Gemma 3 12B	100	93	83	74	5	71.2%
Gemma 3 27B	100	100	77	74	0	70.1%
ByteDance Seed 2.0 Lite	100	100	94	21	13	65.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	64	62	36	30	58.5%
Arcee AI: Trinity Mini	100	100	60	21	0	56.3%
Z.AI GLM 4.7 Flash	99	83	82	14	0	55.7%
MiniMax M3	100	100	47	30	0	55.3%
GPT-4o Mini (temp=0)	100	100	48	22	0	54.0%
DeepSeek V4 Flash	100	100	63	0	0	52.7%
Gemini 3.5 Flash (Reasoning)	100	87	39	33	0	51.9%
Z.AI GLM 4.7	100	100	29	19	0	49.7%
Llama 3.1 70B	100	100	40	0	0	47.9%
Gemini 2.5 Flash Lite (Reasoning)	91	58	55	35	0	47.8%
Mistral Large 3	100	62	40	31	0	46.6%
Z.AI GLM 5 Turbo	100	91	27	0	0	43.6%
DeepSeek V4 Pro	100	86	30	0	0	43.2%
Hermes 3 70B	100	61	44	0	0	41.1%
Xiaomi MIMO v2.5 Pro	100	65	34	0	0	39.7%
Ministral 3 8B	100	42	27	20	0	37.8%
Xiaomi MIMO v2.5	92	72	18	0	0	36.5%
Grok 4.3 (Reasoning)	100	71	0	0	0	34.3%
Mistral Large 2	100	50	5	0	0	30.9%
Mistral Small 3.2 24B	78	50	25	0	0	30.7%
Aion 2.0	71	38	24	20	0	30.6%
Qwen 3.5 Plus (2026-02-15)	100	33	15	0	0	29.7%
MoonshotAI: Kimi K2.6	86	46	16	0	0	29.5%
Aion 3.0 Mini	100	32	13	0	0	28.9%
Ministral 3 3B	100	32	0	0	0	26.3%
GPT-4o, Aug. 6th (temp=0)	100	24	7	0	0	26.1%
Claude Opus 4.7 (Reasoning)	65	37	0	0	0	20.4%
Claude Haiku 4.5	100	0	0	0	0	20.0%
Grok 4.3	100	0	0	0	0	20.0%
GPT-5.1	58	20	13	0	0	18.2%
Grok 4.20 (Reasoning)	86	0	0	0	0	17.2%
GPT-5	62	16	1	0	0	15.8%
DeepSeek V4 Flash (Reasoning)	44	20	8	0	0	14.5%
DeepSeek V3 (2025-03-24)	60	0	0	0	0	11.9%
Z.AI GLM 4.5 Air	56	0	0	0	0	11.3%
WizardLM 2 8x22b	37	15	0	0	0	10.4%
Claude Opus 4.5	51	0	0	0	0	10.3%
Mistral Small 4 (Reasoning)	47	0	0	0	0	9.4%
MiniMax M2.5	45	0	0	0	0	9.0%
Gemini 3 Flash (Preview, Reasoning)	31	13	0	0	0	8.8%
Grok 4.5 (Reasoning, Low)	42	0	0	0	0	8.5%
Ministral 3 14B	35	5	0	0	0	8.0%
Claude Sonnet 5 (Reasoning, Low)	37	0	0	0	0	7.4%
o4 Mini	29	5	0	0	0	6.6%
Grok 4.5 (Reasoning, High)	33	0	0	0	0	6.6%
Claude Opus 4	32	0	0	0	0	6.4%
Z.AI GLM 5.1	30	0	0	0	0	6.1%
Gemma 4 26B	29	0	0	0	0	5.7%
Gemini 3 Flash (Preview)	26	0	0	0	0	5.2%
Z.AI GLM 4.5	25	0	0	0	0	5.0%
GPT-5.2	21	2	0	0	0	4.7%
DeepSeek V4 Pro (Reasoning)	23	0	0	0	0	4.6%
Gemini 3.1 Flash Lite (Reasoning)	21	0	0	0	0	4.3%
MiniMax M2.7	21	0	0	0	0	4.2%
Gemini 3.1 Flash Lite (Preview)	18	0	0	0	0	3.5%
Gemini 3.1 Flash Lite	17	0	0	0	0	3.5%
Claude Opus 4.8 (Reasoning, Low)	14	0	0	0	0	2.9%
Gemma 4 31B (Reasoning)	14	0	0	0	0	2.9%
Aion 3.0	13	0	0	0	0	2.6%
Claude Sonnet 4.5	12	0	0	0	0	2.4%
Z.AI GLM 5	10	0	0	0	0	1.9%
Mistral Medium 3.1	8	0	0	0	0	1.5%
o4 Mini High	7	0	0	0	0	1.4%
Qwen 3 32B	3	0	0	0	0	0.5%
GPT-5.4 Nano (Reasoning)	1	0	0	0	0	0.3%
MoonshotAI: Kimi K2.5	1	0	0	0	0	0.2%
Grok 4.20	1	0	0	0	0	0.1%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Mini	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0.0%
DeepSeek V3 (2024-12-26)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	99	99.8%
Qwen 3.5 27B	100	100	100	100	93	98.5%
Gemma 3 27B	100	100	100	100	92	98.5%
Mistral NeMO	100	100	100	100	91	98.2%
GPT-5.5 (Reasoning)	100	100	100	96	92	97.4%
Qwen 3.5 Flash	100	100	100	98	78	95.2%
Qwen 3.6 Flash	100	100	100	100	70	94.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	63	92.7%
GPT-5.4 (Reasoning)	100	100	100	88	74	92.5%
Qwen 3.5 35B	100	100	97	85	79	92.3%
Qwen 3.6 35B	100	100	100	86	71	91.5%
GPT-5.5 (Reasoning, Low)	100	100	93	83	74	90.0%
Qwen 3.5 9B	100	100	100	92	54	89.1%
Qwen 2.5 72B	100	100	100	86	58	88.7%
GPT-5.5	100	100	98	85	60	88.7%
Gemini 2.5 Flash	100	100	94	86	61	88.3%
Gemini 3.1 Pro (Preview)	100	100	100	68	68	87.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	83	83	65	86.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	77	53	85.9%
GPT-4o, Aug. 6th (temp=0)	100	100	96	74	51	84.1%
Qwen 3.6 27B	100	100	98	92	30	84.0%
Mistral Small 3.2 24B	100	100	100	100	13	82.6%
GPT-5.4 (Reasoning, Low)	100	100	88	82	43	82.5%
GPT-5.4	100	100	83	69	60	82.5%
Gemini 2.5 Flash Lite	100	100	82	58	49	77.8%
Gemini 2.5 Flash (Reasoning)	100	89	86	73	40	77.5%
Hermes 3 405B	100	100	100	44	30	74.8%
DeepSeek V3.1	100	100	100	63	0	72.7%
Cohere Command R+ (Aug. 2024)	100	100	75	63	0	67.7%
Llama 3.1 70B	100	100	100	37	0	67.4%
Gemini 2.5 Pro	100	91	78	40	23	66.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	58	27	21	61.3%
Ministral 3 8B	100	87	86	3	0	55.0%
GPT-4o Mini (temp=0)	87	81	61	24	0	50.8%
DeepSeek V3.2	91	90	61	10	0	50.3%
Aion 2.0	85	76	48	22	7	47.6%
Mistral Large 2	94	74	39	27	0	46.8%
Z.AI GLM 4.6	100	96	29	3	0	45.7%
Qwen 3.5 Plus (2026-02-15)	100	55	54	11	0	44.3%
Gemma 3 4B	74	60	53	20	0	41.4%
Arcee AI: Trinity Mini	100	49	35	5	0	37.8%
Z.AI GLM 4.7	76	61	26	14	10	37.4%
ByteDance Seed 2.0 Lite	100	73	7	0	0	36.0%
Z.AI GLM 5 Turbo	100	43	5	0	0	29.7%
Gemini 3.5 Flash (Reasoning)	68	37	35	0	0	28.1%
Ministral 8B	60	45	30	0	0	27.0%
Gemma 3 12B	100	31	0	0	0	26.2%
GPT-5	83	45	0	0	0	25.8%
DeepSeek V4 Flash	76	49	0	0	0	25.0%
GPT-5.1	65	58	0	0	0	24.6%
Hermes 3 70B	41	41	37	0	0	23.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	14	0	0	0	22.9%
Xiaomi MIMO v2.5 Pro	59	30	23	0	0	22.4%
Claude Opus 4	42	38	29	0	0	21.8%
DeepSeek-V2 Chat	52	37	17	0	0	21.2%
DeepSeek V3 (2024-12-26)	37	36	29	3	0	20.9%
DeepSeek V4 Flash (Reasoning)	100	1	0	0	0	20.3%
Z.AI GLM 5	100	0	0	0	0	20.0%
Aion 3.0	100	0	0	0	0	20.0%
DeepSeek V3 (2025-03-24)	100	0	0	0	0	20.0%
WizardLM 2 8x22b	100	0	0	0	0	20.0%
Ministral 3 3B	100	0	0	0	0	20.0%
Gemini 3.1 Flash Lite (Preview)	65	34	0	0	0	19.7%
Claude Sonnet 4.5	86	0	0	0	0	17.3%
Xiaomi MIMO v2.5	67	16	0	0	0	16.6%
Z.AI GLM 5.1	52	30	0	0	0	16.4%
Ministral 3B	80	0	0	0	0	16.0%
Inception Mercury 2	78	0	0	0	0	15.6%
Grok 4.20 (Reasoning)	75	0	0	0	0	15.1%
GPT-5.2	61	12	0	0	0	14.7%
DeepSeek V4 Pro (Reasoning)	43	16	9	0	0	13.6%
Nemotron 3 Nano	66	0	0	0	0	13.1%
Gemma 4 31B	37	29	0	0	0	13.1%
ByteDance Seed 2.0 Mini	51	10	0	0	0	12.1%
MiniMax M3	61	0	0	0	0	12.1%
Aion 3.0 Mini	39	20	0	0	0	11.8%
Z.AI GLM 4.7 Flash	39	19	0	0	0	11.6%
MiniMax M2.7	40	18	0	0	0	11.6%
Claude Sonnet 5	31	20	0	0	0	10.2%
Mistral Large 3	26	24	0	0	0	9.9%
Grok 4.5 (Reasoning, High)	49	0	0	0	0	9.7%
Qwen 3 32B	29	19	0	0	0	9.4%
Gemini 3.1 Flash Lite	29	16	0	0	0	8.9%
Z.AI GLM 4.5	42	0	0	0	0	8.3%
Claude Sonnet 4.6	40	0	0	0	0	8.0%
Gemma 4 26B (Reasoning)	35	0	0	0	0	7.0%
Claude Opus 4.5	27	0	0	0	0	5.3%
Cydonia 24B V4.1	24	0	0	0	0	4.8%
Mistral Medium 3.1	20	0	0	0	0	4.1%
Claude Sonnet 4.6 (Reasoning)	20	0	0	0	0	4.0%
Claude Opus 4.7 (Reasoning)	20	0	0	0	0	4.0%
Gemma 4 26B	19	0	0	0	0	3.7%
Writer: Palmyra X5	19	0	0	0	0	3.7%
Mistral Small 4 (Reasoning)	11	0	0	0	0	2.2%
GPT-4o Mini (temp=1)	10	0	0	0	0	2.0%
Mistral Small 4	7	0	0	0	0	1.4%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	97	93	98.0%
Qwen 2.5 72B	100	100	100	100	76	95.3%
Qwen 3.6 Flash	100	100	100	100	66	93.3%
Qwen 3.6 27B	100	100	100	100	62	92.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	58	91.6%
GPT-5.5 (Reasoning)	100	100	100	92	57	89.8%
GPT-5.4 Mini	100	100	100	85	63	89.6%
Qwen 3.5 35B	100	100	100	94	54	89.4%
Mistral Small 3.2 24B	100	100	100	100	42	88.3%
Qwen 3.5 27B	100	100	100	78	53	86.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	85	77	67	85.9%
GPT-5.5 (Reasoning, Low)	100	100	98	67	64	85.7%
Qwen 3.5 Plus (2026-04-20)	100	100	96	90	33	83.8%
Qwen 3.6 35B	100	100	100	98	20	83.4%
Qwen 3.5 9B	100	100	85	74	48	81.2%
GPT-5.4	100	89	88	69	57	80.7%
Qwen 3.5 122B	100	100	93	55	53	80.2%
Gemini 3.1 Pro (Preview)	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Gemini 2.5 Pro	100	100	72	65	55	78.3%
GPT-5.4 (Reasoning, Low)	100	97	88	73	30	77.7%
Gemini 2.5 Flash	100	100	100	86	0	77.3%
Gemini 2.5 Flash Lite	100	100	90	64	27	76.3%
GPT-5.4 (Reasoning)	100	100	100	51	18	73.8%
Gemma 3 27B	100	94	68	51	37	69.9%
Qwen 3.5 Flash	100	100	88	32	24	68.7%
Hermes 3 70B	100	100	95	41	0	67.2%
Z.AI GLM 4.6	100	82	55	54	43	67.0%
Gemini 2.5 Flash (Reasoning)	100	85	82	36	18	64.2%
Z.AI GLM 5 Turbo	100	100	100	0	0	60.0%
Gemini 2.5 Flash Lite (Reasoning)	100	53	50	41	0	48.8%
DeepSeek V3.1	75	71	48	19	12	45.2%
GPT-4o, Aug. 6th (temp=0)	97	63	42	22	0	44.9%
ByteDance Seed 2.0 Lite	100	78	26	13	0	43.4%
Cohere Command R+ (Aug. 2024)	100	100	7	0	0	41.4%
Gemma 3 12B	100	24	19	0	0	28.5%
DeepSeek V4 Pro	100	29	0	0	0	25.7%
Qwen 3.5 Plus (2026-02-15)	61	60	0	0	0	24.3%
Z.AI GLM 4.7 Flash	44	41	21	11	0	23.3%
Z.AI GLM 4.7	53	52	0	0	0	20.9%
DeepSeek V3.2	68	28	9	0	0	20.8%
GPT-5	56	47	0	0	0	20.5%
Z.AI GLM 5.2 (Reasoning, High)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
MoonshotAI: Kimi K2.6	92	0	0	0	0	18.4%
Arcee AI: Trinity Mini	91	0	0	0	0	18.2%
Ministral 3B	80	2	0	0	0	16.5%
Claude Sonnet 4	67	0	0	0	0	13.3%
DeepSeek-V2 Chat	63	0	0	0	0	12.6%
Ministral 3 3B	42	19	0	0	0	12.1%
Xiaomi MIMO v2.5 Pro	45	0	0	0	0	9.0%
GPT-4o Mini (temp=0)	24	18	0	0	0	8.3%
MiniMax M3	39	1	0	0	0	8.0%
Aion 2.0	19	11	2	0	0	6.3%
Claude Sonnet 5 (Reasoning)	31	0	0	0	0	6.2%
Gemini 3.5 Flash (Reasoning)	28	0	0	0	0	5.5%
Xiaomi MIMO v2.5	16	11	0	0	0	5.5%
Grok 4.20 (Reasoning)	25	0	0	0	0	4.9%
Aion 3.0 Mini	21	0	0	0	0	4.2%
DeepSeek V4 Flash	16	0	0	0	0	3.3%
Mistral Large 2	16	0	0	0	0	3.3%
MiniMax M2.7	11	0	0	0	0	2.1%
GPT-5.1	8	0	0	0	0	1.7%
Claude Opus 4.8 (Reasoning, Low)	3	0	0	0	0	0.7%
Grok 4.20	1	0	0	0	0	0.2%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
Z.AI GLM 5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0.0%
DeepSeek V4 Pro (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Aion 3.0	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Mini	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
DeepSeek V3 (2024-12-26)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3 32B	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	99	99.8%
GPT-5.5 (Reasoning)	100	100	100	100	98	99.6%
Mistral NeMO	100	100	100	100	94	98.9%
Qwen 3.5 Flash	100	100	100	100	94	98.7%
Cohere Command R+ (Aug. 2024)	100	100	100	98	91	97.7%
GPT-5.5 (Reasoning, Low)	100	100	100	96	90	97.2%
GPT-5.4	100	100	100	93	93	97.2%
Mistral Small 3.2 24B	100	100	100	100	73	94.6%
GPT-5.4 (Reasoning)	100	100	100	94	63	91.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	93	62	90.9%
GPT-5.4 (Reasoning, Low)	100	100	100	82	56	87.7%
Inception Mercury 2	100	100	100	93	41	86.8%
Hermes 3 405B	100	100	100	93	35	85.6%
GPT-5.1	100	100	100	76	33	81.9%
Z.AI GLM 4.6	100	100	98	56	48	80.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	0	80.0%
GPT-4o Mini (temp=0)	100	95	91	60	52	79.4%
ByteDance Seed 2.0 Lite	100	100	100	56	24	76.0%
Gemini 2.5 Pro	100	100	77	65	38	76.0%
Z.AI GLM 4.7	96	92	85	69	27	73.6%
Nemotron 3 Nano	100	100	90	70	0	72.0%
Qwen 3.5 Plus (2026-02-15)	100	97	75	48	23	68.5%
Gemini 2.5 Flash Lite	100	100	67	56	0	64.6%
Gemini 2.5 Flash	100	100	79	25	0	60.7%
Llama 3.1 70B	100	100	100	0	0	60.0%
Grok 4.3	100	100	100	0	0	59.9%
DeepSeek V3.2	100	88	57	49	3	59.5%
Gemini 2.5 Flash (Reasoning)	100	85	53	45	7	58.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	69	20	0	57.8%
GPT-OSS 120B	100	100	47	37	0	56.7%
Gemini 3.5 Flash (Reasoning)	85	68	55	42	21	54.2%
GPT-5	100	100	45	20	0	53.1%
Hermes 3 70B	100	100	65	0	0	52.9%
Arcee AI: Trinity Mini	89	87	87	0	0	52.5%
Xiaomi MIMO v2.5 Pro	100	98	64	0	0	52.5%
DeepSeek-V2 Chat	100	87	56	0	0	48.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	18	7	0	44.9%
o4 Mini High	99	58	46	21	0	44.7%
Z.AI GLM 4.5 Air	100	96	5	0	0	40.2%
Gemma 4 31B (Reasoning)	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	36	33	29	0	39.5%
GPT-5.2	68	64	38	24	0	39.0%
MoonshotAI: Kimi K2.6	100	52	14	0	0	33.3%
DeepSeek V3.1	79	69	14	0	0	32.5%
Nemotron 3 Super	100	41	16	0	0	31.3%
Gemini 3.1 Flash Lite (Preview)	79	68	0	0	0	29.4%
GPT-4o Mini (temp=1)	76	40	17	13	0	29.3%
Gemma 3 27B	76	48	14	0	0	27.5%
DeepSeek V3 (2024-12-26)	100	33	0	0	0	26.6%
o4 Mini	69	57	0	0	0	25.3%
Gemma 4 31B	66	51	3	0	0	24.0%
Z.AI GLM 4.7 Flash	62	32	24	0	0	23.6%
Gemma 4 26B	68	27	14	0	0	22.0%
Grok 4.5 (Reasoning, Low)	51	49	0	0	0	20.2%
Z.AI GLM 5.2 (Reasoning, High)	100	0	0	0	0	20.0%
Aion 3.0	100	0	0	0	0	20.0%
Gemini 3 Flash (Preview)	100	0	0	0	0	20.0%
Grok 4.20	100	0	0	0	0	20.0%
Ministral 3 8B	100	0	0	0	0	20.0%
WizardLM 2 8x22b	85	0	0	0	0	17.1%
Gemini 3.1 Flash Lite (Reasoning)	44	24	0	0	0	13.6%
Gemma 4 26B (Reasoning)	62	0	0	0	0	12.5%
Aion 2.0	40	22	0	0	0	12.3%
Grok 4.5 (Reasoning, High)	40	14	3	0	0	11.4%
Gemma 3 12B	25	19	0	0	0	8.7%
Claude Haiku 4.5	43	0	0	0	0	8.6%
Gemma 3 4B	43	0	0	0	0	8.6%
Gemini 3.1 Flash Lite	34	7	0	0	0	8.2%
GPT-5.4 Nano (Reasoning)	37	0	0	0	0	7.3%
Aion 3.0 Mini	34	0	0	0	0	6.8%
Z.AI GLM 5 Turbo	30	0	0	0	0	6.0%
Xiaomi MIMO v2.5	20	5	0	0	0	4.8%
Claude Sonnet 4	24	0	0	0	0	4.8%
DeepSeek V4 Flash	24	0	0	0	0	4.8%
GPT-4o, Aug. 6th (temp=1)	17	0	0	0	0	3.4%
Ministral 3B	17	0	0	0	0	3.4%
Cydonia 24B V4.1	13	0	0	0	0	2.6%
Claude Opus 4.8 (Reasoning)	11	0	0	0	0	2.3%
GPT-5.4 Nano	7	0	0	0	0	1.4%
Qwen 3 32B	6	0	0	0	0	1.1%
Z.AI GLM 4.5	5	0	0	0	0	1.0%
GPT-5.4 Nano (Reasoning, Low)	2	0	0	0	0	0.3%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
MiniMax M3	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
Z.AI GLM 5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
DeepSeek V4 Pro (Reasoning)	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
MiniMax M2.7	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	99.9%
Qwen 3.5 122B	100	100	100	100	96	99.1%
ByteDance Seed 2.0 Lite	100	100	100	100	84	96.8%
GPT-5.4	100	100	100	100	77	95.5%
Z.AI GLM 4.6	100	100	100	96	77	94.7%
Gemma 3 27B	100	100	100	100	71	94.3%
GPT-4o Mini (temp=0)	100	100	100	88	82	94.0%
GPT-5.4 (Reasoning)	100	100	100	100	59	91.8%
MoonshotAI: Kimi K2.6	100	100	100	97	38	87.0%
Gemini 2.5 Pro	100	100	96	86	43	85.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	23	84.6%
GPT-5.1	100	100	100	61	61	84.4%
MiniMax M3	100	100	100	100	7	81.4%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	85	0	76.9%
Gemini 2.5 Flash	100	100	79	53	43	74.8%
GPT-5.2	100	82	80	63	48	74.5%
Grok 4.3	100	95	70	67	38	74.0%
Hermes 3 405B	100	92	81	80	0	70.5%
Aion 2.0	100	93	86	48	9	67.1%
Xiaomi MIMO v2.5	100	89	66	61	0	63.3%
Qwen 3.5 Plus (2026-02-15)	100	91	74	41	0	61.2%
o4 Mini High	80	77	72	72	0	60.2%
Gemini 3.5 Flash (Reasoning)	100	80	58	50	13	60.2%
WizardLM 2 8x22b	100	70	69	62	0	60.1%
MoonshotAI: Kimi K2.5	100	99	59	24	0	56.5%
Xiaomi MIMO v2.5 Pro	76	76	70	55	0	55.2%
GPT-4o, Aug. 6th (temp=0)	100	100	69	5	0	54.7%
Inception Mercury 2	100	100	50	13	0	52.6%
Z.AI GLM 4.7 Flash	100	89	61	0	0	50.0%
Gemini 2.5 Flash Lite (Reasoning)	82	70	42	41	14	50.0%
Z.AI GLM 4.7	93	60	56	37	0	49.2%
GPT-5.4 Nano (Reasoning, Low)	89	70	38	29	0	45.3%
DeepSeek V3.1	98	86	42	0	0	45.1%
Hermes 3 70B	98	91	37	0	0	45.1%
Nemotron 3 Nano	100	83	37	0	0	44.1%
GPT-5.4 Nano	76	59	41	31	9	43.2%
Claude Sonnet 4.5	100	79	34	0	0	42.7%
Gemma 4 31B (Reasoning)	72	51	49	41	0	42.7%
Gemma 3 12B	66	47	43	35	21	42.4%
DeepSeek V3.2	93	55	32	31	0	42.2%
Z.AI GLM 5 Turbo	100	98	0	0	0	39.6%
Gemini 3 Flash (Preview, Reasoning)	72	60	59	0	0	38.1%
ByteDance Seed 2.0 Mini	100	27	24	11	7	33.8%
Gemini 3.5 Flash (Reasoning, Minimal)	92	62	14	0	0	33.7%
Gemini 3.1 Flash Lite (Reasoning)	100	60	5	0	0	33.2%
Arcee AI: Trinity Mini	100	61	0	0	0	32.2%
Z.AI GLM 5	100	51	0	0	0	30.3%
Aion 3.0 Mini	99	39	0	0	0	27.5%
MiniMax M2.7	67	52	10	0	0	25.7%
Z.AI GLM 4.5 Air	93	34	0	0	0	25.4%
Gemini 3 Flash (Preview)	74	20	16	15	0	24.8%
Z.AI GLM 4.5	84	34	0	0	0	23.6%
DeepSeek V3 (2024-12-26)	61	45	0	0	0	21.3%
Cohere Command R+ (Aug. 2024)	55	51	0	0	0	21.1%
Gemma 4 26B	66	20	10	9	0	20.8%
DeepSeek-V2 Chat	58	36	8	0	0	20.5%
Mistral Large 2	74	21	5	0	0	20.1%
Claude Opus 4.8 (Reasoning, Low)	100	0	0	0	0	20.0%
Aion 3.0	100	0	0	0	0	20.0%
Nemotron 3 Super	89	11	0	0	0	20.0%
Ministral 3 3B	75	21	0	0	0	19.2%
GPT-5.4 Nano (Reasoning)	60	23	0	0	0	16.7%
Mistral Large 3	74	0	0	0	0	14.7%
DeepSeek V4 Pro (Reasoning)	68	0	0	0	0	13.6%
DeepSeek V4 Flash	62	0	0	0	0	12.4%
o4 Mini	56	0	0	0	0	11.3%
Ministral 8B	29	25	0	0	0	10.8%
Gemini 3.1 Flash Lite	50	0	0	0	0	9.9%
Gemini 3.1 Flash Lite (Preview)	40	0	0	0	0	7.9%
Gemma 4 26B (Reasoning)	17	10	7	0	0	6.7%
Gemma 3 4B	32	0	0	0	0	6.4%
Claude Opus 4.5	16	15	0	0	0	6.3%
Ministral 3 14B	26	0	0	0	0	5.2%
Claude Sonnet 4	13	0	0	0	0	2.6%
Z.AI GLM 5.1	12	0	0	0	0	2.4%
GPT-5 Mini	10	0	0	0	0	2.1%
Ministral 3B	9	0	0	0	0	1.8%
Claude Sonnet 5 (Reasoning, Low)	7	0	0	0	0	1.4%
Ministral 3 8B	5	0	0	0	0	0.9%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3 32B	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	99.9%
ByteDance Seed 2.0 Lite	100	100	100	100	95	99.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	99	94	98.6%
Gemini 2.5 Pro	100	100	100	100	88	97.7%
GPT-5.1	100	100	100	100	88	97.6%
Gemini 2.5 Flash	100	100	100	100	85	96.9%
GPT-4o Mini (temp=0)	100	100	100	100	83	96.7%
Gemini 2.5 Flash Lite	100	100	100	100	69	93.7%
Qwen 2.5 72B	100	100	100	100	69	93.7%
Gemini 3 Flash (Preview)	100	100	100	94	73	93.2%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	64	92.8%
GPT-5	100	100	100	100	63	92.6%
Aion 2.0	100	100	92	84	82	91.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	55	91.1%
Cohere Command R+ (Aug. 2024)	100	100	100	82	71	90.7%
Z.AI GLM 4.7	100	100	100	82	64	89.2%
Gemma 4 26B (Reasoning)	100	100	100	89	54	88.7%
GPT-4o, Aug. 6th (temp=0)	100	100	100	73	68	88.2%
o4 Mini High	100	100	100	100	40	88.0%
Grok 4.5 (Reasoning, Low)	100	100	100	98	38	87.2%
Claude Opus 4.8 (Reasoning)	100	100	100	85	50	87.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	67	66	86.5%
Hermes 3 405B	100	100	100	89	39	85.6%
Z.AI GLM 4.5 Air	100	100	100	100	14	82.8%
GPT-5.4 Nano (Reasoning)	100	95	89	73	54	82.5%
Gemma 4 31B	100	86	83	71	63	80.8%
Gemma 4 31B (Reasoning)	100	100	85	85	34	80.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	99	0	79.8%
GPT-5.2	100	100	100	95	3	79.6%
MoonshotAI: Kimi K2.6	100	100	89	77	30	79.2%
DeepSeek V4 Flash	100	93	88	85	25	78.2%
Grok 4.5 (Reasoning, High)	100	100	100	84	7	78.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	48	42	77.9%
Gemini 2.5 Flash Lite (Reasoning)	100	78	76	67	58	75.9%
Gemma 3 27B	100	100	64	61	51	75.4%
ByteDance Seed 2.0 Mini	100	100	100	69	0	73.7%
Hermes 3 70B	100	100	73	44	44	72.4%
WizardLM 2 8x22b	100	100	68	56	30	70.8%
Xiaomi MIMO v2.5 Pro	100	100	99	51	0	70.0%
DeepSeek V3.1	100	100	94	48	0	68.3%
GPT-5.4 Nano (Reasoning, Low)	93	89	72	48	35	67.5%
MiniMax M2.7	100	100	100	36	0	67.2%
Claude Opus 4.7 (Reasoning)	100	100	88	23	16	65.4%
Mistral Large 2	83	77	69	68	17	62.9%
Aion 3.0 Mini	100	100	68	45	0	62.6%
Nemotron 3 Nano	100	100	84	24	5	62.6%
Claude Sonnet 5 (Reasoning)	100	72	71	69	0	62.3%
Z.AI GLM 5 Turbo	100	100	98	12	0	62.0%
DeepSeek V3.2	100	85	81	36	0	60.4%
Grok 4.20	100	100	100	0	0	60.0%
Gemma 3 12B	100	73	69	46	0	57.6%
o4 Mini	100	100	73	0	0	54.6%
Claude Sonnet 4.5	100	100	73	0	0	54.5%
GPT-4o, Aug. 6th (temp=1)	100	100	47	25	0	54.4%
Z.AI GLM 4.7 Flash	100	71	69	18	14	54.3%
Z.AI GLM 4.5	82	71	64	54	0	54.1%
Claude Sonnet 5	100	76	60	32	0	53.4%
GPT-5.4 Nano	87	62	44	37	37	53.3%
Gemini 3.1 Flash Lite	100	92	44	30	0	53.2%
Mistral Large 3	100	100	40	19	7	53.1%
DeepSeek V4 Pro (Reasoning)	90	72	56	29	15	52.4%
MiniMax M3	96	83	51	31	0	52.2%
GPT-5 Mini	96	63	57	32	0	49.7%
Mistral Medium 3.1	91	56	53	47	0	49.4%
Ministral 3 3B	100	64	56	11	6	47.3%
Xiaomi MIMO v2.5	100	90	35	8	0	46.8%
Arcee AI: Trinity Mini	90	62	43	29	0	44.6%
Gemma 3 4B	100	100	20	0	0	44.0%
DeepSeek-V2 Chat	100	99	11	9	0	43.9%
Ministral 3 8B	58	53	52	46	0	41.8%
Claude Sonnet 4.6	58	45	41	38	26	41.7%
GPT-OSS 120B	100	64	37	0	0	40.3%
DeepSeek V4 Pro	100	100	0	0	0	40.0%
GPT-4o Mini (temp=1)	100	100	0	0	0	40.0%
Claude Opus 4.8 (Reasoning, Low)	100	76	20	0	0	39.3%
Claude Sonnet 4	72	50	36	20	17	38.8%
Aion 3.0	100	53	41	0	0	38.8%
Claude Opus 4.7	100	76	16	0	0	38.5%
DeepSeek V3 (2024-12-26)	100	52	27	0	0	35.7%
GPT-4.1 Nano	100	43	27	0	0	34.0%
Nemotron 3 Super	100	46	24	0	0	34.0%
Llama 3.1 70B	100	65	0	0	0	32.9%
Cydonia 24B V4.1	72	38	38	0	0	29.8%
DeepSeek V3 (2025-03-24)	100	33	14	0	0	29.5%
Mistral Small 4	79	32	23	13	0	29.3%
Ministral 3B	87	57	0	0	0	28.9%
Ministral 8B	70	25	25	9	0	25.8%
MiniMax M2.5	79	32	5	0	0	23.2%
Z.AI GLM 5.2 (Reasoning, High)	100	8	0	0	0	21.5%
GPT-4.1 Mini	74	32	0	0	0	21.1%
Ministral 3 14B	59	27	14	0	0	19.9%
Claude Haiku 4.5	85	0	0	0	0	17.0%
Qwen3 235B A22B Instruct 2507	74	1	0	0	0	15.0%
GPT-5 Nano	37	21	13	0	0	14.3%
Z.AI GLM 5.1	61	8	0	0	0	13.8%
Claude Sonnet 4.6 (Reasoning)	31	22	5	0	0	11.5%
GPT-4.1	55	0	0	0	0	11.0%
ByteDance Seed 1.6 Flash	55	0	0	0	0	11.0%
Claude Opus 4	54	0	0	0	0	10.7%
Claude Sonnet 5 (Reasoning, Low)	24	17	2	0	0	8.5%
Claude Opus 4.6 (Reasoning)	40	0	0	0	0	8.0%
Qwen 3 32B	24	0	0	0	0	4.8%
Writer: Palmyra X5	24	0	0	0	0	4.8%
DeepSeek V4 Flash (Reasoning)	20	0	0	0	0	3.9%
Claude Opus 4.5	18	0	0	0	0	3.6%
Mistral Small 4 (Reasoning)	6	0	0	0	0	1.2%
Claude Opus 4.6	4	0	0	0	0	0.8%
MoonshotAI: Kimi K2.5	3	0	0	0	0	0.6%
Z.AI GLM 5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	99	99.8%
Z.AI GLM 4.7	100	100	100	100	89	97.9%
Gemini 2.5 Flash Lite	100	100	100	100	85	97.0%
Gemini 2.5 Flash	100	100	100	92	91	96.7%
DeepSeek V3.1	100	100	100	87	78	93.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	54	90.9%
Grok 4.20	100	100	100	100	39	87.8%
Gemini 2.5 Pro	100	100	100	100	37	87.4%
ByteDance Seed 2.0 Lite	100	100	100	100	36	87.1%
Hermes 3 405B	100	100	100	90	43	86.6%
Hermes 3 70B	100	100	100	68	59	85.3%
Gemma 3 27B	100	100	90	81	49	84.0%
GPT-5	100	100	100	61	57	83.6%
Mistral NeMO	100	100	100	100	11	82.2%
DeepSeek V4 Flash	100	100	100	70	39	81.8%
MoonshotAI: Kimi K2.6	100	100	100	77	31	81.5%
GPT-5.2	100	100	100	55	48	80.6%
Gemini 3.5 Flash (Reasoning)	100	100	83	81	38	80.6%
Qwen 2.5 72B	100	100	100	100	2	80.5%
Grok 4.5 (Reasoning, Low)	100	100	100	100	1	80.2%
Gemini 2.5 Flash Lite (Reasoning)	100	100	71	60	60	78.4%
Arcee AI: Trinity Mini	100	100	100	78	0	75.6%
Grok 4.3	100	100	100	70	5	75.1%
GPT-4o Mini (temp=0)	100	100	86	53	36	74.8%
Aion 2.0	100	92	88	70	11	72.2%
Gemma 4 31B	93	84	76	55	49	71.4%
Cohere Command R+ (Aug. 2024)	100	100	100	46	11	71.3%
Gemma 4 31B (Reasoning)	100	83	81	61	24	69.8%
Gemma 4 26B (Reasoning)	100	100	77	59	13	69.8%
GPT-5.4 Nano	98	65	65	64	54	69.1%
GPT-5.4 Nano (Reasoning)	88	77	77	53	41	66.9%
DeepSeek V3.2	100	96	62	58	12	65.7%
Z.AI GLM 5.1	100	100	100	22	0	64.4%
Z.AI GLM 4.7 Flash	96	93	61	49	17	63.3%
Mistral Large 2	100	65	56	51	32	60.7%
Xiaomi MIMO v2.5 Pro	100	100	68	27	0	59.1%
GPT-5.4 Nano (Reasoning, Low)	95	80	80	30	9	58.8%
Inception Mercury 2	100	100	94	0	0	58.8%
MiniMax M2.7	100	100	51	42	0	58.6%
Mistral Large 3	100	100	59	33	0	58.4%
Claude Opus 4.7	100	87	66	35	0	57.7%
Aion 3.0 Mini	100	98	72	9	8	57.5%
MoonshotAI: Kimi K2.5	100	100	82	0	0	56.4%
Grok 4.5 (Reasoning, High)	100	99	45	31	0	54.9%
Claude Sonnet 5 (Reasoning, Low)	100	94	48	29	0	54.1%
MiniMax M3	100	100	66	0	0	53.2%
o4 Mini	100	97	65	0	0	52.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	88	49	17	2	51.2%
Z.AI GLM 5 Turbo	100	100	42	1	0	48.7%
GPT-4o, Aug. 6th (temp=0)	100	76	67	0	0	48.6%
Gemma 4 26B	82	74	57	15	10	47.7%
Gemma 3 12B	92	67	40	29	0	45.5%
DeepSeek V3 (2024-12-26)	100	100	14	8	0	44.6%
WizardLM 2 8x22b	73	56	48	43	0	44.0%
Llama 3.1 70B	100	100	19	0	0	43.7%
Claude Opus 4	81	65	60	10	0	43.1%
Z.AI GLM 4.5	68	66	50	27	3	42.9%
Claude Sonnet 4.5	86	65	48	11	0	42.0%
Gemini 3 Flash (Preview)	100	53	52	0	0	40.9%
o4 Mini High	96	70	17	17	0	40.1%
Z.AI GLM 4.5 Air	100	100	0	0	0	40.0%
Nemotron 3 Super	100	58	16	0	0	34.8%
GPT-OSS 120B	100	72	0	0	0	34.4%
Gemini 3 Flash (Preview, Reasoning)	73	48	30	18	0	33.8%
Claude Opus 4.7 (Reasoning)	100	48	20	0	0	33.6%
Z.AI GLM 5	81	64	15	0	0	32.0%
DeepSeek-V2 Chat	90	44	23	0	0	31.4%
Ministral 3B	64	56	35	0	0	31.1%
Claude Opus 4.8 (Reasoning)	78	32	25	15	0	30.0%
Gemini 3.1 Flash Lite (Reasoning)	71	36	34	2	0	28.5%
DeepSeek V4 Flash (Reasoning)	99	41	2	0	0	28.3%
Gemini 3.1 Flash Lite	88	47	7	0	0	28.3%
Mistral Medium 3.1	65	37	25	0	0	25.3%
Qwen 3 32B	67	27	23	0	0	23.5%
Claude Opus 4.8 (Reasoning, Low)	85	26	0	0	0	22.2%
Aion 3.0	100	9	0	0	0	21.9%
Claude Sonnet 5	98	9	0	0	0	21.4%
Z.AI GLM 5.2 (Reasoning, High)	100	0	0	0	0	20.0%
Xiaomi MIMO v2.5	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=1)	100	0	0	0	0	20.0%
Claude Haiku 4.5	99	0	0	0	0	19.7%
Nemotron 3 Nano	63	29	0	0	0	18.6%
GPT-5 Mini	44	34	0	0	0	15.7%
Ministral 3 8B	74	0	0	0	0	14.8%
ByteDance Seed 2.0 Mini	55	11	0	0	0	13.4%
Gemma 3 4B	55	9	0	0	0	12.8%
Claude Opus 4.5	60	0	0	0	0	12.0%
DeepSeek V4 Pro	54	0	0	0	0	10.9%
GPT-4.1 Mini	35	19	0	0	0	10.7%
Gemini 3.1 Flash Lite (Preview)	21	13	5	0	0	8.0%
GPT-4o Mini (temp=1)	33	0	0	0	0	6.6%
Mistral Small 4	32	0	0	0	0	6.4%
Ministral 8B	30	0	0	0	0	6.0%
Claude Sonnet 5 (Reasoning)	22	2	2	0	0	5.4%
Claude Sonnet 4.6 (Reasoning)	20	0	0	0	0	4.0%
GPT-4.1 Nano	20	0	0	0	0	4.0%
MiniMax M2.5	10	1	0	0	0	2.2%
Claude Opus 4.6 (Reasoning)	9	0	0	0	0	1.8%
Ministral 3 3B	9	0	0	0	0	1.8%
DeepSeek V4 Pro (Reasoning)	5	0	0	0	0	1.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	99.9%
GPT-5	100	100	100	100	96	99.1%
GPT-5.5 (Reasoning, Low)	100	100	100	100	95	99.1%
ByteDance Seed 2.0 Lite	100	100	100	100	94	98.8%
Grok 4.3	100	100	100	100	91	98.2%
Qwen 3.5 Flash	100	100	100	100	88	97.6%
GPT-OSS 120B	100	100	100	100	83	96.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	82	96.1%
Nemotron 3 Nano	100	100	100	96	81	95.4%
Cohere Command R+ (Aug. 2024)	100	100	100	100	72	94.5%
GPT-5.1	100	100	100	100	69	93.8%
Qwen 3.5 Plus (2026-02-15)	100	100	95	89	85	93.8%
Inception Mercury 2	100	100	100	86	69	90.9%
Qwen 2.5 72B	100	100	100	79	72	90.3%
Gemini 2.5 Flash	100	100	100	90	55	89.0%
Mistral Large 3	100	100	100	100	33	86.6%
Gemini 2.5 Flash Lite	100	100	99	86	34	83.9%
GPT-5.2	100	94	92	80	36	80.4%
Gemini 3.5 Flash (Reasoning)	98	95	79	70	56	79.6%
Gemma 3 27B	100	100	100	52	45	79.4%
Grok 4.20 (Reasoning)	100	100	100	49	44	78.8%
Z.AI GLM 4.7	100	100	82	76	33	78.3%
Ministral 3B	100	100	95	93	0	77.6%
Mistral Small 3.2 24B	100	100	100	77	0	75.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	40	34	74.8%
Gemma 4 31B (Reasoning)	100	100	100	49	23	74.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	67	0	73.4%
Mistral Large 2	100	100	100	63	0	72.7%
Gemini 2.5 Pro	100	100	69	52	36	71.3%
Hermes 3 405B	100	100	100	37	16	70.6%
WizardLM 2 8x22b	100	83	62	51	39	67.1%
GPT-5.4 Nano (Reasoning, Low)	79	78	77	71	23	65.7%
ByteDance Seed 2.0 Mini	100	100	83	43	0	65.1%
o4 Mini High	100	100	73	49	0	64.4%
GPT-4o, Aug. 6th (temp=0)	100	100	100	17	0	63.4%
Aion 2.0	100	87	85	29	12	62.7%
DeepSeek V3 (2024-12-26)	81	70	63	60	38	62.5%
Hermes 3 70B	87	85	63	54	15	60.7%
GPT-4o Mini (temp=0)	96	81	50	41	36	60.6%
Claude Sonnet 4.5	100	84	67	49	0	59.9%
Claude Sonnet 5 (Reasoning)	100	92	60	48	0	59.9%
Gemma 4 26B (Reasoning)	100	78	73	44	0	59.1%
Grok 4.5 (Reasoning, High)	100	100	72	22	0	58.8%
DeepSeek V3.1	96	73	60	32	31	58.4%
GPT-5.4 Nano	92	60	55	45	33	57.1%
Gemini 2.5 Flash Lite (Reasoning)	91	86	81	24	0	56.6%
Grok 4.20	100	100	52	31	0	56.4%
Gemma 4 26B	91	89	70	31	0	56.3%
o4 Mini	100	100	58	12	7	55.4%
DeepSeek V3.2	67	66	51	45	38	53.6%
Llama 3.1 70B	100	79	71	0	0	50.2%
Claude Sonnet 5	100	100	41	0	0	48.2%
Gemini 3 Flash (Preview, Reasoning)	92	57	52	25	13	47.8%
Z.AI GLM 5	100	56	51	23	0	45.9%
Gemini 3.1 Flash Lite	98	81	40	0	0	43.7%
MoonshotAI: Kimi K2.6	100	100	15	2	0	43.4%
Ministral 3 14B	93	54	38	29	0	42.7%
DeepSeek V4 Flash	100	43	40	26	0	41.9%
Z.AI GLM 4.5 Air	100	55	50	0	0	41.1%
Gemini 3.1 Flash Lite (Preview)	93	62	45	0	0	40.1%
Aion 3.0	100	100	0	0	0	40.0%
Z.AI GLM 5 Turbo	84	83	24	0	0	38.3%
GPT-4o Mini (temp=1)	100	54	29	7	0	37.8%
Claude Sonnet 5 (Reasoning, Low)	73	61	51	0	0	37.0%
Gemma 3 12B	84	60	24	16	0	36.7%
Mistral Medium 3.1	72	71	23	17	0	36.6%
MiniMax M2.7	80	56	39	0	0	35.0%
GPT-5.4 Nano (Reasoning)	94	46	33	0	0	34.5%
Z.AI GLM 4.5	77	43	30	20	0	34.2%
Aion 3.0 Mini	94	49	27	0	0	34.0%
Nemotron 3 Super	100	52	17	0	0	33.8%
Claude Opus 4.7 (Reasoning)	74	69	24	0	0	33.3%
Ministral 8B	85	43	35	0	0	32.5%
Qwen 3 32B	100	38	24	0	0	32.4%
Xiaomi MIMO v2.5	86	70	0	0	0	31.2%
Ministral 3 3B	100	52	2	0	0	30.9%
Z.AI GLM 4.7 Flash	63	30	24	18	14	29.8%
Claude Sonnet 4	62	44	20	19	0	29.2%
Gemma 4 31B	56	34	32	23	0	28.9%
Gemma 3 4B	57	42	20	19	0	27.6%
MoonshotAI: Kimi K2.5	78	51	5	0	0	26.8%
DeepSeek V4 Flash (Reasoning)	50	47	37	0	0	26.7%
MiniMax M2.5	100	30	0	0	0	25.9%
Mistral Small 4 (Reasoning)	60	59	0	0	0	23.7%
Ministral 3 8B	71	29	18	0	0	23.6%
DeepSeek V3 (2025-03-24)	61	56	0	0	0	23.5%
Gemini 3 Flash (Preview)	77	32	3	0	0	22.3%
Claude Opus 4.8 (Reasoning)	69	41	0	0	0	21.9%
DeepSeek-V2 Chat	48	42	8	3	1	20.6%
Claude Opus 4.5	55	48	0	0	0	20.6%
Claude Sonnet 4.6 (Reasoning)	43	31	20	0	0	18.9%
Writer: Palmyra X5	71	13	7	0	0	18.2%
Claude Opus 4.8 (Reasoning, Low)	43	26	20	0	0	18.0%
Claude Opus 4.7	88	0	0	0	0	17.6%
DeepSeek V4 Pro	52	22	12	0	0	17.2%
DeepSeek V4 Pro (Reasoning)	82	0	0	0	0	16.3%
Qwen3 235B A22B Instruct 2507	71	0	0	0	0	14.1%
GPT-5 Mini	52	15	0	0	0	13.5%
GPT-4.1 Mini	67	0	0	0	0	13.3%
GPT-4.1	51	0	0	0	0	10.3%
Xiaomi MIMO v2.5 Pro	42	9	0	0	0	10.2%
Grok 4.5 (Reasoning, Low)	38	13	0	0	0	10.2%
Cydonia 24B V4.1	48	0	0	0	0	9.5%
Arcee AI: Trinity Mini	36	7	0	0	0	8.5%
ByteDance Seed 1.6 Flash	38	0	0	0	0	7.5%
MiniMax M3	25	0	0	0	0	5.0%
Z.AI GLM 5.1	11	11	1	0	0	4.5%
Claude Opus 4	11	5	0	0	0	3.2%
Z.AI GLM 5.2 (Reasoning, High)	12	2	0	0	0	2.9%
Claude Haiku 4.5	11	0	0	0	0	2.3%
GPT-4.1 Nano	11	0	0	0	0	2.3%
Claude Sonnet 4.6	10	0	0	0	0	2.0%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	100	80	96.1%
GPT-5	100	100	100	100	79	95.9%
Mistral Small 3.2 24B	100	100	100	100	76	95.1%
ByteDance Seed 2.0 Lite	100	100	100	100	56	91.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	76	73	89.9%
Gemini 2.5 Flash (Reasoning)	100	100	100	82	50	86.3%
Gemini 2.5 Flash Lite	100	100	93	82	49	84.7%
Grok 4.3	100	100	100	100	22	84.4%
Qwen 2.5 72B	100	100	100	98	9	81.4%
Gemini 2.5 Pro	100	100	100	100	0	80.0%
Z.AI GLM 4.6	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	83	17	80.0%
Inception Mercury 2	100	100	90	75	31	79.3%
Grok 4.5 (Reasoning, High)	100	100	100	62	25	77.4%
Z.AI GLM 4.7	100	94	72	69	29	72.8%
GPT-4o Mini (temp=0)	100	100	50	45	44	67.9%
MoonshotAI: Kimi K2.6	95	92	54	52	47	67.8%
Gemini 2.5 Flash	100	100	76	34	0	62.2%
MiniMax M2.7	100	100	91	1	0	58.5%
Gemma 4 26B	98	65	63	63	2	58.3%
Gemini 3.5 Flash (Reasoning)	100	100	38	24	15	55.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	82	53	38	0	54.6%
DeepSeek V4 Flash	100	100	60	12	0	54.5%
Gemma 4 31B	100	69	64	28	4	53.0%
Gemma 3 27B	93	91	80	0	0	52.9%
Claude Opus 4.7	100	81	78	0	0	51.9%
o4 Mini	100	96	52	11	0	51.8%
Aion 3.0 Mini	100	100	32	25	0	51.3%
Gemma 4 31B (Reasoning)	100	63	59	21	0	48.7%
Gemma 3 12B	100	83	48	13	0	48.7%
Gemini 3 Flash (Preview)	82	71	60	30	0	48.5%
o4 Mini High	100	74	53	11	0	47.5%
Nemotron 3 Super	100	78	43	0	0	44.1%
MiniMax M3	100	100	20	0	0	43.9%
DeepSeek V3 (2024-12-26)	97	72	47	0	0	43.1%
Z.AI GLM 4.7 Flash	100	85	24	1	0	42.1%
Hermes 3 405B	100	100	7	0	0	41.4%
Z.AI GLM 5.2 (Reasoning, High)	100	100	0	0	0	40.0%
DeepSeek-V2 Chat	100	79	21	0	0	40.0%
Llama 3.1 70B	100	82	16	0	0	39.6%
Hermes 3 70B	100	72	19	0	0	38.2%
Arcee AI: Trinity Mini	79	70	38	0	0	37.5%
Gemini 3.1 Flash Lite	100	86	0	0	0	37.3%
Aion 3.0	100	44	26	0	0	34.1%
Grok 4.5 (Reasoning, Low)	100	36	27	0	0	32.7%
Ministral 8B	100	59	0	0	0	31.8%
DeepSeek V3.1	70	58	22	5	3	31.5%
Gemma 4 26B (Reasoning)	100	40	13	0	0	30.6%
Claude Opus 4.7 (Reasoning)	86	62	0	0	0	29.7%
Gemini 2.5 Flash Lite (Reasoning)	74	35	33	0	0	28.4%
DeepSeek V4 Flash (Reasoning)	84	57	0	0	0	28.2%
Nemotron 3 Nano	100	41	0	0	0	28.2%
MiniMax M2.5	72	43	24	0	0	27.9%
Grok 4.20	100	38	0	0	0	27.6%
GPT-5.2	53	43	30	11	0	27.4%
Z.AI GLM 5	100	30	0	0	0	26.1%
WizardLM 2 8x22b	72	58	0	0	0	26.0%
DeepSeek V3.2	75	30	25	0	0	25.8%
GPT-5.4 Nano (Reasoning)	69	51	2	0	0	24.5%
Gemini 3.1 Flash Lite (Preview)	100	22	0	0	0	24.4%
Claude Opus 4	60	52	0	0	0	22.5%
Gemini 3 Flash (Preview, Reasoning)	49	47	15	0	0	22.3%
Claude Sonnet 5	100	5	0	0	0	20.9%
Gemini 3.1 Flash Lite (Reasoning)	66	33	3	0	0	20.4%
Xiaomi MIMO v2.5	56	29	17	0	0	20.4%
Z.AI GLM 5 Turbo	100	0	0	0	0	20.0%
Claude Sonnet 4.6	100	0	0	0	0	20.0%
Cydonia 24B V4.1	100	0	0	0	0	20.0%
Ministral 3 8B	98	0	0	0	0	19.6%
Ministral 3B	49	47	0	0	0	19.1%
Claude Opus 4.8 (Reasoning)	47	25	23	0	0	18.8%
Claude Sonnet 4.5	81	11	0	0	0	18.3%
Aion 2.0	39	21	20	1	0	16.3%
Xiaomi MIMO v2.5 Pro	63	16	0	0	0	15.7%
Claude Haiku 4.5	46	21	3	0	0	13.9%
GPT-5.4 Nano (Reasoning, Low)	26	21	14	0	0	12.4%
GPT-4.1 Mini	54	0	0	0	0	10.7%
Z.AI GLM 4.5 Air	52	0	0	0	0	10.3%
GPT-5.4 Nano	42	0	0	0	0	8.4%
Cohere Command R+ (Aug. 2024)	24	2	0	0	0	5.1%
GPT-5 Mini	23	0	0	0	0	4.5%
Gemma 3 4B	22	0	0	0	0	4.4%
DeepSeek V4 Pro	19	0	0	0	0	3.7%
Mistral Medium 3.1	12	0	0	0	0	2.5%
GPT-4o Mini (temp=1)	10	0	0	0	0	2.0%
Qwen 3 32B	5	0	0	0	0	1.1%
Mistral Large 2	5	0	0	0	0	0.9%
Claude Opus 4.6 (Reasoning)	2	0	0	0	0	0.4%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
DeepSeek V4 Pro (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Mini	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%

Em-dash & semicolon overuse

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets