Subordinate conjunction sentence starts

Test: Bad Writing Habits

Avg. Score

32.3%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5.4 Nano	44.2%	$0.0057	26.3s	15%
2	ByteDance Seed 1.6 Flash	45.7%	$0.0013	27.3s	11%
3	Gemini 2.5 Flash Lite	43.8%	$0.0009	9.5s	11%
4	Gemini 2.5 Flash Lite (Reasoning)	44.3%	$0.0028	30.8s	10%
5	Qwen 3 32B	46.1%	$0.0015	54.6s	10%
6	Gemma 3 4B	42.9%	$0.0002	20.0s	9%
7	Writer: Palmyra X5	44.4%	$0.011	22.0s	9%
8	Gemma 3 12B	37.9%	$0.0004	41.3s	10%
9	Gemini 3.1 Flash Lite (Preview)	47.6%	$0.0030	8.4s	6%
10	GPT-5.4 Nano (Reasoning, Low)	39.1%	$0.0055	20.6s	9%
11	Z.AI GLM 5	41.3%	$0.0084	1.2m	10%
12	Qwen 3.5 Plus (2026-02-15)	38.5%	$0.0060	31.5s	9%
13	Qwen 3.5 397B A17B	54.2%	$0.014	3.0m	10%
14	Xiaomi MIMO v2.5	32.9%	$0.0054	31.8s	11%
15	Cydonia 24B V4.1	45.0%	$0.0014	44.8s	7%
16	Gemini 3.1 Flash Lite (Reasoning)	46.6%	$0.0030	11.9s	5%
17	Z.AI GLM 5 Turbo	36.5%	$0.0081	33.2s	9%
18	Grok 4.20	34.7%	$0.0093	45.7s	10%
19	Gemma 3 27B	39.2%	$0.0006	52.6s	8%
20	GPT-5.4 Mini	33.1%	$0.015	16.8s	10%
21	Qwen3 235B A22B Instruct 2507	39.3%	$0.0011	59.2s	8%
22	Qwen 3.6 35B	42.3%	$0.0083	1.0m	8%
23	Gemini 3.1 Flash Lite	45.0%	$0.0030	12.1s	4%
24	Gemini 2.5 Flash (Reasoning)	38.0%	$0.011	21.5s	7%
25	GPT-5.4 Mini (Reasoning, Low)	32.8%	$0.015	16.8s	9%
26	Claude Sonnet 4	45.8%	$0.032	43.7s	7%
27	GPT-5.4 (Reasoning, Low)	44.9%	$0.055	1.4m	10%
28	GPT-5 Nano	38.3%	$0.0042	1.4m	8%
29	Z.AI GLM 4.7	36.5%	$0.010	1.4m	9%
30	o4 Mini	29.5%	$0.015	25.7s	9%
31	GPT-5.4 (Reasoning)	47.6%	$0.089	2.6m	14%
32	GPT-4o, Aug. 6th (temp=1)	45.8%	$0.018	24.4s	4%
33	GPT-5.4	44.6%	$0.049	1.4m	9%
34	GPT-5.4 Mini (Reasoning)	32.4%	$0.022	28.1s	9%
35	Claude Opus 4.6	34.7%	$0.078	1.2m	14%
36	Qwen 3.6 Flash	36.0%	$0.010	41.4s	7%
37	Grok 4.20 (Reasoning)	37.5%	$0.018	1.5m	9%
38	Aion 2.0	32.1%	$0.0064	1.3m	9%
39	Z.AI GLM 5.1	39.3%	$0.014	1.5m	8%
40	GPT-5.4 Nano (Reasoning)	30.1%	$0.0061	24.5s	8%
41	GPT-5 Mini	33.0%	$0.0100	57.4s	8%
42	Cohere Command R+ (Aug. 2024)	47.1%	$0.020	52.5s	3%
43	Hermes 3 70B	47.9%	$0.0010	1.2m	3%
44	GPT-5.1	35.4%	$0.054	1.8m	12%
45	Claude Opus 4.6 (Reasoning)	38.8%	$0.088	1.4m	11%
46	Qwen 3.5 35B	36.3%	$0.018	1.0m	5%
47	Mistral Small 4 (Reasoning)	31.0%	$0.0022	30.2s	4%
48	Mistral NeMO	38.7%	$0.0005	10.1s	0%
49	Qwen 3.5 Flash	35.4%	$0.0025	47.5s	3%
50	DeepSeek V4 Pro (Reasoning)	38.5%	$0.015	3.1m	8%
51	GPT-4o Mini (temp=1)	40.9%	$0.0012	34.8s	0%
52	GPT-4.1 Nano	36.0%	$0.0007	13.3s	0%
53	Gemini 3.5 Flash (Reasoning, Minimal)	37.4%	$0.018	12.0s	0%
54	Ministral 3 14B	33.2%	$0.0007	11.7s	0%
55	Claude Haiku 4.5	35.3%	$0.011	21.6s	0%
56	GPT-5	34.6%	$0.065	2.8m	10%
57	Arcee AI: Trinity Mini	30.9%	$0.0003	9.2s	0%
58	o4 Mini High	26.5%	$0.025	47.2s	5%
59	Gemini 2.5 Flash	31.2%	$0.0052	10.6s	0%
60	Mistral Small 4	30.1%	$0.0014	18.2s	0%
61	Z.AI GLM 4.7 Flash	36.3%	$0.0017	1.2m	0%
62	Gemini 3 Flash (Preview, Reasoning)	33.5%	$0.012	30.1s	0%
63	GPT-5.5 (Reasoning, Low)	34.3%	$0.139	1.8m	12%
64	DeepSeek V4 Flash (Reasoning)	30.2%	$0.0007	31.1s	0%
65	Qwen 3.5 Plus (2026-04-20)	30.6%	$0.017	1.8m	4%
66	GPT-5.5	32.9%	$0.139	1.7m	12%
67	GPT-5.2	24.8%	$0.056	1.5m	8%
68	Claude Sonnet 4.6	37.6%	$0.031	39.3s	0%
69	Z.AI GLM 4.5	31.8%	$0.0051	42.1s	0%
70	Ministral 3 8B	27.6%	$0.0008	19.6s	0%
71	Gemma 4 26B	31.6%	$0.0009	55.1s	0%
72	Z.AI GLM 4.5 Air	32.3%	$0.0029	58.2s	0%
73	Z.AI GLM 4.6	32.0%	$0.0065	51.5s	0%
74	Mistral Large 3	28.0%	$0.0033	30.3s	0%
75	Mistral Medium 3.1	28.3%	$0.0048	36.5s	0%
76	Ministral 8B	23.9%	$0.0004	10.4s	0%
77	Hermes 3 405B	29.9%	$0.0032	53.2s	0%
78	GPT-4.1 Mini	25.4%	$0.0027	19.0s	0%
79	GPT-4o Mini (temp=0)	27.0%	$0.0012	34.8s	0%
80	Gemma 4 31B	34.7%	$0.0010	1.6m	0%
81	Aion 3.0	35.3%	$0.024	1.0m	0%
82	Gemini 3 Flash (Preview)	25.2%	$0.0078	19.6s	0%
83	Qwen3.6 Max Preview	37.1%	$0.050	3.5m	7%
84	DeepSeek V3.2	34.6%	$0.0014	1.9m	0%
85	Mistral Large 2	26.5%	$0.013	29.4s	0%
86	DeepSeek-V2 Chat	26.5%	$0.0021	53.3s	0%
87	MiniMax M2.7	28.6%	$0.0040	1.1m	0%
88	DeepSeek V4 Flash	23.2%	$0.0006	31.6s	0%
89	Llama 3.1 70B	23.0%	$0.0015	29.4s	0%
90	GPT-5.5 (Reasoning)	30.1%	$0.142	1.8m	11%
91	MiniMax M2.5	29.0%	$0.0034	1.3m	0%
92	DeepSeek V3 (2024-12-26)	25.4%	$0.0021	54.6s	0%
93	Claude Sonnet 5	28.2%	$0.027	33.5s	0%
94	Aion 3.0 Mini	27.6%	$0.0053	1.2m	0%
95	Xiaomi MIMO v2.5 Pro	26.3%	$0.0085	53.5s	0%
96	DeepSeek V3.1	31.7%	$0.0020	1.8m	0%
97	Ministral 3B	18.4%	$0.0001	8.1s	0%
98	Qwen 2.5 72B	22.0%	$0.0010	36.7s	0%
99	Nemotron 3 Nano	25.5%	$0.0010	1.1m	0%
100	Gemini 2.5 Pro	29.5%	$0.036	36.2s	0%
101	Gemma 4 31B (Reasoning)	33.1%	$0.0014	2.2m	0%
102	DeepSeek V4 Pro	27.0%	$0.0048	1.3m	0%
103	GPT-4.1	25.9%	$0.018	44.7s	0%
104	Z.AI GLM 5.2 (Reasoning, High)	25.8%	$0.011	1.0m	0%
105	GPT-4o, Aug. 6th (temp=0)	23.4%	$0.023	22.7s	0%
106	Qwen 3.5 122B	29.0%	$0.025	1.1m	0%
107	ByteDance Seed 1.6	36.2%	$0.013	2.5m	0%
108	Gemini 3.5 Flash (Reasoning)	35.3%	$0.071	37.6s	0%
109	Grok 4.3	19.1%	$0.0069	30.5s	0%
110	Claude Sonnet 5 (Reasoning)	25.4%	$0.030	38.9s	0%
111	WizardLM 2 8x22b	27.8%	$0.0026	1.8m	0%
112	Claude Sonnet 4.5	26.0%	$0.035	38.1s	0%
113	Claude Opus 4.5	35.1%	$0.070	53.4s	0%
114	DeepSeek V3 (2025-03-24)	17.4%	$0.0014	39.4s	0%
115	ByteDance Seed 2.0 Lite	31.3%	$0.012	2.2m	0%
116	Qwen 3.5 9B	22.3%	$0.0011	1.4m	0%
117	Ministral 3 3B	13.0%	$0.0005	11.1s	0%
118	Claude Sonnet 5 (Reasoning, Low)	22.3%	$0.031	38.4s	0%
119	Nemotron 3 Super	21.1%	$0.0000	1.4m	0%
120	Qwen 3.5 27B	27.1%	$0.020	1.6m	0%
121	Gemma 4 26B (Reasoning)	24.7%	$0.0013	2.0m	0%
122	MoonshotAI: Kimi K2.5	37.5%	$0.019	3.2m	0%
123	Inception Mercury 2	9.2%	$0.0032	7.0s	0%
124	Claude Opus 4.7	27.4%	$0.069	30.4s	0%
125	Claude Opus 4.8 (Reasoning, Low)	28.3%	$0.071	41.9s	0%
126	Qwen 3.6 27B	28.4%	$0.025	2.3m	0%
127	Claude Sonnet 4.6 (Reasoning)	27.8%	$0.060	1.2m	0%
128	Claude Opus 4	39.1%	$0.209	1.4m	8%
129	Claude Opus 4.7 (Reasoning)	26.0%	$0.076	32.0s	0%
130	Grok 4.5 (Reasoning, Low)	15.7%	$0.018	1.1m	0%
131	MiniMax M3	27.6%	$0.0060	3.1m	0%
132	Claude Opus 4.8 (Reasoning)	24.1%	$0.071	41.7s	0%
133	Qwen3.7 Max	33.2%	$0.068	2.3m	0%
134	ByteDance Seed 2.0 Mini	38.0%	$0.0045	4.9m	0%
135	GPT-OSS 120B	11.3%	$0.0015	1.8m	0%
136	Grok 4.3 (Reasoning)	19.1%	$0.021	2.3m	0%
137	Grok 4.5 (Reasoning, High)	14.2%	$0.030	1.6m	0%
138	Gemini 3.1 Pro (Preview)	30.7%	$0.107	1.8m	0%
139	MoonshotAI: Kimi K2.6	28.5%	$0.058	6.5m	0%
140	Mistral Small 3.2 24B	5.9%	$0.0069	5.7m	0%
32.25%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemma 3 27B	100	100	100	100	64	92.8%
Cydonia 24B V4.1	100	100	76	68	60	80.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite	100	100	70	64	60	78.8%
Hermes 3 70B	100	100	100	71	0	74.3%
Gemma 3 4B	100	100	100	71	0	74.3%
DeepSeek V3.1	100	100	100	62	0	72.3%
Gemini 2.5 Pro	100	100	88	70	0	71.6%
Gemma 3 12B	100	100	79	71	0	70.2%
GPT-4o Mini (temp=0)	100	100	79	65	0	68.9%
Mistral Large 2	100	88	72	63	0	64.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5	100	67	56	39	0	52.4%
Z.AI GLM 4.7	100	62	53	42	0	51.3%
Claude Sonnet 4.6	100	85	71	0	0	51.2%
Writer: Palmyra X5	100	100	49	0	0	49.7%
GPT-5.4 (Reasoning)	88	59	45	28	23	48.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	43	0	0	48.5%
Ministral 3 8B	100	70	67	0	0	47.4%
DeepSeek V3.2	100	83	49	0	0	46.4%
Z.AI GLM 5	100	60	60	0	0	44.0%
Gemini 2.5 Flash Lite (Reasoning)	86	65	63	0	0	42.9%
Xiaomi MIMO v2.5 Pro	100	65	39	0	0	40.9%
Qwen3 235B A22B Instruct 2507	100	100	0	0	0	40.0%
Ministral 3 14B	100	100	0	0	0	40.0%
Z.AI GLM 5.2 (Reasoning, High)	100	54	45	0	0	39.7%
Mistral Small 4 (Reasoning)	83	68	44	0	0	39.1%
GPT-4.1	50	49	49	47	0	38.8%
ByteDance Seed 2.0 Mini	100	93	0	0	0	38.5%
MoonshotAI: Kimi K2.5	100	88	0	0	0	37.5%
MiniMax M3	100	55	30	0	0	37.0%
ByteDance Seed 1.6 Flash	100	50	28	0	0	35.4%
DeepSeek V4 Pro	100	77	0	0	0	35.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	68	0	0	0	33.7%
Claude Opus 4.8 (Reasoning, Low)	100	68	0	0	0	33.5%
Qwen 3.5 Flash	100	52	14	0	0	33.2%
Z.AI GLM 4.5	100	65	0	0	0	33.0%
MiniMax M2.7	100	64	0	0	0	32.8%
Claude Opus 4	70	64	30	0	0	32.8%
Grok 4.20	70	59	33	0	0	32.5%
Ministral 8B	67	52	42	0	0	32.0%
DeepSeek V4 Pro (Reasoning)	100	58	0	0	0	31.6%
Claude Opus 4.8 (Reasoning)	86	71	0	0	0	31.5%
GPT-5.4 (Reasoning, Low)	96	34	27	0	0	31.4%
WizardLM 2 8x22b	72	42	40	0	0	30.9%
Grok 4.20 (Reasoning)	69	44	39	0	0	30.5%
Z.AI GLM 5 Turbo	100	49	0	0	0	29.8%
DeepSeek V4 Flash	91	56	0	0	0	29.4%
Qwen3.7 Max	100	47	0	0	0	29.3%
Gemini 2.5 Flash	78	68	0	0	0	29.2%
Claude Sonnet 4.5	100	42	0	0	0	28.5%
Aion 2.0	100	38	0	0	0	27.6%
DeepSeek V4 Flash (Reasoning)	74	61	0	0	0	26.9%
Mistral NeMO	96	37	0	0	0	26.6%
GPT-5.4 Nano (Reasoning, Low)	58	27	25	22	0	26.3%
Nemotron 3 Nano	100	31	0	0	0	26.2%
GPT-5 Mini	100	30	0	0	0	26.0%
Mistral Small 4	68	57	0	0	0	25.1%
Aion 3.0 Mini	65	57	0	0	0	24.4%
GPT-5.5	59	29	26	0	0	22.8%
Claude Sonnet 4.6 (Reasoning)	57	57	0	0	0	22.7%
Claude Opus 4.6	58	55	0	0	0	22.6%
GPT-5	63	24	20	0	0	21.5%
Claude Opus 4.6 (Reasoning)	57	49	0	0	0	21.2%
GPT-5.4 Nano (Reasoning)	48	27	27	0	0	20.4%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
Claude Opus 4.7	100	0	0	0	0	20.0%
ByteDance Seed 1.6	100	0	0	0	0	20.0%
Claude Sonnet 5	100	0	0	0	0	20.0%
Mistral Large 3	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	100	0	0	0	0	20.0%
DeepSeek-V2 Chat	100	0	0	0	0	20.0%
Claude Haiku 4.5	100	0	0	0	0	20.0%
DeepSeek V3 (2024-12-26)	100	0	0	0	0	20.0%
Z.AI GLM 4.7 Flash	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
DeepSeek V3 (2025-03-24)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
GPT-4.1 Nano	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%
Qwen 3.5 35B	54	38	0	0	0	18.4%
GPT-5.4 Nano	64	25	0	0	0	17.8%
GPT-4o, Aug. 6th (temp=0)	88	0	0	0	0	17.5%
MoonshotAI: Kimi K2.6	45	41	0	0	0	17.1%
Claude Sonnet 4	83	0	0	0	0	16.7%
Claude Opus 4.7 (Reasoning)	78	0	0	0	0	15.6%
Gemma 4 31B (Reasoning)	75	0	0	0	0	14.9%
Qwen 2.5 72B	75	0	0	0	0	14.9%
Gemma 4 31B	72	0	0	0	0	14.5%
Qwen 3.6 35B	43	29	0	0	0	14.5%
GPT-4.1 Mini	69	0	0	0	0	13.9%
GPT-5.4 Mini (Reasoning, Low)	35	33	0	0	0	13.7%
Gemini 2.5 Flash (Reasoning)	68	0	0	0	0	13.5%
GPT-5.5 (Reasoning)	24	22	22	0	0	13.5%
GPT-5.4 Mini	34	33	0	0	0	13.4%
Gemini 3.1 Flash Lite	67	0	0	0	0	13.3%
GPT-5.4	65	0	0	0	0	13.1%
Claude Opus 4.5	65	0	0	0	0	13.0%
Gemini 3.5 Flash (Reasoning)	61	0	0	0	0	12.2%
Qwen 3 32B	60	0	0	0	0	12.0%
Qwen 3.5 Plus (2026-02-15)	59	0	0	0	0	11.8%
Qwen 3.5 9B	58	0	0	0	0	11.6%
Aion 3.0	54	0	0	0	0	10.9%
Gemma 4 26B	52	0	0	0	0	10.4%
Gemini 3 Flash (Preview)	51	0	0	0	0	10.1%
Qwen 3.5 397B A17B	28	22	0	0	0	9.9%
Z.AI GLM 4.5 Air	49	0	0	0	0	9.8%
Qwen 3.5 Plus (2026-04-20)	49	0	0	0	0	9.7%
Mistral Medium 3.1	48	0	0	0	0	9.6%
o4 Mini	47	0	0	0	0	9.4%
Gemini 3.1 Pro (Preview)	47	0	0	0	0	9.3%
GPT-5.5 (Reasoning, Low)	24	22	0	0	0	9.2%
GPT-5.1	24	22	0	0	0	9.1%
GPT-5 Nano	24	21	0	0	0	9.1%
GPT-5.4 Mini (Reasoning)	41	0	0	0	0	8.2%
o4 Mini High	31	0	0	0	0	6.3%
Qwen3.6 Max Preview	31	0	0	0	0	6.3%
GPT-5.2	30	0	0	0	0	6.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 122B	0	0	0	0	0	0.0%
Qwen 3.5 27B	0	0	0	0	0	0.0%
Qwen 3.6 Flash	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.6 27B	0	0	0	0	0	0.0%
Z.AI GLM 4.6	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 2.5 Flash Lite	100	100	95	74	71	88.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	84	0	76.8%
ByteDance Seed 2.0 Lite	100	100	100	77	0	75.4%
MiniMax M2.7	100	99	78	58	33	73.6%
Claude Sonnet 4.6	100	100	100	61	0	72.2%
Aion 3.0	100	100	51	50	43	68.8%
Aion 2.0	100	80	69	56	36	68.2%
GPT-5 Mini	100	100	75	36	29	68.1%
Qwen3 235B A22B Instruct 2507	100	100	100	40	0	67.9%
ByteDance Seed 1.6 Flash	100	97	45	42	37	64.2%
Mistral Medium 3.1	100	68	53	51	47	63.8%
Z.AI GLM 5 Turbo	100	60	53	53	52	63.5%
GPT-4o, Aug. 6th (temp=1)	100	100	69	47	0	63.3%
GPT-5	73	70	69	64	38	62.7%
Gemini 2.5 Flash Lite (Reasoning)	100	89	63	60	0	62.4%
Claude Opus 4.8 (Reasoning)	100	100	100	0	0	60.0%
Gemma 3 27B	100	100	52	46	0	59.5%
MiniMax M2.5	100	94	51	47	0	58.4%
Mistral Large 3	100	100	49	43	0	58.3%
DeepSeek V4 Flash (Reasoning)	100	100	55	36	0	58.2%
Writer: Palmyra X5	100	100	44	41	0	57.1%
DeepSeek V4 Pro (Reasoning)	100	56	53	47	28	56.9%
Claude Sonnet 4.5	100	100	43	41	0	56.8%
GPT-5.5 (Reasoning, Low)	100	82	50	31	20	56.7%
Z.AI GLM 4.5 Air	100	98	50	36	0	56.7%
Z.AI GLM 5.2 (Reasoning, High)	100	96	46	36	0	55.6%
GPT-5.4 Nano	84	65	64	43	20	55.2%
Claude Opus 4.7	100	59	56	54	0	53.9%
Cohere Command R+ (Aug. 2024)	100	100	68	0	0	53.5%
Claude Opus 4.6 (Reasoning)	100	86	79	0	0	53.0%
Claude Sonnet 4.6 (Reasoning)	100	100	65	0	0	53.0%
WizardLM 2 8x22b	100	68	36	35	26	53.0%
Gemma 3 4B	100	61	57	46	0	52.9%
GPT-5.1	100	51	45	41	27	52.7%
Grok 4.3 (Reasoning)	93	62	61	48	0	52.7%
ByteDance Seed 2.0 Mini	93	86	83	0	0	52.4%
GPT-4.1 Nano	100	100	57	0	0	51.5%
Claude Haiku 4.5	93	78	46	38	0	51.2%
Xiaomi MIMO v2.5	100	49	40	34	32	51.1%
Xiaomi MIMO v2.5 Pro	84	61	37	36	36	50.8%
GPT-5.4 (Reasoning)	83	78	34	30	28	50.5%
GPT-5.4 Nano (Reasoning, Low)	96	90	23	21	21	50.3%
Gemini 3 Flash (Preview)	100	100	45	0	0	49.0%
Gemini 3.5 Flash (Reasoning)	99	53	50	43	0	48.9%
Claude Opus 4.6	100	82	34	28	0	48.9%
Claude Sonnet 4	100	100	43	0	0	48.7%
GPT-5.4 Mini (Reasoning)	100	70	37	31	0	47.6%
Nemotron 3 Super	100	70	63	0	0	46.6%
Claude Opus 4.8 (Reasoning, Low)	100	68	65	0	0	46.5%
Z.AI GLM 4.5	100	71	61	0	0	46.5%
GPT-4.1 Mini	100	70	59	0	0	45.8%
Ministral 8B	100	64	63	0	0	45.5%
MiniMax M3	100	64	63	0	0	45.3%
Z.AI GLM 5	100	74	50	0	0	44.7%
Qwen 3.5 Plus (2026-02-15)	100	56	32	27	0	43.1%
GPT-5.5 (Reasoning)	100	35	35	21	21	42.6%
GPT-4o Mini (temp=1)	100	58	52	0	0	42.0%
Mistral NeMO	86	62	61	0	0	41.8%
GPT-5.5	95	64	30	18	0	41.4%
Z.AI GLM 5.1	100	56	42	0	0	39.6%
Mistral Large 2	74	67	56	0	0	39.3%
Claude Sonnet 5 (Reasoning, Low)	100	96	0	0	0	39.2%
Hermes 3 70B	100	94	0	0	0	38.9%
GPT-4.1	90	52	51	0	0	38.5%
GPT-5.2	83	58	50	0	0	38.1%
Grok 4.20 (Reasoning)	100	47	38	0	0	36.8%
Grok 4.5 (Reasoning, Low)	69	41	37	33	0	36.3%
GPT-5.4 Mini (Reasoning, Low)	67	60	29	26	0	36.2%
Gemma 3 12B	89	51	38	0	0	35.7%
Grok 4.5 (Reasoning, High)	63	59	56	0	0	35.5%
GPT-5.4	66	57	28	26	0	35.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	75	0	0	0	34.9%
MoonshotAI: Kimi K2.6	100	73	0	0	0	34.6%
Mistral Small 4 (Reasoning)	94	45	27	0	0	33.3%
DeepSeek V3.2	100	34	32	0	0	33.3%
GPT-OSS 120B	100	65	0	0	0	33.0%
MoonshotAI: Kimi K2.5	100	62	0	0	0	32.3%
Gemma 4 31B	100	62	0	0	0	32.3%
GPT-5 Nano	52	38	38	34	0	32.3%
Qwen 3 32B	57	53	26	26	0	32.2%
Nemotron 3 Nano	100	56	0	0	0	31.1%
Ministral 3 8B	100	55	0	0	0	31.0%
Claude Sonnet 5 (Reasoning)	81	74	0	0	0	30.8%
Gemini 3.1 Flash Lite (Reasoning)	100	52	0	0	0	30.4%
Aion 3.0 Mini	100	50	0	0	0	29.9%
Gemini 2.5 Pro	100	49	0	0	0	29.8%
DeepSeek V4 Pro	100	40	0	0	0	27.9%
Gemini 2.5 Flash	83	49	0	0	0	26.3%
DeepSeek-V2 Chat	88	44	0	0	0	26.3%
Gemma 4 26B (Reasoning)	66	57	0	0	0	24.5%
Gemini 2.5 Flash (Reasoning)	71	49	0	0	0	24.0%
Gemma 4 31B (Reasoning)	60	54	0	0	0	22.7%
Claude Opus 4.5	59	54	0	0	0	22.5%
GPT-5.4 (Reasoning, Low)	29	29	28	25	0	22.1%
Mistral Small 4	55	53	0	0	0	21.6%
o4 Mini	73	34	0	0	0	21.4%
Claude Opus 4	44	39	19	0	0	20.4%
ByteDance Seed 1.6	100	0	0	0	0	20.0%
DeepSeek V3 (2024-12-26)	100	0	0	0	0	20.0%
Z.AI GLM 4.7 Flash	100	0	0	0	0	20.0%
DeepSeek V4 Flash	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
Ministral 3 3B	100	0	0	0	0	20.0%
GPT-5.4 Nano (Reasoning)	68	29	0	0	0	19.4%
Qwen3.7 Max	47	43	0	0	0	18.0%
Gemini 3 Flash (Preview, Reasoning)	44	43	0	0	0	17.4%
o4 Mini High	29	29	27	0	0	17.0%
GPT-5.4 Mini	52	28	0	0	0	16.1%
Claude Sonnet 5	78	0	0	0	0	15.6%
Gemma 4 26B	39	37	0	0	0	15.3%
Ministral 3 14B	76	0	0	0	0	15.2%
Grok 4.20	51	22	0	0	0	14.5%
Grok 4.3	43	28	0	0	0	14.1%
DeepSeek V3.1	66	0	0	0	0	13.2%
GPT-4o Mini (temp=0)	64	0	0	0	0	12.8%
Inception Mercury 2	63	0	0	0	0	12.7%
Qwen 3.6 35B	37	24	0	0	0	12.2%
Z.AI GLM 4.6	57	0	0	0	0	11.5%
Hermes 3 405B	54	0	0	0	0	10.8%
Qwen 3.5 Flash	35	19	0	0	0	10.7%
Gemini 3.1 Flash Lite (Preview)	51	0	0	0	0	10.2%
Qwen 2.5 72B	51	0	0	0	0	10.2%
Qwen 3.6 27B	48	0	0	0	0	9.6%
Qwen 3.5 35B	24	18	0	0	0	8.4%
Gemini 3.1 Pro (Preview)	41	0	0	0	0	8.3%
Qwen 3.5 Plus (2026-04-20)	38	0	0	0	0	7.6%
Z.AI GLM 4.7	38	0	0	0	0	7.6%
Qwen 3.6 Flash	31	0	0	0	0	6.2%
Qwen 3.5 27B	21	0	0	0	0	4.3%
GPT-4o, Aug. 6th (temp=0)	7	0	0	0	0	1.4%
Qwen3.6 Max Preview	0	0	0	0	0	0.0%
Qwen 3.5 397B A17B	0	0	0	0	0	0.0%
Qwen 3.5 122B	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4.1 Nano	100	100	83	77	0	72.1%
Claude Haiku 4.5	100	100	100	57	0	71.4%
Claude Opus 4	100	100	100	56	0	71.2%
Qwen 3.5 397B A17B	100	100	86	36	20	68.6%
Mistral Medium 3.1	100	100	80	43	0	64.6%
ByteDance Seed 1.6 Flash	97	69	59	44	36	61.1%
Qwen 3 32B	93	85	66	61	0	60.8%
Writer: Palmyra X5	100	96	74	0	0	54.0%
MoonshotAI: Kimi K2.5	100	85	82	0	0	53.3%
GPT-4o, Aug. 6th (temp=1)	96	91	79	0	0	53.3%
Grok 4.20	100	91	74	0	0	53.0%
Mistral Small 4 (Reasoning)	95	74	45	42	0	51.1%
Gemma 3 4B	100	100	54	0	0	50.9%
GPT-5.4 Nano (Reasoning, Low)	100	95	31	27	0	50.6%
o4 Mini High	100	86	35	31	0	50.5%
Qwen 3.6 35B	100	67	51	30	0	49.4%
GPT-5.4 Nano (Reasoning)	74	59	56	55	0	48.8%
Gemini 2.5 Flash Lite (Reasoning)	76	61	53	47	0	47.2%
Qwen3.6 Max Preview	100	63	34	28	0	45.0%
GPT-5.4 Nano	100	75	49	0	0	44.8%
Claude Sonnet 4	100	64	58	0	0	44.4%
GPT-5.1	81	53	43	36	0	42.7%
Qwen 2.5 72B	74	71	65	0	0	42.0%
Grok 4.5 (Reasoning, High)	69	68	66	0	0	40.7%
Mistral Small 4	95	70	38	0	0	40.5%
GPT-5.4 Mini	88	74	39	0	0	40.2%
MoonshotAI: Kimi K2.6	100	100	0	0	0	40.0%
Claude Sonnet 5 (Reasoning)	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	100	0	0	0	40.0%
Llama 3.1 70B	100	100	0	0	0	40.0%
GPT-5.4	100	35	33	30	0	39.7%
DeepSeek V4 Pro (Reasoning)	72	65	60	0	0	39.5%
Nemotron 3 Nano	81	68	47	0	0	39.3%
Gemini 3.1 Flash Lite	100	96	0	0	0	39.2%
GPT-5.4 (Reasoning, Low)	100	36	30	30	0	39.2%
Qwen 3.5 35B	80	64	38	11	0	38.8%
Z.AI GLM 4.6	82	57	53	0	0	38.4%
DeepSeek V3.2	100	88	0	0	0	37.7%
Z.AI GLM 5	83	55	50	0	0	37.6%
Claude Opus 4.5	100	88	0	0	0	37.5%
Mistral Large 3	100	46	41	0	0	37.4%
Gemma 4 31B	96	89	0	0	0	37.1%
Gemini 2.5 Pro	75	67	42	0	0	36.7%
GPT-5.4 Mini (Reasoning, Low)	100	42	39	0	0	36.2%
Cydonia 24B V4.1	100	79	0	0	0	35.9%
GPT-5 Nano	97	43	38	0	0	35.7%
Qwen 3.5 Plus (2026-04-20)	82	54	40	0	0	35.2%
Gemini 3.5 Flash (Reasoning, Minimal)	89	81	0	0	0	34.0%
GPT-4o Mini (temp=1)	100	69	0	0	0	33.9%
Qwen 3.5 27B	100	69	0	0	0	33.8%
Aion 3.0	100	67	0	0	0	33.3%
Gemma 4 26B	100	67	0	0	0	33.3%
Grok 4.20 (Reasoning)	84	82	0	0	0	33.2%
Qwen 3.6 Flash	78	58	29	0	0	33.1%
GPT-5.5 (Reasoning, Low)	71	40	27	26	0	32.9%
Ministral 3 14B	100	64	0	0	0	32.8%
Gemini 2.5 Flash (Reasoning)	100	63	0	0	0	32.7%
Ministral 3B	88	75	0	0	0	32.5%
Grok 4.3	100	61	0	0	0	32.2%
Qwen 3.5 Plus (2026-02-15)	56	55	50	0	0	32.1%
Qwen 3.5 9B	100	50	9	0	0	31.7%
DeepSeek V3 (2024-12-26)	86	71	0	0	0	31.5%
GPT-5	58	56	43	0	0	31.3%
Ministral 8B	100	56	0	0	0	31.2%
GPT-5.4 Mini (Reasoning)	78	41	35	0	0	31.0%
Claude Sonnet 4.6	82	71	0	0	0	30.7%
Xiaomi MIMO v2.5	95	58	0	0	0	30.7%
Qwen3 235B A22B Instruct 2507	100	52	0	0	0	30.3%
Nemotron 3 Super	93	54	0	0	0	29.4%
Gemini 3.5 Flash (Reasoning)	96	49	0	0	0	29.0%
GPT-5.5	64	53	28	0	0	29.0%
GPT-5.5 (Reasoning)	56	34	30	23	0	28.4%
Qwen3.7 Max	72	68	0	0	0	28.2%
Xiaomi MIMO v2.5 Pro	100	37	0	0	0	27.4%
Claude Opus 4.6	63	46	0	0	0	21.8%
DeepSeek V4 Flash	57	51	0	0	0	21.6%
Z.AI GLM 5.1	56	52	0	0	0	21.5%
MiniMax M3	62	39	0	0	0	20.2%
Z.AI GLM 5 Turbo	100	0	0	0	0	20.0%
Claude Opus 4.7 (Reasoning)	100	0	0	0	0	20.0%
Claude Opus 4.8 (Reasoning)	100	0	0	0	0	20.0%
Claude Opus 4.8 (Reasoning, Low)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
ByteDance Seed 1.6	100	0	0	0	0	20.0%
Claude Sonnet 5	100	0	0	0	0	20.0%
GPT-4.1	100	0	0	0	0	20.0%
MiniMax M2.7	100	0	0	0	0	20.0%
Mistral Large 2	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
Gemma 3 12B	100	0	0	0	0	20.0%
GPT-5.4 (Reasoning)	63	30	0	0	0	18.8%
Gemma 4 31B (Reasoning)	93	0	0	0	0	18.5%
WizardLM 2 8x22b	48	42	0	0	0	17.9%
Z.AI GLM 4.5 Air	86	0	0	0	0	17.2%
Claude Opus 4.7	85	0	0	0	0	16.9%
Gemini 3.1 Flash Lite (Reasoning)	85	0	0	0	0	16.9%
GPT-4o, Aug. 6th (temp=0)	82	0	0	0	0	16.4%
Hermes 3 70B	79	0	0	0	0	15.9%
Grok 4.5 (Reasoning, Low)	78	0	0	0	0	15.6%
o4 Mini	42	34	0	0	0	15.3%
Qwen 3.6 27B	39	34	0	0	0	14.6%
Gemini 3 Flash (Preview, Reasoning)	72	0	0	0	0	14.5%
DeepSeek V4 Pro	68	0	0	0	0	13.7%
Arcee AI: Trinity Mini	66	0	0	0	0	13.2%
GPT-5 Mini	34	31	0	0	0	13.0%
Gemini 2.5 Flash Lite	62	0	0	0	0	12.3%
Qwen 3.5 Flash	60	0	0	0	0	11.9%
DeepSeek V4 Flash (Reasoning)	58	0	0	0	0	11.6%
GPT-5.2	29	29	0	0	0	11.5%
GPT-4.1 Mini	54	0	0	0	0	10.9%
Claude Sonnet 4.5	51	0	0	0	0	10.2%
Gemini 3.1 Pro (Preview)	49	0	0	0	0	9.8%
Mistral Small 3.2 24B	45	2	0	0	0	9.4%
DeepSeek V3.1	46	0	0	0	0	9.2%
Gemma 3 27B	42	0	0	0	0	8.5%
Aion 2.0	36	0	0	0	0	7.2%
Z.AI GLM 4.7	34	0	0	0	0	6.8%
Ministral 3 8B	33	0	0	0	0	6.6%
GPT-OSS 120B	32	0	0	0	0	6.3%
Qwen 3.5 122B	29	0	0	0	0	5.7%
Aion 3.0 Mini	27	0	0	0	0	5.5%
Claude Opus 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0.0%
Z.AI GLM 4.7 Flash	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o Mini (temp=1)	100	100	96	93	75	92.7%
Mistral NeMO	100	100	85	82	47	82.7%
Claude Haiku 4.5	100	100	68	52	45	73.0%
Z.AI GLM 5	100	100	100	0	0	60.0%
ByteDance Seed 1.6	100	100	100	0	0	60.0%
Claude Sonnet 5	100	100	100	0	0	60.0%
Claude Opus 4.6 (Reasoning)	91	89	54	50	0	56.8%
Writer: Palmyra X5	100	88	84	0	0	54.5%
Z.AI GLM 5.1	100	68	56	46	0	54.0%
Claude Sonnet 4	100	100	69	0	0	53.9%
Gemma 3 27B	100	100	65	0	0	53.0%
Gemma 3 12B	75	68	63	56	0	52.2%
Z.AI GLM 4.5	100	82	78	0	0	52.0%
Qwen3 235B A22B Instruct 2507	77	68	65	48	0	51.7%
GPT-4o Mini (temp=0)	100	82	66	0	0	49.6%
Mistral Small 4 (Reasoning)	100	81	62	0	0	48.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	72	65	0	0	47.5%
GPT-5	100	43	41	28	25	47.3%
Claude Opus 4.7 (Reasoning)	85	76	70	0	0	46.2%
Aion 3.0 Mini	100	66	59	0	0	44.9%
Gemini 3.1 Flash Lite (Preview)	100	60	60	0	0	44.0%
Claude Opus 4.5	100	100	0	0	0	40.0%
Z.AI GLM 4.6	100	100	0	0	0	40.0%
DeepSeek V4 Flash	100	100	0	0	0	40.0%
GPT-4o, Aug. 6th (temp=1)	100	100	0	0	0	40.0%
Z.AI GLM 4.5 Air	100	100	0	0	0	40.0%
Hermes 3 70B	100	100	0	0	0	40.0%
Gemma 3 4B	71	69	56	0	0	39.4%
o4 Mini High	85	75	36	0	0	39.2%
Ministral 3 14B	100	94	0	0	0	38.9%
Cohere Command R+ (Aug. 2024)	100	93	0	0	0	38.5%
Claude Sonnet 5 (Reasoning, Low)	100	88	0	0	0	37.5%
GPT-5.4 Nano	47	46	40	27	26	37.3%
GPT-4.1 Nano	100	81	0	0	0	36.1%
Gemini 2.5 Flash Lite	61	56	56	0	0	34.5%
Gemma 4 31B	100	72	0	0	0	34.5%
Xiaomi MIMO v2.5	53	43	41	35	0	34.3%
Mistral Large 2	74	60	36	0	0	34.1%
DeepSeek V3.1	100	69	0	0	0	33.9%
Gemini 2.5 Flash (Reasoning)	67	56	47	0	0	33.9%
GPT-5.4 (Reasoning)	100	37	32	0	0	33.7%
Z.AI GLM 5 Turbo	100	67	0	0	0	33.3%
Qwen 3 32B	56	54	52	0	0	32.4%
Qwen 3.5 397B A17B	97	27	23	15	0	32.3%
Qwen 3.5 Plus (2026-04-20)	100	47	14	0	0	32.1%
Claude Sonnet 4.6	82	78	0	0	0	32.0%
DeepSeek V4 Flash (Reasoning)	100	57	0	0	0	31.5%
GPT-5.4 (Reasoning, Low)	64	60	34	0	0	31.4%
Claude Sonnet 4.6 (Reasoning)	100	55	0	0	0	31.0%
Gemini 3 Flash (Preview)	100	55	0	0	0	31.0%
Gemma 4 26B	100	52	0	0	0	30.4%
MiniMax M2.7	91	60	0	0	0	30.1%
Qwen 3.5 Plus (2026-02-15)	100	45	0	0	0	28.9%
Mistral Medium 3.1	59	49	35	0	0	28.5%
Qwen3.7 Max	74	68	0	0	0	28.4%
GPT-5.5 (Reasoning, Low)	62	53	25	0	0	28.2%
o4 Mini	100	34	0	0	0	26.8%
Gemini 3.5 Flash (Reasoning)	76	58	0	0	0	26.8%
Claude Opus 4.8 (Reasoning, Low)	68	64	0	0	0	26.5%
GPT-5.4 Nano (Reasoning)	68	35	29	0	0	26.5%
GPT-5.1	37	32	31	30	0	26.0%
MiniMax M3	76	46	0	0	0	24.4%
Inception Mercury 2	85	35	0	0	0	24.0%
GPT-5.5	66	27	26	0	0	23.8%
Aion 3.0	76	43	0	0	0	23.8%
Grok 4.5 (Reasoning, High)	76	39	0	0	0	23.0%
Z.AI GLM 4.7 Flash	60	50	0	0	0	22.0%
DeepSeek-V2 Chat	61	49	0	0	0	22.0%
GPT-5 Nano	66	22	22	0	0	22.0%
GPT-5.4	74	33	0	0	0	21.4%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Z.AI GLM 4.7	100	0	0	0	0	20.0%
Gemini 3.1 Flash Lite (Reasoning)	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Mini	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
DeepSeek V3 (2025-03-24)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Cydonia 24B V4.1	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%
GPT-5.4 Mini	36	33	30	0	0	19.9%
Mistral Small 4	51	46	0	0	0	19.5%
Mistral Small 3.2 24B	87	6	4	0	0	19.4%
Claude Sonnet 4.5	96	0	0	0	0	19.2%
Gemini 2.5 Flash Lite (Reasoning)	94	0	0	0	0	18.9%
GPT-5.4 Nano (Reasoning, Low)	40	27	22	0	0	17.9%
Qwen3.6 Max Preview	54	34	0	0	0	17.7%
Mistral Large 3	88	0	0	0	0	17.7%
GPT-5 Mini	32	28	27	0	0	17.5%
GPT-4.1 Mini	86	0	0	0	0	17.2%
Claude Opus 4	48	37	0	0	0	16.9%
Gemini 3.1 Flash Lite	83	0	0	0	0	16.7%
GPT-5.4 Mini (Reasoning)	43	39	0	0	0	16.4%
DeepSeek V3 (2024-12-26)	81	0	0	0	0	16.1%
MiniMax M2.5	71	0	0	0	0	14.3%
Qwen 3.5 35B	26	26	17	0	0	13.8%
MoonshotAI: Kimi K2.5	68	0	0	0	0	13.7%
GPT-4o, Aug. 6th (temp=0)	68	0	0	0	0	13.7%
Claude Opus 4.6	65	0	0	0	0	13.0%
DeepSeek V4 Pro	64	0	0	0	0	12.8%
Gemini 2.5 Pro	63	0	0	0	0	12.5%
Xiaomi MIMO v2.5 Pro	63	0	0	0	0	12.5%
Grok 4.5 (Reasoning, Low)	61	0	0	0	0	12.2%
ByteDance Seed 1.6 Flash	57	0	0	0	0	11.4%
Grok 4.3	56	0	0	0	0	11.2%
GPT-5.5 (Reasoning)	28	28	0	0	0	11.0%
Ministral 3 8B	55	0	0	0	0	11.0%
DeepSeek V4 Pro (Reasoning)	54	0	0	0	0	10.9%
Z.AI GLM 5.2 (Reasoning, High)	54	0	0	0	0	10.8%
GPT-5.2	27	26	0	0	0	10.7%
Aion 2.0	53	0	0	0	0	10.6%
Grok 4.20 (Reasoning)	53	0	0	0	0	10.5%
DeepSeek V3.2	50	0	0	0	0	10.0%
GPT-4.1	49	0	0	0	0	9.7%
Qwen 3.6 27B	48	0	0	0	0	9.5%
Qwen 3.5 Flash	31	15	0	0	0	9.3%
Nemotron 3 Super	44	0	0	0	0	8.8%
GPT-OSS 120B	39	0	0	0	0	7.8%
Nemotron 3 Nano	39	0	0	0	0	7.8%
GPT-5.4 Mini (Reasoning, Low)	38	0	0	0	0	7.6%
Qwen 3.5 27B	36	1	0	0	0	7.4%
Grok 4.20	32	0	0	0	0	6.3%
Qwen 3.6 Flash	29	0	0	0	0	5.7%
Qwen 3.5 122B	19	0	0	0	0	3.9%
Qwen 3.6 35B	6	0	0	0	0	1.2%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cohere Command R+ (Aug. 2024)	100	100	98	85	69	90.4%
DeepSeek V3.2	100	100	97	95	0	78.5%
Gemma 3 4B	100	100	100	85	0	76.9%
Writer: Palmyra X5	100	100	100	68	0	73.5%
Qwen 3.5 397B A17B	100	96	69	63	26	70.9%
Gemini 2.5 Flash Lite (Reasoning)	100	91	66	49	43	69.8%
GPT-4o Mini (temp=1)	100	88	81	81	0	69.8%
Arcee AI: Trinity Mini	100	94	77	76	0	69.4%
Z.AI GLM 4.6	100	79	75	71	0	65.1%
Qwen 3.5 Flash	100	100	61	48	0	61.9%
Claude Sonnet 4	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	100	0	0	60.0%
ByteDance Seed 1.6	100	100	91	0	0	58.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	88	0	0	56.8%
Gemini 2.5 Flash Lite	100	100	68	0	0	53.7%
Xiaomi MIMO v2.5	100	96	68	0	0	52.7%
Gemma 4 31B (Reasoning)	91	81	77	0	0	49.7%
Gemma 4 31B	85	82	77	0	0	48.7%
Qwen 3.5 27B	100	100	41	0	0	48.2%
GPT-4o Mini (temp=0)	85	81	70	0	0	47.2%
GPT-5.4	72	70	58	34	0	46.9%
Z.AI GLM 5.1	100	68	63	0	0	46.0%
Gemini 3 Flash (Preview, Reasoning)	100	63	60	0	0	44.4%
Gemini 2.5 Flash	100	70	44	0	0	42.9%
Z.AI GLM 4.7 Flash	100	59	54	0	0	42.6%
Gemma 3 12B	100	56	55	0	0	42.2%
Mistral Large 2	69	68	68	0	0	41.1%
Claude Haiku 4.5	75	66	64	0	0	40.9%
Z.AI GLM 5	100	60	42	0	0	40.4%
Claude Sonnet 5 (Reasoning)	100	100	0	0	0	40.0%
Claude Sonnet 4.5	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	100	0	0	0	40.0%
Gemini 3.1 Flash Lite (Preview)	100	100	0	0	0	40.0%
Ministral 8B	100	100	0	0	0	40.0%
Qwen 3.6 Flash	100	62	35	0	0	39.3%
GPT-5.4 Nano (Reasoning, Low)	86	55	27	27	0	39.1%
GPT-5.4 (Reasoning, Low)	100	60	35	0	0	38.9%
Mistral Small 4 (Reasoning)	100	49	41	0	0	38.0%
Claude Opus 4.6 (Reasoning)	100	51	36	0	0	37.3%
Qwen 3.5 Plus (2026-02-15)	100	48	39	0	0	37.3%
Claude Opus 4.7	100	86	0	0	0	37.2%
Z.AI GLM 4.5 Air	100	85	0	0	0	36.9%
GPT-5 Mini	100	43	42	0	0	36.9%
GPT-5.4 Mini (Reasoning, Low)	100	45	37	0	0	36.3%
Grok 4.5 (Reasoning, Low)	100	79	0	0	0	35.7%
Claude Opus 4.5	67	55	53	0	0	34.8%
GPT-4.1 Mini	98	75	0	0	0	34.5%
Gemma 3 27B	100	70	0	0	0	34.1%
Grok 4.20 (Reasoning)	88	81	0	0	0	33.8%
Gemini 2.5 Flash (Reasoning)	100	66	0	0	0	33.2%
Claude Opus 4	70	56	37	0	0	32.8%
Qwen 3.6 35B	75	58	30	0	0	32.8%
Z.AI GLM 4.5	88	74	0	0	0	32.2%
Qwen 3.5 Plus (2026-04-20)	100	60	0	0	0	32.0%
Gemini 3.1 Pro (Preview)	89	64	0	0	0	30.7%
Claude Sonnet 4.6	83	68	0	0	0	30.4%
Claude Opus 4.6	54	51	46	0	0	30.2%
ByteDance Seed 1.6 Flash	57	46	46	0	0	29.8%
DeepSeek V3 (2024-12-26)	81	68	0	0	0	29.6%
MiniMax M2.5	74	68	0	0	0	28.5%
DeepSeek V4 Pro (Reasoning)	100	42	0	0	0	28.3%
GPT-5.4 Nano	46	41	26	24	0	27.4%
GPT-OSS 120B	75	53	0	0	0	25.6%
Grok 4.20	49	39	38	0	0	25.2%
Qwen3 235B A22B Instruct 2507	68	57	0	0	0	24.9%
o4 Mini	79	43	0	0	0	24.4%
GPT-5.4 Nano (Reasoning)	52	33	27	0	0	22.3%
Mistral Medium 3.1	51	50	0	0	0	20.0%
MoonshotAI: Kimi K2.5	100	0	0	0	0	20.0%
MiniMax M3	100	0	0	0	0	20.0%
Qwen 3.5 122B	100	0	0	0	0	20.0%
Gemini 3.1 Flash Lite	100	0	0	0	0	20.0%
Mistral Large 3	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=1)	100	0	0	0	0	20.0%
GPT-5 Nano	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Mistral Small 3.2 24B	100	0	0	0	0	20.0%
Mistral Small 4	100	0	0	0	0	20.0%
Nemotron 3 Nano	100	0	0	0	0	20.0%
Qwen 2.5 72B	100	0	0	0	0	20.0%
Ministral 3 14B	100	0	0	0	0	20.0%
Mistral NeMO	100	0	0	0	0	20.0%
Z.AI GLM 5.2 (Reasoning, High)	52	48	0	0	0	19.9%
DeepSeek V4 Pro	51	48	0	0	0	19.8%
Grok 4.3 (Reasoning)	98	0	0	0	0	19.6%
GPT-5.4 (Reasoning)	63	35	0	0	0	19.6%
Qwen 3.6 27B	72	23	0	0	0	19.0%
MiniMax M2.7	50	45	0	0	0	18.9%
Aion 3.0	91	0	0	0	0	18.2%
Z.AI GLM 4.7	91	0	0	0	0	18.2%
DeepSeek V4 Flash (Reasoning)	88	0	0	0	0	17.5%
Gemini 3.1 Flash Lite (Reasoning)	88	0	0	0	0	17.5%
Claude Opus 4.7 (Reasoning)	83	0	0	0	0	16.7%
Claude Opus 4.8 (Reasoning, Low)	82	0	0	0	0	16.4%
GPT-4.1 Nano	77	0	0	0	0	15.4%
DeepSeek V3.1	75	0	0	0	0	14.9%
Gemma 4 26B (Reasoning)	74	0	0	0	0	14.7%
Qwen 3 32B	74	0	0	0	0	14.7%
Ministral 3B	71	0	0	0	0	14.2%
GPT-5.5 (Reasoning)	45	25	0	0	0	13.9%
GPT-5.4 Mini	43	25	0	0	0	13.5%
GPT-5.2	36	29	0	0	0	13.0%
DeepSeek-V2 Chat	63	0	0	0	0	12.7%
GPT-5	30	29	0	0	0	11.8%
Gemini 2.5 Pro	54	0	0	0	0	10.9%
GPT-5.5 (Reasoning, Low)	27	26	0	0	0	10.6%
Qwen 3.5 9B	52	0	0	0	0	10.4%
Gemini 3 Flash (Preview)	46	0	0	0	0	9.3%
Xiaomi MIMO v2.5 Pro	45	0	0	0	0	9.0%
GPT-5.5	43	0	0	0	0	8.7%
Inception Mercury 2	42	0	0	0	0	8.4%
Qwen3.6 Max Preview	23	18	0	0	0	8.3%
Aion 2.0	39	0	0	0	0	7.8%
o4 Mini High	33	0	0	0	0	6.5%
WizardLM 2 8x22b	27	0	0	0	0	5.3%
Qwen 3.5 35B	4	0	0	0	0	0.7%
Qwen3.7 Max	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 5 Turbo	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
GPT-5.1	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
Aion 3.0 Mini	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cohere Command R+ (Aug. 2024)	100	100	100	91	0	78.2%
Gemini 2.5 Flash (Reasoning)	100	100	100	88	0	77.5%
Gemma 3 4B	100	100	100	59	0	71.8%
Qwen3 235B A22B Instruct 2507	98	94	65	58	38	70.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	88	86	60	0	66.8%
GPT-4o Mini (temp=0)	100	99	57	50	0	61.2%
Gemini 3.1 Flash Lite (Preview)	100	100	100	0	0	60.0%
Mistral NeMO	100	100	96	0	0	59.2%
Gemini 3 Flash (Preview, Reasoning)	100	100	90	0	0	58.0%
Qwen 3.5 397B A17B	100	95	55	20	20	57.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	86	0	0	57.2%
Gemma 3 27B	99	77	53	43	0	54.3%
Gemma 3 12B	100	97	69	0	0	53.3%
Cydonia 24B V4.1	100	68	49	47	0	52.9%
Claude Opus 4.7	100	100	57	0	0	51.4%
Gemma 4 26B (Reasoning)	100	97	60	0	0	51.3%
Qwen 3.5 Plus (2026-02-15)	100	63	48	46	0	51.3%
WizardLM 2 8x22b	85	48	47	33	29	48.4%
Z.AI GLM 4.7	74	66	64	38	0	48.2%
Xiaomi MIMO v2.5 Pro	100	65	37	31	0	46.5%
Writer: Palmyra X5	100	90	42	0	0	46.4%
Gemini 2.5 Flash Lite	100	60	60	0	0	44.1%
Gemma 4 31B	100	56	49	0	0	40.9%
Gemini 3.1 Flash Lite	100	100	0	0	0	40.0%
DeepSeek-V2 Chat	100	100	0	0	0	40.0%
GPT-4o Mini (temp=1)	100	100	0	0	0	40.0%
Qwen 3 32B	100	98	0	0	0	39.6%
Mistral Small 4	88	67	43	0	0	39.6%
Z.AI GLM 4.5 Air	100	50	48	0	0	39.5%
Z.AI GLM 5 Turbo	58	52	44	41	0	39.1%
GPT-5	70	61	21	20	18	38.3%
MiniMax M2.5	75	60	53	0	0	37.5%
GPT-5.4 Nano (Reasoning)	87	75	21	0	0	36.7%
Claude Sonnet 5 (Reasoning, Low)	100	83	0	0	0	36.7%
GPT-5.4 Nano	66	47	44	22	0	35.8%
GPT-4o, Aug. 6th (temp=1)	100	75	0	0	0	34.9%
Qwen 3.6 35B	54	50	45	23	0	34.5%
Nemotron 3 Nano	100	72	0	0	0	34.4%
GPT-4.1 Nano	100	67	0	0	0	33.3%
Claude Sonnet 4.6	100	66	0	0	0	33.2%
Claude Sonnet 4.6 (Reasoning)	100	65	0	0	0	33.0%
Mistral Large 2	100	65	0	0	0	33.0%
DeepSeek V3.1	94	70	0	0	0	32.9%
GPT-5.4 Mini (Reasoning)	83	44	37	0	0	32.8%
Gemini 3.5 Flash (Reasoning)	100	63	0	0	0	32.5%
Claude Sonnet 5 (Reasoning)	85	75	0	0	0	31.9%
Grok 4.3	90	68	0	0	0	31.7%
Gemma 4 31B (Reasoning)	100	57	0	0	0	31.5%
Aion 3.0 Mini	79	42	37	0	0	31.4%
Z.AI GLM 4.7 Flash	85	72	0	0	0	31.3%
Gemini 3.1 Pro (Preview)	45	41	38	32	0	31.3%
Claude Opus 4.6	74	48	34	0	0	31.2%
GPT-5.4	44	30	28	27	26	31.2%
DeepSeek V4 Pro (Reasoning)	58	56	39	0	0	30.6%
Claude Sonnet 4	56	55	40	0	0	30.1%
GPT-5 Nano	61	40	29	20	0	30.0%
o4 Mini High	85	34	30	0	0	29.9%
Qwen 2.5 72B	63	46	41	0	0	29.8%
Grok 4.20 (Reasoning)	84	34	30	0	0	29.6%
Gemini 2.5 Pro	64	47	37	0	0	29.6%
DeepSeek V4 Pro	63	43	41	0	0	29.2%
GPT-5.4 (Reasoning, Low)	86	30	27	0	0	28.6%
Mistral Medium 3.1	100	42	0	0	0	28.4%
Ministral 8B	71	67	0	0	0	27.6%
Z.AI GLM 4.6	87	47	0	0	0	26.8%
GPT-4.1	45	44	42	0	0	26.3%
Qwen 3.6 Flash	77	53	0	0	0	26.0%
Gemini 2.5 Flash	79	50	0	0	0	25.9%
GPT-OSS 120B	57	42	28	0	0	25.6%
Gemma 4 26B	81	46	0	0	0	25.3%
GPT-5.5 (Reasoning)	42	24	21	21	19	25.3%
GPT-5 Mini	43	29	28	22	0	24.4%
Claude Opus 4	55	31	31	0	0	23.5%
Mistral Small 4 (Reasoning)	48	34	33	0	0	22.9%
GPT-5.4 Nano (Reasoning, Low)	47	45	19	0	0	22.4%
DeepSeek V3 (2024-12-26)	57	54	0	0	0	22.4%
Claude Opus 4.8 (Reasoning, Low)	57	54	0	0	0	22.2%
Z.AI GLM 5.1	68	41	0	0	0	22.0%
GPT-5.4 (Reasoning)	55	54	0	0	0	21.9%
GPT-5.1	44	23	21	20	0	21.8%
Claude Opus 4.6 (Reasoning)	40	37	31	0	0	21.8%
MoonshotAI: Kimi K2.5	100	0	0	0	0	20.0%
MiniMax M3	100	0	0	0	0	20.0%
ByteDance Seed 1.6	100	0	0	0	0	20.0%
Aion 3.0	100	0	0	0	0	20.0%
DeepSeek V4 Flash (Reasoning)	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Mini	100	0	0	0	0	20.0%
DeepSeek V3.2	100	0	0	0	0	20.0%
DeepSeek V3 (2025-03-24)	100	0	0	0	0	20.0%
Hermes 3 70B	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
Llama 3.1 70B	98	0	0	0	0	19.6%
GPT-5.5	44	35	18	0	0	19.3%
Xiaomi MIMO v2.5	95	0	0	0	0	19.0%
Ministral 3 8B	49	44	0	0	0	18.6%
Claude Opus 4.5	92	0	0	0	0	18.3%
Qwen 3.6 27B	59	32	0	0	0	18.2%
Gemini 3 Flash (Preview)	47	41	0	0	0	17.5%
Z.AI GLM 5	45	43	0	0	0	17.5%
Claude Sonnet 4.5	47	37	0	0	0	16.9%
Hermes 3 405B	83	0	0	0	0	16.7%
Grok 4.20	34	28	20	0	0	16.5%
Claude Haiku 4.5	40	40	0	0	0	16.1%
Grok 4.5 (Reasoning, High)	45	34	0	0	0	15.6%
o4 Mini	29	26	21	0	0	15.3%
Claude Sonnet 5	75	0	0	0	0	14.9%
Qwen 3.5 122B	37	36	0	0	0	14.8%
Gemini 3.1 Flash Lite (Reasoning)	69	0	0	0	0	13.9%
Z.AI GLM 4.5	67	0	0	0	0	13.3%
GPT-5.4 Mini	66	0	0	0	0	13.2%
Qwen 3.5 9B	65	0	0	0	0	13.0%
GPT-5.5 (Reasoning, Low)	38	25	0	0	0	12.7%
GPT-4.1 Mini	63	0	0	0	0	12.5%
Grok 4.3 (Reasoning)	58	0	0	0	0	11.6%
DeepSeek V4 Flash	57	0	0	0	0	11.4%
Ministral 3 14B	54	0	0	0	0	10.9%
Mistral Large 3	53	0	0	0	0	10.5%
Qwen3.6 Max Preview	51	0	0	0	0	10.2%
Inception Mercury 2	28	23	0	0	0	10.1%
MoonshotAI: Kimi K2.6	49	0	0	0	0	9.7%
MiniMax M2.7	39	0	0	0	0	7.8%
ByteDance Seed 1.6 Flash	38	0	0	0	0	7.6%
Qwen 3.5 Plus (2026-04-20)	32	0	0	0	0	6.5%
Qwen 3.5 35B	31	0	0	0	0	6.3%
GPT-5.4 Mini (Reasoning, Low)	31	0	0	0	0	6.3%
GPT-5.2	23	0	0	0	0	4.7%
Qwen 3.5 Flash	21	0	0	0	0	4.2%
Qwen3.7 Max	0	0	0	0	0	0.0%
Z.AI GLM 5.2 (Reasoning, High)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
Qwen 3.5 27B	0	0	0	0	0	0.0%
Aion 2.0	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	60	91.9%
Gemini 3.1 Pro (Preview)	100	100	100	63	52	83.1%
GPT-4o Mini (temp=0)	100	79	77	75	69	80.1%
Z.AI GLM 4.5	100	100	100	100	0	80.0%
GPT-5.4 (Reasoning)	100	94	91	60	45	78.2%
GPT-5.1	100	90	85	79	32	77.3%
Claude Opus 4	100	100	66	53	52	74.1%
Gemini 3.5 Flash (Reasoning)	100	100	100	64	0	72.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	63	0	72.7%
Claude Opus 4.8 (Reasoning)	100	98	88	76	0	72.3%
Claude Sonnet 4	100	100	86	71	0	71.5%
GPT-4o Mini (temp=1)	100	100	78	66	0	68.8%
Z.AI GLM 4.7	100	100	95	46	0	68.3%
GPT-5.4 Nano	100	97	74	41	29	68.2%
Qwen 3.6 27B	100	100	100	39	0	67.8%
ByteDance Seed 1.6 Flash	100	100	100	38	0	67.5%
Claude Opus 4.7 (Reasoning)	98	85	79	72	0	66.9%
Qwen 3.5 Plus (2026-02-15)	100	100	70	62	0	66.4%
GPT-5.2	100	99	77	28	27	65.9%
GPT-5.5 (Reasoning)	93	78	61	61	35	65.6%
GPT-5.4 (Reasoning, Low)	100	83	65	50	27	65.0%
Z.AI GLM 4.7 Flash	100	100	63	57	0	64.0%
Qwen 3.5 9B	100	100	63	55	0	63.6%
Qwen3.7 Max	100	96	76	45	0	63.4%
Z.AI GLM 5 Turbo	100	82	72	60	0	62.9%
Claude Sonnet 4.5	79	77	77	68	0	60.3%
Qwen 3.5 27B	100	100	100	0	0	60.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	0	0	60.0%
Z.AI GLM 4.6	100	100	100	0	0	60.0%
Qwen 3.5 35B	100	100	100	0	0	60.0%
Hermes 3 405B	100	100	100	0	0	60.0%
Gemini 2.5 Flash Lite	100	100	100	0	0	60.0%
Z.AI GLM 5	100	71	68	61	0	60.0%
Gemini 2.5 Pro	100	86	56	53	0	58.9%
Claude Opus 4.5	100	71	63	59	0	58.7%
Gemini 2.5 Flash	100	50	50	47	45	58.2%
GPT-5 Mini	100	75	44	37	34	57.9%
GPT-4o, Aug. 6th (temp=1)	100	96	89	0	0	57.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	91	0	0	56.7%
Grok 4.20	82	73	60	33	33	56.4%
GPT-5.4 Mini (Reasoning, Low)	100	89	62	29	0	55.9%
Arcee AI: Trinity Mini	100	100	75	0	0	54.9%
ByteDance Seed 2.0 Mini	100	94	74	0	0	53.6%
Grok 4.20 (Reasoning)	100	74	34	31	29	53.3%
Cohere Command R+ (Aug. 2024)	100	98	68	0	0	53.3%
Cydonia 24B V4.1	79	74	56	52	0	52.2%
Claude Opus 4.6	100	56	51	49	0	51.1%
Z.AI GLM 4.5 Air	100	94	56	0	0	50.0%
Claude Opus 4.7	89	82	76	0	0	49.4%
Aion 3.0 Mini	100	81	65	0	0	49.1%
GPT-4.1 Mini	85	85	76	0	0	49.0%
Xiaomi MIMO v2.5	100	100	43	0	0	48.7%
Gemini 2.5 Flash (Reasoning)	100	94	45	0	0	47.8%
GPT-5.4 Nano (Reasoning)	66	52	49	43	25	47.0%
Gemma 4 26B	100	68	67	0	0	46.8%
MoonshotAI: Kimi K2.5	95	78	60	0	0	46.6%
Grok 4.5 (Reasoning, High)	100	88	45	0	0	46.5%
Mistral Small 4	100	89	42	0	0	46.3%
GPT-5.5 (Reasoning, Low)	69	53	50	36	19	45.5%
DeepSeek V4 Flash (Reasoning)	100	63	63	0	0	45.2%
Claude Sonnet 4.6 (Reasoning)	100	68	58	0	0	45.1%
GPT-5.4 Mini (Reasoning)	99	35	31	30	29	45.0%
GPT-5.4 Nano (Reasoning, Low)	73	47	39	37	26	44.4%
Gemma 3 12B	100	66	54	0	0	44.0%
Mistral Large 3	100	76	44	0	0	44.0%
Claude Sonnet 4.6	100	61	59	0	0	44.0%
GPT-4.1	100	61	55	0	0	43.2%
MiniMax M2.5	100	59	57	0	0	43.1%
GPT-5.5	63	57	48	29	18	42.8%
Qwen3 235B A22B Instruct 2507	88	75	49	0	0	42.3%
DeepSeek V4 Pro (Reasoning)	89	68	54	0	0	42.2%
Qwen3.6 Max Preview	77	39	34	32	29	42.1%
DeepSeek V3 (2024-12-26)	83	64	62	0	0	41.8%
Claude Opus 4.6 (Reasoning)	88	62	53	0	0	40.7%
MoonshotAI: Kimi K2.6	100	57	46	0	0	40.7%
Qwen 3.5 122B	100	63	40	0	0	40.6%
Qwen 3.6 Flash	86	78	38	0	0	40.4%
Claude Sonnet 5	100	100	0	0	0	40.0%
DeepSeek V3.1	100	100	0	0	0	40.0%
Llama 3.1 70B	100	100	0	0	0	40.0%
GPT-5.4	85	79	32	0	0	39.2%
Qwen 3.5 Plus (2026-04-20)	100	46	40	0	0	37.3%
Z.AI GLM 5.1	100	52	34	0	0	37.1%
Gemini 2.5 Flash Lite (Reasoning)	53	52	48	33	0	37.0%
Hermes 3 70B	100	85	0	0	0	36.9%
GPT-5.4 Mini	100	84	0	0	0	36.8%
Xiaomi MIMO v2.5 Pro	54	49	45	36	0	36.6%
GPT-4.1 Nano	86	83	0	0	0	33.9%
DeepSeek V4 Pro	100	66	0	0	0	33.2%
Z.AI GLM 5.2 (Reasoning, High)	100	65	0	0	0	33.0%
Writer: Palmyra X5	58	54	52	0	0	32.9%
Ministral 3 14B	68	59	37	0	0	32.9%
Gemma 4 31B (Reasoning)	100	64	0	0	0	32.8%
Gemini 3 Flash (Preview)	100	64	0	0	0	32.8%
DeepSeek V3 (2025-03-24)	100	62	0	0	0	32.3%
DeepSeek-V2 Chat	100	57	0	0	0	31.4%
Qwen 3.5 Flash	81	75	0	0	0	31.2%
Mistral Large 2	100	56	0	0	0	31.1%
GPT-4o, Aug. 6th (temp=0)	79	74	0	0	0	30.6%
Grok 4.3	65	51	35	0	0	30.1%
Aion 2.0	94	51	0	0	0	29.0%
Qwen 3 32B	82	60	0	0	0	28.3%
Grok 4.3 (Reasoning)	49	49	41	0	0	27.9%
Qwen 3.6 35B	72	33	32	0	0	27.4%
Claude Haiku 4.5	70	65	0	0	0	27.1%
o4 Mini	87	48	0	0	0	26.9%
GPT-5 Nano	75	28	24	0	0	25.4%
Ministral 3 8B	68	42	10	0	0	23.9%
Mistral NeMO	63	56	0	0	0	23.7%
Mistral Medium 3.1	63	44	0	0	0	21.5%
DeepSeek V3.2	51	50	0	0	0	20.1%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
ByteDance Seed 1.6	100	0	0	0	0	20.0%
Gemma 4 26B (Reasoning)	100	0	0	0	0	20.0%
MiniMax M2.7	100	0	0	0	0	20.0%
Gemma 4 31B	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	100	0	0	0	0	20.0%
Ministral 3B	100	0	0	0	0	20.0%
Ministral 3 3B	96	0	0	0	0	19.2%
WizardLM 2 8x22b	93	0	0	0	0	18.5%
GPT-5	49	43	0	0	0	18.3%
Gemma 3 4B	86	0	0	0	0	17.2%
Claude Opus 4.8 (Reasoning, Low)	81	0	0	0	0	16.1%
Mistral Small 4 (Reasoning)	77	0	0	0	0	15.3%
o4 Mini High	40	34	0	0	0	14.8%
Ministral 8B	71	0	0	0	0	14.2%
Gemma 3 27B	69	0	0	0	0	13.9%
Aion 3.0	58	0	0	0	0	11.6%
Nemotron 3 Super	58	0	0	0	0	11.6%
GPT-OSS 120B	56	0	0	0	0	11.1%
DeepSeek V4 Flash	51	0	0	0	0	10.2%
Nemotron 3 Nano	50	0	0	0	0	9.9%
Grok 4.5 (Reasoning, Low)	48	0	0	0	0	9.6%
Mistral Small 3.2 24B	2	0	0	0	0	0.4%
MiniMax M3	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	90	98.1%
Writer: Palmyra X5	100	100	100	100	72	94.4%
Claude Opus 4.6 (Reasoning)	100	100	100	90	69	91.8%
GPT-5.4 (Reasoning, Low)	100	100	100	95	58	90.5%
Gemini 3.1 Flash Lite	100	100	100	100	51	90.1%
Qwen 3.6 27B	100	99	85	83	80	89.4%
Claude Opus 4.5	100	100	100	79	55	86.9%
GPT-5.4 Nano (Reasoning, Low)	99	99	99	84	52	86.4%
Ministral 3 14B	100	100	94	73	62	85.8%
Claude Opus 4.6	100	100	74	71	70	83.1%
Qwen 3 32B	100	100	100	57	54	82.2%
Claude Sonnet 4.6 (Reasoning)	100	100	87	68	53	81.5%
Z.AI GLM 5	100	100	91	75	34	80.1%
Claude Sonnet 5	100	100	100	91	0	78.2%
GPT-5.4 Nano	100	100	100	53	37	77.9%
Gemma 3 27B	100	100	91	53	45	77.9%
Gemini 2.5 Flash (Reasoning)	100	82	77	71	58	77.8%
Qwen 3.5 397B A17B	100	100	74	66	48	77.6%
MiniMax M3	100	100	91	48	44	76.6%
GPT-5 Nano	100	100	88	72	22	76.4%
GPT-5.4 Nano (Reasoning)	100	100	100	63	19	76.3%
Qwen 3.5 Plus (2026-02-15)	100	100	100	41	38	75.7%
Z.AI GLM 5.1	100	93	67	61	58	75.7%
Qwen3.6 Max Preview	100	95	93	60	30	75.5%
GPT-5	100	98	65	55	54	74.4%
GPT-5.1	100	94	74	53	42	72.6%
Gemini 3.1 Pro (Preview)	100	97	69	64	29	71.9%
Gemma 4 31B (Reasoning)	100	100	54	53	45	70.5%
Nemotron 3 Nano	100	100	100	51	0	70.2%
GPT-4.1	100	100	100	44	0	68.8%
MoonshotAI: Kimi K2.6	88	82	75	70	29	68.8%
Claude Opus 4.8 (Reasoning)	100	100	76	66	0	68.3%
GPT-4o, Aug. 6th (temp=1)	100	100	72	68	0	68.2%
GPT-5.5 (Reasoning)	85	79	69	65	39	67.5%
Gemini 2.5 Flash	100	100	97	33	0	66.0%
Mistral Medium 3.1	100	100	69	60	0	65.9%
GPT-5.5	100	70	66	65	27	65.5%
GPT-5 Mini	100	100	100	27	0	65.4%
Qwen 3.6 35B	100	99	59	36	32	65.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	63	59	0	64.3%
Aion 3.0	100	100	86	34	0	64.0%
Claude Sonnet 4	68	68	66	61	56	64.0%
Qwen 3.6 Flash	100	96	80	43	0	63.7%
MiniMax M2.7	100	100	79	38	0	63.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	82	34	0	63.2%
GPT-5.4 (Reasoning)	100	60	60	52	42	62.9%
Mistral Small 4 (Reasoning)	100	100	59	55	0	62.8%
DeepSeek V3 (2025-03-24)	100	79	67	60	0	61.1%
GPT-5.2	100	100	67	39	0	61.0%
Ministral 3 8B	100	64	53	43	41	60.3%
Gemini 3 Flash (Preview)	87	84	43	43	42	59.9%
GPT-5.4 Mini	79	73	71	50	26	59.7%
Qwen 3.5 Flash	100	100	65	31	0	59.0%
GPT-4o Mini (temp=1)	100	72	63	60	0	58.9%
Gemma 3 12B	100	96	53	45	0	58.8%
Gemini 3.5 Flash (Reasoning, Minimal)	86	81	78	48	0	58.5%
Qwen 3.5 35B	100	81	76	34	0	58.2%
Gemma 4 26B	100	50	48	47	46	58.0%
MoonshotAI: Kimi K2.5	100	75	60	51	0	57.2%
GPT-5.5 (Reasoning, Low)	100	100	43	28	13	56.9%
GPT-5.4 Mini (Reasoning)	100	84	75	26	0	56.8%
Gemini 3 Flash (Preview, Reasoning)	84	69	45	45	38	56.2%
Claude Sonnet 5 (Reasoning, Low)	100	100	79	0	0	55.9%
Gemini 3.1 Flash Lite (Preview)	100	64	57	54	0	55.1%
Claude Sonnet 4.6	95	64	63	52	0	54.8%
Z.AI GLM 5 Turbo	97	76	56	40	0	54.0%
DeepSeek V4 Flash	100	100	69	0	0	53.8%
Mistral Large 2	100	63	63	42	0	53.5%
DeepSeek V4 Pro	100	100	67	0	0	53.4%
Grok 4.20 (Reasoning)	70	58	54	52	31	53.0%
Gemini 3.1 Flash Lite (Reasoning)	100	58	53	50	0	52.1%
Qwen 3.5 9B	100	76	50	31	0	51.4%
Z.AI GLM 5.2 (Reasoning, High)	92	76	48	34	0	50.0%
GPT-4.1 Nano	100	75	72	0	0	49.4%
Mistral Large 3	100	81	65	0	0	49.1%
GPT-4o, Aug. 6th (temp=0)	100	75	70	0	0	49.0%
Qwen3.7 Max	79	70	49	46	0	48.8%
Qwen 3.5 27B	100	100	39	0	0	47.8%
Claude Opus 4.8 (Reasoning, Low)	100	76	63	0	0	47.7%
Gemini 3.5 Flash (Reasoning)	76	70	46	46	0	47.6%
DeepSeek V4 Pro (Reasoning)	100	100	38	0	0	47.6%
Cydonia 24B V4.1	100	74	62	0	0	47.2%
Mistral Small 4	100	100	35	0	0	47.1%
Claude Opus 4.7 (Reasoning)	100	72	60	0	0	46.5%
DeepSeek V3.1	100	50	42	40	0	46.3%
Gemma 3 4B	100	65	63	0	0	45.6%
ByteDance Seed 1.6	100	68	57	0	0	45.2%
Qwen 3.5 122B	100	44	39	36	0	43.9%
Gemma 4 31B	100	62	57	0	0	43.8%
Arcee AI: Trinity Mini	79	68	65	0	0	42.6%
Grok 4.20	83	58	26	25	20	42.5%
ByteDance Seed 1.6 Flash	100	64	48	0	0	42.3%
o4 Mini	100	39	36	35	0	41.9%
Gemini 2.5 Pro	86	84	36	0	0	41.3%
Aion 2.0	71	66	35	33	0	41.0%
Qwen3 235B A22B Instruct 2507	94	74	35	0	0	40.7%
Cohere Command R+ (Aug. 2024)	83	61	56	0	0	40.0%
Claude Sonnet 5 (Reasoning)	100	96	0	0	0	39.2%
GPT-4o Mini (temp=0)	72	64	59	0	0	39.1%
Gemini 2.5 Flash Lite	100	47	43	0	0	38.0%
Z.AI GLM 4.7 Flash	87	55	44	0	0	37.2%
Z.AI GLM 4.5 Air	100	43	38	0	0	36.3%
Xiaomi MIMO v2.5	79	65	34	0	0	35.4%
GPT-4.1 Mini	63	55	54	0	0	34.5%
ByteDance Seed 2.0 Mini	100	68	0	0	0	33.7%
Z.AI GLM 4.5	61	54	52	0	0	33.4%
DeepSeek V3 (2024-12-26)	100	67	0	0	0	33.3%
o4 Mini High	60	41	34	30	0	32.9%
Xiaomi MIMO v2.5 Pro	100	61	0	0	0	32.2%
Nemotron 3 Super	100	60	0	0	0	32.0%
Hermes 3 70B	100	58	0	0	0	31.6%
Ministral 8B	100	58	0	0	0	31.6%
ByteDance Seed 2.0 Lite	85	70	0	0	0	31.0%
Mistral NeMO	82	66	0	0	0	29.6%
Claude Sonnet 4.5	100	45	0	0	0	28.9%
Aion 3.0 Mini	100	44	0	0	0	28.8%
Grok 4.3	100	43	0	0	0	28.5%
Z.AI GLM 4.6	58	47	38	0	0	28.5%
Grok 4.5 (Reasoning, Low)	62	42	32	0	0	27.2%
Ministral 3 3B	70	63	0	0	0	26.7%
Qwen 3.5 Plus (2026-04-20)	100	30	0	0	0	26.0%
Grok 4.5 (Reasoning, High)	58	28	26	0	0	22.3%
DeepSeek-V2 Chat	54	52	0	0	0	21.2%
Gemma 4 26B (Reasoning)	53	50	0	0	0	20.4%
Claude Opus 4.7	100	0	0	0	0	20.0%
DeepSeek V4 Flash (Reasoning)	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Claude Haiku 4.5	54	42	0	0	0	19.2%
Inception Mercury 2	95	0	0	0	0	19.0%
DeepSeek V3.2	35	30	28	0	0	18.7%
MiniMax M2.5	49	43	0	0	0	18.3%
GPT-OSS 120B	68	0	0	0	0	13.5%
WizardLM 2 8x22b	57	0	0	0	0	11.5%
Grok 4.3 (Reasoning)	52	0	0	0	0	10.4%
Claude Opus 4	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5	100	100	93	83	34	81.9%
Ministral 3 8B	100	100	100	100	0	80.0%
Qwen 3.6 35B	100	100	96	91	0	77.4%
ByteDance Seed 1.6 Flash	100	96	96	90	0	76.5%
Qwen3.6 Max Preview	100	85	84	74	30	74.8%
Gemini 3.1 Pro (Preview)	100	81	80	54	44	71.8%
Nemotron 3 Super	100	100	100	53	0	70.5%
GPT-5.4 Mini (Reasoning)	100	99	99	31	22	70.1%
GPT-5.4 Mini (Reasoning, Low)	100	84	82	56	26	69.6%
Ministral 8B	100	100	100	48	0	69.5%
GPT-5.4 Mini	100	100	62	57	25	68.9%
Qwen 3.6 Flash	100	100	81	54	0	66.9%
Qwen 3.5 397B A17B	100	83	53	49	39	64.9%
MoonshotAI: Kimi K2.5	100	100	61	61	0	64.4%
GPT-5.5 (Reasoning, Low)	100	99	59	36	18	62.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	0	0	60.0%
Qwen 3 32B	100	100	100	0	0	60.0%
Mistral Medium 3.1	100	100	100	0	0	60.0%
Nemotron 3 Nano	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite (Reasoning)	100	95	56	49	0	60.0%
Xiaomi MIMO v2.5 Pro	100	100	55	42	0	59.3%
GPT-5.4	90	89	68	43	0	58.4%
GPT-5.4 Nano	100	73	44	38	35	57.9%
Gemini 2.5 Flash Lite (Reasoning)	92	91	53	40	0	55.1%
GPT-5.2	100	64	47	42	20	54.7%
Claude Opus 4	100	100	66	0	0	53.2%
GPT-5.5 (Reasoning)	74	66	58	45	19	52.4%
Gemini 3.1 Flash Lite	100	100	61	0	0	52.2%
MoonshotAI: Kimi K2.6	100	100	60	0	0	51.9%
Claude Sonnet 4	100	100	57	0	0	51.5%
Qwen3.7 Max	100	75	41	38	0	50.9%
Mistral Small 4	100	68	45	37	0	50.1%
Z.AI GLM 4.7	100	53	49	47	0	49.7%
Grok 4.20 (Reasoning)	81	80	46	40	0	49.5%
Qwen 3.6 27B	100	95	52	0	0	49.4%
GPT-5.4 Nano (Reasoning)	100	100	25	21	0	49.3%
Qwen 3.5 27B	100	100	46	0	0	49.2%
GPT-5.4 (Reasoning, Low)	98	74	48	25	0	49.0%
Grok 4.3 (Reasoning)	94	79	71	0	0	49.0%
Ministral 3 14B	100	100	42	0	0	48.5%
o4 Mini	100	86	43	0	0	45.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	68	53	0	0	44.3%
Z.AI GLM 5.1	100	65	56	0	0	44.1%
Qwen 3.5 9B	100	61	59	0	0	44.0%
Qwen 3.5 122B	82	71	66	0	0	43.8%
Gemini 3 Flash (Preview, Reasoning)	76	68	68	0	0	42.5%
Gemini 3.1 Flash Lite (Preview)	100	56	51	0	0	41.4%
Cydonia 24B V4.1	91	63	54	0	0	41.4%
GPT-5 Mini	100	64	42	0	0	41.1%
GPT-5	75	68	33	27	0	40.6%
Gemini 2.5 Flash Lite	100	54	48	0	0	40.5%
Claude Sonnet 5 (Reasoning)	100	100	0	0	0	40.0%
ByteDance Seed 1.6	100	100	0	0	0	40.0%
Qwen 3.5 Flash	100	100	0	0	0	40.0%
Arcee AI: Trinity Mini	100	100	0	0	0	40.0%
Ministral 3B	100	100	0	0	0	40.0%
Mistral Large 2	100	52	48	0	0	39.8%
GPT-5.4 Nano (Reasoning, Low)	100	52	24	22	0	39.5%
Hermes 3 70B	100	96	0	0	0	39.2%
Grok 4.20	83	42	36	35	0	39.0%
Claude Opus 4.6	96	53	45	0	0	38.8%
Hermes 3 405B	100	93	0	0	0	38.5%
GPT-4.1 Mini	100	91	0	0	0	38.2%
Gemma 4 31B (Reasoning)	100	86	0	0	0	37.2%
Qwen 2.5 72B	100	82	0	0	0	36.4%
GPT-5.4 (Reasoning)	84	66	27	0	0	35.6%
Inception Mercury 2	65	58	47	0	0	34.0%
GPT-4o, Aug. 6th (temp=1)	86	83	0	0	0	33.9%
GPT-5.1	71	25	23	23	22	32.7%
ByteDance Seed 2.0 Mini	100	63	0	0	0	32.7%
DeepSeek V3 (2025-03-24)	93	70	0	0	0	32.6%
Gemini 3.5 Flash (Reasoning)	55	54	51	0	0	31.9%
Qwen3 235B A22B Instruct 2507	98	61	0	0	0	31.8%
Grok 4.5 (Reasoning, Low)	100	58	0	0	0	31.6%
o4 Mini High	51	51	50	0	0	30.2%
Claude Sonnet 4.6	78	68	0	0	0	29.3%
Z.AI GLM 5.2 (Reasoning, High)	96	50	0	0	0	29.1%
DeepSeek V3.1	50	49	43	0	0	28.3%
Gemini 2.5 Flash	54	47	39	0	0	28.1%
Gemma 4 26B	74	67	0	0	0	28.0%
GPT-5 Nano	61	40	34	0	0	26.8%
DeepSeek V4 Pro (Reasoning)	51	42	42	0	0	26.8%
Mistral Large 3	68	60	0	0	0	25.4%
DeepSeek V3.2	89	37	0	0	0	25.2%
Mistral NeMO	82	41	0	0	0	24.5%
Aion 2.0	41	40	38	0	0	23.8%
Aion 3.0 Mini	59	57	0	0	0	23.3%
Gemma 3 27B	53	52	0	0	0	21.1%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
Claude Opus 4.7	100	0	0	0	0	20.0%
Claude Opus 4.5	100	0	0	0	0	20.0%
Z.AI GLM 5	100	0	0	0	0	20.0%
Aion 3.0	100	0	0	0	0	20.0%
DeepSeek V4 Flash (Reasoning)	100	0	0	0	0	20.0%
MiniMax M2.5	100	0	0	0	0	20.0%
Gemini 2.5 Flash (Reasoning)	100	0	0	0	0	20.0%
Grok 4.3	100	0	0	0	0	20.0%
GPT-4o Mini (temp=1)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
WizardLM 2 8x22b	100	0	0	0	0	20.0%
Gemma 3 4B	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	98	0	0	0	0	19.6%
Z.AI GLM 4.7 Flash	49	48	0	0	0	19.4%
Cohere Command R+ (Aug. 2024)	96	0	0	0	0	19.2%
Claude Opus 4.8 (Reasoning, Low)	94	0	0	0	0	18.9%
Qwen 3.5 35B	46	42	0	0	0	17.7%
Claude Opus 4.6 (Reasoning)	43	41	0	0	0	16.8%
GPT-4o, Aug. 6th (temp=0)	81	0	0	0	0	16.1%
Gemini 2.5 Pro	80	0	0	0	0	16.0%
Gemma 4 31B	77	0	0	0	0	15.4%
Qwen 3.5 Plus (2026-02-15)	75	0	0	0	0	14.9%
Writer: Palmyra X5	69	0	0	0	0	13.9%
Z.AI GLM 5 Turbo	68	0	0	0	0	13.7%
Z.AI GLM 4.5	68	0	0	0	0	13.7%
Claude Haiku 4.5	68	0	0	0	0	13.7%
Claude Sonnet 4.6 (Reasoning)	68	0	0	0	0	13.5%
DeepSeek V4 Flash	67	0	0	0	0	13.3%
Gemini 3 Flash (Preview)	66	0	0	0	0	13.2%
Gemma 4 26B (Reasoning)	65	0	0	0	0	13.0%
MiniMax M3	64	0	0	0	0	12.8%
DeepSeek-V2 Chat	60	0	0	0	0	12.0%
Claude Sonnet 4.5	59	0	0	0	0	11.8%
Gemma 3 12B	58	0	0	0	0	11.6%
GPT-4.1	57	0	0	0	0	11.4%
GPT-OSS 120B	57	0	0	0	0	11.4%
DeepSeek V3 (2024-12-26)	56	0	0	0	0	11.1%
Mistral Small 3.2 24B	56	0	0	0	0	11.1%
Z.AI GLM 4.6	52	0	0	0	0	10.3%
Xiaomi MIMO v2.5	51	0	0	0	0	10.2%
Grok 4.5 (Reasoning, High)	47	0	0	0	0	9.3%
MiniMax M2.7	46	0	0	0	0	9.2%
Z.AI GLM 4.5 Air	43	0	0	0	0	8.5%
Mistral Small 4 (Reasoning)	42	0	0	0	0	8.3%
Ministral 3 3B	31	0	0	0	0	6.2%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	54	90.9%
Qwen 3.6 35B	100	100	96	91	66	90.6%
Qwen 3.5 397B A17B	100	100	100	100	48	89.5%
Claude Sonnet 4.6	100	100	100	72	69	88.4%
Qwen 3 32B	100	100	94	93	43	86.0%
Qwen3.7 Max	100	100	100	100	0	80.0%
Gemma 4 31B (Reasoning)	100	100	100	100	0	80.0%
Qwen3.6 Max Preview	100	100	90	56	45	78.1%
GPT-5.4 Nano	100	100	100	57	23	76.2%
Mistral NeMO	100	100	100	81	0	76.1%
GPT-5.4 (Reasoning)	100	100	97	54	29	75.9%
GPT-5 Mini	100	88	75	64	40	73.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	93	68	0	72.0%
GPT-4o Mini (temp=1)	100	91	86	82	0	71.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	57	0	71.5%
GPT-5.4	100	100	82	71	0	70.6%
Gemini 3.1 Pro (Preview)	100	100	94	52	0	69.2%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	45	0	69.0%
GPT-5.4 Nano (Reasoning, Low)	100	88	87	44	22	68.3%
GPT-5.4 (Reasoning, Low)	100	100	83	28	25	67.2%
Claude Opus 4.7 (Reasoning)	89	82	77	70	0	63.7%
GPT-5.4 Mini	100	81	77	60	0	63.6%
GPT-5.5 (Reasoning, Low)	100	81	46	39	36	60.5%
Qwen 3.5 35B	100	100	53	48	0	60.3%
Claude Sonnet 5	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	100	0	0	60.0%
GPT-4o, Aug. 6th (temp=1)	100	100	93	0	0	58.5%
Gemma 4 26B	100	69	62	61	0	58.4%
Grok 4.20	100	81	76	33	0	58.0%
Aion 2.0	90	88	55	55	0	57.5%
MoonshotAI: Kimi K2.6	100	92	49	46	0	57.4%
Qwen 3.5 Flash	100	100	81	0	0	56.2%
Gemini 2.5 Flash (Reasoning)	95	95	88	0	0	55.8%
GPT-5.5	90	71	56	39	19	55.0%
ByteDance Seed 2.0 Mini	100	91	83	0	0	54.8%
Grok 4.3 (Reasoning)	100	91	79	0	0	54.1%
ByteDance Seed 1.6	100	100	68	0	0	53.7%
Gemini 3.5 Flash (Reasoning)	100	98	64	0	0	52.4%
GPT-4.1 Nano	100	86	76	0	0	52.4%
GPT-5 Nano	100	74	57	30	0	52.2%
Claude Opus 4	100	100	60	0	0	52.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	59	0	0	51.8%
Gemini 2.5 Flash	100	66	47	45	0	51.6%
GPT-5	96	57	50	29	25	51.5%
Qwen 3.5 122B	100	100	55	0	0	51.0%
GPT-5.4 Mini (Reasoning)	100	82	39	32	0	50.8%
Mistral Small 4 (Reasoning)	100	100	54	0	0	50.8%
ByteDance Seed 1.6 Flash	68	64	49	37	32	49.9%
Qwen 3.5 Plus (2026-02-15)	75	63	59	51	0	49.4%
Qwen 3.5 Plus (2026-04-20)	86	85	42	31	0	48.9%
Aion 3.0 Mini	100	60	45	39	0	48.8%
DeepSeek V3.2	100	100	44	0	0	48.8%
Grok 4.20 (Reasoning)	100	100	42	0	0	48.5%
Aion 3.0	100	93	49	0	0	48.2%
Grok 4.5 (Reasoning, Low)	100	100	40	0	0	48.1%
Grok 4.3	100	86	53	0	0	47.8%
Gemini 3 Flash (Preview)	72	57	56	50	0	47.2%
Z.AI GLM 4.5	86	85	64	0	0	47.0%
Gemma 4 31B	100	67	64	0	0	46.2%
o4 Mini High	88	52	50	40	0	46.0%
Claude Sonnet 4.5	100	69	57	0	0	45.4%
Gemini 2.5 Flash Lite	92	79	53	0	0	44.7%
Mistral Large 3	100	67	52	0	0	43.6%
Writer: Palmyra X5	57	57	53	45	0	42.5%
Claude Opus 4.6 (Reasoning)	72	51	45	42	0	42.0%
GPT-5.4 Nano (Reasoning)	100	64	43	0	0	41.4%
Qwen3 235B A22B Instruct 2507	78	66	63	0	0	41.3%
Z.AI GLM 5 Turbo	100	61	44	0	0	41.0%
MoonshotAI: Kimi K2.5	100	100	0	0	0	40.0%
DeepSeek-V2 Chat	100	100	0	0	0	40.0%
Z.AI GLM 4.7 Flash	100	100	0	0	0	40.0%
Cydonia 24B V4.1	100	100	0	0	0	40.0%
GPT-5.2	100	51	25	23	0	39.7%
Z.AI GLM 5	100	94	0	0	0	38.9%
Qwen 3.5 27B	70	68	56	0	0	38.6%
o4 Mini	89	54	45	0	0	37.6%
Gemma 3 12B	68	61	58	0	0	37.3%
Qwen 3.6 Flash	100	51	34	0	0	37.0%
Z.AI GLM 5.2 (Reasoning, High)	78	61	46	0	0	37.0%
DeepSeek V3 (2024-12-26)	100	83	0	0	0	36.7%
Gemini 2.5 Pro	49	46	45	40	0	36.0%
Qwen 2.5 72B	100	78	0	0	0	35.6%
Cohere Command R+ (Aug. 2024)	100	77	0	0	0	35.4%
Claude Opus 4.8 (Reasoning)	94	82	0	0	0	35.3%
Z.AI GLM 4.6	61	60	55	0	0	35.2%
GPT-5.4 Mini (Reasoning, Low)	100	43	30	0	0	34.5%
Inception Mercury 2	100	70	0	0	0	34.0%
Ministral 3 8B	68	54	46	0	0	33.7%
DeepSeek V3.1	100	66	0	0	0	33.2%
Hermes 3 405B	100	66	0	0	0	33.2%
GPT-4o Mini (temp=0)	88	77	0	0	0	32.9%
DeepSeek V4 Pro (Reasoning)	66	49	49	0	0	32.8%
Nemotron 3 Nano	100	55	0	0	0	31.0%
Xiaomi MIMO v2.5	62	51	40	0	0	30.5%
GPT-4.1	100	53	0	0	0	30.5%
Ministral 3 14B	100	53	0	0	0	30.5%
GPT-5.5 (Reasoning)	55	39	20	19	15	29.5%
DeepSeek V4 Pro	50	48	47	0	0	28.9%
Gemma 3 27B	89	54	0	0	0	28.7%
GPT-5.1	63	29	26	25	0	28.7%
Z.AI GLM 4.7	53	46	42	0	0	28.2%
Mistral Small 4	100	41	0	0	0	28.1%
Gemma 4 26B (Reasoning)	71	68	0	0	0	28.0%
MiniMax M3	76	63	0	0	0	27.8%
Nemotron 3 Super	77	62	0	0	0	27.7%
Claude Opus 4.6	49	46	42	0	0	27.4%
Z.AI GLM 4.5 Air	71	65	0	0	0	27.3%
Claude Haiku 4.5	78	57	0	0	0	27.1%
Mistral Small 3.2 24B	64	56	8	0	0	25.5%
MiniMax M2.5	72	53	0	0	0	25.0%
GPT-OSS 120B	79	38	0	0	0	23.4%
Grok 4.5 (Reasoning, High)	60	51	0	0	0	22.1%
Qwen 3.6 27B	60	50	0	0	0	22.0%
Qwen 3.5 9B	71	29	0	0	0	20.1%
Z.AI GLM 5.1	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
Gemini 3 Flash (Preview, Reasoning)	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=0)	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
WizardLM 2 8x22b	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	98	0	0	0	0	19.6%
Claude Opus 4.5	52	44	0	0	0	19.2%
Mistral Medium 3.1	46	44	0	0	0	18.0%
DeepSeek V4 Flash (Reasoning)	89	0	0	0	0	17.9%
Ministral 3B	83	0	0	0	0	16.7%
DeepSeek V4 Flash	74	0	0	0	0	14.7%
Gemma 3 4B	72	0	0	0	0	14.5%
Mistral Large 2	71	0	0	0	0	14.3%
Ministral 8B	68	0	0	0	0	13.5%
MiniMax M2.7	63	0	0	0	0	12.7%
Ministral 3 3B	55	0	0	0	0	11.0%
Claude Sonnet 4.6 (Reasoning)	50	0	0	0	0	9.9%
Xiaomi MIMO v2.5 Pro	41	0	0	0	0	8.3%
Claude Opus 4.7	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	89	97.9%
Qwen 3.6 Flash	100	100	100	75	51	85.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	60	59	83.8%
Qwen 3.6 35B	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	97	65	58	53	74.5%
GPT-5.4 (Reasoning, Low)	100	94	66	53	53	73.4%
Gemma 3 12B	100	100	100	65	0	73.0%
Qwen 3 32B	96	93	88	83	0	72.1%
MoonshotAI: Kimi K2.5	100	100	100	54	0	70.9%
ByteDance Seed 1.6 Flash	100	100	100	54	0	70.9%
GPT-5.4	100	100	93	37	21	70.4%
MiniMax M2.7	100	79	57	57	54	69.4%
GPT-5.4 Mini (Reasoning)	100	100	88	30	28	69.2%
Aion 3.0	100	100	100	45	0	68.9%
Gemini 2.5 Flash (Reasoning)	100	100	76	65	0	68.2%
Qwen 3.5 397B A17B	100	100	100	32	0	66.3%
Gemini 3.1 Flash Lite	100	100	70	58	0	65.7%
Z.AI GLM 5 Turbo	100	100	63	57	0	64.0%
Aion 2.0	100	91	54	42	30	63.3%
GPT-5.4 (Reasoning)	100	100	44	43	28	63.0%
Qwen 3.5 35B	100	100	70	40	0	62.0%
GPT-5.1	100	84	52	47	24	61.3%
Hermes 3 70B	100	100	100	0	0	60.0%
Mistral Small 4	83	82	45	45	39	58.6%
ByteDance Seed 2.0 Mini	100	100	83	0	0	56.7%
Hermes 3 405B	100	100	77	0	0	55.4%
DeepSeek V4 Pro (Reasoning)	100	100	75	0	0	55.0%
DeepSeek-V2 Chat	100	100	69	0	0	53.9%
Gemma 3 27B	100	59	56	51	0	53.2%
Gemini 2.5 Pro	100	87	41	38	0	53.2%
Z.AI GLM 5.1	100	60	55	50	0	53.0%
Gemini 3.1 Pro (Preview)	100	100	56	0	0	51.2%
DeepSeek V3.2	100	100	55	0	0	51.0%
ByteDance Seed 1.6	100	77	76	0	0	50.5%
Claude Opus 4.5	63	63	63	62	0	50.3%
Gemma 4 26B (Reasoning)	100	76	67	0	0	48.5%
Ministral 3 8B	100	96	29	17	0	48.4%
DeepSeek V4 Flash (Reasoning)	100	72	68	0	0	48.2%
DeepSeek V4 Pro	100	85	53	0	0	47.6%
GPT-5 Nano	86	42	41	33	30	46.4%
GPT-5.5 (Reasoning, Low)	82	72	29	28	18	45.7%
Z.AI GLM 4.5	100	68	60	0	0	45.6%
GPT-5.4 Nano	94	68	23	23	18	45.1%
Mistral Small 4 (Reasoning)	100	59	33	29	0	44.3%
Claude Opus 4.6 (Reasoning)	91	80	49	0	0	44.0%
Nemotron 3 Nano	100	60	60	0	0	43.8%
Qwen 3.5 Plus (2026-02-15)	78	71	69	0	0	43.8%
GPT-5.4 Mini	80	58	54	27	0	43.7%
Gemini 3.1 Flash Lite (Preview)	99	65	53	0	0	43.3%
GPT-5.5	67	47	37	31	24	41.2%
Qwen 3.6 27B	61	52	49	42	0	40.8%
Z.AI GLM 4.5 Air	79	70	53	0	0	40.6%
Qwen3.7 Max	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Lite	100	100	0	0	0	40.0%
Ministral 3B	100	98	0	0	0	39.6%
GPT-5.2	65	62	28	21	19	38.9%
GPT-5.4 Nano (Reasoning)	77	49	46	23	0	38.7%
o4 Mini	61	50	49	34	0	38.6%
GPT-4o, Aug. 6th (temp=1)	100	93	0	0	0	38.5%
Ministral 8B	78	49	43	21	0	37.9%
GPT-5.4 Nano (Reasoning, Low)	100	88	0	0	0	37.7%
Claude Opus 4.8 (Reasoning)	100	83	0	0	0	36.7%
Gemma 4 31B	100	83	0	0	0	36.7%
Qwen 3.5 Flash	67	55	55	0	0	35.4%
Writer: Palmyra X5	100	67	0	0	0	33.3%
Cydonia 24B V4.1	83	79	0	0	0	32.5%
Gemini 3.5 Flash (Reasoning)	100	62	0	0	0	32.3%
Mistral Large 3	100	61	0	0	0	32.2%
DeepSeek V3 (2024-12-26)	100	61	0	0	0	32.2%
Qwen 3.5 122B	100	60	0	0	0	32.0%
MiniMax M3	100	60	0	0	0	31.9%
Claude Sonnet 4	100	60	0	0	0	31.9%
Ministral 3 3B	91	68	0	0	0	31.9%
GPT-5 Mini	75	45	35	0	0	30.8%
Xiaomi MIMO v2.5	54	52	45	0	0	30.3%
Qwen 2.5 72B	79	71	0	0	0	30.2%
Z.AI GLM 4.6	53	53	41	0	0	29.2%
Gemma 4 26B	77	68	0	0	0	28.9%
Z.AI GLM 4.7	100	41	0	0	0	28.2%
GPT-5.5 (Reasoning)	46	36	21	18	17	27.5%
GPT-5	82	54	0	0	0	27.1%
Xiaomi MIMO v2.5 Pro	45	41	41	0	0	25.5%
GPT-4.1	67	58	0	0	0	25.0%
Qwen 3.5 Plus (2026-04-20)	63	54	0	0	0	23.4%
Gemini 3 Flash (Preview, Reasoning)	63	53	0	0	0	23.3%
Gemini 2.5 Flash Lite	64	48	0	0	0	22.4%
Claude Opus 4.6	57	50	0	0	0	21.3%
Gemini 2.5 Flash Lite (Reasoning)	55	50	0	0	0	20.9%
DeepSeek V3.1	54	51	0	0	0	20.9%
Claude Opus 4	54	48	0	0	0	20.4%
Z.AI GLM 5	54	47	0	0	0	20.2%
Claude Sonnet 4.6 (Reasoning)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
Qwen 3.5 27B	100	0	0	0	0	20.0%
Claude Sonnet 4.5	100	0	0	0	0	20.0%
GPT-4.1 Mini	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
WizardLM 2 8x22b	100	0	0	0	0	20.0%
Ministral 3 14B	100	0	0	0	0	20.0%
Cohere Command R+ (Aug. 2024)	100	0	0	0	0	20.0%
Gemma 3 4B	100	0	0	0	0	20.0%
Mistral NeMO	100	0	0	0	0	20.0%
o4 Mini High	52	47	0	0	0	19.9%
Arcee AI: Trinity Mini	98	0	0	0	0	19.6%
DeepSeek V3 (2025-03-24)	94	0	0	0	0	18.9%
GPT-4.1 Nano	94	0	0	0	0	18.9%
Claude Opus 4.8 (Reasoning, Low)	86	0	0	0	0	17.2%
Grok 4.20 (Reasoning)	46	40	0	0	0	17.2%
Gemini 3.5 Flash (Reasoning, Minimal)	83	0	0	0	0	16.7%
Grok 4.3 (Reasoning)	81	0	0	0	0	16.1%
Z.AI GLM 4.7 Flash	79	0	0	0	0	15.9%
Gemma 4 31B (Reasoning)	70	0	0	0	0	14.1%
GPT-4o Mini (temp=1)	70	0	0	0	0	14.1%
GPT-4o Mini (temp=0)	69	0	0	0	0	13.9%
Claude Haiku 4.5	67	0	0	0	0	13.3%
Nemotron 3 Super	67	0	0	0	0	13.3%
Grok 4.5 (Reasoning, Low)	65	0	0	0	0	13.0%
DeepSeek V4 Flash	65	0	0	0	0	13.0%
Gemini 3 Flash (Preview)	63	0	0	0	0	12.5%
Grok 4.3	58	0	0	0	0	11.6%
Aion 3.0 Mini	56	0	0	0	0	11.2%
Z.AI GLM 5.2 (Reasoning, High)	54	0	0	0	0	10.9%
Qwen3 235B A22B Instruct 2507	53	0	0	0	0	10.5%
Mistral Medium 3.1	42	0	0	0	0	8.3%
GPT-OSS 120B	40	0	0	0	0	7.9%
Grok 4.20	26	0	0	0	0	5.2%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	95	99.0%
Qwen 3.5 35B	100	100	100	100	81	96.3%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	77	95.4%
GPT-5.4 (Reasoning)	100	100	100	90	86	95.2%
Qwen 3.5 Flash	100	100	100	100	71	94.3%
Qwen 3.5 27B	100	100	100	100	59	91.8%
Gemma 4 26B	100	100	100	100	56	91.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	53	90.5%
Gemini 3.1 Flash Lite	100	100	100	72	71	88.8%
Qwen 3.6 Flash	100	100	93	80	61	86.7%
GPT-5 Nano	100	100	92	76	65	86.6%
Qwen 3.6 35B	100	100	93	70	52	82.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	66	47	82.6%
o4 Mini High	100	100	100	68	41	81.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
Qwen 3.5 122B	100	100	93	57	47	79.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	97	0	79.4%
GPT-5.4 (Reasoning, Low)	100	100	100	72	25	79.4%
Gemini 3.1 Pro (Preview)	100	100	100	96	0	79.2%
Gemma 4 31B (Reasoning)	100	100	68	66	62	79.0%
Claude Sonnet 4	100	100	100	83	0	76.7%
Gemini 3.1 Flash Lite (Preview)	100	100	100	77	0	75.4%
Z.AI GLM 4.7 Flash	100	100	100	77	0	75.4%
Qwen3.6 Max Preview	100	100	71	64	39	74.9%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	32	31	72.7%
o4 Mini	100	99	83	42	39	72.6%
MoonshotAI: Kimi K2.5	100	100	100	57	0	71.5%
Qwen 3.6 27B	100	100	63	60	31	70.9%
Gemma 4 31B	100	100	100	53	0	70.6%
Claude Opus 4.6 (Reasoning)	100	96	89	68	0	70.4%
GPT-5.4 Mini (Reasoning)	100	100	63	54	31	69.6%
Qwen 3.5 9B	100	100	89	57	0	69.4%
Aion 3.0	100	100	98	45	0	68.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	66	40	36	68.4%
GPT-5.5 (Reasoning)	100	86	80	52	17	67.1%
ByteDance Seed 1.6	93	86	83	70	0	66.5%
Claude Opus 4.5	100	100	86	42	0	65.6%
GPT-5.4	100	88	58	53	29	65.5%
GPT-5.1	100	96	61	41	26	64.7%
Gemma 3 4B	100	88	68	68	0	64.6%
GPT-5.4 Nano	100	90	45	44	41	63.9%
Aion 2.0	100	76	75	67	0	63.5%
Z.AI GLM 4.7	93	76	74	71	0	62.9%
Gemini 2.5 Flash (Reasoning)	100	100	39	38	36	62.7%
Qwen3 235B A22B Instruct 2507	100	100	67	46	0	62.6%
Nemotron 3 Super	100	100	69	43	0	62.4%
GPT-4o, Aug. 6th (temp=0)	88	81	72	62	0	60.5%
Claude Sonnet 5	100	100	100	0	0	60.0%
Claude Opus 4	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Lite	100	100	100	0	0	60.0%
DeepSeek-V2 Chat	100	100	100	0	0	60.0%
Gemini 2.5 Flash	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	100	0	0	60.0%
GPT-4.1 Nano	100	100	100	0	0	60.0%
Claude Sonnet 5 (Reasoning)	100	100	98	0	0	59.6%
Mistral NeMO	100	100	97	0	0	59.4%
GPT-4.1	100	91	54	52	0	59.2%
Z.AI GLM 5 Turbo	100	96	51	47	0	58.9%
Ministral 3 8B	100	67	59	58	0	56.7%
Ministral 3B	100	100	83	0	0	56.6%
Z.AI GLM 5.2 (Reasoning, High)	100	87	46	46	0	55.7%
GPT-5	100	78	51	23	18	54.1%
Z.AI GLM 5.1	100	100	69	0	0	53.8%
Claude Opus 4.7	100	100	68	0	0	53.7%
Gemini 2.5 Pro	100	44	42	39	39	52.9%
Gemini 3 Flash (Preview)	100	100	61	0	0	52.2%
Arcee AI: Trinity Mini	100	100	61	0	0	52.2%
Claude Opus 4.6	100	69	45	42	0	51.2%
GPT-5.4 Mini	100	73	54	27	0	50.8%
Grok 4.20 (Reasoning)	100	76	37	35	0	49.7%
DeepSeek V4 Flash (Reasoning)	95	54	54	45	0	49.7%
DeepSeek V4 Pro (Reasoning)	100	100	49	0	0	49.7%
Z.AI GLM 4.6	100	93	56	0	0	49.6%
Z.AI GLM 4.5	100	85	63	0	0	49.4%
Z.AI GLM 4.5 Air	66	65	63	52	0	49.2%
Grok 4.3	100	100	45	0	0	49.1%
Grok 4.20	100	74	67	0	0	48.2%
Gemma 3 27B	100	92	46	0	0	47.6%
Mistral Small 4	81	62	57	36	0	47.4%
Qwen 3 32B	100	79	56	0	0	47.0%
GPT-5.4 Nano (Reasoning)	88	72	45	23	0	45.6%
Claude Sonnet 4.6	100	77	47	0	0	44.8%
MiniMax M2.5	100	64	58	0	0	44.4%
Xiaomi MIMO v2.5	83	48	46	44	0	44.3%
DeepSeek V3 (2024-12-26)	100	71	47	0	0	43.7%
Qwen 2.5 72B	93	63	62	0	0	43.5%
GPT-5 Mini	99	63	55	0	0	43.4%
Grok 4.3 (Reasoning)	81	71	63	0	0	42.9%
Claude Opus 4.8 (Reasoning)	71	71	69	0	0	42.5%
Aion 3.0 Mini	69	52	51	40	0	42.4%
Claude Haiku 4.5	100	59	48	0	0	41.4%
DeepSeek V3.1	100	57	47	0	0	40.9%
Writer: Palmyra X5	89	61	52	0	0	40.4%
Ministral 8B	100	52	50	0	0	40.3%
Claude Sonnet 5 (Reasoning, Low)	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	100	0	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	100	0	0	0	40.0%
MiniMax M3	100	56	41	0	0	39.4%
ByteDance Seed 1.6 Flash	100	38	32	26	0	39.2%
Nemotron 3 Nano	68	65	56	0	0	37.9%
GPT-4o, Aug. 6th (temp=1)	100	88	0	0	0	37.5%
GPT-5.5	71	48	28	27	13	37.4%
GPT-4.1 Mini	100	83	0	0	0	36.7%
DeepSeek V3 (2025-03-24)	100	76	0	0	0	35.2%
GPT-5.2	80	67	23	0	0	34.1%
MoonshotAI: Kimi K2.6	63	55	52	0	0	34.1%
Claude Sonnet 4.6 (Reasoning)	100	63	0	0	0	32.7%
MiniMax M2.7	100	56	0	0	0	31.2%
GPT-4o Mini (temp=1)	83	69	0	0	0	30.6%
Gemini 2.5 Flash Lite	100	51	0	0	0	30.1%
Gemma 3 12B	100	50	0	0	0	30.0%
Claude Opus 4.8 (Reasoning, Low)	78	68	0	0	0	29.3%
Z.AI GLM 5	57	46	42	0	0	29.2%
DeepSeek V4 Pro	99	46	0	0	0	29.0%
Cydonia 24B V4.1	93	44	0	0	0	27.5%
GPT-5.5 (Reasoning, Low)	55	33	16	16	14	26.8%
Claude Opus 4.7 (Reasoning)	67	66	0	0	0	26.5%
DeepSeek V4 Flash	93	38	0	0	0	26.3%
Grok 4.5 (Reasoning, High)	87	42	0	0	0	25.8%
Xiaomi MIMO v2.5 Pro	42	41	38	0	0	24.3%
GPT-4o Mini (temp=0)	63	54	0	0	0	23.4%
Claude Sonnet 4.5	100	0	0	0	0	20.0%
Mistral Large 2	100	0	0	0	0	20.0%
Ministral 3 14B	59	39	0	0	0	19.6%
DeepSeek V3.2	58	38	0	0	0	19.2%
Mistral Small 4 (Reasoning)	37	31	28	0	0	19.1%
Ministral 3 3B	68	0	0	0	0	13.5%
GPT-OSS 120B	36	22	0	0	0	11.5%
Grok 4.5 (Reasoning, Low)	44	0	0	0	0	8.8%
Inception Mercury 2	31	0	0	0	0	6.3%
Mistral Medium 3.1	31	0	0	0	0	6.3%
Mistral Small 3.2 24B	2	0	0	0	0	0.5%
Mistral Large 3	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Flash Lite	100	100	100	71	0	74.3%
Gemma 3 4B	79	75	72	67	63	71.1%
Z.AI GLM 4.5 Air	100	100	100	54	0	70.8%
DeepSeek V3.1	100	76	76	70	0	64.4%
ByteDance Seed 1.6 Flash	100	100	68	46	0	62.8%
Gemini 3.1 Flash Lite (Preview)	100	70	66	64	0	60.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	0	0	60.0%
Cydonia 24B V4.1	100	100	100	0	0	60.0%
Cohere Command R+ (Aug. 2024)	100	100	100	0	0	60.0%
Claude Opus 4.6 (Reasoning)	100	85	52	52	0	57.8%
MiniMax M2.5	100	98	79	0	0	55.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	74	0	0	54.7%
Hermes 3 70B	100	100	71	0	0	54.3%
Claude Haiku 4.5	100	100	67	0	0	53.3%
Xiaomi MIMO v2.5	99	87	42	36	0	52.8%
Gemini 2.5 Flash	82	65	55	54	0	51.2%
WizardLM 2 8x22b	100	67	45	41	0	50.6%
Gemma 4 31B	100	69	68	0	0	47.6%
DeepSeek V4 Pro	97	79	56	0	0	46.5%
DeepSeek V4 Flash	81	77	69	0	0	45.4%
GPT-5.4	100	94	28	0	0	44.4%
Z.AI GLM 5	100	64	54	0	0	43.7%
Qwen 3.6 35B	63	54	50	42	0	41.7%
Qwen 3.5 35B	57	57	47	45	0	41.3%
Gemini 2.5 Flash Lite	78	71	56	0	0	41.1%
Grok 4.20	97	79	26	0	0	40.5%
Aion 3.0	100	57	45	0	0	40.4%
Gemini 3 Flash (Preview, Reasoning)	88	58	54	0	0	40.0%
Hermes 3 405B	100	100	0	0	0	40.0%
Arcee AI: Trinity Mini	100	100	0	0	0	40.0%
GPT-4.1	100	98	0	0	0	39.6%
Z.AI GLM 4.5	100	96	0	0	0	39.2%
GPT-4o, Aug. 6th (temp=1)	100	93	0	0	0	38.5%
Ministral 3 14B	85	60	44	0	0	37.8%
Qwen 3 32B	100	62	26	0	0	37.6%
Z.AI GLM 4.6	100	86	0	0	0	37.2%
GPT-5.4 Nano	68	63	32	19	0	36.4%
Claude Opus 4	69	68	45	0	0	36.3%
Gemma 3 12B	61	60	57	0	0	35.5%
Mistral Small 4	76	55	45	0	0	35.3%
DeepSeek V3 (2024-12-26)	100	72	0	0	0	34.5%
Gemma 4 26B	100	71	0	0	0	34.3%
Claude Opus 4.7	93	78	0	0	0	34.1%
DeepSeek V4 Flash (Reasoning)	100	68	0	0	0	33.5%
GPT-5.5 (Reasoning, Low)	54	42	35	35	0	33.3%
Z.AI GLM 5.1	100	61	0	0	0	32.2%
DeepSeek V3.2	60	52	45	0	0	31.4%
Qwen3 235B A22B Instruct 2507	68	45	44	0	0	31.4%
MiniMax M3	85	69	0	0	0	30.8%
GPT-5.1	60	47	26	22	0	30.7%
Gemini 2.5 Flash (Reasoning)	55	54	43	0	0	30.6%
GPT-4o Mini (temp=1)	76	72	0	0	0	29.6%
Writer: Palmyra X5	54	50	42	0	0	29.1%
Claude Sonnet 4.6 (Reasoning)	74	71	0	0	0	29.0%
GPT-5.4 Nano (Reasoning)	100	21	20	0	0	28.3%
Gemini 2.5 Pro	68	60	0	0	0	25.7%
Qwen 3.6 Flash	60	40	27	0	0	25.5%
MiniMax M2.7	71	56	0	0	0	25.5%
GPT-5.4 (Reasoning)	64	32	26	0	0	24.4%
MoonshotAI: Kimi K2.5	69	51	0	0	0	24.0%
Z.AI GLM 4.7	57	56	0	0	0	22.7%
Gemini 3 Flash (Preview)	63	49	0	0	0	22.3%
GPT-5.5	52	41	18	0	0	22.2%
Qwen 3.5 397B A17B	62	31	17	0	0	22.1%
Qwen 3.5 Flash	93	13	5	0	0	22.1%
Gemini 3.5 Flash (Reasoning)	60	48	0	0	0	21.6%
Qwen3.7 Max	73	34	0	0	0	21.5%
GPT-5.2	50	30	24	0	0	20.8%
GPT-5.4 (Reasoning, Low)	53	51	0	0	0	20.8%
GPT-5 Mini	63	37	0	0	0	20.0%
Claude Opus 4.5	100	0	0	0	0	20.0%
Claude Sonnet 4	100	0	0	0	0	20.0%
Claude Sonnet 5	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Mini	100	0	0	0	0	20.0%
GPT-4.1 Mini	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Mistral NeMO	100	0	0	0	0	20.0%
Nemotron 3 Nano	68	31	0	0	0	19.9%
Aion 2.0	50	49	0	0	0	19.7%
Z.AI GLM 4.7 Flash	97	0	0	0	0	19.4%
DeepSeek-V2 Chat	62	33	0	0	0	18.9%
Grok 4.20 (Reasoning)	56	36	0	0	0	18.5%
Claude Sonnet 4.6	89	0	0	0	0	17.9%
DeepSeek V3 (2025-03-24)	89	0	0	0	0	17.9%
GPT-4.1 Nano	89	0	0	0	0	17.9%
Claude Opus 4.6	45	44	0	0	0	17.8%
Gemini 3.5 Flash (Reasoning, Minimal)	86	0	0	0	0	17.2%
Mistral Medium 3.1	43	43	0	0	0	17.2%
Grok 4.3 (Reasoning)	83	0	0	0	0	16.7%
GPT-5.4 Nano (Reasoning, Low)	23	22	19	17	0	16.3%
GPT-5.4 Mini	81	0	0	0	0	16.1%
Claude Opus 4.7 (Reasoning)	79	0	0	0	0	15.9%
GPT-4o, Aug. 6th (temp=0)	76	0	0	0	0	15.2%
Z.AI GLM 5.2 (Reasoning, High)	75	0	0	0	0	14.9%
Aion 3.0 Mini	75	0	0	0	0	14.9%
o4 Mini	45	28	0	0	0	14.5%
Gemma 4 31B (Reasoning)	71	0	0	0	0	14.3%
Ministral 8B	60	0	0	0	0	11.9%
GPT-4o Mini (temp=0)	57	0	0	0	0	11.4%
GPT-5	28	26	0	0	0	10.8%
Mistral Small 4 (Reasoning)	51	0	0	0	0	10.2%
MoonshotAI: Kimi K2.6	49	0	0	0	0	9.7%
ByteDance Seed 1.6	48	0	0	0	0	9.6%
GPT-5.5 (Reasoning)	26	21	0	0	0	9.3%
Qwen 3.5 27B	45	0	0	0	0	9.0%
Mistral Large 2	44	0	0	0	0	8.8%
Qwen 3.6 27B	26	14	0	0	0	8.0%
Grok 4.3	32	0	0	0	0	6.3%
o4 Mini High	29	0	0	0	0	5.7%
GPT-5 Nano	25	0	0	0	0	5.0%
Qwen3.6 Max Preview	20	0	0	0	0	3.9%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
Z.AI GLM 5 Turbo	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 122B	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-04-20)	0	0	0	0	0	0.0%
DeepSeek V4 Pro (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5 Pro	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning, Low)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	100	100	76	74	70	83.9%
Mistral NeMO	100	94	82	76	57	81.9%
Hermes 3 70B	100	100	96	85	0	76.2%
Qwen 3 32B	100	88	75	62	47	74.4%
Cydonia 24B V4.1	100	100	100	66	0	73.2%
Aion 2.0	100	100	86	41	38	73.0%
Aion 3.0 Mini	100	100	63	48	46	71.2%
GPT-5.4 (Reasoning)	100	96	83	29	29	67.5%
WizardLM 2 8x22b	100	84	76	37	35	66.3%
GPT-4.1 Nano	100	100	65	61	0	65.2%
Claude Sonnet 4.6 (Reasoning)	100	100	66	57	0	64.7%
Qwen3 235B A22B Instruct 2507	100	100	70	33	0	60.6%
GPT-5.4 Nano	98	89	42	40	30	59.8%
Claude Haiku 4.5	100	100	86	0	0	57.2%
DeepSeek V3.2	100	95	89	0	0	56.9%
Gemini 2.5 Flash Lite	100	67	63	53	0	56.6%
GPT-4o, Aug. 6th (temp=0)	82	77	67	57	0	56.5%
Claude Sonnet 4	100	100	75	0	0	54.9%
Arcee AI: Trinity Mini	100	100	74	0	0	54.7%
Qwen 3.5 Plus (2026-02-15)	100	66	38	36	32	54.3%
Ministral 3 14B	100	63	58	48	0	53.7%
DeepSeek V4 Flash (Reasoning)	99	68	62	39	0	53.5%
ByteDance Seed 1.6 Flash	100	68	53	43	0	52.8%
Claude Sonnet 5 (Reasoning, Low)	94	88	81	0	0	52.5%
Z.AI GLM 5	97	85	76	0	0	51.6%
DeepSeek V4 Pro (Reasoning)	100	86	37	32	0	51.1%
MiniMax M2.5	100	100	55	0	0	51.0%
Gemma 3 12B	100	52	52	50	0	50.6%
Claude Opus 4	100	94	54	0	0	49.6%
Z.AI GLM 5.1	100	99	45	0	0	48.9%
Z.AI GLM 4.7 Flash	100	72	40	32	0	48.9%
DeepSeek V4 Flash	100	83	60	0	0	48.7%
GPT-5.4 (Reasoning, Low)	86	53	52	27	26	48.7%
MiniMax M3	100	100	40	0	0	48.0%
Claude Opus 4.8 (Reasoning, Low)	100	70	67	0	0	47.4%
GPT-5	100	65	27	25	19	47.3%
Cohere Command R+ (Aug. 2024)	100	69	63	0	0	46.4%
Xiaomi MIMO v2.5	100	49	43	40	0	46.3%
Claude Opus 4.6 (Reasoning)	100	72	31	28	0	46.2%
Aion 3.0	97	47	45	39	0	45.7%
Claude Opus 4.6	100	94	33	0	0	45.3%
Gemini 3.1 Flash Lite	100	69	52	0	0	44.3%
Claude Opus 4.7 (Reasoning)	100	62	59	0	0	44.1%
Gemini 3.5 Flash (Reasoning)	64	63	52	35	0	42.6%
GPT-5.5 (Reasoning, Low)	66	46	34	34	32	42.4%
Claude Sonnet 4.6	74	72	62	0	0	41.5%
Gemma 3 4B	100	58	43	0	0	40.2%
GPT-4o Mini (temp=1)	100	100	0	0	0	40.0%
Gemma 3 27B	100	100	0	0	0	40.0%
Claude Sonnet 5	100	96	0	0	0	39.2%
Writer: Palmyra X5	78	72	46	0	0	39.1%
MoonshotAI: Kimi K2.6	88	42	33	31	0	38.8%
DeepSeek V4 Pro	100	88	0	0	0	37.5%
Gemini 2.5 Flash	100	88	0	0	0	37.5%
Z.AI GLM 5.2 (Reasoning, High)	100	86	0	0	0	37.2%
GPT-4.1 Mini	100	86	0	0	0	37.2%
DeepSeek V3 (2024-12-26)	69	61	55	0	0	37.1%
Gemma 4 31B (Reasoning)	49	46	45	45	0	37.1%
Claude Opus 4.5	100	83	0	0	0	36.5%
GPT-5.5	54	52	39	35	0	35.8%
Claude Sonnet 5 (Reasoning)	98	79	0	0	0	35.5%
GPT-5 Nano	97	78	0	0	0	34.9%
Ministral 8B	100	71	0	0	0	34.3%
Gemini 3 Flash (Preview)	41	40	34	34	20	33.7%
Mistral Medium 3.1	60	57	50	0	0	33.3%
ByteDance Seed 2.0 Mini	100	63	0	0	0	32.5%
Mistral Large 3	57	56	49	0	0	32.3%
GPT-5.5 (Reasoning)	44	40	36	21	19	31.9%
GPT-4.1	100	60	0	0	0	31.9%
GPT-5.4 Mini	49	47	32	29	0	31.1%
Grok 4.20	58	34	27	19	16	31.0%
Gemma 4 31B	55	54	45	0	0	30.9%
o4 Mini High	66	35	27	25	0	30.6%
GPT-5.4	72	51	29	0	0	30.4%
Gemma 4 26B (Reasoning)	95	53	0	0	0	29.6%
DeepSeek V3.1	53	50	43	0	0	29.1%
Qwen 3.5 397B A17B	100	26	19	0	0	29.0%
Gemini 3.1 Pro (Preview)	38	38	37	30	0	28.7%
Hermes 3 405B	79	64	0	0	0	28.7%
Gemini 2.5 Flash Lite (Reasoning)	100	41	0	0	0	28.3%
Claude Sonnet 4.5	46	46	46	0	0	27.8%
Qwen3.7 Max	75	63	0	0	0	27.7%
Z.AI GLM 4.6	52	49	35	0	0	27.1%
Nemotron 3 Nano	82	53	0	0	0	27.0%
Qwen 3.6 Flash	86	35	12	0	0	26.7%
Claude Opus 4.7	65	63	0	0	0	25.5%
Qwen 2.5 72B	64	63	0	0	0	25.3%
Mistral Small 4 (Reasoning)	82	43	0	0	0	25.1%
MiniMax M2.7	80	43	0	0	0	24.5%
Gemini 2.5 Flash (Reasoning)	64	57	0	0	0	24.3%
GPT-5.1	75	44	0	0	0	23.8%
Xiaomi MIMO v2.5 Pro	72	45	0	0	0	23.3%
Qwen 3.6 27B	80	18	17	0	0	23.0%
GPT-5.2	57	55	0	0	0	22.5%
GPT-5.4 Mini (Reasoning, Low)	31	29	26	24	0	22.0%
Z.AI GLM 4.7	40	37	33	0	0	21.9%
Grok 4.3 (Reasoning)	60	26	20	0	0	21.3%
Gemma 4 26B	52	52	0	0	0	20.6%
Z.AI GLM 4.5 Air	51	50	0	0	0	20.1%
DeepSeek-V2 Chat	60	41	0	0	0	20.1%
Mistral Large 2	100	0	0	0	0	20.0%
Ministral 3 8B	100	0	0	0	0	20.0%
GPT-5.4 Mini (Reasoning)	32	32	32	0	0	19.3%
Qwen 3.5 Flash	70	23	0	0	0	18.6%
MoonshotAI: Kimi K2.5	48	42	0	0	0	18.1%
GPT-5.4 Nano (Reasoning, Low)	29	27	19	14	0	17.8%
GPT-5 Mini	88	0	0	0	0	17.5%
Qwen 3.5 122B	66	18	0	0	0	16.8%
Grok 4.5 (Reasoning, High)	36	35	0	0	0	14.3%
Claude Opus 4.8 (Reasoning)	69	0	0	0	0	13.9%
Gemini 3.5 Flash (Reasoning, Minimal)	61	0	0	0	0	12.2%
Grok 4.5 (Reasoning, Low)	30	30	0	0	0	12.0%
Qwen 3.5 35B	22	19	10	8	0	11.8%
Gemini 3.1 Flash Lite (Reasoning)	59	0	0	0	0	11.8%
GPT-OSS 120B	59	0	0	0	0	11.8%
Mistral Small 4	56	0	0	0	0	11.1%
Gemini 2.5 Pro	54	0	0	0	0	10.9%
Gemini 3.1 Flash Lite (Preview)	54	0	0	0	0	10.9%
Z.AI GLM 4.5	51	0	0	0	0	10.1%
Z.AI GLM 5 Turbo	49	0	0	0	0	9.7%
Gemini 3 Flash (Preview, Reasoning)	46	0	0	0	0	9.2%
GPT-5.4 Nano (Reasoning)	22	18	0	0	0	7.9%
Qwen 3.5 Plus (2026-04-20)	30	0	0	0	0	6.0%
o4 Mini	29	0	0	0	0	5.8%
Grok 4.3	21	0	0	0	0	4.2%
Qwen3.6 Max Preview	19	0	0	0	0	3.8%
Qwen 3.6 35B	19	0	0	0	0	3.7%
Grok 4.20 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 27B	0	0	0	0	0	0.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.20 (Reasoning)	100	100	100	92	24	83.2%
Ministral 3 14B	100	100	100	100	0	80.0%
GPT-5 Nano	100	100	100	67	0	73.4%
Claude Sonnet 4	100	100	76	67	0	68.5%
Claude Opus 4	100	100	77	63	0	68.0%
Gemini 2.5 Flash Lite	100	88	86	58	0	66.4%
Qwen 3.5 397B A17B	100	85	76	46	23	66.0%
Z.AI GLM 4.7 Flash	100	93	62	58	0	62.5%
ByteDance Seed 2.0 Lite	100	100	100	0	0	60.0%
Hermes 3 405B	100	100	81	0	0	56.1%
Qwen 3.6 35B	100	63	51	39	27	55.9%
Qwen3.6 Max Preview	97	74	52	28	23	54.8%
MoonshotAI: Kimi K2.5	100	100	74	0	0	54.7%
Z.AI GLM 5.1	100	100	62	0	0	52.3%
Cydonia 24B V4.1	100	89	67	0	0	51.2%
Mistral Large 3	100	83	69	0	0	50.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	46	0	0	49.3%
Qwen 3.5 Plus (2026-04-20)	100	44	38	36	26	48.7%
MoonshotAI: Kimi K2.6	100	100	38	0	0	47.7%
Z.AI GLM 5	100	68	63	0	0	46.2%
ByteDance Seed 1.6 Flash	62	60	56	50	0	45.4%
Z.AI GLM 4.6	100	67	52	0	0	43.6%
Qwen 3.5 122B	100	68	50	0	0	43.5%
Claude Sonnet 5	100	100	0	0	0	40.0%
Z.AI GLM 4.5 Air	100	100	0	0	0	40.0%
Ministral 3 8B	100	100	0	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	100	0	0	0	40.0%
Qwen 3.5 35B	100	99	0	0	0	39.9%
Gemini 2.5 Flash	81	60	57	0	0	39.7%
Claude Opus 4.7	100	94	0	0	0	38.9%
Ministral 3B	100	93	0	0	0	38.5%
GPT-5.4	56	52	30	28	26	38.3%
Z.AI GLM 5 Turbo	100	89	0	0	0	37.9%
GPT-4.1 Nano	100	88	0	0	0	37.5%
GPT-5.4 (Reasoning)	58	55	38	35	0	37.5%
GPT-5.4 Mini	78	39	35	33	0	37.0%
GPT-4.1 Mini	93	91	0	0	0	36.7%
Ministral 3 3B	60	44	42	31	0	35.5%
MiniMax M2.7	70	59	45	0	0	34.9%
Mistral Small 4 (Reasoning)	100	74	0	0	0	34.7%
GPT-4o Mini (temp=1)	86	86	0	0	0	34.5%
o4 Mini	100	40	33	0	0	34.5%
Qwen 3.5 27B	100	38	34	0	0	34.5%
Mistral Large 2	100	71	0	0	0	34.3%
Z.AI GLM 4.7	100	70	0	0	0	34.1%
Gemma 4 26B (Reasoning)	89	78	0	0	0	33.5%
Grok 4.5 (Reasoning, Low)	100	66	0	0	0	33.2%
Mistral Medium 3.1	67	54	45	0	0	33.1%
DeepSeek V4 Pro (Reasoning)	100	63	0	0	0	32.6%
GPT-4o, Aug. 6th (temp=0)	85	78	0	0	0	32.6%
WizardLM 2 8x22b	92	68	0	0	0	32.0%
DeepSeek-V2 Chat	93	67	0	0	0	31.9%
Qwen3 235B A22B Instruct 2507	100	57	0	0	0	31.4%
Writer: Palmyra X5	100	56	0	0	0	31.1%
Gemini 3.1 Flash Lite (Preview)	100	54	0	0	0	30.8%
Qwen 3.5 Plus (2026-02-15)	77	74	0	0	0	30.1%
Qwen 3.5 9B	58	48	39	0	0	29.1%
Qwen 3.5 Flash	77	63	0	0	0	28.0%
o4 Mini High	100	37	0	0	0	27.5%
Qwen3.7 Max	100	33	0	0	0	26.6%
Gemini 2.5 Flash Lite (Reasoning)	69	63	0	0	0	26.4%
DeepSeek V4 Flash	77	55	0	0	0	26.4%
Qwen 3.6 Flash	49	46	17	16	0	25.6%
Gemma 3 27B	68	56	0	0	0	24.7%
GPT-5.4 Nano	70	26	21	0	0	23.4%
Mistral Small 4	68	47	0	0	0	23.0%
Claude Opus 4.6	58	50	0	0	0	21.6%
GPT-5.1	39	37	29	0	0	21.1%
ByteDance Seed 1.6	54	49	0	0	0	20.7%
GPT-5.4 Nano (Reasoning, Low)	41	38	25	0	0	20.6%
Claude Opus 4.8 (Reasoning, Low)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Claude Opus 4.5	100	0	0	0	0	20.0%
Claude Sonnet 4.5	100	0	0	0	0	20.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	0	0	0	0	20.0%
Aion 3.0 Mini	100	0	0	0	0	20.0%
Claude Haiku 4.5	100	0	0	0	0	20.0%
DeepSeek V3.1	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=1)	100	0	0	0	0	20.0%
Qwen 3 32B	100	0	0	0	0	20.0%
Arcee AI: Trinity Mini	100	0	0	0	0	20.0%
Mistral NeMO	100	0	0	0	0	20.0%
Claude Opus 4.6 (Reasoning)	53	44	0	0	0	19.4%
Gemini 3 Flash (Preview)	54	41	0	0	0	19.1%
Gemini 3 Flash (Preview, Reasoning)	95	0	0	0	0	19.0%
Claude Opus 4.8 (Reasoning)	94	0	0	0	0	18.9%
Grok 4.20	93	0	0	0	0	18.5%
Claude Sonnet 4.6	91	0	0	0	0	18.2%
Z.AI GLM 5.2 (Reasoning, High)	88	0	0	0	0	17.7%
Gemma 4 26B	88	0	0	0	0	17.5%
Nemotron 3 Super	88	0	0	0	0	17.5%
Llama 3.1 70B	88	0	0	0	0	17.5%
GPT-5.4 (Reasoning, Low)	58	29	0	0	0	17.3%
GPT-5.5	39	23	22	0	0	16.8%
DeepSeek V3 (2025-03-24)	83	0	0	0	0	16.7%
Hermes 3 70B	76	0	0	0	0	15.2%
GPT-5 Mini	42	33	0	0	0	15.0%
GPT-5.5 (Reasoning)	26	25	24	0	0	15.0%
ByteDance Seed 2.0 Mini	72	0	0	0	0	14.5%
DeepSeek V4 Flash (Reasoning)	70	0	0	0	0	14.1%
Z.AI GLM 4.5	70	0	0	0	0	14.1%
Gemma 3 12B	70	0	0	0	0	14.1%
Gemma 3 4B	67	0	0	0	0	13.3%
DeepSeek V4 Pro	66	0	0	0	0	13.2%
GPT-5.5 (Reasoning, Low)	47	19	0	0	0	13.1%
GPT-5.4 Mini (Reasoning, Low)	32	31	0	0	0	12.6%
DeepSeek V3.2	62	0	0	0	0	12.3%
Gemini 3.5 Flash (Reasoning)	60	0	0	0	0	12.0%
MiniMax M3	59	0	0	0	0	11.8%
MiniMax M2.5	58	0	0	0	0	11.6%
Gemini 3.1 Flash Lite	53	0	0	0	0	10.5%
Xiaomi MIMO v2.5	45	0	0	0	0	8.9%
Qwen 3.6 27B	44	0	0	0	0	8.8%
GPT-5	29	15	0	0	0	8.7%
Aion 3.0	42	0	0	0	0	8.5%
Xiaomi MIMO v2.5 Pro	38	0	0	0	0	7.6%
Grok 4.3 (Reasoning)	32	0	0	0	0	6.4%
GPT-5.4 Nano (Reasoning)	21	0	0	0	0	4.2%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0.0%
Gemini 2.5 Pro	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
Aion 2.0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0.0%
DeepSeek V3 (2024-12-26)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 2.0 Lite	100	100	100	100	70	94.1%
ByteDance Seed 1.6	100	100	100	86	0	77.2%
Writer: Palmyra X5	100	100	67	61	0	65.5%
Grok 4.20 (Reasoning)	100	100	88	22	0	62.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	0	0	60.0%
Mistral NeMO	100	85	66	48	0	59.6%
ByteDance Seed 2.0 Mini	100	100	96	0	0	59.2%
Hermes 3 70B	100	100	86	0	0	57.2%
Gemini 3.1 Flash Lite (Preview)	100	75	65	46	0	57.1%
Qwen3.6 Max Preview	100	67	67	47	0	56.2%
Cohere Command R+ (Aug. 2024)	100	100	79	0	0	55.9%
Gemma 4 31B	100	100	77	0	0	55.4%
Qwen 3 32B	100	76	67	29	0	54.3%
GPT-4o, Aug. 6th (temp=0)	100	98	72	0	0	54.1%
Claude Sonnet 4.6	100	93	74	0	0	53.2%
Z.AI GLM 5	86	54	52	43	0	46.9%
Claude Sonnet 4.6 (Reasoning)	79	76	69	0	0	44.9%
Gemma 3 27B	86	79	57	0	0	44.5%
Gemini 2.5 Flash Lite (Reasoning)	82	77	61	0	0	44.0%
Gemma 4 31B (Reasoning)	72	69	68	0	0	41.9%
GPT-5.1	80	64	59	0	0	40.5%
Z.AI GLM 5.1	100	100	0	0	0	40.0%
Claude Sonnet 4	100	100	0	0	0	40.0%
GPT-5.4	100	66	30	0	0	39.3%
Gemini 3 Flash (Preview)	100	96	0	0	0	39.2%
Claude Opus 4.5	100	51	45	0	0	39.0%
o4 Mini	79	76	39	0	0	38.9%
Qwen 2.5 72B	100	94	0	0	0	38.9%
DeepSeek V3 (2025-03-24)	100	91	0	0	0	38.2%
GPT-5.4 (Reasoning)	63	61	36	30	0	38.0%
DeepSeek V4 Pro	100	90	0	0	0	38.0%
GPT-5	100	51	39	0	0	37.9%
Gemma 3 4B	81	58	50	0	0	37.7%
GPT-4o, Aug. 6th (temp=1)	96	89	0	0	0	37.1%
Qwen 3.5 Flash	79	73	30	0	0	36.6%
GPT-5.4 Nano (Reasoning, Low)	80	36	34	33	0	36.5%
Z.AI GLM 5 Turbo	100	81	0	0	0	36.1%
Grok 4.20	83	56	36	0	0	35.1%
DeepSeek-V2 Chat	83	79	0	0	0	32.5%
Qwen 3.6 35B	100	22	22	14	0	31.8%
GPT-5.4 (Reasoning, Low)	88	70	0	0	0	31.6%
Z.AI GLM 4.6	100	58	0	0	0	31.6%
GPT-5 Nano	100	36	21	0	0	31.6%
Claude Opus 4.8 (Reasoning, Low)	82	74	0	0	0	31.1%
Aion 3.0	100	48	0	0	0	29.5%
Claude Opus 4.6	53	51	42	0	0	29.1%
Claude Opus 4	85	60	0	0	0	29.0%
ByteDance Seed 1.6 Flash	100	43	0	0	0	28.7%
MiniMax M3	76	54	0	0	0	26.0%
Claude Opus 4.6 (Reasoning)	88	42	0	0	0	25.9%
Qwen 3.5 397B A17B	100	21	0	0	0	24.2%
GPT-5.4 Nano	41	30	15	14	13	22.7%
Qwen3 235B A22B Instruct 2507	61	50	0	0	0	22.1%
Claude Haiku 4.5	57	53	0	0	0	21.9%
GPT-5.4 Nano (Reasoning)	42	30	18	18	0	21.6%
DeepSeek V3.2	57	48	0	0	0	21.1%
Z.AI GLM 5.2 (Reasoning, High)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning)	100	0	0	0	0	20.0%
Claude Opus 4.7	100	0	0	0	0	20.0%
Claude Sonnet 5	100	0	0	0	0	20.0%
MiniMax M2.5	100	0	0	0	0	20.0%
Z.AI GLM 4.5	100	0	0	0	0	20.0%
DeepSeek V3.1	100	0	0	0	0	20.0%
Z.AI GLM 4.7 Flash	100	0	0	0	0	20.0%
Nemotron 3 Super	100	0	0	0	0	20.0%
Mistral Small 3.2 24B	100	0	0	0	0	20.0%
GPT-4o Mini (temp=0)	100	0	0	0	0	20.0%
Mistral Medium 3.1	100	0	0	0	0	20.0%
WizardLM 2 8x22b	100	0	0	0	0	20.0%
Gemini 2.5 Flash (Reasoning)	54	45	0	0	0	20.0%
Qwen 3.6 Flash	38	34	28	0	0	19.8%
Xiaomi MIMO v2.5 Pro	94	0	0	0	0	18.9%
Hermes 3 405B	91	0	0	0	0	18.2%
Ministral 3 14B	89	0	0	0	0	17.9%
Ministral 3 3B	89	0	0	0	0	17.9%
Qwen 3.5 122B	39	25	25	0	0	17.8%
GPT-5.5	65	23	0	0	0	17.5%
Inception Mercury 2	45	40	0	0	0	17.0%
Llama 3.1 70B	83	0	0	0	0	16.7%
Mistral Small 4 (Reasoning)	78	0	0	0	0	15.6%
Cydonia 24B V4.1	78	0	0	0	0	15.6%
GPT-5.4 Mini (Reasoning)	46	30	0	0	0	15.2%
DeepSeek V4 Flash	76	0	0	0	0	15.2%
Claude Opus 4.7 (Reasoning)	75	0	0	0	0	14.9%
GPT-5.2	28	25	20	0	0	14.8%
GPT-4o Mini (temp=1)	74	0	0	0	0	14.7%
Claude Opus 4.8 (Reasoning)	70	0	0	0	0	14.1%
Qwen 3.5 Plus (2026-04-20)	48	22	0	0	0	14.0%
GPT-4.1 Nano	69	0	0	0	0	13.9%
MiniMax M2.7	68	0	0	0	0	13.7%
MoonshotAI: Kimi K2.5	68	0	0	0	0	13.5%
Gemini 3.5 Flash (Reasoning, Minimal)	68	0	0	0	0	13.5%
GPT-5.5 (Reasoning, Low)	43	19	0	0	0	12.4%
Aion 2.0	61	0	0	0	0	12.2%
Gemini 2.5 Flash Lite	60	0	0	0	0	12.0%
Gemma 3 12B	60	0	0	0	0	12.0%
Qwen 3.5 35B	59	0	0	0	0	11.7%
Gemini 2.5 Flash	57	0	0	0	0	11.4%
DeepSeek V4 Flash (Reasoning)	56	0	0	0	0	11.2%
Mistral Large 2	54	0	0	0	0	10.8%
Qwen 3.5 Plus (2026-02-15)	53	0	0	0	0	10.5%
GPT-5.5 (Reasoning)	27	26	0	0	0	10.4%
Z.AI GLM 4.7	52	0	0	0	0	10.4%
Mistral Large 3	52	0	0	0	0	10.4%
Grok 4.3	52	0	0	0	0	10.3%
Gemini 3.1 Flash Lite	50	0	0	0	0	10.0%
Xiaomi MIMO v2.5	45	0	0	0	0	9.0%
Qwen 3.6 27B	38	0	0	0	0	7.5%
GPT-5.4 Mini (Reasoning, Low)	35	0	0	0	0	7.0%
Grok 4.3 (Reasoning)	29	0	0	0	0	5.8%
GPT-5 Mini	29	0	0	0	0	5.7%
GPT-5.4 Mini	28	0	0	0	0	5.7%
Qwen 3.5 27B	16	0	0	0	0	3.1%
Qwen3.7 Max	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0.0%
Gemini 2.5 Pro	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Aion 3.0 Mini	0	0	0	0	0	0.0%
DeepSeek V3 (2024-12-26)	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	Avg ▼
Qwen 3.5 122B	100	100	100	63	72.7%
Claude Sonnet 4	100	100	85	72	71.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	49	69.7%
Qwen 3.5 35B	100	100	74	48	64.4%
Qwen 3.5 397B A17B	100	100	100	20	63.9%
Gemini 3.1 Flash Lite (Preview)	100	100	93	0	58.7%
Qwen 3.5 Flash	100	100	93	0	58.6%
Qwen 3.6 35B	100	100	72	0	54.4%
ByteDance Seed 1.6 Flash	100	62	62	40	52.7%
Qwen 3.6 Flash	100	97	44	19	52.1%
ByteDance Seed 2.0 Lite	88	64	57	45	50.8%
Qwen 3 32B	100	96	53	0	49.8%
DeepSeek V4 Pro (Reasoning)	100	95	52	0	49.4%
Claude Opus 4	100	61	60	0	44.1%
Gemma 3 12B	72	70	67	0	41.9%
GPT-5.4 Mini	68	62	38	33	40.2%
Mistral Large 3	100	100	0	0	40.0%
Hermes 3 70B	100	100	0	0	40.0%
Claude Opus 4.7	100	98	0	0	39.6%
Cohere Command R+ (Aug. 2024)	100	98	0	0	39.6%
Qwen 2.5 72B	100	88	0	0	37.5%
GPT-5.5 (Reasoning, Low)	100	44	23	21	37.5%
Z.AI GLM 5 Turbo	76	54	51	0	36.2%
WizardLM 2 8x22b	100	78	0	0	35.6%
Qwen 3.5 Plus (2026-04-20)	57	55	46	16	34.9%
GPT-4o, Aug. 6th (temp=1)	96	78	0	0	34.9%
DeepSeek V4 Flash (Reasoning)	100	74	0	0	34.7%
ByteDance Seed 2.0 Mini	100	74	0	0	34.7%
MiniMax M2.5	100	72	0	0	34.5%
Claude Sonnet 4.5	96	76	0	0	34.4%
o4 Mini	89	46	35	0	34.2%
GPT-5	93	78	0	0	34.1%
Z.AI GLM 4.7	63	60	46	0	33.7%
Qwen 3.6 27B	100	68	0	0	33.6%
GPT-4o Mini (temp=1)	86	81	0	0	33.4%
Ministral 3B	100	66	0	0	33.2%
Xiaomi MIMO v2.5 Pro	72	59	32	0	32.6%
Gemma 3 27B	83	77	0	0	32.1%
Qwen 3.5 9B	86	70	0	0	31.3%
Grok 4.20	55	53	25	23	31.2%
GPT-5.4 (Reasoning, Low)	54	41	32	28	31.1%
ByteDance Seed 1.6	100	53	0	0	30.6%
DeepSeek V3.2	93	58	0	0	30.3%
GPT-5.4 (Reasoning)	62	57	32	0	30.3%
MoonshotAI: Kimi K2.6	100	50	0	0	29.9%
Mistral Small 4	100	46	0	0	29.3%
GPT-5 Nano	100	45	0	0	28.9%
DeepSeek V4 Flash	81	63	0	0	28.8%
Z.AI GLM 4.7 Flash	75	61	0	0	27.1%
GPT-5.4	79	26	25	0	26.2%
Z.AI GLM 5	63	63	0	0	25.0%
o4 Mini High	90	32	0	0	24.4%
GPT-5.5	45	34	25	16	24.1%
Aion 2.0	70	45	0	0	23.2%
Mistral Small 4 (Reasoning)	44	35	34	0	22.6%
Gemini 2.5 Pro	63	49	0	0	22.2%
GPT-5.5 (Reasoning)	69	41	0	0	21.9%
MoonshotAI: Kimi K2.5	61	48	0	0	21.8%
Gemini 2.5 Flash (Reasoning)	63	44	0	0	21.3%
Gemini 2.5 Flash	53	50	0	0	20.5%
Claude Opus 4.6	55	46	0	0	20.2%
Claude Opus 4.6 (Reasoning)	52	49	0	0	20.1%
Qwen3.7 Max	100	0	0	0	20.0%
Claude Opus 4.8 (Reasoning, Low)	100	0	0	0	20.0%
Qwen 3.5 27B	100	0	0	0	20.0%
MiniMax M2.7	100	0	0	0	20.0%
Gemini 3.1 Flash Lite	100	0	0	0	20.0%
Aion 3.0 Mini	100	0	0	0	20.0%
Gemini 2.5 Flash Lite (Reasoning)	100	0	0	0	20.0%
DeepSeek V4 Pro	100	0	0	0	20.0%
Nemotron 3 Super	100	0	0	0	20.0%
GPT-4.1 Mini	100	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	20.0%
Ministral 3 8B	100	0	0	0	20.0%
Mistral NeMO	100	0	0	0	20.0%
Z.AI GLM 5.1	56	41	0	0	19.5%
Arcee AI: Trinity Mini	96	0	0	0	19.2%
GPT-5.4 Nano	43	35	17	0	19.2%
Gemma 4 26B (Reasoning)	94	0	0	0	18.9%
MiniMax M3	88	0	0	0	17.5%
DeepSeek V3 (2024-12-26)	86	0	0	0	17.2%
Aion 3.0	81	0	0	0	16.3%
Grok 4.20 (Reasoning)	79	0	0	0	15.9%
Gemini 3.5 Flash (Reasoning, Minimal)	78	0	0	0	15.6%
Z.AI GLM 4.5 Air	78	0	0	0	15.6%
GPT-5.4 Mini (Reasoning, Low)	39	37	0	0	15.1%
GPT-5.4 Mini (Reasoning)	39	36	0	0	15.1%
Claude Haiku 4.5	75	0	0	0	14.9%
Z.AI GLM 4.5	72	0	0	0	14.5%
Qwen 3.5 Plus (2026-02-15)	64	0	0	0	12.8%
Writer: Palmyra X5	64	0	0	0	12.8%
Mistral Large 2	63	0	0	0	12.5%
GPT-5.4 Nano (Reasoning, Low)	31	30	0	0	12.3%
Z.AI GLM 5.2 (Reasoning, High)	60	0	0	0	12.0%
Gemini 3 Flash (Preview, Reasoning)	56	0	0	0	11.1%
DeepSeek V3.1	54	0	0	0	10.9%
Cydonia 24B V4.1	46	0	0	0	9.2%
GPT-5 Mini	39	0	0	0	7.8%
Qwen3.6 Max Preview	18	17	0	0	7.1%
GPT-5.1	32	0	0	0	6.4%
GPT-5.2	21	0	0	0	4.3%
Grok 4.5 (Reasoning, High)	0	0	0	0	0.0%
Gemini 3.1 Pro (Preview)	0	0	0	0	0.0%
Claude Sonnet 4.6 (Reasoning)	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0.0%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0.0%
Claude Sonnet 4.6	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0.0%
Z.AI GLM 4.6	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0.0%
Xiaomi MIMO v2.5	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cydonia 24B V4.1	100	100	100	88	76	92.8%
Z.AI GLM 4.7 Flash	100	100	88	85	66	87.7%
Gemini 3.5 Flash (Reasoning)	100	100	100	64	0	72.8%
Grok 4.20	100	79	69	58	51	71.5%
Gemini 3.1 Flash Lite (Preview)	100	100	79	74	0	70.6%
Gemma 4 26B	100	91	91	70	0	70.4%
GPT-4.1 Nano	100	100	77	71	0	69.7%
Gemini 2.5 Flash Lite	100	69	69	49	35	64.6%
Hermes 3 70B	100	83	81	51	0	62.9%
Gemma 3 4B	100	100	54	54	0	61.7%
DeepSeek V3.2	100	81	74	51	0	61.1%
MiniMax M2.5	100	98	57	44	0	60.0%
Cohere Command R+ (Aug. 2024)	100	100	88	0	0	57.5%
Z.AI GLM 5 Turbo	96	75	60	50	0	56.1%
GPT-5.4 (Reasoning)	90	80	51	30	24	54.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	68	0	0	53.7%
Claude Haiku 4.5	97	63	57	50	0	53.4%
GPT-5 Nano	100	71	51	39	0	52.1%
Ministral 3 3B	100	83	75	0	0	51.6%
Gemma 4 31B (Reasoning)	100	99	57	0	0	51.2%
Aion 2.0	100	57	50	48	0	51.0%
Qwen 3.5 Plus (2026-02-15)	99	76	45	34	0	50.8%
Claude Opus 4.6	100	72	42	38	0	50.5%
Gemma 4 31B	93	54	53	49	0	49.9%
WizardLM 2 8x22b	100	62	47	40	0	49.7%
Claude Opus 4.5	92	73	43	40	0	49.6%
Grok 4.20 (Reasoning)	93	77	39	39	0	49.5%
Z.AI GLM 5.1	100	84	57	0	0	48.2%
Gemini 3 Flash (Preview, Reasoning)	100	74	65	0	0	47.8%
DeepSeek V4 Pro (Reasoning)	100	100	36	0	0	47.2%
Grok 4.3	100	54	46	34	0	46.9%
Qwen3 235B A22B Instruct 2507	100	97	37	0	0	46.9%
Z.AI GLM 4.7	79	75	44	36	0	46.9%
Qwen 3.5 35B	100	68	54	0	0	44.3%
GPT-4o, Aug. 6th (temp=1)	88	76	57	0	0	44.1%
GPT-5.4 (Reasoning, Low)	100	59	55	0	0	42.8%
Z.AI GLM 4.6	100	66	45	0	0	42.2%
Gemma 4 26B (Reasoning)	100	69	40	0	0	41.8%
GPT-4o Mini (temp=1)	74	72	62	0	0	41.5%
Qwen 3.5 397B A17B	80	50	29	27	18	40.9%
ByteDance Seed 1.6	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	100	0	0	0	40.0%
Gemini 2.5 Flash (Reasoning)	100	100	0	0	0	40.0%
DeepSeek V3.1	100	100	0	0	0	40.0%
Aion 3.0	100	56	40	0	0	39.3%
GPT-4o, Aug. 6th (temp=0)	68	61	60	0	0	37.8%
Z.AI GLM 5	87	61	41	0	0	37.8%
Qwen 3.5 122B	100	83	0	0	0	36.6%
GPT-5.4 Mini (Reasoning)	98	50	32	0	0	35.9%
Claude Sonnet 4.6	100	79	0	0	0	35.9%
GPT-5.4 Nano (Reasoning, Low)	99	56	19	0	0	34.9%
DeepSeek-V2 Chat	100	74	0	0	0	34.7%
Xiaomi MIMO v2.5	100	39	34	0	0	34.7%
Gemini 3.1 Flash Lite	100	70	0	0	0	34.1%
Claude Opus 4.6 (Reasoning)	82	47	41	0	0	33.9%
MoonshotAI: Kimi K2.6	74	54	38	0	0	33.4%
GPT-5.4	76	59	28	0	0	32.7%
ByteDance Seed 2.0 Lite	93	68	0	0	0	32.2%
Aion 3.0 Mini	64	48	46	0	0	31.6%
Qwen 2.5 72B	100	56	0	0	0	31.2%
Mistral NeMO	100	55	0	0	0	31.0%
GPT-5 Mini	100	28	26	0	0	30.9%
GPT-5.5 (Reasoning, Low)	82	50	22	0	0	30.8%
GPT-4.1 Mini	88	65	0	0	0	30.5%
DeepSeek V3 (2024-12-26)	60	52	38	0	0	30.0%
DeepSeek V4 Flash (Reasoning)	88	60	0	0	0	29.7%
Arcee AI: Trinity Mini	81	68	0	0	0	29.6%
Qwen 3.5 Plus (2026-04-20)	42	40	40	21	0	28.7%
Writer: Palmyra X5	89	53	0	0	0	28.5%
Z.AI GLM 4.5	72	69	0	0	0	28.4%
Claude Sonnet 4.5	82	59	0	0	0	28.2%
o4 Mini	58	52	27	0	0	27.5%
GPT-5.4 Nano	53	48	18	16	0	26.9%
GPT-5.4 Mini	100	33	0	0	0	26.7%
Qwen 3.5 9B	94	33	4	0	0	26.3%
Qwen 3 32B	76	56	0	0	0	26.3%
GPT-4o Mini (temp=0)	68	63	0	0	0	26.2%
GPT-5.4 Mini (Reasoning, Low)	70	29	29	0	0	25.8%
Qwen 3.5 Flash	100	29	0	0	0	25.7%
GPT-5.1	42	33	30	23	0	25.6%
ByteDance Seed 1.6 Flash	95	28	0	0	0	24.7%
Claude Opus 4.8 (Reasoning, Low)	63	61	0	0	0	24.7%
GPT-4.1	64	53	0	0	0	23.5%
Gemini 2.5 Pro	62	54	0	0	0	23.2%
Z.AI GLM 4.5 Air	79	34	0	0	0	22.6%
Gemma 3 27B	54	48	0	0	0	20.4%
Claude Sonnet 4.6 (Reasoning)	100	0	0	0	0	20.0%
Z.AI GLM 5.2 (Reasoning, High)	100	0	0	0	0	20.0%
Claude Opus 4.8 (Reasoning)	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning, Low)	100	0	0	0	0	20.0%
Qwen 3.5 27B	100	0	0	0	0	20.0%
Claude Sonnet 4	100	0	0	0	0	20.0%
Claude Sonnet 5	100	0	0	0	0	20.0%
Claude Opus 4	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
Llama 3.1 70B	100	0	0	0	0	20.0%
Claude Sonnet 5 (Reasoning)	98	0	0	0	0	19.6%
Qwen 3.6 27B	74	23	0	0	0	19.5%
Nemotron 3 Super	96	0	0	0	0	19.2%
Xiaomi MIMO v2.5 Pro	47	44	0	0	0	18.2%
Mistral Small 4 (Reasoning)	79	0	0	0	0	15.7%
Qwen3.7 Max	40	37	0	0	0	15.3%
MoonshotAI: Kimi K2.5	76	0	0	0	0	15.2%
GPT-OSS 120B	75	0	0	0	0	15.0%
o4 Mini High	69	0	0	0	0	13.8%
Ministral 3 14B	68	0	0	0	0	13.5%
Claude Opus 4.7	66	0	0	0	0	13.2%
Gemini 3.5 Flash (Reasoning, Minimal)	63	0	0	0	0	12.7%
Mistral Large 3	63	0	0	0	0	12.7%
Gemini 2.5 Flash Lite (Reasoning)	62	0	0	0	0	12.3%
Gemini 2.5 Flash	61	0	0	0	0	12.2%
Qwen3.6 Max Preview	56	0	0	0	0	11.2%
Claude Opus 4.7 (Reasoning)	56	0	0	0	0	11.1%
Mistral Medium 3.1	52	0	0	0	0	10.4%
Grok 4.3 (Reasoning)	45	0	0	0	0	8.9%
Gemini 3.1 Pro (Preview)	41	0	0	0	0	8.2%
GPT-5.4 Nano (Reasoning)	40	0	0	0	0	8.1%
GPT-5.5 (Reasoning)	23	18	0	0	0	8.1%
MiniMax M3	39	0	0	0	0	7.8%
Qwen 3.6 Flash	38	0	0	0	0	7.6%
GPT-5.5	21	16	0	0	0	7.5%
MiniMax M2.7	34	0	0	0	0	6.8%
Qwen 3.6 35B	28	0	0	0	0	5.6%
GPT-5.2	27	0	0	0	0	5.5%
GPT-5	27	0	0	0	0	5.3%
Gemini 3 Flash (Preview)	22	0	0	0	0	4.3%
Grok 4.5 (Reasoning, High)	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

Subordinate conjunction sentence starts

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets