Subject-first sentence starts

Test: Bad Writing Habits

Avg. Score

36.3%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Writer: Palmyra X5	83.2%	$0.011	22.0s	50%
2	Qwen3 235B A22B Instruct 2507	81.0%	$0.0011	59.2s	48%
3	GPT-5.4	70.2%	$0.049	1.4m	39%
4	Mistral Small 4 (Reasoning)	60.6%	$0.0022	30.2s	25%
5	Mistral Small 4	56.1%	$0.0014	18.2s	24%
6	Ministral 3 14B	50.5%	$0.0007	11.7s	25%
7	GPT-5.4 (Reasoning, Low)	67.7%	$0.055	1.4m	36%
8	Cydonia 24B V4.1	61.6%	$0.0014	44.8s	21%
9	Claude Sonnet 4.5	63.6%	$0.035	38.1s	27%
10	Z.AI GLM 5	58.9%	$0.0084	1.2m	26%
11	GPT-5.4 Mini	50.0%	$0.015	16.8s	25%
12	Z.AI GLM 5.2 (Reasoning, High)	55.7%	$0.011	1.0m	25%
13	Claude Haiku 4.5	52.5%	$0.011	21.6s	21%
14	Z.AI GLM 5 Turbo	49.6%	$0.0081	33.2s	22%
15	GPT-5.4 Mini (Reasoning, Low)	47.8%	$0.015	16.8s	23%
16	Grok 4.20	45.9%	$0.0093	45.7s	26%
17	Hermes 3 70B	57.9%	$0.0010	1.2m	20%
18	Mistral Medium 3.1	43.3%	$0.0048	36.5s	25%
19	Grok 4.5 (Reasoning, Low)	52.1%	$0.018	1.1m	26%
20	MiniMax M2.5	52.7%	$0.0034	1.3m	23%
21	Hermes 3 405B	53.5%	$0.0032	53.2s	19%
22	Grok 4.5 (Reasoning, High)	56.8%	$0.030	1.6m	28%
23	DeepSeek V4 Pro	51.0%	$0.0048	1.3m	23%
24	Claude Opus 4.7	60.1%	$0.069	30.4s	26%
25	Claude Sonnet 4	53.0%	$0.032	43.7s	22%
26	Claude Sonnet 4.6	53.3%	$0.031	39.3s	21%
27	Aion 3.0 Mini	48.7%	$0.0053	1.2m	21%
28	Llama 3.1 70B	44.4%	$0.0015	29.4s	17%
29	Claude Opus 4.5	58.8%	$0.070	53.4s	27%
30	DeepSeek V4 Flash (Reasoning)	41.5%	$0.0007	31.1s	18%
31	Gemini 2.5 Flash Lite	34.5%	$0.0009	9.5s	18%
32	DeepSeek V4 Flash	42.5%	$0.0006	31.6s	16%
33	GPT-5.4 Mini (Reasoning)	45.0%	$0.022	28.1s	19%
34	ByteDance Seed 1.6 Flash	38.0%	$0.0013	27.3s	18%
35	Z.AI GLM 5.1	52.9%	$0.014	1.5m	20%
36	Aion 3.0	48.6%	$0.024	1.0m	21%
37	Grok 4.20 (Reasoning)	45.7%	$0.018	1.5m	25%
38	Ministral 8B	37.6%	$0.0004	10.4s	15%
39	GPT-4o, Aug. 6th (temp=1)	44.8%	$0.018	24.4s	17%
40	MiniMax M2.7	46.3%	$0.0040	1.1m	17%
41	Xiaomi MIMO v2.5 Pro	41.1%	$0.0085	53.5s	19%
42	DeepSeek V3 (2025-03-24)	42.0%	$0.0014	39.4s	14%
43	GPT-4.1	39.4%	$0.018	44.7s	21%
44	Ministral 3 8B	38.5%	$0.0008	19.6s	14%
45	Gemma 3 12B	36.6%	$0.0004	41.3s	17%
46	Mistral Large 2	40.1%	$0.013	29.4s	16%
47	Mistral Large 3	36.9%	$0.0033	30.3s	16%
48	Claude Sonnet 5	46.7%	$0.027	33.5s	16%
49	Claude Sonnet 5 (Reasoning, Low)	49.8%	$0.031	38.4s	15%
50	Gemini 2.5 Flash Lite (Reasoning)	33.3%	$0.0028	30.8s	17%
51	GPT-4o Mini (temp=1)	38.9%	$0.0012	34.8s	13%
52	Xiaomi MIMO v2.5	36.7%	$0.0054	31.8s	15%
53	Claude Opus 4.8 (Reasoning, Low)	53.0%	$0.071	41.9s	22%
54	Gemma 3 27B	39.8%	$0.0006	52.6s	14%
55	Claude Sonnet 4.6 (Reasoning)	53.7%	$0.060	1.2m	22%
56	Claude Opus 4.6	56.4%	$0.078	1.2m	25%
57	Claude Opus 4.8 (Reasoning)	51.4%	$0.071	41.7s	22%
58	Qwen 3.6 Flash	38.1%	$0.010	41.4s	16%
59	GPT-4.1 Nano	34.2%	$0.0007	13.3s	12%
60	Claude Opus 4.6 (Reasoning)	58.5%	$0.088	1.4m	26%
61	Qwen 3.6 35B	37.5%	$0.0083	1.0m	17%
62	Cohere Command R+ (Aug. 2024)	45.9%	$0.020	52.5s	13%
63	Claude Opus 4.7 (Reasoning)	52.7%	$0.076	32.0s	20%
64	GPT-5.4 Nano	28.8%	$0.0057	26.3s	16%
65	Gemini 2.5 Flash	28.1%	$0.0052	10.6s	13%
66	Claude Sonnet 5 (Reasoning)	44.5%	$0.030	38.9s	13%
67	GPT-5.4 (Reasoning)	65.0%	$0.089	2.6m	29%
68	GPT-5.4 Nano (Reasoning, Low)	26.5%	$0.0055	20.6s	15%
69	GPT-5.1	51.4%	$0.054	1.8m	22%
70	Z.AI GLM 4.6	28.9%	$0.0065	51.5s	17%
71	Gemma 3 4B	29.4%	$0.0002	20.0s	11%
72	GPT-5.4 Nano (Reasoning)	26.8%	$0.0061	24.5s	15%
73	Mistral NeMO	28.6%	$0.0005	10.1s	10%
74	Qwen 3 32B	32.1%	$0.0015	54.6s	13%
75	Gemini 2.5 Flash (Reasoning)	32.2%	$0.011	21.5s	11%
76	WizardLM 2 8x22b	38.5%	$0.0026	1.8m	16%
77	DeepSeek V4 Pro (Reasoning)	46.7%	$0.015	3.1m	23%
78	Gemini 3.1 Flash Lite (Reasoning)	23.5%	$0.0030	11.9s	11%
79	DeepSeek V3.2	33.7%	$0.0014	1.9m	17%
80	Ministral 3B	23.3%	$0.0001	8.1s	10%
81	Gemini 3.5 Flash (Reasoning, Minimal)	30.7%	$0.018	12.0s	10%
82	o4 Mini	25.8%	$0.015	25.7s	14%
83	Z.AI GLM 4.5	29.0%	$0.0051	42.1s	12%
84	GPT-4.1 Mini	24.8%	$0.0027	19.0s	10%
85	Aion 2.0	28.8%	$0.0064	1.3m	15%
86	Z.AI GLM 4.5 Air	28.2%	$0.0029	58.2s	12%
87	Gemini 2.5 Pro	29.5%	$0.036	36.2s	16%
88	Qwen 3.5 Plus (2026-02-15)	22.7%	$0.0060	31.5s	12%
89	Gemini 3.1 Flash Lite (Preview)	21.3%	$0.0030	8.4s	8%
90	MoonshotAI: Kimi K2.5	43.7%	$0.019	3.2m	22%
91	GPT-5.5 (Reasoning, Low)	55.5%	$0.139	1.8m	32%
92	o4 Mini High	28.1%	$0.025	47.2s	14%
93	MiniMax M3	44.7%	$0.0060	3.1m	16%
94	GPT-5.5	56.1%	$0.139	1.7m	29%
95	Grok 4.3	21.7%	$0.0069	30.5s	9%
96	DeepSeek V3.1	26.6%	$0.0020	1.8m	13%
97	Ministral 3 3B	18.7%	$0.0005	11.1s	5%
98	DeepSeek V3 (2024-12-26)	22.0%	$0.0021	54.6s	7%
99	Qwen 3.5 Plus (2026-04-20)	31.8%	$0.017	1.8m	12%
100	Gemini 3 Flash (Preview)	17.4%	$0.0078	19.6s	7%
101	DeepSeek-V2 Chat	21.7%	$0.0021	53.3s	6%
102	Gemini 3.1 Flash Lite	19.0%	$0.0030	12.1s	3%
103	GPT-4o, Aug. 6th (temp=0)	17.5%	$0.023	22.7s	8%
104	Qwen 3.5 397B A17B	33.8%	$0.014	3.0m	15%
105	Z.AI GLM 4.7 Flash	16.8%	$0.0017	1.2m	8%
106	Gemini 3 Flash (Preview, Reasoning)	17.3%	$0.012	30.1s	5%
107	GPT-5.5 (Reasoning)	51.9%	$0.142	1.8m	25%
108	GPT-5 Mini	17.7%	$0.0100	57.4s	7%
109	Gemini 3.5 Flash (Reasoning)	30.0%	$0.071	37.6s	11%
110	Gemma 4 31B	19.2%	$0.0010	1.6m	8%
111	Gemma 4 26B	14.2%	$0.0009	55.1s	6%
112	Qwen3.6 Max Preview	44.1%	$0.050	3.5m	19%
113	Arcee AI: Trinity Mini	11.6%	$0.0003	9.2s	0%
114	Z.AI GLM 4.7	16.6%	$0.010	1.4m	8%
115	Qwen 3.5 Flash	12.9%	$0.0025	47.5s	2%
116	Qwen 2.5 72B	8.8%	$0.0010	36.7s	2%
117	Nemotron 3 Super	13.3%	$0.0000	1.4m	5%
118	Claude Opus 4	57.5%	$0.209	1.4m	28%
119	GPT-4o Mini (temp=0)	9.5%	$0.0012	34.8s	0%
120	GPT-5.2	22.9%	$0.056	1.5m	11%
121	Inception Mercury 2	1.1%	$0.0032	7.0s	0%
122	ByteDance Seed 2.0 Lite	22.0%	$0.012	2.2m	6%
123	GPT-5 Nano	13.5%	$0.0042	1.4m	2%
124	Qwen 3.5 35B	14.4%	$0.018	1.0m	1%
125	Gemma 4 31B (Reasoning)	15.2%	$0.0014	2.2m	5%
126	Qwen 3.6 27B	22.7%	$0.025	2.3m	6%
127	Nemotron 3 Nano	7.5%	$0.0010	1.1m	0%
128	Gemma 4 26B (Reasoning)	13.4%	$0.0013	2.0m	3%
129	Qwen 3.5 9B	7.6%	$0.0011	1.4m	0%
130	GPT-5	29.2%	$0.065	2.8m	13%
131	Grok 4.3 (Reasoning)	16.9%	$0.021	2.3m	5%
132	Qwen 3.5 122B	8.2%	$0.025	1.1m	0%
133	Qwen 3.5 27B	6.7%	$0.020	1.6m	0%
134	GPT-OSS 120B	0.9%	$0.0015	1.8m	0%
135	ByteDance Seed 1.6	11.8%	$0.013	2.5m	0%
136	ByteDance Seed 2.0 Mini	22.7%	$0.0045	4.9m	9%
137	Gemini 3.1 Pro (Preview)	23.9%	$0.107	1.8m	6%
138	Mistral Small 3.2 24B	25.5%	$0.0069	5.7m	9%
139	Qwen3.7 Max	17.6%	$0.068	2.3m	1%
140	MoonshotAI: Kimi K2.6	35.9%	$0.058	6.5m	16%
36.33%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Writer: Palmyra X5	100	100	96	88	80	92.7%
Cydonia 24B V4.1	100	100	100	100	60	92.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	85	85	72	88.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	84	73	67	84.8%
GPT-5.4 (Reasoning)	100	91	87	86	60	84.7%
GPT-5.4 (Reasoning, Low)	100	89	80	71	71	82.5%
Qwen3 235B A22B Instruct 2507	100	100	98	87	27	82.5%
Claude Sonnet 4.6 (Reasoning)	97	92	81	74	62	81.2%
MiniMax M3	88	86	84	78	62	79.8%
Claude Sonnet 4.6	96	79	78	77	63	78.4%
Claude Sonnet 4.5	100	87	71	67	64	77.9%
Grok 4.5 (Reasoning, High)	87	83	70	64	55	71.9%
Claude Opus 4.7 (Reasoning)	100	77	73	60	34	68.7%
Claude Opus 4.7	93	72	70	59	46	68.0%
Gemma 3 4B	100	78	76	42	39	67.1%
Hermes 3 70B	100	96	60	56	23	66.9%
GPT-5.4	81	75	67	60	51	66.8%
Claude Opus 4.5	83	81	72	65	29	65.9%
Claude Opus 4.8 (Reasoning, Low)	81	73	66	61	46	65.3%
Claude Opus 4.6 (Reasoning)	100	72	71	39	35	63.2%
MiniMax M2.7	88	60	51	50	42	58.2%
Cohere Command R+ (Aug. 2024)	99	82	40	36	34	58.2%
Claude Opus 4	75	74	71	42	24	57.3%
Claude Opus 4.6	76	70	50	46	44	57.3%
WizardLM 2 8x22b	97	69	53	39	27	57.0%
Gemma 3 12B	87	73	53	41	31	56.9%
Claude Opus 4.8 (Reasoning)	89	67	49	46	33	56.8%
GPT-5.4 Mini	77	70	55	41	41	56.6%
Aion 3.0	80	66	63	44	29	56.4%
GPT-5.5 (Reasoning, Low)	63	59	58	57	44	56.2%
Z.AI GLM 5	100	78	67	20	13	55.5%
GPT-5.4 Mini (Reasoning)	75	64	55	46	34	54.6%
Claude Haiku 4.5	100	61	43	36	33	54.4%
GPT-5.5	68	54	53	52	44	54.2%
Hermes 3 405B	100	100	45	14	11	54.0%
MoonshotAI: Kimi K2.5	74	60	54	48	29	53.2%
Claude Sonnet 5 (Reasoning)	89	72	49	38	17	53.1%
GPT-5.4 Mini (Reasoning, Low)	69	63	56	46	30	53.1%
Aion 2.0	64	59	55	43	33	50.8%
Z.AI GLM 5 Turbo	78	67	47	43	16	50.2%
Grok 4.5 (Reasoning, Low)	62	54	53	50	31	50.1%
Xiaomi MIMO v2.5 Pro	58	55	49	46	38	49.2%
Aion 3.0 Mini	83	58	51	44	9	49.1%
Gemini 2.5 Pro	63	61	61	45	11	48.1%
Gemini 2.5 Flash	70	48	42	41	30	46.3%
Gemma 3 27B	59	56	55	43	18	46.2%
GPT-4o Mini (temp=1)	90	45	42	38	15	46.0%
Gemini 2.5 Flash Lite	52	49	43	42	37	44.7%
Xiaomi MIMO v2.5	72	53	47	44	7	44.7%
Z.AI GLM 5.1	69	67	47	41	0	44.6%
Ministral 8B	79	60	46	23	15	44.5%
DeepSeek V4 Pro (Reasoning)	73	48	43	39	18	44.2%
Gemini 2.5 Flash (Reasoning)	81	77	37	14	9	43.7%
DeepSeek V4 Pro	79	45	37	31	24	43.1%
Ministral 3 14B	75	50	43	28	18	43.1%
Claude Sonnet 4	68	54	49	29	11	42.1%
Claude Sonnet 5	60	57	36	28	26	41.4%
DeepSeek V4 Flash (Reasoning)	88	51	26	22	19	41.3%
GPT-5.5 (Reasoning)	56	54	37	32	24	40.6%
Qwen 3.6 35B	73	44	38	24	23	40.4%
DeepSeek V3 (2025-03-24)	94	56	26	26	0	40.3%
GPT-5.1	54	49	38	36	25	40.2%
DeepSeek V3.2	54	52	43	39	12	40.1%
Grok 4.3	63	45	42	36	12	39.7%
Gemini 2.5 Flash Lite (Reasoning)	77	38	32	30	20	39.5%
Grok 4.20 (Reasoning)	53	46	43	24	23	37.7%
Mistral Small 4 (Reasoning)	55	55	44	17	15	37.3%
DeepSeek V4 Flash	100	42	32	7	0	36.2%
GPT-4o, Aug. 6th (temp=1)	75	58	29	18	0	36.2%
Gemini 3.5 Flash (Reasoning, Minimal)	49	46	35	25	25	36.0%
ByteDance Seed 1.6 Flash	79	34	29	23	8	34.6%
Mistral Small 3.2 24B	81	35	29	28	0	34.6%
GPT-4.1	62	53	30	27	0	34.4%
Gemini 3 Flash (Preview, Reasoning)	48	39	35	28	16	33.2%
Ministral 3B	65	60	37	0	0	32.4%
Z.AI GLM 4.6	49	41	28	23	22	32.4%
Qwen 3.6 Flash	77	33	28	22	2	32.2%
Mistral Large 2	39	37	32	29	18	31.2%
Grok 4.20	54	36	31	16	16	30.6%
Gemma 4 31B (Reasoning)	35	31	31	28	27	30.4%
MoonshotAI: Kimi K2.6	58	28	28	27	10	30.0%
Llama 3.1 70B	100	31	10	7	0	29.6%
Z.AI GLM 4.5 Air	49	44	21	19	15	29.5%
Mistral Medium 3.1	46	42	31	15	13	29.2%
GPT-5.2	42	41	37	16	5	28.2%
MiniMax M2.5	73	26	25	16	0	28.0%
Gemini 3 Flash (Preview)	38	37	36	24	0	27.0%
Mistral Large 3	46	31	20	19	17	26.4%
ByteDance Seed 2.0 Lite	51	31	23	16	0	24.1%
DeepSeek V3.1	33	32	25	20	9	24.0%
Gemma 4 31B	49	43	25	0	0	23.5%
DeepSeek-V2 Chat	54	22	18	11	10	22.9%
GPT-5.4 Nano	43	28	18	14	11	22.9%
Ministral 3 8B	60	39	12	2	0	22.6%
Gemini 3.5 Flash (Reasoning)	36	27	27	21	0	22.2%
Ministral 3 3B	45	41	13	10	0	21.8%
Qwen 3.5 397B A17B	40	31	28	8	0	21.4%
Qwen 3.6 27B	63	24	16	4	0	21.2%
GPT-5.4 Nano (Reasoning, Low)	27	27	24	20	4	20.4%
GPT-5.4 Nano (Reasoning)	37	35	14	11	5	20.3%
Qwen3.6 Max Preview	60	21	11	5	0	19.5%
Z.AI GLM 4.7	28	27	23	14	2	18.9%
Qwen3.7 Max	42	27	16	2	0	17.4%
ByteDance Seed 2.0 Mini	55	25	8	0	0	17.4%
o4 Mini High	46	25	9	7	0	17.4%
DeepSeek V3 (2024-12-26)	38	25	21	3	0	17.4%
Mistral Small 4	34	17	15	12	9	17.3%
GPT-5	40	18	10	9	7	16.9%
GPT-4.1 Mini	41	23	18	0	0	16.2%
Qwen 3.5 Plus (2026-04-20)	39	25	10	5	0	15.8%
Gemini 3.1 Flash Lite (Preview)	37	17	13	5	3	15.1%
GPT-4o, Aug. 6th (temp=0)	28	23	17	4	0	14.3%
Mistral NeMO	32	27	8	0	0	13.5%
Gemma 4 26B	40	17	8	0	0	13.0%
GPT-4.1 Nano	25	20	16	2	0	12.3%
Arcee AI: Trinity Mini	43	17	0	0	0	12.0%
Qwen 3.5 9B	39	18	0	0	0	11.4%
Z.AI GLM 4.7 Flash	25	15	14	0	0	10.9%
Qwen 2.5 72B	24	19	5	3	2	10.7%
Gemini 3.1 Pro (Preview)	23	16	11	3	0	10.5%
Gemma 4 26B (Reasoning)	20	15	14	0	0	9.6%
Qwen 3.5 Plus (2026-02-15)	21	14	7	3	0	9.0%
Z.AI GLM 4.5	23	13	5	4	0	9.0%
Qwen 3.5 Flash	45	0	0	0	0	9.0%
Grok 4.3 (Reasoning)	26	14	5	0	0	8.9%
Gemini 3.1 Flash Lite	23	11	7	2	0	8.7%
GPT-5 Mini	23	8	5	0	0	7.2%
Qwen 3.5 35B	31	2	0	0	0	6.5%
GPT-5 Nano	17	9	6	0	0	6.3%
Qwen 3 32B	18	8	4	1	0	6.3%
o4 Mini	11	10	6	2	1	6.3%
GPT-4o Mini (temp=0)	27	3	1	0	0	6.1%
Nemotron 3 Super	17	13	0	0	0	6.0%
Nemotron 3 Nano	15	7	0	0	0	4.4%
Qwen 3.5 27B	19	0	0	0	0	3.8%
Gemini 3.1 Flash Lite (Reasoning)	12	6	0	0	0	3.6%
ByteDance Seed 1.6	14	0	0	0	0	2.8%
Inception Mercury 2	4	0	0	0	0	0.9%
Qwen 3.5 122B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	85	97.0%
MiniMax M2.7	100	100	100	94	92	97.0%
Claude Sonnet 4.5	100	100	100	99	76	95.1%
Claude Opus 4.6 (Reasoning)	100	100	100	100	69	93.9%
Claude Haiku 4.5	100	100	99	94	77	93.9%
GPT-4o Mini (temp=1)	100	100	95	95	76	93.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	93	91	75	91.9%
Claude Opus 4.7 (Reasoning)	100	93	93	88	82	91.2%
Claude Opus 4.8 (Reasoning, Low)	99	92	91	88	83	90.8%
Claude Opus 4	100	100	100	88	57	89.1%
Z.AI GLM 5.1	100	98	95	78	70	88.2%
DeepSeek V4 Pro	100	100	100	83	57	88.0%
Claude Sonnet 4.6	99	90	89	84	76	87.5%
GPT-5.4 (Reasoning)	97	93	82	80	79	86.2%
Claude Sonnet 5 (Reasoning)	100	100	100	73	56	85.7%
Mistral Small 4 (Reasoning)	100	98	89	78	62	85.3%
DeepSeek V4 Flash	100	100	95	83	46	84.9%
Claude Opus 4.6	100	100	100	100	21	84.3%
Z.AI GLM 5 Turbo	97	93	89	76	66	84.2%
GPT-4o, Aug. 6th (temp=1)	100	100	95	68	57	84.1%
GPT-5.4	100	86	81	77	74	83.8%
MiniMax M3	100	100	95	68	55	83.7%
GPT-5.4 (Reasoning, Low)	94	85	84	77	74	82.8%
Claude Opus 4.7	100	83	80	78	68	81.8%
Xiaomi MIMO v2.5 Pro	100	90	81	74	64	81.8%
Claude Sonnet 5	100	100	100	59	46	80.9%
Claude Opus 4.8 (Reasoning)	100	98	82	66	57	80.5%
Claude Sonnet 4	100	100	88	59	54	80.0%
Claude Sonnet 4.6 (Reasoning)	100	100	74	59	58	78.0%
DeepSeek V3 (2025-03-24)	100	100	90	60	37	77.4%
GPT-5.5	91	83	79	73	58	76.6%
Aion 3.0 Mini	96	94	74	60	59	76.6%
Z.AI GLM 5	100	85	74	62	56	75.4%
WizardLM 2 8x22b	95	89	69	63	59	74.7%
DeepSeek V4 Flash (Reasoning)	100	100	74	58	38	73.9%
Claude Opus 4.5	100	100	82	44	42	73.7%
DeepSeek V4 Pro (Reasoning)	100	100	83	56	28	73.4%
Grok 4.5 (Reasoning, High)	94	89	78	68	38	73.4%
Mistral Large 2	100	89	73	56	48	73.1%
Cydonia 24B V4.1	100	85	78	73	26	72.4%
Gemma 3 4B	99	81	81	51	50	72.4%
GPT-5.5 (Reasoning)	75	74	73	73	60	71.0%
Z.AI GLM 4.5	94	94	81	55	31	71.0%
DeepSeek V3.2	90	72	66	66	58	70.6%
Z.AI GLM 5.2 (Reasoning, High)	85	76	67	66	57	70.1%
Aion 3.0	87	82	79	65	38	70.1%
MiniMax M2.5	92	73	68	66	51	70.1%
Grok 4.5 (Reasoning, Low)	100	100	64	63	23	70.1%
GPT-5.4 Mini (Reasoning, Low)	85	73	67	64	59	69.8%
Ministral 3 14B	96	68	66	50	46	65.3%
GPT-5.1	90	71	71	52	41	65.2%
Z.AI GLM 4.5 Air	99	78	67	48	29	64.2%
Mistral Large 3	100	100	48	45	26	63.8%
Aion 2.0	81	67	62	60	43	62.7%
Ministral 8B	82	74	65	60	31	62.4%
GPT-5.5 (Reasoning, Low)	80	64	58	51	49	60.6%
Gemini 2.5 Flash Lite	82	74	60	41	41	59.6%
Cohere Command R+ (Aug. 2024)	100	82	72	43	0	59.5%
Mistral Medium 3.1	87	60	57	48	44	59.1%
Xiaomi MIMO v2.5	78	66	63	61	27	58.8%
Hermes 3 70B	100	92	62	38	1	58.5%
Gemma 3 12B	71	67	63	59	32	58.3%
GPT-5.4 Mini	76	60	51	48	48	56.8%
GPT-4.1	86	59	51	38	37	54.1%
Gemini 2.5 Pro	67	60	60	49	34	54.0%
MoonshotAI: Kimi K2.5	77	61	59	40	28	53.0%
Llama 3.1 70B	77	65	60	49	13	53.0%
GPT-5.4 Mini (Reasoning)	80	53	50	48	33	52.7%
DeepSeek V3.1	92	80	39	31	21	52.6%
Gemini 2.5 Flash (Reasoning)	81	80	58	43	0	52.4%
Gemini 2.5 Flash	100	48	43	36	33	51.8%
DeepSeek V3 (2024-12-26)	100	72	47	19	18	51.2%
ByteDance Seed 1.6 Flash	63	55	52	51	35	51.1%
GPT-4.1 Nano	72	56	50	39	35	50.4%
Ministral 3 8B	75	48	48	37	34	48.2%
GPT-4.1 Mini	66	59	58	32	26	48.1%
Mistral NeMO	100	59	39	35	3	47.2%
GPT-5.4 Nano (Reasoning, Low)	69	57	46	32	29	46.5%
Mistral Small 4	68	64	56	40	0	45.6%
GPT-5.4 Nano	66	49	47	44	19	45.2%
Gemini 2.5 Flash Lite (Reasoning)	85	80	35	24	0	44.9%
Hermes 3 405B	93	84	33	11	0	44.2%
Grok 4.20 (Reasoning)	54	50	46	39	24	42.6%
Grok 4.20	46	46	42	38	31	40.6%
Gemini 3.5 Flash (Reasoning)	44	44	42	39	30	39.9%
DeepSeek-V2 Chat	100	64	19	13	4	39.8%
Z.AI GLM 4.6	51	48	36	32	29	39.2%
ByteDance Seed 2.0 Mini	55	43	40	29	27	38.9%
Nemotron 3 Super	73	50	46	16	9	38.8%
Z.AI GLM 4.7	74	32	32	28	28	38.7%
Qwen 3.6 27B	64	60	47	21	0	38.2%
MoonshotAI: Kimi K2.6	55	54	43	20	15	37.6%
Qwen 3 32B	52	49	45	39	1	37.2%
GPT-5	55	46	36	33	15	37.0%
GPT-5.2	57	43	36	32	17	36.9%
Arcee AI: Trinity Mini	100	41	23	6	3	34.5%
Gemini 3.5 Flash (Reasoning, Minimal)	54	53	27	27	5	33.3%
Qwen 3.5 Plus (2026-04-20)	55	48	33	22	8	33.2%
Ministral 3 3B	69	40	25	16	14	32.6%
Ministral 3B	54	38	36	24	9	32.0%
GPT-5.4 Nano (Reasoning)	51	33	32	32	9	31.4%
Qwen 3.5 Plus (2026-02-15)	58	27	25	25	13	29.7%
Gemini 3.1 Pro (Preview)	42	30	25	20	19	27.4%
Gemini 3 Flash (Preview)	39	32	28	23	9	26.3%
o4 Mini	40	34	23	16	16	25.8%
GPT-4o Mini (temp=0)	37	30	28	18	15	25.4%
Z.AI GLM 4.7 Flash	33	30	22	20	17	24.4%
Gemma 4 31B	35	34	25	12	12	23.8%
o4 Mini High	39	29	25	15	11	23.7%
Qwen3.6 Max Preview	82	29	3	3	0	23.6%
Qwen 3.6 35B	46	31	22	17	0	23.2%
Grok 4.3 (Reasoning)	45	25	22	13	11	23.1%
Grok 4.3	55	38	13	7	0	22.7%
Gemma 4 31B (Reasoning)	43	30	25	8	7	22.6%
Qwen 3.6 Flash	50	34	23	4	0	22.2%
ByteDance Seed 1.6	25	23	23	15	12	19.3%
ByteDance Seed 2.0 Lite	64	12	10	10	0	19.3%
Gemma 4 26B	23	19	19	16	0	15.4%
Gemini 3 Flash (Preview, Reasoning)	35	33	7	0	0	15.1%
Gemma 4 26B (Reasoning)	46	23	5	0	0	14.8%
GPT-5 Mini	30	12	10	10	0	12.6%
GPT-4o, Aug. 6th (temp=0)	35	16	4	2	0	11.4%
Qwen 2.5 72B	36	9	6	6	0	11.2%
GPT-5 Nano	23	17	12	2	1	11.1%
Qwen 3.5 397B A17B	16	15	8	6	6	10.1%
Gemini 3.1 Flash Lite (Reasoning)	26	4	0	0	0	6.0%
Gemini 3.1 Flash Lite (Preview)	16	6	2	0	0	4.9%
Mistral Small 3.2 24B	13	1	1	0	0	3.1%
Qwen3.7 Max	16	0	0	0	0	3.1%
Qwen 3.5 35B	15	0	0	0	0	3.0%
Qwen 3.5 122B	13	1	0	0	0	2.9%
Qwen 3.5 Flash	9	0	0	0	0	1.8%
Nemotron 3 Nano	9	0	0	0	0	1.8%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.1%
Qwen 3.5 27B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Writer: Palmyra X5	100	100	100	100	78	95.7%
Qwen3 235B A22B Instruct 2507	100	100	99	82	67	89.7%
Claude Opus 4	100	100	100	62	50	82.5%
Mistral Small 4	95	93	68	60	13	66.1%
Mistral Small 4 (Reasoning)	79	77	68	57	9	58.1%
Cydonia 24B V4.1	90	86	55	39	14	57.0%
Claude Opus 4.7	90	70	70	29	16	55.0%
GPT-5.4	68	67	62	44	34	54.8%
Claude Opus 4.5	83	66	43	43	31	53.5%
Claude Haiku 4.5	100	53	46	35	34	53.4%
Claude Sonnet 4	100	56	47	37	25	53.0%
Mistral Large 2	85	67	47	34	28	52.3%
Ministral 3 8B	100	91	29	23	19	52.3%
Claude Sonnet 4.5	75	72	61	29	17	50.9%
Claude Sonnet 4.6 (Reasoning)	65	56	46	45	41	50.7%
DeepSeek V4 Pro	90	76	31	25	25	49.6%
Hermes 3 405B	88	66	45	39	0	47.5%
Hermes 3 70B	74	69	47	42	0	46.4%
Mistral Medium 3.1	68	61	55	45	0	45.8%
MiniMax M2.5	71	56	50	45	6	45.8%
Mistral Large 3	100	62	24	19	17	44.6%
Ministral 3 14B	85	58	43	31	5	44.2%
Llama 3.1 70B	82	48	41	24	17	42.4%
Aion 3.0 Mini	80	65	28	24	6	40.5%
Claude Sonnet 4.6	74	58	55	12	0	40.0%
GPT-5.4 (Reasoning, Low)	59	50	44	28	17	39.8%
Claude Opus 4.6	57	48	48	24	23	39.8%
MiniMax M3	71	56	52	19	0	39.5%
Z.AI GLM 5	54	48	44	27	15	37.6%
Claude Opus 4.8 (Reasoning, Low)	52	43	40	33	19	37.4%
DeepSeek V4 Pro (Reasoning)	50	40	38	34	23	37.1%
Claude Opus 4.8 (Reasoning)	58	50	48	20	4	35.9%
MoonshotAI: Kimi K2.5	54	41	28	27	26	35.0%
DeepSeek V4 Flash	81	61	27	1	0	33.9%
Qwen3.6 Max Preview	64	55	20	17	12	33.7%
Z.AI GLM 5.2 (Reasoning, High)	63	42	23	20	18	33.3%
GPT-5	97	54	8	3	0	32.4%
ByteDance Seed 1.6 Flash	55	31	30	23	23	32.3%
Qwen 3.5 397B A17B	50	45	34	29	0	31.6%
GPT-5.5 (Reasoning, Low)	56	31	27	26	14	31.0%
Ministral 8B	46	45	33	20	9	30.8%
Z.AI GLM 5 Turbo	41	37	33	22	19	30.3%
Gemma 3 12B	61	35	29	20	0	29.2%
GPT-5.5	36	34	34	25	13	28.6%
Claude Opus 4.7 (Reasoning)	55	36	34	12	0	27.4%
DeepSeek V3 (2025-03-24)	55	49	31	0	0	27.1%
Gemma 3 27B	49	37	25	12	11	27.0%
MiniMax M2.7	40	34	28	24	7	26.9%
GPT-4.1	60	41	27	0	0	25.5%
Grok 4.5 (Reasoning, Low)	46	35	20	16	10	25.2%
GPT-4o, Aug. 6th (temp=1)	42	39	27	17	0	25.0%
Qwen 3 32B	45	36	35	6	0	24.5%
Z.AI GLM 5.1	59	35	25	0	0	23.7%
WizardLM 2 8x22b	43	39	31	3	0	23.3%
Grok 4.5 (Reasoning, High)	39	29	22	16	9	22.8%
GPT-5.4 Nano (Reasoning, Low)	39	24	18	15	7	20.7%
GPT-4o Mini (temp=1)	43	23	23	7	6	20.6%
GPT-5.4 (Reasoning)	39	33	31	0	0	20.6%
GPT-5.5 (Reasoning)	41	28	16	14	0	20.1%
Gemini 2.5 Flash (Reasoning)	100	0	0	0	0	20.0%
Xiaomi MIMO v2.5 Pro	50	18	17	15	0	19.9%
Grok 4.20	42	30	25	1	0	19.7%
Qwen 3.5 35B	44	40	14	0	0	19.6%
Z.AI GLM 4.5 Air	52	46	0	0	0	19.6%
ByteDance Seed 2.0 Lite	39	30	26	3	0	19.5%
Claude Opus 4.6 (Reasoning)	47	41	7	0	0	19.0%
Claude Sonnet 5 (Reasoning, Low)	31	27	21	14	0	18.7%
DeepSeek V3 (2024-12-26)	60	20	10	0	0	18.1%
GPT-5.1	45	25	14	3	0	17.2%
Aion 3.0	43	21	12	7	0	16.6%
Gemma 3 4B	25	23	14	14	5	16.2%
Mistral NeMO	39	18	16	0	0	14.7%
GPT-4.1 Nano	30	22	19	2	0	14.5%
DeepSeek-V2 Chat	38	14	11	7	0	13.8%
GPT-5.4 Nano	23	18	12	9	5	13.3%
GPT-5.4 Mini	26	20	12	7	0	13.1%
DeepSeek V4 Flash (Reasoning)	59	5	0	0	0	12.9%
GPT-5.4 Mini (Reasoning)	43	18	0	0	0	12.2%
Grok 4.20 (Reasoning)	34	16	6	1	0	11.5%
Ministral 3B	25	18	13	0	0	11.1%
Qwen 3.6 35B	51	4	0	0	0	11.0%
MoonshotAI: Kimi K2.6	32	21	0	0	0	10.6%
Gemini 2.5 Flash Lite	31	11	5	4	0	10.3%
GPT-5 Nano	51	0	0	0	0	10.2%
Cohere Command R+ (Aug. 2024)	41	10	0	0	0	10.2%
Qwen 3.6 Flash	38	12	0	0	0	10.1%
GPT-5.4 Nano (Reasoning)	27	13	10	0	0	10.0%
GPT-4.1 Mini	28	14	5	0	0	9.6%
Mistral Small 3.2 24B	41	5	0	0	0	9.2%
GPT-5.4 Mini (Reasoning, Low)	23	16	6	0	0	9.1%
DeepSeek V3.2	23	10	6	0	0	7.9%
Z.AI GLM 4.6	23	9	6	0	0	7.7%
Xiaomi MIMO v2.5	27	9	1	0	0	7.3%
Z.AI GLM 4.5	36	0	0	0	0	7.3%
Ministral 3 3B	34	1	0	0	0	7.1%
ByteDance Seed 1.6	31	3	0	0	0	7.0%
Aion 2.0	19	13	1	0	0	6.6%
Qwen 3.5 27B	19	14	0	0	0	6.4%
Qwen 3.5 Plus (2026-02-15)	17	15	0	0	0	6.4%
Gemini 2.5 Flash	31	0	0	0	0	6.3%
Nemotron 3 Super	31	0	0	0	0	6.1%
o4 Mini	15	11	5	0	0	6.1%
Claude Sonnet 5 (Reasoning)	16	13	1	0	0	5.7%
o4 Mini High	12	9	4	0	0	5.0%
Qwen 3.5 Flash	22	3	0	0	0	4.9%
GPT-5.2	23	0	0	0	0	4.5%
Qwen 3.5 Plus (2026-04-20)	15	3	0	0	0	3.6%
Qwen 2.5 72B	17	0	0	0	0	3.4%
Arcee AI: Trinity Mini	11	6	0	0	0	3.4%
GPT-4o, Aug. 6th (temp=0)	16	0	0	0	0	3.1%
Gemini 2.5 Flash Lite (Reasoning)	7	5	3	0	0	2.9%
Gemini 3.1 Pro (Preview)	13	0	0	0	0	2.6%
Claude Sonnet 5	9	3	0	0	0	2.5%
GPT-4o Mini (temp=0)	9	2	0	0	0	2.2%
Gemini 2.5 Pro	10	0	0	0	0	2.1%
Z.AI GLM 4.7 Flash	10	0	0	0	0	2.1%
GPT-5 Mini	7	1	1	0	0	1.6%
Gemini 3.5 Flash (Reasoning)	8	0	0	0	0	1.6%
Gemini 3.1 Flash Lite	8	0	0	0	0	1.5%
Qwen 3.6 27B	7	0	0	0	0	1.5%
Gemini 3 Flash (Preview, Reasoning)	7	0	0	0	0	1.4%
Gemma 4 26B (Reasoning)	3	1	0	0	0	0.7%
Grok 4.3	3	0	0	0	0	0.6%
Gemini 3.1 Flash Lite (Preview)	2	0	0	0	0	0.5%
ByteDance Seed 2.0 Mini	1	1	0	0	0	0.3%
Gemma 4 31B (Reasoning)	1	0	0	0	0	0.2%
Qwen 3.5 9B	1	0	0	0	0	0.2%
Nemotron 3 Nano	0	0	0	0	0	0.1%
Qwen3.7 Max	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 122B	0	0	0	0	0	0.0%
Z.AI GLM 4.7	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
DeepSeek V3.1	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	83	96.7%
GPT-5.4 (Reasoning, Low)	100	100	100	92	73	93.0%
Claude Opus 4.6 (Reasoning)	100	100	90	86	46	84.6%
Claude Sonnet 4.5	100	100	94	80	45	83.7%
Cydonia 24B V4.1	100	100	98	54	47	79.7%
Z.AI GLM 5.2 (Reasoning, High)	94	89	83	82	46	79.1%
Xiaomi MIMO v2.5 Pro	100	100	94	60	41	79.0%
Claude Opus 4.8 (Reasoning)	98	93	87	60	48	77.0%
Claude Sonnet 4.6	100	98	77	60	46	76.2%
GPT-5.1	100	96	68	67	50	76.1%
Hermes 3 405B	100	96	72	58	54	76.0%
Claude Sonnet 4	100	77	72	62	57	73.7%
Mistral Small 4 (Reasoning)	100	95	65	57	52	73.7%
GPT-5.4	100	94	65	63	45	73.4%
Claude Sonnet 4.6 (Reasoning)	95	90	74	48	48	71.1%
Claude Opus 4.6	100	100	59	51	45	71.0%
Claude Opus 4.7 (Reasoning)	96	89	87	44	36	70.5%
DeepSeek V4 Flash	100	73	72	65	42	70.5%
Z.AI GLM 5	100	72	65	64	52	70.5%
GPT-5.4 (Reasoning)	97	72	71	63	44	69.4%
Claude Opus 4	93	82	73	61	35	68.8%
Claude Opus 4.8 (Reasoning, Low)	94	77	73	56	43	68.7%
DeepSeek V4 Flash (Reasoning)	100	87	58	53	45	68.6%
Claude Opus 4.7	100	87	76	63	13	67.9%
MoonshotAI: Kimi K2.5	100	70	65	63	39	67.4%
Claude Sonnet 5 (Reasoning, Low)	100	75	65	63	34	67.3%
Grok 4.5 (Reasoning, High)	100	78	73	42	40	66.6%
GPT-5.4 Mini	82	73	62	62	51	66.0%
Mistral Small 4	100	66	57	57	41	64.2%
Aion 3.0	85	78	66	46	43	63.6%
MiniMax M2.7	81	79	79	45	33	63.4%
GPT-5.5	91	73	55	55	40	62.8%
Z.AI GLM 5 Turbo	79	66	63	60	30	59.8%
Ministral 3 14B	95	77	63	54	9	59.6%
Claude Sonnet 5	100	74	55	53	16	59.4%
Hermes 3 70B	100	100	65	30	0	59.0%
GPT-5.5 (Reasoning, Low)	67	66	64	54	44	58.9%
Claude Opus 4.5	90	90	45	39	29	58.5%
Gemma 3 27B	100	71	57	44	20	58.4%
MiniMax M2.5	81	81	67	31	24	57.1%
Xiaomi MIMO v2.5	100	92	38	30	24	56.6%
Claude Sonnet 5 (Reasoning)	100	71	60	29	19	55.8%
Qwen3.6 Max Preview	77	60	55	45	37	54.8%
GPT-5.4 Mini (Reasoning)	59	59	59	51	45	54.6%
DeepSeek V4 Pro	80	65	48	43	30	53.5%
Z.AI GLM 5.1	66	63	51	50	33	52.6%
GPT-5.4 Mini (Reasoning, Low)	74	62	52	41	29	51.5%
DeepSeek V4 Pro (Reasoning)	81	57	48	46	20	50.4%
Qwen 3 32B	94	60	49	39	0	48.3%
Qwen 3.6 Flash	83	78	59	21	0	48.1%
DeepSeek V3.1	85	47	39	36	32	47.9%
Mistral Medium 3.1	72	69	59	25	13	47.6%
GPT-5	84	69	35	33	12	46.4%
GPT-5.5 (Reasoning)	65	52	51	50	12	46.3%
WizardLM 2 8x22b	86	78	40	25	0	46.0%
Gemma 3 4B	60	53	44	43	25	45.0%
Mistral Large 2	79	62	53	30	0	44.8%
Grok 4.5 (Reasoning, Low)	76	52	48	31	17	44.8%
Aion 3.0 Mini	100	60	41	22	0	44.6%
Claude Haiku 4.5	64	59	51	48	1	44.5%
Qwen 3.6 35B	63	52	51	37	17	44.2%
GPT-4.1 Nano	67	57	49	43	0	43.1%
MiniMax M3	58	55	52	33	16	42.7%
DeepSeek V3 (2025-03-24)	100	43	36	21	13	42.5%
Gemma 3 12B	88	50	48	28	0	42.5%
ByteDance Seed 1.6 Flash	100	48	23	21	20	42.3%
Gemini 2.5 Flash Lite	78	51	43	19	17	41.6%
Qwen 3.5 397B A17B	73	67	57	11	0	41.6%
Gemini 2.5 Flash (Reasoning)	68	66	47	24	3	41.5%
Grok 4.20	87	71	31	8	7	40.8%
Aion 2.0	66	50	43	25	15	40.0%
GPT-5.4 Nano	59	41	38	32	23	38.7%
Gemini 2.5 Flash Lite (Reasoning)	67	41	37	30	17	38.4%
GPT-4o, Aug. 6th (temp=1)	54	42	38	38	14	37.1%
Mistral Small 3.2 24B	84	55	44	0	0	36.6%
Mistral Large 3	84	34	28	20	16	36.5%
Qwen 3.5 Plus (2026-04-20)	65	38	28	23	18	34.2%
Gemma 4 31B	72	47	23	16	11	33.6%
Gemini 3.5 Flash (Reasoning, Minimal)	75	58	18	16	0	33.3%
Gemini 2.5 Flash	45	45	37	34	0	32.1%
GPT-5.4 Nano (Reasoning, Low)	58	53	18	16	13	31.8%
Ministral 3 8B	59	32	28	25	11	31.1%
GPT-4o Mini (temp=1)	57	50	37	12	0	31.1%
MoonshotAI: Kimi K2.6	55	31	30	23	15	30.9%
Gemini 3.5 Flash (Reasoning)	66	41	20	15	10	30.4%
Ministral 8B	87	42	14	5	0	29.8%
Grok 4.20 (Reasoning)	60	44	23	11	4	28.6%
o4 Mini High	79	22	18	8	0	25.6%
DeepSeek V3.2	40	38	34	15	1	25.6%
Cohere Command R+ (Aug. 2024)	63	53	4	4	0	24.9%
Mistral NeMO	42	30	22	19	11	24.9%
GPT-4.1	41	39	38	0	0	23.6%
Gemini 3.1 Flash Lite (Preview)	37	26	22	16	9	21.9%
Grok 4.3 (Reasoning)	50	20	20	19	0	21.9%
Arcee AI: Trinity Mini	75	23	9	0	0	21.2%
Grok 4.3	42	32	16	14	1	20.9%
Z.AI GLM 4.7	61	28	12	2	0	20.7%
Z.AI GLM 4.6	52	32	11	5	2	20.5%
Ministral 3B	52	26	16	9	0	20.4%
Gemini 3 Flash (Preview)	37	31	18	13	0	19.9%
Ministral 3 3B	38	24	16	12	8	19.5%
Gemini 2.5 Pro	51	23	11	11	2	19.4%
o4 Mini	35	30	21	7	0	18.6%
GPT-5.4 Nano (Reasoning)	44	38	4	1	0	17.5%
Gemini 3 Flash (Preview, Reasoning)	38	23	18	8	0	17.4%
Llama 3.1 70B	31	29	25	0	0	17.1%
Z.AI GLM 4.7 Flash	39	32	10	3	0	17.0%
Z.AI GLM 4.5	47	25	9	2	0	16.5%
GPT-5.2	28	26	19	9	0	16.3%
DeepSeek V3 (2024-12-26)	40	25	10	0	0	15.0%
Qwen 3.5 Plus (2026-02-15)	27	26	20	1	0	14.8%
Qwen 3.6 27B	65	5	0	0	0	13.9%
Z.AI GLM 4.5 Air	27	26	14	0	0	13.4%
GPT-4o, Aug. 6th (temp=0)	35	21	10	0	0	13.3%
Gemma 4 26B	25	14	12	11	0	12.2%
Qwen 2.5 72B	47	8	4	0	0	11.9%
Gemini 3.1 Pro (Preview)	23	17	15	3	1	11.7%
Gemini 3.1 Flash Lite (Reasoning)	27	20	5	4	0	11.3%
GPT-5 Mini	22	12	7	0	0	8.1%
ByteDance Seed 1.6	20	18	0	0	0	7.5%
Qwen 3.5 35B	28	0	0	0	0	5.5%
Gemini 3.1 Flash Lite	18	5	2	0	0	5.0%
Gemma 4 31B (Reasoning)	13	10	0	0	0	4.6%
Nemotron 3 Super	22	0	0	0	0	4.4%
DeepSeek-V2 Chat	9	8	4	0	0	4.1%
Qwen 3.5 122B	16	0	0	0	0	3.3%
Gemma 4 26B (Reasoning)	11	5	0	0	0	3.2%
ByteDance Seed 2.0 Mini	12	0	0	0	0	2.4%
Qwen 3.5 27B	10	0	0	0	0	2.0%
GPT-4.1 Mini	9	0	0	0	0	1.7%
Qwen3.7 Max	2	1	0	0	0	0.7%
GPT-4o Mini (temp=0)	3	0	0	0	0	0.6%
GPT-OSS 120B	3	0	0	0	0	0.6%
ByteDance Seed 2.0 Lite	3	0	0	0	0	0.6%
Qwen 3.5 Flash	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cydonia 24B V4.1	100	100	100	100	45	89.0%
Writer: Palmyra X5	100	96	82	76	43	79.4%
Hermes 3 70B	100	93	93	77	20	76.6%
Cohere Command R+ (Aug. 2024)	100	100	80	74	0	70.8%
Claude Opus 4.7	100	83	81	76	11	70.1%
Mistral Medium 3.1	86	84	74	51	37	66.4%
Claude Opus 4	98	78	54	47	43	64.0%
GPT-5.4 (Reasoning, Low)	74	68	61	58	53	62.7%
Claude Opus 4.5	86	86	60	43	35	62.1%
Claude Opus 4.6 (Reasoning)	75	67	61	57	46	61.2%
Claude Sonnet 4	100	72	61	42	20	59.0%
Qwen3 235B A22B Instruct 2507	80	61	61	60	23	57.1%
DeepSeek V4 Flash (Reasoning)	100	53	47	47	21	53.7%
DeepSeek V4 Flash	96	66	57	49	0	53.7%
GPT-5.4	80	61	38	37	34	49.9%
Claude Opus 4.6	82	62	48	35	19	49.4%
Mistral NeMO	75	66	51	45	6	48.7%
MiniMax M2.5	60	51	49	37	34	46.1%
Z.AI GLM 5.1	100	62	35	21	9	45.5%
Claude Sonnet 5 (Reasoning)	96	49	43	34	0	44.5%
Aion 3.0 Mini	100	42	39	38	0	43.8%
GPT-5.5	67	48	36	32	30	42.6%
Z.AI GLM 5	81	43	32	32	21	42.0%
Grok 4.5 (Reasoning, Low)	82	59	33	32	0	41.3%
Ministral 3 8B	81	69	45	10	0	41.0%
Mistral Small 4 (Reasoning)	58	58	37	29	23	40.8%
Z.AI GLM 5.2 (Reasoning, High)	75	42	38	27	20	40.3%
Mistral Small 3.2 24B	100	35	34	30	1	40.0%
Qwen3.6 Max Preview	82	49	37	30	0	39.5%
Aion 3.0	74	59	37	21	6	39.4%
Llama 3.1 70B	100	43	28	17	1	37.7%
Grok 4.20	51	40	36	33	29	37.7%
DeepSeek V4 Pro	50	43	40	27	26	37.4%
Xiaomi MIMO v2.5 Pro	61	41	31	30	23	37.3%
Claude Sonnet 4.6 (Reasoning)	58	56	43	29	0	37.2%
Claude Sonnet 4.5	66	48	36	33	0	36.6%
GPT-4o, Aug. 6th (temp=1)	60	51	41	31	0	36.6%
Qwen 3.5 397B A17B	54	43	36	23	13	33.8%
Claude Haiku 4.5	57	41	37	19	13	33.5%
Mistral Large 3	60	52	38	15	0	33.0%
Ministral 3 14B	71	45	31	18	0	32.9%
Qwen 3.5 Plus (2026-02-15)	89	48	26	0	0	32.5%
Qwen 3.6 Flash	55	46	23	23	16	32.5%
MiniMax M2.7	74	46	32	11	0	32.4%
Claude Sonnet 5 (Reasoning, Low)	49	46	39	21	7	32.4%
Ministral 8B	63	47	31	19	0	32.0%
Mistral Small 4	71	55	29	0	0	31.1%
Claude Sonnet 4.6	100	35	11	9	0	31.0%
Gemma 3 27B	55	43	23	20	9	30.0%
GPT-5.4 Mini	41	36	34	26	11	29.7%
Gemini 2.5 Flash Lite	49	40	27	22	9	29.5%
Claude Opus 4.8 (Reasoning, Low)	78	34	34	0	0	29.0%
Hermes 3 405B	54	50	28	13	0	29.0%
GPT-5.5 (Reasoning, Low)	37	34	31	26	16	29.0%
Z.AI GLM 5 Turbo	63	57	10	5	5	28.1%
Z.AI GLM 4.5 Air	76	36	15	12	0	27.9%
Claude Opus 4.8 (Reasoning)	42	40	38	16	3	27.9%
Gemma 3 12B	36	34	31	21	16	27.7%
GPT-4.1 Nano	48	33	29	25	0	27.0%
o4 Mini	71	21	19	12	11	26.7%
MoonshotAI: Kimi K2.5	46	43	32	9	0	26.1%
Grok 4.20 (Reasoning)	58	45	13	9	0	25.0%
Gemma 3 4B	61	28	23	11	0	24.5%
ByteDance Seed 1.6 Flash	48	29	25	20	0	24.4%
Ministral 3 3B	93	26	2	0	0	24.1%
DeepSeek V3.2	45	41	33	0	0	23.9%
GPT-5.4 (Reasoning)	50	29	16	14	10	23.7%
ByteDance Seed 2.0 Mini	65	23	17	9	0	22.6%
GPT-5.4 Nano (Reasoning, Low)	48	26	19	9	9	22.3%
Gemini 2.5 Flash	60	30	16	0	0	21.2%
Gemini 2.5 Flash Lite (Reasoning)	46	37	17	6	0	21.1%
Grok 4.5 (Reasoning, High)	50	40	12	1	0	20.6%
Qwen 3 32B	90	6	4	0	0	20.1%
WizardLM 2 8x22b	40	23	19	18	0	19.8%
Claude Opus 4.7 (Reasoning)	62	27	9	1	0	19.7%
GPT-5 Nano	74	11	8	4	0	19.3%
MoonshotAI: Kimi K2.6	37	21	19	14	3	18.9%
Qwen 3.5 Plus (2026-04-20)	55	22	8	8	0	18.5%
MiniMax M3	41	16	15	12	9	18.5%
Qwen 3.6 35B	48	30	15	0	0	18.5%
DeepSeek V3 (2025-03-24)	38	27	15	13	0	18.3%
GPT-5.1	42	33	11	5	0	18.2%
Mistral Large 2	35	24	16	14	0	17.9%
Arcee AI: Trinity Mini	45	18	17	6	0	17.1%
GPT-4o, Aug. 6th (temp=0)	37	17	14	14	0	16.3%
GPT-5.5 (Reasoning)	27	24	16	14	0	16.2%
Xiaomi MIMO v2.5	32	23	14	9	1	15.7%
GPT-5.4 Nano	24	20	17	13	4	15.5%
Qwen 3.5 Flash	47	15	9	4	0	15.0%
GPT-5.4 Mini (Reasoning, Low)	28	23	11	6	0	13.6%
Z.AI GLM 4.6	40	20	3	0	0	12.6%
Ministral 3B	51	7	3	0	0	12.2%
ByteDance Seed 1.6	30	30	0	0	0	12.0%
GPT-4.1	28	17	6	5	0	11.2%
GPT-5.4 Mini (Reasoning)	21	20	13	0	0	10.9%
Qwen 3.6 27B	29	20	3	0	0	10.3%
DeepSeek V4 Pro (Reasoning)	30	16	6	0	0	10.3%
Qwen 3.5 27B	25	25	0	0	0	10.0%
Gemini 2.5 Flash (Reasoning)	44	4	0	0	0	9.6%
Claude Sonnet 5	21	21	5	0	0	9.4%
Aion 2.0	31	14	0	0	0	9.0%
GPT-5.4 Nano (Reasoning)	20	12	6	4	2	8.8%
o4 Mini High	42	1	0	0	0	8.6%
Gemini 3 Flash (Preview, Reasoning)	32	5	4	0	0	8.3%
GPT-5 Mini	27	14	0	0	0	8.1%
Gemini 3.5 Flash (Reasoning, Minimal)	30	8	0	0	0	7.7%
GPT-4o Mini (temp=1)	25	6	0	0	0	6.2%
Z.AI GLM 4.5	19	12	0	0	0	6.1%
DeepSeek V3 (2024-12-26)	16	10	1	0	0	5.4%
Gemini 3.1 Pro (Preview)	24	3	0	0	0	5.3%
Qwen 3.5 35B	27	0	0	0	0	5.3%
Grok 4.3	14	7	4	0	0	4.9%
Gemini 2.5 Pro	20	2	0	0	0	4.5%
GPT-5	10	7	4	0	0	4.4%
Gemini 3.5 Flash (Reasoning)	10	9	0	0	0	3.8%
GPT-4.1 Mini	9	5	5	0	0	3.7%
Z.AI GLM 4.7 Flash	13	3	1	0	0	3.5%
Nemotron 3 Super	17	0	0	0	0	3.4%
Gemini 3 Flash (Preview)	14	0	0	0	0	2.7%
Gemini 3.1 Flash Lite	11	2	0	0	0	2.6%
Z.AI GLM 4.7	7	5	0	0	0	2.6%
Qwen 2.5 72B	5	3	3	0	0	2.5%
DeepSeek-V2 Chat	11	0	0	0	0	2.1%
DeepSeek V3.1	6	3	0	0	0	1.8%
Gemini 3.1 Flash Lite (Preview)	4	3	0	0	0	1.6%
ByteDance Seed 2.0 Lite	5	0	0	0	0	1.1%
Qwen 3.5 122B	5	0	0	0	0	1.1%
GPT-4o Mini (temp=0)	5	0	0	0	0	0.9%
Gemma 4 26B (Reasoning)	4	0	0	0	0	0.8%
GPT-5.2	3	0	0	0	0	0.6%
Gemma 4 31B	2	0	0	0	0	0.5%
Grok 4.3 (Reasoning)	2	0	0	0	0	0.5%
Qwen3.7 Max	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3 235B A22B Instruct 2507	100	100	100	100	94	98.7%
Writer: Palmyra X5	100	100	100	100	81	96.2%
Cydonia 24B V4.1	100	100	100	100	59	91.8%
Claude Sonnet 5	100	100	99	83	58	88.2%
Z.AI GLM 5	100	100	100	84	49	86.6%
Hermes 3 405B	100	100	93	91	36	84.1%
DeepSeek V4 Flash (Reasoning)	99	97	96	83	42	83.5%
Claude Sonnet 4.6 (Reasoning)	100	100	83	76	55	82.7%
Claude Opus 4.7 (Reasoning)	100	100	94	85	32	82.3%
Claude Opus 4.7	100	100	100	62	40	80.5%
DeepSeek V4 Flash	100	87	74	71	62	78.7%
Claude Haiku 4.5	100	90	84	69	43	77.2%
Claude Opus 4.5	92	84	75	64	64	75.9%
Hermes 3 70B	100	100	85	74	18	75.3%
Claude Sonnet 4.6	100	90	78	56	46	74.2%
Claude Sonnet 5 (Reasoning)	100	100	79	62	28	73.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	70	52	42	72.8%
Claude Sonnet 4.5	100	94	65	57	40	71.4%
MiniMax M3	100	89	75	51	41	71.3%
GPT-5.4 (Reasoning, Low)	89	77	70	63	50	69.6%
Claude Sonnet 4	97	82	64	54	47	69.0%
Xiaomi MIMO v2.5 Pro	90	72	68	64	52	69.0%
Mistral Small 4	100	100	78	43	23	68.7%
Z.AI GLM 5.1	100	88	63	52	37	68.2%
MiniMax M2.7	100	93	49	49	48	67.7%
GPT-5.4	84	76	60	59	57	67.2%
Mistral Medium 3.1	91	88	67	48	36	66.2%
Aion 3.0	78	75	67	64	46	66.0%
Claude Opus 4.6 (Reasoning)	83	83	57	53	49	64.9%
DeepSeek V4 Pro	100	98	97	16	13	64.8%
Cohere Command R+ (Aug. 2024)	100	75	73	51	23	64.6%
GPT-4o, Aug. 6th (temp=1)	100	83	55	42	42	64.5%
Grok 4.5 (Reasoning, High)	88	69	63	57	46	64.5%
Z.AI GLM 5 Turbo	79	70	69	59	44	64.3%
Claude Opus 4.6	82	76	72	53	37	64.0%
Claude Opus 4.8 (Reasoning, Low)	100	79	74	46	19	63.6%
WizardLM 2 8x22b	86	69	60	50	49	62.8%
DeepSeek V4 Pro (Reasoning)	77	68	65	53	51	62.5%
Qwen 3.5 397B A17B	100	67	55	45	42	61.9%
Aion 3.0 Mini	70	61	61	59	56	61.5%
GPT-4o Mini (temp=1)	96	70	53	48	38	60.9%
Mistral Large 3	72	67	65	64	28	59.2%
Z.AI GLM 5.2 (Reasoning, High)	80	72	64	52	23	58.3%
Claude Opus 4.8 (Reasoning)	76	63	59	53	39	57.9%
Gemma 3 27B	88	60	52	44	40	56.8%
Z.AI GLM 4.5 Air	100	70	54	47	11	56.2%
GPT-4.1	87	65	61	41	27	56.2%
Mistral Small 4 (Reasoning)	98	75	57	48	2	56.1%
MiniMax M2.5	100	71	43	30	27	54.1%
GPT-5.1	78	59	51	48	34	54.1%
Gemini 2.5 Flash Lite	70	68	53	50	27	53.9%
GPT-4.1 Nano	76	73	68	27	26	53.7%
Qwen 3.5 Plus (2026-04-20)	75	75	63	28	25	53.3%
Gemini 2.5 Flash Lite (Reasoning)	63	53	53	53	44	53.2%
Claude Opus 4	79	68	50	38	26	52.3%
DeepSeek V3.2	69	57	52	41	34	50.5%
Mistral Large 2	90	53	31	31	29	46.8%
MoonshotAI: Kimi K2.5	62	54	40	38	38	46.2%
GPT-5.5 (Reasoning, Low)	69	45	40	39	30	44.8%
Grok 4.5 (Reasoning, Low)	64	60	47	38	14	44.4%
DeepSeek V3 (2025-03-24)	69	67	43	27	16	44.4%
Qwen 3 32B	75	52	47	42	0	43.3%
GPT-5.4 (Reasoning)	54	49	40	37	34	42.8%
Z.AI GLM 4.6	64	52	35	34	26	42.3%
Gemini 2.5 Flash	67	53	43	31	15	41.9%
Z.AI GLM 4.5	60	47	47	28	26	41.6%
MoonshotAI: Kimi K2.6	75	50	38	35	8	41.2%
Grok 4.20	62	52	43	33	17	41.2%
Llama 3.1 70B	60	43	40	38	24	41.1%
GPT-5.5 (Reasoning)	48	42	42	38	34	40.6%
Ministral 3B	75	48	31	27	19	40.2%
o4 Mini High	60	52	42	28	15	39.5%
Qwen3.6 Max Preview	73	52	39	20	11	39.1%
GPT-5.5	52	52	50	36	4	38.9%
Aion 2.0	66	36	35	31	26	38.9%
GPT-5	57	50	44	26	16	38.6%
Ministral 3 14B	91	29	27	25	20	38.4%
GPT-4.1 Mini	60	52	32	30	17	38.1%
Ministral 3 3B	97	49	31	9	3	37.9%
GPT-5.4 Mini (Reasoning, Low)	70	48	25	23	23	37.7%
Qwen 3.6 Flash	72	45	29	27	8	36.1%
Gemini 2.5 Pro	56	55	49	11	2	34.5%
Xiaomi MIMO v2.5	65	34	29	27	16	34.3%
GPT-5.4 Nano	56	43	35	21	16	34.2%
Gemma 3 4B	75	34	31	16	15	34.1%
Z.AI GLM 4.7 Flash	57	54	23	19	13	33.2%
Ministral 3 8B	81	66	13	0	0	32.2%
o4 Mini	63	41	31	17	7	31.7%
DeepSeek V3.1	47	41	26	23	16	30.7%
Qwen 3.6 35B	61	50	31	8	0	30.0%
Mistral Small 3.2 24B	60	45	22	22	0	29.7%
ByteDance Seed 1.6 Flash	45	41	35	13	4	27.5%
Gemma 3 12B	44	34	34	23	2	27.4%
Qwen 3.5 Plus (2026-02-15)	43	36	32	13	1	25.0%
Grok 4.3	86	35	3	0	0	24.9%
Ministral 8B	53	37	31	1	0	24.6%
Gemini 3.5 Flash (Reasoning)	35	27	25	16	16	23.7%
Gemini 3.5 Flash (Reasoning, Minimal)	56	46	12	4	0	23.7%
GPT-5.4 Nano (Reasoning, Low)	31	30	30	21	2	23.1%
GPT-5.4 Mini	37	25	22	16	15	23.1%
Grok 4.20 (Reasoning)	34	28	26	23	5	23.0%
GPT-5.4 Nano (Reasoning)	40	33	22	16	0	21.9%
Gemini 3.1 Pro (Preview)	33	31	21	13	10	21.7%
DeepSeek-V2 Chat	42	25	22	19	0	21.6%
Mistral NeMO	43	40	21	0	0	20.9%
GPT-4o, Aug. 6th (temp=0)	59	18	15	0	0	18.3%
Gemini 2.5 Flash (Reasoning)	25	24	22	13	0	16.8%
Qwen 3.6 27B	64	19	0	0	0	16.6%
GPT-5.4 Mini (Reasoning)	34	29	13	5	1	16.5%
Nemotron 3 Super	29	24	15	0	0	13.7%
Qwen 3.5 9B	67	0	0	0	0	13.4%
Z.AI GLM 4.7	20	17	16	13	0	13.2%
Gemini 3 Flash (Preview, Reasoning)	25	19	19	2	0	12.8%
Grok 4.3 (Reasoning)	30	23	7	0	0	12.1%
GPT-4o Mini (temp=0)	25	16	15	0	0	11.4%
ByteDance Seed 2.0 Mini	28	20	4	0	0	10.4%
Gemini 3.1 Flash Lite	46	4	1	0	0	10.0%
DeepSeek V3 (2024-12-26)	21	9	9	4	0	8.7%
Gemma 4 31B	21	11	9	0	0	8.1%
Qwen 2.5 72B	19	16	6	0	0	8.1%
GPT-5.2	30	7	0	0	0	7.4%
GPT-5 Nano	12	10	9	4	0	6.9%
Gemma 4 26B	33	1	0	0	0	6.8%
Gemini 3 Flash (Preview)	18	7	5	3	0	6.4%
Gemma 4 26B (Reasoning)	17	7	0	0	0	5.0%
Arcee AI: Trinity Mini	13	10	1	0	0	4.7%
ByteDance Seed 1.6	17	5	1	0	0	4.7%
ByteDance Seed 2.0 Lite	16	4	0	0	0	4.0%
GPT-5 Mini	18	2	0	0	0	3.9%
Gemini 3.1 Flash Lite (Reasoning)	7	5	4	2	0	3.7%
Gemini 3.1 Flash Lite (Preview)	7	6	0	0	0	2.6%
GPT-OSS 120B	7	0	0	0	0	1.4%
Nemotron 3 Nano	7	0	0	0	0	1.4%
Qwen3.7 Max	3	0	0	0	0	0.5%
Qwen 3.5 Flash	2	0	0	0	0	0.4%
Gemma 4 31B (Reasoning)	1	0	0	0	0	0.1%
Qwen 3.5 122B	0	0	0	0	0	0.0%
Qwen 3.5 27B	0	0	0	0	0	0.0%
Qwen 3.5 35B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	99	96	95	84	78	90.5%
GPT-5.4 (Reasoning, Low)	100	90	89	88	79	89.3%
GPT-5.4 (Reasoning)	100	94	86	85	77	88.4%
GPT-5.4 Mini (Reasoning, Low)	100	91	84	83	71	85.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	99	67	41	81.2%
GPT-5.4 Mini (Reasoning)	88	86	79	76	76	81.2%
GPT-5.5 (Reasoning)	86	82	81	80	73	80.2%
Gemini 3.5 Flash (Reasoning)	98	81	75	74	59	77.3%
GPT-5.5	97	75	75	71	65	76.6%
Grok 4.5 (Reasoning, High)	95	81	74	63	63	75.3%
Claude Opus 4.7	100	100	67	58	49	75.0%
GPT-5.4	88	75	75	71	63	74.4%
GPT-5.4 Mini	84	81	66	66	66	72.6%
GPT-5.1	100	85	63	57	52	71.5%
Writer: Palmyra X5	100	88	63	59	44	70.9%
Xiaomi MIMO v2.5	100	68	64	63	52	69.5%
Gemini 3.1 Flash Lite	87	80	73	54	47	68.1%
Llama 3.1 70B	89	82	78	48	43	68.0%
Claude Sonnet 5 (Reasoning)	100	90	85	60	0	67.0%
Cydonia 24B V4.1	100	95	50	42	41	65.6%
Gemini 3.5 Flash (Reasoning, Minimal)	78	71	70	62	43	65.0%
Mistral Small 4	98	75	72	45	25	62.8%
WizardLM 2 8x22b	87	82	53	53	38	62.5%
Qwen3.6 Max Preview	81	69	60	52	46	61.4%
Grok 4.5 (Reasoning, Low)	80	74	52	51	44	60.4%
GPT-4o Mini (temp=1)	93	65	64	50	30	60.4%
GPT-4o, Aug. 6th (temp=1)	93	76	66	48	14	59.5%
MiniMax M2.5	91	70	52	48	35	59.2%
Claude Sonnet 4.5	79	68	56	52	41	59.2%
Claude Opus 4.7 (Reasoning)	70	68	63	47	47	59.0%
Qwen 3.5 397B A17B	85	78	69	38	25	59.0%
Grok 4.20	65	59	59	57	55	59.0%
Gemini 3.1 Flash Lite (Reasoning)	75	66	65	45	42	58.6%
Gemini 3 Flash (Preview, Reasoning)	83	65	57	46	40	58.4%
Gemini 3.1 Pro (Preview)	78	74	54	50	36	58.3%
Z.AI GLM 5.2 (Reasoning, High)	92	59	57	48	33	57.8%
DeepSeek V4 Pro (Reasoning)	74	67	56	51	41	57.8%
Claude Sonnet 4.6 (Reasoning)	70	68	61	41	41	56.5%
Gemini 3.1 Flash Lite (Preview)	76	54	53	50	49	56.4%
GPT-4.1	65	63	59	55	39	56.2%
Qwen3 235B A22B Instruct 2507	92	63	58	53	12	55.5%
Grok 4.20 (Reasoning)	71	61	59	49	37	55.4%
Claude Sonnet 4.6	78	64	49	47	38	55.1%
Hermes 3 405B	73	72	51	50	28	55.0%
Claude Opus 4.8 (Reasoning)	87	54	49	43	39	54.7%
ByteDance Seed 1.6 Flash	100	77	65	29	0	54.4%
DeepSeek V3 (2025-03-24)	100	50	45	43	34	54.4%
Z.AI GLM 4.5	78	64	51	41	38	54.4%
MoonshotAI: Kimi K2.6	100	62	48	33	28	54.3%
Claude Opus 4.6 (Reasoning)	66	66	54	48	34	53.8%
Qwen3.7 Max	72	56	56	55	28	53.4%
Qwen 3.6 Flash	85	71	54	40	8	51.7%
Aion 3.0	74	63	49	41	25	50.6%
Z.AI GLM 5 Turbo	74	67	47	47	17	50.5%
Qwen 3.6 35B	59	59	54	43	37	50.2%
Claude Sonnet 4	81	63	37	34	31	49.4%
DeepSeek V3.2	64	62	58	44	16	48.9%
Z.AI GLM 5.1	69	53	51	34	33	47.9%
Xiaomi MIMO v2.5 Pro	64	56	43	41	37	47.9%
GPT-5.4 Nano	58	56	51	50	24	47.6%
Gemini 2.5 Flash (Reasoning)	68	59	49	40	21	47.6%
Gemini 2.5 Pro	68	49	43	42	34	47.1%
Gemma 4 26B	71	51	40	36	34	46.5%
GPT-5 Mini	56	46	45	44	40	46.3%
Claude Opus 4.6	72	71	47	31	9	46.1%
Gemini 3 Flash (Preview)	79	66	37	24	23	45.9%
Gemma 4 31B (Reasoning)	80	63	50	37	0	45.9%
Cohere Command R+ (Aug. 2024)	70	60	48	43	8	45.8%
Qwen 3.5 Plus (2026-02-15)	66	59	39	31	30	45.0%
Z.AI GLM 5	82	47	46	31	15	44.1%
Claude Sonnet 5 (Reasoning, Low)	85	48	45	34	8	43.8%
GPT-5.2	52	51	46	38	30	43.2%
Claude Sonnet 5	77	72	35	30	0	42.9%
GPT-5	63	45	39	35	32	42.8%
Gemma 4 26B (Reasoning)	56	54	53	46	5	42.7%
GPT-5.4 Nano (Reasoning)	50	47	45	44	27	42.6%
MoonshotAI: Kimi K2.5	75	43	36	32	26	42.5%
DeepSeek V4 Flash (Reasoning)	61	51	40	36	23	42.2%
Aion 3.0 Mini	100	36	35	33	5	41.8%
Hermes 3 70B	53	43	40	38	34	41.7%
Z.AI GLM 4.5 Air	53	40	40	38	31	40.3%
ByteDance Seed 2.0 Lite	69	62	43	25	0	40.0%
Gemma 4 31B	54	51	41	40	12	39.6%
Grok 4.3	53	41	37	31	31	38.9%
Mistral Small 3.2 24B	100	52	42	0	0	38.8%
Qwen 3.5 Plus (2026-04-20)	69	47	34	32	12	38.7%
MiniMax M3	61	41	34	32	22	38.1%
Mistral Medium 3.1	50	41	36	36	26	37.8%
DeepSeek-V2 Chat	74	57	25	23	7	37.1%
Claude Haiku 4.5	64	62	30	16	9	36.1%
Ministral 3 14B	68	54	32	16	10	35.9%
DeepSeek V4 Flash	46	42	40	38	10	35.0%
GPT-4.1 Nano	68	63	37	6	0	35.0%
GPT-5.4 Nano (Reasoning, Low)	41	39	39	28	26	34.5%
Qwen 3.6 27B	56	41	27	26	22	34.3%
GPT-4.1 Mini	70	36	29	28	0	32.7%
Claude Opus 4	69	30	23	23	19	32.7%
DeepSeek V4 Pro	48	41	39	25	7	31.9%
Mistral Large 3	41	39	28	26	25	31.9%
Gemini 2.5 Flash Lite (Reasoning)	59	39	23	23	17	31.9%
Qwen 3 32B	57	50	39	11	0	31.6%
Gemma 3 12B	46	39	39	31	1	31.0%
Z.AI GLM 4.6	64	30	29	20	11	30.8%
DeepSeek V3 (2024-12-26)	53	52	27	11	11	30.7%
Gemini 2.5 Flash	57	45	19	16	15	30.5%
Qwen 3.5 35B	55	51	27	16	0	29.7%
Claude Opus 4.5	54	52	30	11	0	29.3%
Grok 4.3 (Reasoning)	59	34	30	14	9	29.1%
ByteDance Seed 1.6	63	60	23	0	0	29.0%
Gemma 3 4B	46	43	26	23	3	28.2%
Mistral Large 2	49	45	31	8	7	28.0%
o4 Mini	51	47	17	16	7	27.7%
Z.AI GLM 4.7	42	31	28	26	11	27.7%
Nemotron 3 Super	40	40	24	24	9	27.5%
Aion 2.0	59	33	26	19	0	27.4%
Mistral Small 4 (Reasoning)	52	30	28	17	8	26.9%
GPT-4o Mini (temp=0)	36	32	29	23	12	26.8%
GPT-4o, Aug. 6th (temp=0)	42	38	31	19	4	26.7%
Mistral NeMO	42	35	19	16	13	25.0%
DeepSeek V3.1	43	42	22	9	8	24.9%
o4 Mini High	32	31	28	22	11	24.6%
Gemma 3 27B	36	33	28	21	4	24.5%
Nemotron 3 Nano	36	30	29	19	4	23.9%
ByteDance Seed 2.0 Mini	45	41	23	10	0	23.9%
Qwen 3.5 122B	57	47	12	0	0	23.2%
Qwen 3.5 Flash	42	37	23	3	0	21.2%
Gemini 2.5 Flash Lite	31	25	19	16	13	20.9%
Ministral 8B	42	32	24	0	0	19.5%
Z.AI GLM 4.7 Flash	32	23	15	14	6	18.0%
Ministral 3B	43	34	11	1	0	17.9%
Qwen 2.5 72B	35	22	16	11	0	16.8%
Ministral 3 8B	41	30	4	0	0	14.9%
Qwen 3.5 9B	35	7	7	0	0	9.9%
Inception Mercury 2	18	14	13	0	0	8.9%
MiniMax M2.7	16	9	8	0	0	6.6%
GPT-OSS 120B	10	8	4	0	0	4.5%
Qwen 3.5 27B	20	2	0	0	0	4.4%
Ministral 3 3B	14	0	0	0	0	2.8%
GPT-5 Nano	5	5	3	0	0	2.7%
Arcee AI: Trinity Mini	12	0	0	0	0	2.3%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	96	99.2%
GPT-5.4 (Reasoning, Low)	100	100	100	97	91	97.5%
GPT-5.1	100	100	100	98	86	96.8%
GPT-5.5 (Reasoning)	100	100	93	90	83	93.2%
Grok 4.5 (Reasoning, High)	100	100	93	87	83	92.5%
Claude Opus 4.6 (Reasoning)	100	100	98	81	81	91.8%
GPT-5.5	100	90	87	87	86	89.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	97	95	55	89.3%
Claude Sonnet 4.5	100	98	86	85	74	88.6%
Claude Sonnet 4.6 (Reasoning)	100	100	95	73	68	87.3%
GPT-5.4 Mini (Reasoning)	100	100	86	83	64	86.5%
Claude Opus 4.5	100	100	100	79	52	86.2%
Claude Sonnet 5 (Reasoning, Low)	100	100	87	74	68	85.9%
Claude Sonnet 4	100	95	90	76	65	85.3%
DeepSeek V4 Pro	100	100	91	69	66	85.3%
Z.AI GLM 5.2 (Reasoning, High)	100	90	88	80	66	84.8%
GPT-5.5 (Reasoning, Low)	95	87	81	80	75	83.8%
MiniMax M2.5	100	100	100	88	30	83.6%
Claude Haiku 4.5	100	97	90	79	51	83.5%
GPT-4o, Aug. 6th (temp=1)	100	100	97	76	43	83.3%
Claude Opus 4.6	100	96	75	74	71	83.3%
Mistral Small 4 (Reasoning)	100	100	84	83	49	83.0%
DeepSeek V3 (2025-03-24)	100	90	87	87	49	82.7%
Claude Opus 4.7	100	100	85	70	58	82.6%
GPT-4o Mini (temp=1)	92	85	85	76	73	82.3%
Z.AI GLM 5	100	100	88	67	55	82.0%
Aion 3.0 Mini	100	100	87	84	39	81.9%
Grok 4.5 (Reasoning, Low)	100	100	94	63	49	81.1%
Z.AI GLM 5 Turbo	100	84	81	73	65	80.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	79	77	42	79.8%
GPT-5.4 Mini	94	86	84	73	62	79.8%
DeepSeek V3.2	91	89	80	68	65	78.8%
Z.AI GLM 5.1	100	90	82	64	56	78.3%
DeepSeek V4 Pro (Reasoning)	86	83	79	70	70	77.5%
Mistral Small 4	90	82	74	71	70	77.4%
MoonshotAI: Kimi K2.6	87	86	75	72	51	74.3%
Ministral 3 8B	100	100	66	59	42	73.5%
Gemma 3 27B	82	81	74	65	65	73.4%
Cydonia 24B V4.1	86	77	77	69	58	73.4%
GPT-5.4 Nano (Reasoning)	100	79	68	62	56	73.0%
Xiaomi MIMO v2.5	100	78	68	63	55	72.9%
GPT-5.2	83	77	76	66	63	72.8%
Gemma 3 12B	79	78	71	64	61	70.4%
GPT-4.1 Nano	100	100	76	39	34	69.6%
Gemini 2.5 Flash	100	72	65	57	48	68.2%
Grok 4.20 (Reasoning)	77	70	69	64	56	67.5%
Z.AI GLM 4.5	79	69	64	64	62	67.4%
GPT-4.1	97	90	70	48	31	67.3%
Aion 3.0	100	82	64	55	33	66.8%
Claude Sonnet 5	90	75	69	55	40	66.0%
Claude Sonnet 4.6	84	69	63	59	55	66.0%
Ministral 3 14B	87	85	55	53	49	65.8%
Qwen 3.6 35B	95	78	71	44	40	65.6%
Qwen 3 32B	100	90	57	55	23	65.0%
Gemini 3.5 Flash (Reasoning)	79	69	66	62	47	64.7%
Cohere Command R+ (Aug. 2024)	100	77	64	54	27	64.3%
Aion 2.0	90	65	60	52	52	63.8%
Claude Opus 4.7 (Reasoning)	85	61	61	56	54	63.7%
DeepSeek V4 Flash	100	66	57	49	47	63.6%
DeepSeek V4 Flash (Reasoning)	92	65	60	57	43	63.3%
Gemma 3 4B	83	65	57	55	54	63.0%
Ministral 8B	90	82	72	46	25	62.9%
GPT-5.4 Nano (Reasoning, Low)	73	69	67	62	42	62.5%
MiniMax M3	99	96	48	35	32	62.3%
MiniMax M2.7	100	91	51	39	29	62.1%
Hermes 3 70B	94	87	57	36	34	61.7%
Ministral 3B	100	97	77	31	0	60.9%
Gemini 2.5 Flash (Reasoning)	91	78	62	48	25	60.9%
Claude Opus 4.8 (Reasoning)	89	78	56	46	36	60.7%
Claude Opus 4	78	77	60	54	26	59.1%
Gemma 4 26B (Reasoning)	77	71	71	38	34	58.1%
Claude Sonnet 5 (Reasoning)	93	66	50	49	33	58.0%
GPT-5.4 Nano	79	60	52	52	46	57.6%
Grok 4.20	64	63	62	56	43	57.6%
Qwen 3.5 Plus (2026-02-15)	73	65	54	49	46	57.4%
Hermes 3 405B	100	85	58	43	0	57.3%
Claude Opus 4.8 (Reasoning, Low)	74	66	53	48	45	57.1%
GPT-5	71	63	62	54	33	56.8%
Gemini 3 Flash (Preview, Reasoning)	74	71	58	52	28	56.5%
ByteDance Seed 1.6 Flash	100	75	56	28	22	56.2%
MoonshotAI: Kimi K2.5	83	61	60	50	26	56.1%
GPT-5 Mini	61	59	55	55	49	55.9%
Qwen 3.6 Flash	81	69	59	33	32	54.9%
Gemini 2.5 Pro	88	55	51	49	31	54.8%
Xiaomi MIMO v2.5 Pro	67	65	51	47	41	54.1%
Gemini 3.1 Pro (Preview)	89	72	40	37	30	53.6%
Z.AI GLM 4.7	84	65	54	38	26	53.5%
Gemini 2.5 Flash Lite (Reasoning)	67	62	56	51	30	53.3%
DeepSeek-V2 Chat	100	74	63	20	6	52.6%
Mistral Medium 3.1	65	61	49	47	34	51.4%
Mistral NeMO	95	79	50	32	0	51.3%
Gemini 2.5 Flash Lite	63	60	53	41	38	51.2%
ByteDance Seed 2.0 Mini	76	74	67	18	18	50.6%
Gemma 4 31B	63	53	53	45	38	50.4%
Qwen 3.5 Plus (2026-04-20)	100	49	34	32	31	49.2%
GPT-4.1 Mini	59	55	53	41	36	48.8%
Mistral Large 2	62	54	48	41	35	47.8%
DeepSeek V3.1	52	51	45	42	40	46.0%
Gemma 4 31B (Reasoning)	67	63	42	39	19	45.9%
Llama 3.1 70B	100	40	38	34	17	45.6%
Gemini 3 Flash (Preview)	73	64	44	25	19	45.0%
o4 Mini High	72	70	38	26	17	44.6%
Qwen 3.5 397B A17B	57	53	49	31	31	44.2%
Qwen3.6 Max Preview	59	52	38	37	30	43.2%
o4 Mini	57	56	37	29	26	41.0%
Ministral 3 3B	74	71	36	16	2	39.8%
Z.AI GLM 4.5 Air	71	48	43	20	16	39.5%
Z.AI GLM 4.7 Flash	51	47	43	32	24	39.5%
Grok 4.3	58	40	36	35	28	39.5%
Gemma 4 26B	55	47	35	33	24	38.8%
Qwen 3.6 27B	52	45	43	39	12	38.4%
Gemini 3.1 Flash Lite	88	46	31	21	6	38.3%
Mistral Large 3	65	46	38	36	3	37.5%
GPT-4o Mini (temp=0)	64	56	36	18	13	37.5%
DeepSeek V3 (2024-12-26)	100	49	31	6	0	37.3%
Z.AI GLM 4.6	58	47	34	24	16	35.7%
Qwen3.7 Max	84	43	23	18	9	35.4%
Nemotron 3 Super	56	40	34	28	17	35.0%
ByteDance Seed 2.0 Lite	72	37	36	25	0	34.2%
WizardLM 2 8x22b	69	45	30	15	11	33.9%
Qwen 3.5 Flash	73	39	35	16	5	33.8%
Arcee AI: Trinity Mini	54	42	38	12	8	30.8%
Grok 4.3 (Reasoning)	50	45	38	14	5	30.5%
Mistral Small 3.2 24B	48	47	44	6	0	28.9%
GPT-5 Nano	35	35	31	18	14	26.5%
ByteDance Seed 1.6	42	35	31	18	0	25.5%
Gemini 3.1 Flash Lite (Preview)	46	43	25	9	5	25.5%
Gemini 3.1 Flash Lite (Reasoning)	35	34	34	24	0	25.4%
Qwen 3.5 122B	45	37	21	14	7	24.8%
GPT-4o, Aug. 6th (temp=0)	66	20	12	9	3	22.0%
Qwen 3.5 35B	38	24	24	12	5	20.4%
Qwen 3.5 9B	36	26	19	13	0	18.8%
Qwen 3.5 27B	36	26	10	4	0	15.2%
Nemotron 3 Nano	24	18	11	9	1	12.5%
Qwen 2.5 72B	39	1	0	0	0	7.9%
GPT-OSS 120B	11	2	0	0	0	2.5%
Inception Mercury 2	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3 235B A22B Instruct 2507	100	92	81	65	54	78.5%
Mistral Small 4	92	87	85	59	41	72.7%
GPT-5.5 (Reasoning, Low)	80	80	73	69	48	70.0%
GPT-5.4	90	85	74	64	31	68.9%
Writer: Palmyra X5	100	96	57	52	37	68.3%
GPT-5.4 Mini	79	76	69	65	47	67.4%
GPT-5.4 Mini (Reasoning, Low)	78	69	67	56	54	64.9%
Mistral Large 2	100	73	70	52	27	64.3%
Grok 4.20 (Reasoning)	79	72	66	64	37	63.5%
Llama 3.1 70B	100	100	63	40	12	63.2%
GPT-5.4 (Reasoning)	75	68	63	58	51	62.9%
GPT-5.4 (Reasoning, Low)	84	61	60	58	47	62.0%
Grok 4.5 (Reasoning, Low)	80	67	65	60	38	61.9%
GPT-5.5 (Reasoning)	70	68	61	54	54	61.4%
GPT-5.4 Mini (Reasoning)	66	63	61	57	56	60.7%
MiniMax M2.5	88	68	58	55	19	57.8%
GPT-5.5	75	64	57	46	41	56.7%
Qwen3.6 Max Preview	74	59	58	41	40	54.3%
Ministral 3 14B	72	67	60	51	19	53.7%
GPT-5.1	65	61	61	50	23	52.1%
Claude Opus 4	72	65	58	46	18	51.7%
DeepSeek V3 (2025-03-24)	71	66	43	42	36	51.6%
Qwen3.7 Max	69	55	54	51	27	51.2%
Ministral 8B	89	76	41	26	21	50.6%
Mistral Medium 3.1	85	65	54	34	14	50.5%
Claude Sonnet 4.5	100	60	53	22	17	50.3%
Grok 4.20	55	54	52	49	36	49.3%
Grok 4.5 (Reasoning, High)	67	54	52	45	25	48.7%
Mistral Small 4 (Reasoning)	100	63	42	34	0	47.9%
Claude Opus 4.5	83	75	45	35	2	47.7%
GPT-5.4 Nano (Reasoning)	69	57	47	35	29	47.3%
Hermes 3 70B	60	48	47	38	35	45.5%
MoonshotAI: Kimi K2.6	61	59	57	39	8	44.8%
Hermes 3 405B	100	40	34	25	25	44.6%
Ministral 3 8B	100	42	34	27	15	43.5%
Gemini 3.1 Pro (Preview)	86	56	38	30	3	42.6%
Qwen 3.6 35B	69	58	43	42	0	42.3%
MoonshotAI: Kimi K2.5	76	72	27	18	17	42.1%
Claude Opus 4.6	60	42	41	39	28	41.9%
Aion 3.0 Mini	100	50	40	17	0	41.5%
Qwen 3.6 Flash	67	55	45	39	0	41.1%
DeepSeek V4 Pro (Reasoning)	68	49	41	27	19	40.7%
Z.AI GLM 5 Turbo	88	53	42	17	0	40.2%
Grok 4.3 (Reasoning)	63	53	46	35	0	39.5%
Claude Haiku 4.5	78	50	35	24	8	39.1%
GPT-5 Mini	60	46	41	27	19	38.6%
Qwen 3.5 397B A17B	48	47	47	43	8	38.5%
Z.AI GLM 5	57	51	49	21	14	38.3%
Claude Opus 4.8 (Reasoning)	58	45	43	27	14	37.5%
Z.AI GLM 5.1	100	38	25	12	9	36.8%
Z.AI GLM 5.2 (Reasoning, High)	66	41	40	19	18	36.8%
Qwen 3 32B	91	53	27	9	0	35.9%
o4 Mini	47	47	46	33	5	35.6%
ByteDance Seed 1.6 Flash	53	42	37	27	19	35.5%
GPT-5.4 Nano (Reasoning, Low)	50	38	31	28	23	33.8%
Claude Sonnet 4.6	69	28	27	21	20	33.3%
WizardLM 2 8x22b	100	40	14	9	0	32.7%
Claude Sonnet 5 (Reasoning, Low)	57	43	35	28	0	32.6%
Claude Sonnet 4	49	44	40	29	0	32.4%
Gemma 3 12B	53	50	35	15	8	32.3%
GPT-4.1	51	43	37	16	9	31.4%
DeepSeek V3 (2024-12-26)	54	38	36	20	0	29.8%
ByteDance Seed 2.0 Mini	100	30	19	0	0	29.8%
DeepSeek V4 Flash (Reasoning)	71	42	17	15	3	29.7%
Claude Sonnet 4.6 (Reasoning)	63	36	28	16	4	29.3%
Claude Opus 4.8 (Reasoning, Low)	54	53	21	13	2	28.7%
Claude Sonnet 5	69	36	17	13	4	27.9%
Mistral NeMO	58	25	20	18	17	27.7%
Z.AI GLM 4.5	35	35	25	21	18	27.0%
Claude Opus 4.7	43	33	31	27	0	26.9%
Nemotron 3 Nano	50	48	30	8	0	26.9%
Ministral 3B	54	34	21	19	7	26.7%
GPT-5.2	48	27	24	20	15	26.6%
Claude Opus 4.7 (Reasoning)	60	35	21	15	0	26.3%
GPT-4o Mini (temp=1)	34	27	27	23	21	26.1%
DeepSeek V4 Pro	41	33	26	24	5	25.9%
GPT-4o, Aug. 6th (temp=1)	43	36	26	12	11	25.6%
Mistral Large 3	61	41	25	1	0	25.6%
o4 Mini High	56	26	25	11	5	24.4%
Claude Opus 4.6 (Reasoning)	34	30	28	20	7	23.8%
Cohere Command R+ (Aug. 2024)	64	37	11	7	0	23.8%
Gemini 3.1 Flash Lite (Reasoning)	38	31	30	20	0	23.7%
MiniMax M2.7	45	33	20	12	0	21.9%
Gemini 3.5 Flash (Reasoning, Minimal)	34	30	17	15	11	21.4%
GPT-5.4 Nano	33	26	21	19	5	20.8%
Z.AI GLM 4.5 Air	50	31	16	6	0	20.6%
MiniMax M3	45	28	19	5	2	19.7%
Qwen 3.5 Plus (2026-04-20)	51	36	8	4	0	19.7%
Gemini 2.5 Flash Lite (Reasoning)	33	29	24	11	0	19.3%
Mistral Small 3.2 24B	46	41	3	3	0	18.6%
Xiaomi MIMO v2.5	45	21	19	3	0	17.7%
Gemini 2.5 Flash (Reasoning)	56	22	8	0	0	17.3%
Aion 3.0	40	38	7	0	0	17.0%
Xiaomi MIMO v2.5 Pro	65	7	6	4	0	16.4%
Qwen 3.5 Plus (2026-02-15)	37	20	14	7	1	15.7%
Qwen 3.6 27B	41	22	10	6	0	15.7%
Gemini 2.5 Pro	29	22	16	12	0	15.6%
GPT-5	25	25	19	5	4	15.6%
Gemini 3.1 Flash Lite	35	18	15	9	0	15.4%
Qwen 2.5 72B	27	21	18	9	0	15.1%
Cydonia 24B V4.1	37	35	3	0	0	15.1%
Gemini 3.5 Flash (Reasoning)	37	20	16	0	0	14.8%
DeepSeek-V2 Chat	34	25	8	5	0	14.5%
GPT-4.1 Mini	33	24	16	0	0	14.4%
Qwen 3.5 35B	25	24	20	0	0	13.8%
Gemini 2.5 Flash Lite	27	16	14	7	4	13.7%
Z.AI GLM 4.6	24	23	17	4	0	13.5%
Qwen 3.5 27B	41	27	0	0	0	13.5%
Z.AI GLM 4.7 Flash	29	14	13	12	0	13.4%
GPT-4o, Aug. 6th (temp=0)	32	20	14	0	0	13.3%
Ministral 3 3B	38	22	3	2	0	13.0%
Grok 4.3	24	19	10	5	0	11.8%
Gemma 3 4B	23	23	6	6	0	11.4%
Gemma 4 31B (Reasoning)	36	20	0	0	0	11.2%
Gemma 4 26B	26	13	5	5	2	10.2%
Gemma 4 26B (Reasoning)	18	12	12	8	0	10.1%
DeepSeek V3.2	30	14	3	0	0	9.3%
Claude Sonnet 5 (Reasoning)	38	8	0	0	0	9.1%
GPT-4.1 Nano	24	9	6	5	0	8.8%
Gemini 2.5 Flash	23	14	3	2	0	8.6%
Gemini 3.1 Flash Lite (Preview)	17	11	8	6	0	8.5%
Nemotron 3 Super	18	11	7	7	0	8.4%
Gemma 4 31B	14	14	5	5	2	8.1%
Qwen 3.5 Flash	31	4	3	0	0	7.6%
GPT-5 Nano	14	10	8	3	3	7.5%
GPT-4o Mini (temp=0)	17	14	0	0	0	6.1%
Aion 2.0	13	9	8	0	0	6.1%
Inception Mercury 2	30	0	0	0	0	6.0%
DeepSeek V4 Flash	22	3	0	0	0	5.1%
Qwen 3.5 122B	17	7	0	0	0	4.9%
DeepSeek V3.1	10	9	3	0	0	4.5%
Gemma 3 27B	14	3	2	0	0	3.7%
Z.AI GLM 4.7	17	0	0	0	0	3.5%
ByteDance Seed 2.0 Lite	7	5	0	0	0	2.5%
Gemini 3 Flash (Preview)	2	1	0	0	0	0.7%
Gemini 3 Flash (Preview, Reasoning)	3	0	0	0	0	0.6%
Arcee AI: Trinity Mini	1	0	0	0	0	0.2%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4	100	100	100	90	75	92.9%
Claude Sonnet 4.5	100	100	96	95	70	92.4%
Writer: Palmyra X5	100	100	100	100	58	91.5%
GPT-5.4 (Reasoning)	100	100	100	93	58	90.2%
GPT-5.4 (Reasoning, Low)	100	100	91	86	71	89.7%
GPT-5.5	100	100	83	83	70	87.1%
Mistral Small 4 (Reasoning)	100	89	89	75	75	85.7%
Grok 4.5 (Reasoning, High)	100	100	90	70	64	84.9%
Qwen3.6 Max Preview	100	100	83	66	65	82.9%
Mistral Small 4	99	89	82	76	62	81.7%
GPT-5.5 (Reasoning, Low)	100	88	79	73	64	80.9%
Claude Sonnet 5	100	100	74	72	54	80.0%
GPT-5.5 (Reasoning)	91	88	88	64	58	77.9%
Ministral 3 14B	100	100	84	63	40	77.4%
Qwen 3.6 35B	100	95	92	66	27	76.0%
Claude Opus 4.7 (Reasoning)	100	98	76	57	45	75.2%
GPT-5.4 Mini	97	79	75	64	53	73.5%
Qwen3 235B A22B Instruct 2507	100	98	74	59	35	73.1%
Qwen 3.6 Flash	100	77	68	56	51	70.1%
Claude Opus 4.7	92	90	80	45	42	70.0%
Qwen 3.5 397B A17B	100	83	68	66	31	69.9%
Grok 4.20 (Reasoning)	91	80	65	59	45	68.0%
GPT-5.1	96	70	58	58	54	67.3%
Claude Opus 4	91	75	66	65	38	67.0%
Claude Sonnet 4.6	100	83	71	47	31	66.5%
Claude Opus 4.8 (Reasoning, Low)	100	95	76	42	18	66.3%
Gemini 3.1 Flash Lite (Preview)	82	72	71	57	50	66.2%
Gemini 2.5 Flash (Reasoning)	88	84	72	44	41	65.8%
MiniMax M2.5	100	65	60	55	47	65.4%
GPT-5.4 Mini (Reasoning, Low)	70	68	67	62	58	65.1%
Grok 4.20	88	81	73	44	39	65.1%
MoonshotAI: Kimi K2.5	86	65	63	55	52	64.3%
GPT-5.4 Mini (Reasoning)	92	84	61	50	30	63.4%
Z.AI GLM 5 Turbo	92	68	64	50	40	62.7%
Hermes 3 70B	100	100	76	20	16	62.3%
MoonshotAI: Kimi K2.6	80	74	70	53	34	62.1%
Claude Sonnet 5 (Reasoning, Low)	100	67	62	52	20	60.2%
Grok 4.5 (Reasoning, Low)	100	73	50	44	31	59.7%
Gemini 2.5 Flash Lite (Reasoning)	100	70	49	46	32	59.4%
DeepSeek V4 Flash	74	63	56	56	42	58.1%
Claude Opus 4.6 (Reasoning)	72	68	59	51	36	57.3%
Z.AI GLM 5.1	97	60	56	36	31	56.0%
Claude Opus 4.5	100	57	44	42	31	54.9%
GPT-5	71	60	57	53	34	54.8%
Claude Opus 4.8 (Reasoning)	100	66	48	34	26	54.6%
Z.AI GLM 5.2 (Reasoning, High)	72	70	56	44	30	54.6%
Mistral NeMO	92	59	49	40	33	54.5%
Grok 4.3	90	74	55	46	5	53.9%
Aion 3.0	76	58	49	47	38	53.6%
Qwen3.7 Max	75	73	70	25	25	53.3%
Gemma 3 12B	96	70	61	29	9	53.3%
GPT-4.1 Nano	83	56	51	46	23	51.8%
Mistral Large 2	94	75	60	22	8	51.7%
Claude Sonnet 5 (Reasoning)	99	72	45	39	3	51.7%
Qwen 3 32B	100	80	36	25	17	51.6%
Claude Sonnet 4	73	69	54	43	17	51.4%
DeepSeek V4 Pro (Reasoning)	70	68	43	39	34	51.0%
Claude Sonnet 4.6 (Reasoning)	100	89	33	18	14	50.7%
Cydonia 24B V4.1	90	62	50	42	8	50.3%
Qwen 3.6 27B	99	69	49	35	0	50.3%
DeepSeek V4 Pro	87	71	55	29	8	50.3%
Mistral Large 3	92	53	48	45	13	50.2%
Claude Opus 4.6	86	62	47	43	8	49.3%
GPT-4.1	76	72	55	20	19	48.3%
Gemini 3.1 Flash Lite	72	61	47	44	14	47.9%
Aion 3.0 Mini	67	66	52	41	12	47.7%
Gemini 3 Flash (Preview)	80	69	44	27	18	47.6%
GPT-5.4 Nano	63	51	49	48	26	47.4%
Mistral Medium 3.1	77	47	47	34	31	47.0%
GPT-5.4 Nano (Reasoning, Low)	65	59	56	26	25	46.2%
MiniMax M3	96	53	49	26	5	45.8%
Hermes 3 405B	100	55	27	24	23	45.6%
Gemini 3.1 Pro (Preview)	100	75	40	12	0	45.3%
DeepSeek V3 (2025-03-24)	79	70	62	14	0	45.1%
Gemini 3.5 Flash (Reasoning, Minimal)	98	58	25	22	20	44.6%
GPT-5.4 Nano (Reasoning)	49	48	43	42	40	44.5%
Xiaomi MIMO v2.5	62	62	48	45	3	44.0%
MiniMax M2.7	94	42	31	26	23	43.2%
Gemini 3.1 Flash Lite (Reasoning)	59	53	52	49	0	42.6%
GPT-4o, Aug. 6th (temp=1)	56	55	37	34	30	42.5%
Z.AI GLM 5	55	47	45	32	32	42.3%
DeepSeek V3.2	80	52	40	37	0	41.8%
Xiaomi MIMO v2.5 Pro	43	43	42	40	35	40.7%
Claude Haiku 4.5	60	54	52	22	14	40.2%
GPT-5.2	62	54	38	28	18	40.0%
Ministral 8B	63	48	37	34	15	39.4%
Gemma 4 31B	60	50	34	28	23	39.1%
Gemma 3 27B	63	58	32	24	16	38.7%
Qwen 3.5 Plus (2026-04-20)	53	45	43	38	15	38.7%
DeepSeek V4 Flash (Reasoning)	54	49	47	31	9	37.8%
Mistral Small 3.2 24B	71	69	43	4	0	37.4%
Ministral 3 8B	77	69	38	0	0	36.7%
Z.AI GLM 4.5 Air	60	51	30	24	18	36.7%
GPT-4o Mini (temp=1)	69	49	46	18	1	36.7%
WizardLM 2 8x22b	65	48	38	16	11	35.4%
Z.AI GLM 4.6	59	34	29	27	26	35.1%
ByteDance Seed 2.0 Mini	52	51	46	25	0	34.7%
Grok 4.3 (Reasoning)	63	42	31	31	5	34.7%
ByteDance Seed 1.6	87	49	20	11	0	33.5%
DeepSeek-V2 Chat	75	43	33	11	0	32.6%
ByteDance Seed 1.6 Flash	57	38	38	21	8	32.3%
Qwen 3.5 122B	53	48	43	12	0	31.3%
Gemini 2.5 Pro	67	31	23	20	14	31.0%
Ministral 3B	53	43	29	27	0	30.4%
Gemini 3.5 Flash (Reasoning)	87	29	29	5	0	29.9%
Gemini 2.5 Flash Lite	55	48	24	20	2	29.8%
o4 Mini High	39	39	32	23	15	29.4%
Gemini 2.5 Flash	64	32	26	19	5	29.1%
Qwen 3.5 Flash	46	46	27	25	0	28.8%
o4 Mini	40	36	35	28	6	28.8%
ByteDance Seed 2.0 Lite	87	41	10	0	0	27.7%
Aion 2.0	53	43	32	9	0	27.7%
GPT-5 Mini	45	35	23	20	14	27.5%
Qwen 3.5 Plus (2026-02-15)	47	35	27	18	7	26.7%
Ministral 3 3B	48	39	27	12	0	25.2%
Z.AI GLM 4.7	52	39	23	12	0	25.1%
Gemini 3 Flash (Preview, Reasoning)	80	26	17	0	0	24.6%
Llama 3.1 70B	51	30	28	7	5	24.2%
Nemotron 3 Nano	79	20	15	2	0	23.1%
GPT-4.1 Mini	36	35	31	11	0	22.6%
Cohere Command R+ (Aug. 2024)	57	24	18	10	0	21.9%
GPT-4o, Aug. 6th (temp=0)	49	38	14	5	4	21.8%
Nemotron 3 Super	45	29	16	12	5	21.3%
Gemma 4 31B (Reasoning)	34	28	25	17	3	21.3%
DeepSeek V3.1	54	35	13	4	0	21.1%
Qwen 3.5 35B	71	18	9	5	0	20.7%
Gemma 4 26B (Reasoning)	34	28	24	8	7	20.3%
Z.AI GLM 4.5	56	21	12	11	0	19.9%
Gemma 4 26B	29	27	18	16	9	19.7%
Qwen 3.5 27B	40	22	14	5	0	16.2%
Gemma 3 4B	30	22	19	7	0	15.5%
DeepSeek V3 (2024-12-26)	46	11	10	2	0	13.7%
Qwen 2.5 72B	31	17	13	7	0	13.6%
Z.AI GLM 4.7 Flash	22	17	13	11	5	13.5%
Qwen 3.5 9B	26	26	3	0	0	11.0%
GPT-5 Nano	23	10	9	8	0	9.8%
GPT-4o Mini (temp=0)	21	14	0	0	0	7.0%
Arcee AI: Trinity Mini	34	0	0	0	0	6.7%
GPT-OSS 120B	7	7	0	0	0	2.9%
Inception Mercury 2	7	0	0	0	0	1.4%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4	100	92	84	80	79	87.0%
GPT-5.4 Mini (Reasoning, Low)	100	86	84	73	54	79.5%
GPT-5.4 (Reasoning)	92	83	82	75	56	77.5%
GPT-5.4 Mini (Reasoning)	93	93	80	72	42	75.9%
Qwen3 235B A22B Instruct 2507	86	85	77	70	46	72.7%
Qwen3.6 Max Preview	83	82	75	70	51	72.3%
GPT-5.4 Mini	92	88	72	52	50	70.9%
Mistral Small 4	100	95	54	49	46	68.8%
GPT-5.4 (Reasoning, Low)	76	70	66	60	53	64.7%
Grok 4.5 (Reasoning, Low)	82	72	66	51	49	64.1%
Ministral 3 14B	88	77	65	52	38	64.0%
MiniMax M2.7	79	68	62	55	49	62.8%
Grok 4.5 (Reasoning, High)	83	64	60	56	51	62.6%
Qwen 3.6 35B	76	76	68	58	24	60.6%
Qwen 3.6 Flash	76	76	72	66	11	60.1%
Mistral Small 4 (Reasoning)	92	63	58	43	42	59.9%
GPT-5.5 (Reasoning, Low)	72	61	61	58	43	59.0%
GPT-5.5 (Reasoning)	82	77	55	55	26	59.0%
Llama 3.1 70B	100	80	49	47	13	57.9%
GPT-5.5	62	62	58	55	50	57.6%
Mistral Large 3	100	72	45	36	31	56.8%
Aion 3.0	100	73	48	41	21	56.7%
Writer: Palmyra X5	100	87	60	32	0	55.9%
GPT-4.1	71	65	60	49	33	55.5%
Claude Sonnet 4.5	85	72	68	39	10	54.9%
Grok 4.20 (Reasoning)	64	63	56	46	41	54.1%
Claude Opus 4.5	80	61	53	42	32	53.8%
Hermes 3 405B	100	52	48	45	18	52.7%
Grok 4.20	67	59	57	50	28	52.0%
Claude Opus 4.6	90	49	49	43	28	51.9%
Gemini 3.1 Flash Lite (Reasoning)	71	56	50	42	39	51.8%
GPT-5.1	69	53	49	42	38	50.3%
Claude Opus 4	92	59	43	27	19	48.1%
DeepSeek V4 Pro (Reasoning)	85	69	42	26	15	47.5%
ByteDance Seed 1.6 Flash	63	57	56	42	20	47.5%
DeepSeek V3 (2025-03-24)	100	68	34	34	0	47.3%
Gemini 3.1 Pro (Preview)	90	81	33	27	0	46.2%
DeepSeek V4 Pro	81	55	42	41	7	45.3%
Qwen 3.5 397B A17B	68	59	56	30	10	44.5%
Claude Haiku 4.5	77	60	37	34	14	44.4%
Z.AI GLM 5	77	52	44	31	15	44.0%
Cohere Command R+ (Aug. 2024)	66	43	39	37	33	43.6%
Claude Opus 4.8 (Reasoning)	68	52	38	31	21	41.9%
Z.AI GLM 5.1	68	55	42	25	18	41.8%
Aion 3.0 Mini	62	61	39	30	16	41.7%
MoonshotAI: Kimi K2.5	60	56	51	36	0	40.5%
Qwen 3.5 35B	72	43	41	24	19	40.0%
Claude Opus 4.6 (Reasoning)	58	52	37	29	22	39.5%
Z.AI GLM 5 Turbo	54	53	42	35	14	39.4%
GPT-5.4 Nano (Reasoning)	62	47	42	30	14	39.2%
Ministral 3 8B	69	56	43	27	0	39.2%
MiniMax M2.5	90	42	34	27	0	38.7%
Ministral 8B	66	59	51	10	4	37.8%
Z.AI GLM 5.2 (Reasoning, High)	80	42	34	17	14	37.5%
Gemini 2.5 Pro	58	46	34	24	24	37.2%
Gemini 3.5 Flash (Reasoning)	71	49	34	17	15	37.1%
GPT-5 Mini	50	40	31	30	27	35.7%
GPT-4o Mini (temp=1)	58	36	33	30	19	35.5%
Claude Sonnet 4	63	55	28	24	0	34.3%
Mistral Medium 3.1	43	41	39	27	20	34.0%
GPT-5.4 Nano (Reasoning, Low)	46	39	37	36	11	33.9%
Claude Opus 4.7	63	47	47	12	0	33.9%
DeepSeek V4 Flash	89	38	20	12	9	33.6%
Gemini 3.1 Flash Lite	52	40	30	29	16	33.3%
Qwen 3 32B	56	52	37	21	0	33.2%
Gemini 2.5 Flash (Reasoning)	65	31	22	21	17	31.5%
DeepSeek-V2 Chat	78	27	24	20	5	30.8%
MiniMax M3	88	25	18	12	8	30.1%
DeepSeek V3 (2024-12-26)	51	30	30	26	13	30.1%
Gemini 2.5 Flash Lite	56	39	38	11	0	29.0%
Cydonia 24B V4.1	68	31	23	22	0	29.0%
Hermes 3 70B	72	33	27	11	0	28.8%
Mistral Large 2	69	36	26	11	1	28.7%
Mistral Small 3.2 24B	49	41	21	18	14	28.3%
Z.AI GLM 4.5	48	32	26	24	9	28.0%
Gemini 3.1 Flash Lite (Preview)	49	44	44	0	0	27.5%
GPT-5.4 Nano	35	34	26	23	19	27.4%
o4 Mini	49	47	27	9	3	27.1%
GPT-4.1 Nano	75	35	19	0	0	26.0%
Gemini 2.5 Flash Lite (Reasoning)	37	34	26	18	14	26.0%
MoonshotAI: Kimi K2.6	52	24	23	21	8	25.4%
Claude Opus 4.8 (Reasoning, Low)	40	36	35	14	0	25.0%
Aion 2.0	51	41	19	14	0	24.9%
DeepSeek V3.1	61	28	25	8	0	24.4%
Xiaomi MIMO v2.5 Pro	52	34	18	18	0	24.4%
Qwen3.7 Max	48	35	16	14	8	24.2%
Claude Sonnet 5	58	31	27	4	0	24.0%
o4 Mini High	54	34	27	0	0	23.0%
Ministral 3B	40	38	28	9	0	22.9%
GPT-4.1 Mini	45	36	17	16	1	22.8%
Xiaomi MIMO v2.5	33	32	21	18	9	22.4%
GPT-5.2	35	29	19	16	13	22.4%
Gemma 4 26B	41	30	21	13	6	22.2%
DeepSeek V3.2	47	40	17	4	3	22.2%
Gemma 3 27B	48	31	21	11	0	22.0%
Ministral 3 3B	37	33	22	8	0	19.9%
GPT-4o, Aug. 6th (temp=1)	34	30	25	9	0	19.6%
GPT-5	36	22	18	11	10	19.3%
Gemma 4 26B (Reasoning)	28	20	19	17	10	19.0%
Mistral NeMO	55	20	19	0	0	18.8%
Gemini 2.5 Flash	45	23	15	7	3	18.5%
Z.AI GLM 4.6	31	28	25	7	0	18.3%
Claude Sonnet 4.6 (Reasoning)	38	28	10	9	6	18.2%
Claude Sonnet 5 (Reasoning, Low)	46	21	19	4	0	17.9%
Gemma 4 31B (Reasoning)	37	28	15	8	1	17.7%
Z.AI GLM 4.5 Air	66	19	0	0	0	16.8%
WizardLM 2 8x22b	58	12	8	2	0	16.1%
ByteDance Seed 1.6	37	18	13	9	3	15.9%
DeepSeek V4 Flash (Reasoning)	31	25	18	0	0	14.9%
Qwen 3.5 Flash	44	21	9	0	0	14.8%
GPT-4o, Aug. 6th (temp=0)	38	27	6	0	0	14.3%
Qwen 3.5 Plus (2026-04-20)	39	28	3	0	0	14.2%
Gemma 4 31B	23	18	16	12	0	13.9%
Gemini 3.5 Flash (Reasoning, Minimal)	18	17	11	11	11	13.8%
ByteDance Seed 2.0 Lite	30	16	12	5	2	12.8%
ByteDance Seed 2.0 Mini	27	25	10	2	0	12.7%
GPT-4o Mini (temp=0)	43	20	0	0	0	12.7%
Qwen 3.6 27B	28	24	12	0	0	12.6%
Gemma 3 4B	31	18	6	3	0	11.8%
Grok 4.3	30	12	8	6	0	11.3%
Gemini 3 Flash (Preview)	28	15	10	0	0	10.5%
Qwen 2.5 72B	31	13	8	0	0	10.5%
Qwen 3.5 27B	42	8	0	0	0	9.9%
Nemotron 3 Super	30	16	0	0	0	9.2%
Grok 4.3 (Reasoning)	28	16	0	0	0	8.9%
Z.AI GLM 4.7	31	7	3	0	0	8.3%
Claude Sonnet 4.6	31	5	4	0	0	8.1%
Gemma 3 12B	23	12	5	0	0	8.0%
Gemini 3 Flash (Preview, Reasoning)	17	12	7	3	0	7.7%
Qwen 3.5 122B	20	8	4	3	0	7.0%
Nemotron 3 Nano	14	6	4	0	0	4.9%
Z.AI GLM 4.7 Flash	10	8	7	0	0	4.8%
Claude Sonnet 5 (Reasoning)	23	0	0	0	0	4.5%
Claude Opus 4.7 (Reasoning)	11	7	4	0	0	4.3%
Qwen 3.5 9B	19	0	0	0	0	3.9%
Arcee AI: Trinity Mini	19	0	0	0	0	3.8%
GPT-5 Nano	10	3	2	0	0	3.0%
Inception Mercury 2	12	0	0	0	0	2.5%
Qwen 3.5 Plus (2026-02-15)	10	1	0	0	0	2.2%
GPT-OSS 120B	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	93	85	95.6%
GPT-5.4	100	98	96	93	82	93.8%
Writer: Palmyra X5	100	100	100	100	64	92.6%
Qwen3 235B A22B Instruct 2507	100	100	100	80	78	91.7%
Mistral Small 4 (Reasoning)	100	100	80	78	75	86.5%
GPT-5.5 (Reasoning)	91	90	87	81	74	84.6%
Claude Opus 4.8 (Reasoning)	100	96	83	74	56	81.9%
GPT-5.4 (Reasoning, Low)	100	87	75	71	66	79.8%
Claude Sonnet 4.5	100	93	69	67	66	79.1%
Claude Opus 4.8 (Reasoning, Low)	100	90	85	69	51	79.1%
Z.AI GLM 5.1	100	81	77	71	63	78.6%
GPT-5.1	100	87	81	62	62	78.4%
Claude Sonnet 5 (Reasoning, Low)	94	87	77	72	60	78.1%
GPT-5.5	94	89	85	66	57	77.9%
Claude Opus 4.7 (Reasoning)	100	92	85	60	50	77.3%
Hermes 3 70B	100	100	90	63	17	74.2%
Gemini 3.5 Flash (Reasoning)	96	78	73	65	58	73.8%
GPT-4o Mini (temp=1)	100	79	71	66	52	73.5%
Z.AI GLM 4.5	85	79	79	66	57	72.9%
Z.AI GLM 5	100	91	63	62	45	72.2%
Claude Opus 4.5	100	90	68	63	39	72.1%
Gemini 2.5 Flash Lite	100	82	76	66	35	71.9%
Claude Sonnet 5 (Reasoning)	97	90	77	71	21	71.3%
Llama 3.1 70B	90	82	77	56	51	71.2%
Claude Opus 4.7	100	96	66	52	41	70.9%
Claude Sonnet 4	95	93	81	43	40	70.7%
GPT-5.4 Mini (Reasoning)	100	84	67	67	35	70.7%
MoonshotAI: Kimi K2.5	87	79	70	63	51	70.1%
GPT-5.5 (Reasoning, Low)	78	72	67	66	66	69.8%
Qwen3.6 Max Preview	88	77	73	66	43	69.7%
Claude Sonnet 5	100	68	63	58	56	69.1%
Cydonia 24B V4.1	100	100	53	51	41	69.0%
Claude Haiku 4.5	100	71	62	60	52	68.9%
GPT-4.1 Mini	100	87	56	52	44	67.9%
MiniMax M2.5	100	77	65	51	46	67.7%
Z.AI GLM 5 Turbo	100	80	68	52	37	67.5%
Grok 4.5 (Reasoning, High)	100	69	64	60	40	66.8%
MiniMax M2.7	89	89	66	52	33	65.7%
Qwen 3.6 Flash	82	80	69	62	33	65.1%
Z.AI GLM 5.2 (Reasoning, High)	97	70	64	63	29	64.7%
Claude Sonnet 4.6 (Reasoning)	87	68	60	53	53	64.1%
Mistral Small 4	100	96	51	42	29	63.5%
Qwen 3.6 27B	83	83	69	51	27	62.5%
DeepSeek V3 (2025-03-24)	99	67	66	46	34	62.4%
GPT-5.4 Mini	81	78	75	41	36	62.4%
GPT-4.1	99	63	57	51	41	62.1%
Gemini 2.5 Flash Lite (Reasoning)	79	74	61	59	36	61.8%
GPT-5.4 Mini (Reasoning, Low)	78	68	57	54	50	61.3%
Claude Opus 4	100	69	55	43	36	60.6%
Hermes 3 405B	100	88	53	47	8	59.2%
Ministral 3 8B	88	74	48	45	40	58.9%
Aion 3.0	69	68	66	53	37	58.5%
GPT-4.1 Nano	99	83	73	26	11	58.4%
o4 Mini High	79	77	48	44	41	57.8%
Qwen 3.5 397B A17B	84	68	55	49	33	57.7%
GPT-4o, Aug. 6th (temp=1)	92	85	54	40	18	57.7%
MoonshotAI: Kimi K2.6	100	74	51	43	17	57.1%
Gemini 3.1 Pro (Preview)	85	60	51	46	40	56.4%
Xiaomi MIMO v2.5 Pro	91	67	49	39	28	55.1%
Grok 4.3 (Reasoning)	81	75	74	41	0	54.4%
Gemini 3.5 Flash (Reasoning, Minimal)	64	60	54	49	38	53.1%
Grok 4.5 (Reasoning, Low)	73	66	64	41	20	53.1%
Gemini 2.5 Flash (Reasoning)	74	70	44	40	34	52.3%
GPT-4o, Aug. 6th (temp=0)	92	77	41	32	16	51.7%
Aion 3.0 Mini	63	53	52	52	36	51.2%
Claude Opus 4.6 (Reasoning)	75	58	43	41	38	51.0%
Ministral 8B	100	70	58	16	11	51.0%
o4 Mini	69	65	51	36	31	50.6%
GPT-5.4 Nano	69	53	51	49	30	50.5%
Gemma 3 12B	75	53	48	40	36	50.3%
GPT-5.4 Nano (Reasoning)	58	56	54	41	36	49.1%
Claude Sonnet 4.6	96	52	40	30	27	48.9%
GPT-5.2	61	59	45	43	36	48.8%
DeepSeek V4 Pro (Reasoning)	81	50	43	34	33	47.9%
GPT-5.4 Nano (Reasoning, Low)	62	56	51	43	26	47.6%
Mistral Medium 3.1	63	57	43	41	32	47.1%
Grok 4.20	64	48	44	42	33	46.2%
DeepSeek V4 Flash (Reasoning)	82	49	36	36	20	44.8%
Claude Opus 4.6	61	46	46	43	25	44.0%
Grok 4.20 (Reasoning)	60	59	52	49	0	43.8%
Ministral 3 3B	90	50	45	22	7	42.9%
Qwen 3.5 Plus (2026-04-20)	91	35	34	27	26	42.8%
Qwen 3.6 35B	57	53	47	29	28	42.8%
DeepSeek V4 Pro	66	50	48	25	24	42.6%
Z.AI GLM 4.5 Air	77	59	33	30	14	42.4%
DeepSeek V4 Flash	75	49	45	38	3	41.9%
Z.AI GLM 4.6	71	54	37	31	16	41.8%
Gemini 2.5 Pro	51	48	48	36	26	41.8%
Z.AI GLM 4.7 Flash	64	56	45	31	12	41.7%
Mistral NeMO	84	62	38	12	12	41.6%
Qwen 3.5 Plus (2026-02-15)	53	51	46	38	20	41.6%
Qwen3.7 Max	61	60	33	27	25	41.1%
Grok 4.3	56	51	42	36	15	39.9%
Ministral 3 14B	80	42	36	29	11	39.7%
Mistral Large 3	61	49	46	29	12	39.5%
Gemini 2.5 Flash	71	63	36	19	8	39.2%
MiniMax M3	60	53	38	23	22	39.0%
Qwen 3.5 9B	67	58	46	23	0	38.8%
Gemma 3 27B	66	47	39	35	8	38.8%
DeepSeek V3.2	59	44	36	32	20	38.1%
Cohere Command R+ (Aug. 2024)	77	33	32	28	19	38.0%
DeepSeek V3.1	54	54	36	35	10	37.8%
Aion 2.0	55	53	42	39	0	37.8%
Gemma 4 31B (Reasoning)	68	57	26	22	14	37.4%
Gemma 4 26B (Reasoning)	48	46	34	28	24	35.9%
DeepSeek-V2 Chat	76	34	34	23	12	35.8%
ByteDance Seed 1.6 Flash	54	36	35	27	25	35.4%
Xiaomi MIMO v2.5	70	44	32	16	10	34.3%
Qwen 3.5 35B	86	44	17	13	8	33.6%
Qwen 3 32B	51	49	43	23	0	33.2%
Gemma 4 26B	44	38	34	26	19	32.3%
ByteDance Seed 2.0 Lite	100	39	20	2	0	32.0%
Nemotron 3 Super	54	37	36	30	0	31.5%
WizardLM 2 8x22b	100	53	4	0	0	31.4%
GPT-5	56	33	30	25	9	30.6%
Mistral Large 2	43	42	34	31	0	30.0%
DeepSeek V3 (2024-12-26)	96	19	17	17	0	29.8%
Gemma 4 31B	50	43	24	23	8	29.6%
Gemini 3.1 Flash Lite (Reasoning)	71	26	22	20	6	28.9%
Qwen 3.5 Flash	49	37	35	14	8	28.5%
GPT-5 Mini	53	39	26	16	9	28.4%
Ministral 3B	68	20	18	17	2	25.0%
Mistral Small 3.2 24B	72	21	19	0	0	22.5%
Gemma 3 4B	48	29	18	14	0	21.8%
Gemini 3 Flash (Preview)	33	24	19	17	13	21.3%
Arcee AI: Trinity Mini	40	31	20	9	5	21.1%
Gemini 3 Flash (Preview, Reasoning)	43	18	17	16	10	20.7%
Qwen 3.5 27B	34	27	18	17	7	20.6%
Nemotron 3 Nano	31	27	20	15	5	19.6%
Gemini 3.1 Flash Lite (Preview)	30	27	22	15	0	18.6%
GPT-4o Mini (temp=0)	25	23	14	13	11	17.2%
ByteDance Seed 2.0 Mini	33	21	16	9	6	16.7%
Qwen 2.5 72B	49	16	11	0	0	15.4%
Gemini 3.1 Flash Lite	25	24	23	3	0	14.9%
ByteDance Seed 1.6	45	12	10	6	0	14.5%
Qwen 3.5 122B	37	15	7	6	0	12.9%
GPT-5 Nano	23	15	12	8	0	11.7%
Z.AI GLM 4.7	28	14	12	2	0	11.2%
GPT-OSS 120B	17	0	0	0	0	3.4%
Inception Mercury 2	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Hermes 3 70B	100	100	94	81	42	83.4%
Qwen3 235B A22B Instruct 2507	84	82	77	75	70	77.4%
GPT-5.4	95	86	84	62	54	76.4%
Writer: Palmyra X5	100	83	78	65	43	74.0%
GPT-5.4 (Reasoning)	85	80	71	66	49	70.1%
Grok 4.5 (Reasoning, Low)	88	83	71	59	32	66.6%
Cydonia 24B V4.1	100	75	53	52	52	66.4%
Claude Sonnet 4.6	100	79	77	46	23	64.9%
Grok 4.5 (Reasoning, High)	74	65	61	59	57	63.2%
GPT-5.4 (Reasoning, Low)	82	82	76	43	32	63.0%
Claude Opus 4.6 (Reasoning)	84	73	58	49	48	62.5%
Claude Opus 4.7 (Reasoning)	100	95	57	40	18	62.1%
Gemini 3.1 Flash Lite	88	76	55	40	39	59.4%
Claude Opus 4.6	76	67	66	46	41	59.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	89	63	23	9	56.8%
ByteDance Seed 2.0 Lite	85	85	79	21	12	56.3%
Hermes 3 405B	98	82	63	23	16	56.1%
WizardLM 2 8x22b	80	62	57	55	21	55.2%
Claude Opus 4.8 (Reasoning, Low)	80	66	45	45	29	52.9%
GPT-5.1	72	55	49	43	41	52.3%
Claude Sonnet 4.5	69	49	46	45	42	50.2%
GPT-5.5	62	54	51	43	40	50.2%
Gemma 3 12B	100	51	43	39	16	50.0%
Claude Sonnet 4.6 (Reasoning)	77	63	50	31	24	48.9%
MiniMax M3	99	63	38	36	9	48.9%
Gemma 3 4B	63	60	53	47	20	48.6%
GPT-5.5 (Reasoning, Low)	59	52	47	45	40	48.5%
Llama 3.1 70B	100	43	41	37	21	48.4%
DeepSeek V4 Pro	88	57	42	27	23	47.5%
Claude Opus 4.7	62	56	48	38	30	46.9%
GPT-5.5 (Reasoning)	63	57	42	38	33	46.4%
Mistral Small 4	60	59	51	32	23	45.0%
GPT-5.4 Mini	63	46	42	39	33	44.4%
Claude Haiku 4.5	78	57	43	27	16	44.3%
Z.AI GLM 5	85	50	36	25	25	44.1%
Claude Opus 4.5	82	55	34	26	21	43.5%
Aion 3.0 Mini	100	53	42	16	3	43.0%
Gemini 3.1 Flash Lite (Preview)	60	56	45	27	26	42.8%
DeepSeek V4 Pro (Reasoning)	82	51	43	18	18	42.7%
GPT-5.4 Mini (Reasoning, Low)	71	41	39	35	23	41.9%
Claude Opus 4	67	64	42	34	0	41.6%
ByteDance Seed 1.6 Flash	67	58	43	25	12	40.8%
Claude Sonnet 4	72	42	39	33	18	40.7%
Claude Sonnet 5 (Reasoning)	68	65	29	27	11	40.1%
Z.AI GLM 4.5	66	50	36	27	17	39.4%
MiniMax M2.5	100	48	39	5	3	39.0%
Gemini 3.1 Flash Lite (Reasoning)	59	53	39	37	3	38.4%
Grok 4.20 (Reasoning)	52	46	43	33	18	38.4%
Claude Opus 4.8 (Reasoning)	58	51	42	34	6	38.3%
Gemini 2.5 Flash	58	51	50	26	4	37.7%
DeepSeek V3.1	63	51	37	21	15	37.4%
Ministral 3 14B	60	43	36	25	20	36.9%
Gemma 4 31B	49	49	49	36	0	36.6%
GPT-4o, Aug. 6th (temp=1)	65	62	21	21	10	35.8%
Mistral Small 4 (Reasoning)	58	48	37	20	11	34.7%
Aion 3.0	49	41	33	26	23	34.5%
Claude Sonnet 5	57	47	34	28	0	33.1%
DeepSeek V3 (2025-03-24)	71	71	14	5	3	32.8%
Z.AI GLM 5.2 (Reasoning, High)	76	42	42	4	0	32.8%
Cohere Command R+ (Aug. 2024)	100	41	21	0	0	32.5%
Gemini 2.5 Flash (Reasoning)	53	39	34	21	14	32.4%
GPT-5.4 Mini (Reasoning)	55	49	30	14	13	32.1%
Z.AI GLM 5.1	94	39	26	0	0	31.8%
DeepSeek V4 Flash	83	50	16	8	0	31.5%
Grok 4.3	55	43	23	21	14	31.4%
Xiaomi MIMO v2.5 Pro	55	39	30	16	15	31.1%
Gemini 3 Flash (Preview, Reasoning)	49	39	31	23	12	30.9%
Grok 4.20	61	35	27	27	0	30.1%
Gemini 2.5 Pro	70	40	32	2	0	29.0%
Gemini 2.5 Flash Lite	46	44	31	21	2	28.9%
Xiaomi MIMO v2.5	35	34	31	30	14	28.9%
GPT-4o, Aug. 6th (temp=0)	74	34	25	7	3	28.5%
DeepSeek V3.2	37	33	27	25	20	28.3%
ByteDance Seed 2.0 Mini	49	39	33	19	0	28.0%
GPT-4o Mini (temp=1)	47	45	21	13	10	27.0%
Gemini 3.5 Flash (Reasoning)	36	32	27	23	16	26.8%
Gemini 2.5 Flash Lite (Reasoning)	47	31	29	26	0	26.7%
GPT-4.1	59	36	19	19	0	26.6%
Ministral 3 8B	81	34	16	0	0	26.3%
Mistral Medium 3.1	46	29	28	16	12	26.1%
Claude Sonnet 5 (Reasoning, Low)	60	30	24	11	5	26.1%
Z.AI GLM 4.6	45	25	23	20	17	26.1%
MoonshotAI: Kimi K2.5	43	37	29	16	0	25.0%
Mistral Large 2	48	38	25	13	0	24.6%
Qwen 3.6 35B	57	25	20	19	1	24.5%
o4 Mini	40	38	23	21	0	24.4%
GPT-5.4 Nano	34	29	25	18	14	24.2%
Qwen 3.5 397B A17B	43	31	27	12	7	24.1%
o4 Mini High	64	22	17	15	3	24.1%
GPT-5.2	45	21	20	19	5	22.2%
Qwen 3.5 Plus (2026-04-20)	66	25	11	7	0	21.9%
Qwen 3.6 Flash	55	22	17	8	5	21.6%
Z.AI GLM 5 Turbo	40	34	23	11	0	21.6%
Qwen3.6 Max Preview	54	37	16	0	0	21.3%
Gemini 3 Flash (Preview)	51	29	12	9	3	20.7%
Gemma 4 26B	26	24	24	20	1	19.0%
MiniMax M2.7	42	27	13	8	3	18.7%
GPT-5.4 Nano (Reasoning)	31	24	24	14	0	18.5%
Qwen 3.5 35B	57	35	0	0	0	18.5%
Mistral NeMO	50	30	11	0	0	18.1%
GPT-4.1 Mini	45	28	9	7	2	18.1%
Mistral Large 3	45	23	16	5	2	18.1%
Qwen 3 32B	43	28	19	0	0	17.9%
Z.AI GLM 4.5 Air	29	28	23	8	0	17.8%
GPT-5	31	23	17	14	0	17.0%
Gemma 3 27B	56	21	3	0	0	16.1%
GPT-4.1 Nano	23	17	16	16	7	15.7%
DeepSeek V4 Flash (Reasoning)	36	18	14	9	0	15.4%
Gemma 4 31B (Reasoning)	31	20	12	12	0	15.2%
Ministral 8B	36	23	16	0	0	14.9%
MoonshotAI: Kimi K2.6	34	18	8	6	0	13.4%
Z.AI GLM 4.7	29	23	12	0	0	12.9%
Qwen 3.6 27B	30	29	5	0	0	12.7%
GPT-5 Mini	37	18	7	0	0	12.5%
DeepSeek V3 (2024-12-26)	27	14	13	8	0	12.3%
GPT-5.4 Nano (Reasoning, Low)	21	16	14	7	2	11.9%
Aion 2.0	40	10	3	2	0	10.8%
Qwen 2.5 72B	24	15	9	0	0	9.5%
Ministral 3B	27	18	1	0	0	9.0%
Grok 4.3 (Reasoning)	25	10	10	0	0	8.9%
Mistral Small 3.2 24B	24	13	6	0	0	8.7%
Qwen 3.5 Plus (2026-02-15)	42	1	0	0	0	8.6%
Gemma 4 26B (Reasoning)	20	16	3	1	0	8.2%
Qwen 3.5 Flash	16	11	7	0	0	6.7%
Qwen3.7 Max	30	0	0	0	0	6.1%
Z.AI GLM 4.7 Flash	24	4	0	0	0	5.5%
DeepSeek-V2 Chat	9	6	0	0	0	3.0%
Qwen 3.5 9B	13	2	0	0	0	3.0%
Gemini 3.1 Pro (Preview)	10	2	1	0	0	2.7%
GPT-4o Mini (temp=0)	6	5	0	0	0	2.2%
Nemotron 3 Nano	7	0	0	0	0	1.5%
Qwen 3.5 27B	7	0	0	0	0	1.4%
Nemotron 3 Super	7	0	0	0	0	1.3%
Ministral 3 3B	3	2	0	0	0	1.0%
Qwen 3.5 122B	3	1	0	0	0	0.8%
GPT-OSS 120B	0	0	0	0	0	0.1%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	91	98.2%
Claude Sonnet 4.5	100	100	100	99	86	97.0%
Cohere Command R+ (Aug. 2024)	100	100	95	91	85	94.2%
Claude Opus 4.5	99	92	91	84	84	89.9%
GPT-4o, Aug. 6th (temp=1)	100	94	89	87	78	89.4%
Z.AI GLM 5.2 (Reasoning, High)	100	90	86	85	81	88.4%
Claude Opus 4.6 (Reasoning)	100	97	93	77	69	87.0%
Claude Sonnet 4.6 (Reasoning)	100	100	85	80	69	86.8%
Gemma 3 27B	99	91	89	86	65	86.2%
Claude Sonnet 5	100	100	97	75	56	85.8%
Qwen 3.5 Plus (2026-04-20)	100	100	97	76	56	85.8%
GPT-5.4	100	89	87	83	66	85.1%
Claude Sonnet 4	100	90	83	83	64	84.0%
GPT-5.4 (Reasoning)	100	88	86	85	60	83.9%
Claude Sonnet 5 (Reasoning, Low)	100	100	80	71	65	83.3%
Hermes 3 70B	100	100	100	69	47	83.2%
Mistral Small 4 (Reasoning)	100	100	100	79	34	82.5%
Claude Opus 4.6	100	100	74	72	64	82.0%
Z.AI GLM 5 Turbo	100	93	80	72	64	81.8%
MiniMax M2.5	96	93	81	68	57	79.2%
GPT-5.4 (Reasoning, Low)	100	83	77	74	55	77.8%
Z.AI GLM 5.1	100	100	99	46	42	77.4%
Claude Opus 4.8 (Reasoning)	100	100	78	68	37	76.6%
Hermes 3 405B	100	97	71	59	56	76.6%
Claude Opus 4	100	100	92	57	31	76.0%
MiniMax M2.7	100	72	68	68	61	73.8%
DeepSeek V4 Pro (Reasoning)	100	85	72	53	48	71.4%
Claude Opus 4.7 (Reasoning)	100	99	66	53	38	71.0%
GPT-5.5 (Reasoning)	82	81	77	64	50	70.9%
Grok 4.20	91	82	77	59	42	70.2%
Aion 3.0	100	89	67	55	39	70.2%
Cydonia 24B V4.1	100	100	65	46	39	70.1%
Ministral 8B	100	99	81	67	3	69.9%
Claude Opus 4.8 (Reasoning, Low)	100	94	67	64	23	69.6%
DeepSeek V4 Pro	86	72	70	60	59	69.3%
GPT-5.5 (Reasoning, Low)	74	72	70	69	60	69.0%
Z.AI GLM 5	88	82	66	63	44	68.6%
GPT-5.1	100	81	65	54	39	67.7%
Claude Haiku 4.5	100	98	57	42	34	66.1%
Aion 3.0 Mini	88	87	75	46	35	66.1%
Grok 4.5 (Reasoning, Low)	79	77	74	49	48	65.4%
Claude Opus 4.7	100	66	55	54	51	65.3%
GPT-5.5	74	70	69	63	49	65.1%
Grok 4.5 (Reasoning, High)	85	75	63	48	48	63.7%
Mistral Small 4	100	84	60	54	19	63.5%
GPT-5.4 Mini	81	71	55	54	45	61.3%
Claude Sonnet 4.6	92	71	70	61	0	59.1%
Xiaomi MIMO v2.5	72	67	64	52	38	58.6%
Mistral Large 2	83	70	65	47	22	57.3%
GPT-5.4 Mini (Reasoning, Low)	69	63	57	51	46	57.2%
ByteDance Seed 1.6 Flash	73	65	63	55	27	56.5%
Claude Sonnet 5 (Reasoning)	82	65	63	48	17	55.1%
DeepSeek V3 (2025-03-24)	89	63	54	40	30	55.1%
Xiaomi MIMO v2.5 Pro	74	69	58	43	29	54.5%
MoonshotAI: Kimi K2.6	100	66	43	37	23	53.8%
Ministral 3 14B	84	70	66	41	7	53.5%
WizardLM 2 8x22b	81	76	44	34	29	52.9%
GPT-4.1 Nano	61	57	52	51	34	51.2%
ByteDance Seed 2.0 Mini	70	60	58	35	32	50.9%
Z.AI GLM 4.6	84	64	48	31	23	50.1%
Gemma 3 12B	65	53	49	42	38	49.5%
Aion 2.0	56	50	50	47	40	48.6%
Mistral Large 3	79	64	49	23	23	47.6%
GPT-4.1	50	49	49	48	40	47.4%
DeepSeek V4 Flash (Reasoning)	64	50	46	42	34	47.3%
Ministral 3 8B	78	52	48	40	12	45.9%
Gemini 2.5 Flash Lite (Reasoning)	62	61	51	34	13	44.4%
Gemini 2.5 Flash Lite	56	51	45	36	33	44.2%
DeepSeek V3.2	54	45	41	40	38	43.7%
GPT-4.1 Mini	77	46	39	38	17	43.6%
GPT-5.4 Nano	53	51	47	34	33	43.4%
Mistral Medium 3.1	59	52	51	43	11	43.4%
Gemini 3.5 Flash (Reasoning, Minimal)	60	50	37	36	33	43.3%
MiniMax M3	86	74	37	18	0	43.2%
GPT-5.4 Nano (Reasoning)	54	50	49	34	27	42.8%
DeepSeek V4 Flash	72	54	39	26	15	41.2%
GPT-4o Mini (temp=1)	70	60	31	23	21	40.9%
Z.AI GLM 4.5 Air	82	55	29	23	9	39.6%
Qwen3.6 Max Preview	99	67	23	5	0	38.9%
Gemini 3.5 Flash (Reasoning)	69	60	30	19	12	38.1%
Qwen 3.5 Plus (2026-02-15)	52	40	36	32	29	37.8%
Gemini 2.5 Pro	78	44	38	18	9	37.5%
GPT-5.4 Mini (Reasoning)	39	36	35	35	34	35.9%
DeepSeek V3 (2024-12-26)	100	53	23	3	0	35.7%
DeepSeek-V2 Chat	85	60	28	0	0	34.5%
GPT-5	84	40	35	7	6	34.3%
Llama 3.1 70B	60	57	24	16	11	33.5%
Z.AI GLM 4.7	51	46	29	20	18	32.7%
Ministral 3B	60	51	24	11	10	31.2%
Grok 4.20 (Reasoning)	58	29	28	21	18	30.8%
Qwen 3.6 Flash	66	49	17	11	9	30.5%
Z.AI GLM 4.7 Flash	59	42	36	8	5	30.3%
Arcee AI: Trinity Mini	55	51	35	8	0	29.8%
DeepSeek V3.1	50	29	26	24	13	28.5%
Gemini 3.1 Flash Lite (Preview)	71	43	20	0	0	26.8%
GPT-5.2	40	40	29	19	6	26.8%
Gemini 2.5 Flash (Reasoning)	43	35	24	20	12	26.7%
Mistral NeMO	35	27	26	23	21	26.4%
Qwen 3 32B	39	36	28	21	2	25.3%
Gemma 3 4B	45	38	21	18	0	24.5%
o4 Mini High	52	43	17	8	0	24.1%
Mistral Small 3.2 24B	67	33	21	0	0	24.1%
Gemini 2.5 Flash	52	27	21	20	0	24.1%
ByteDance Seed 2.0 Lite	48	33	16	13	5	23.1%
Qwen 3.6 35B	70	22	17	2	0	22.3%
GPT-5.4 Nano (Reasoning, Low)	28	25	21	19	14	21.5%
Qwen 3.5 9B	54	27	26	0	0	21.3%
MoonshotAI: Kimi K2.5	43	30	15	8	7	20.7%
Z.AI GLM 4.5	35	30	26	0	0	18.1%
Ministral 3 3B	61	16	8	0	0	16.9%
o4 Mini	39	24	14	7	0	16.7%
GPT-5 Mini	33	28	13	0	0	14.8%
Gemini 3 Flash (Preview)	30	28	5	5	4	14.4%
Gemma 4 31B	25	15	14	11	5	14.1%
Grok 4.3	34	19	16	0	0	13.7%
Gemini 3.1 Flash Lite (Reasoning)	29	26	9	1	0	13.0%
Qwen 3.5 397B A17B	20	20	10	7	0	11.5%
Gemini 3 Flash (Preview, Reasoning)	33	13	6	1	0	10.7%
GPT-4o, Aug. 6th (temp=0)	28	22	0	0	0	9.9%
Qwen 3.5 Flash	25	20	2	0	0	9.5%
Qwen 2.5 72B	40	6	1	0	0	9.5%
Nemotron 3 Super	19	17	8	0	0	8.8%
Qwen 3.5 35B	26	16	0	0	0	8.4%
Gemma 4 26B (Reasoning)	12	8	8	7	0	7.0%
Gemma 4 31B (Reasoning)	20	10	4	0	0	6.7%
Gemini 3.1 Pro (Preview)	15	13	2	0	0	5.9%
Qwen 3.5 122B	29	0	0	0	0	5.8%
GPT-5 Nano	21	7	0	0	0	5.6%
Gemma 4 26B	17	8	0	0	0	5.0%
Grok 4.3 (Reasoning)	14	7	0	0	0	4.3%
Qwen 3.6 27B	12	5	0	0	0	3.4%
GPT-4o Mini (temp=0)	7	5	3	0	0	3.0%
Gemini 3.1 Flash Lite	12	0	0	0	0	2.4%
Qwen3.7 Max	6	4	0	0	0	2.1%
ByteDance Seed 1.6	3	0	0	0	0	0.5%
Nemotron 3 Nano	1	0	0	0	0	0.2%
Qwen 3.5 27B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.20 (Reasoning)	100	100	100	77	60	87.5%
Writer: Palmyra X5	99	82	66	56	18	64.2%
Qwen3 235B A22B Instruct 2507	87	69	62	61	35	62.9%
Ministral 3 14B	100	83	58	36	24	60.3%
GPT-5 Nano	100	100	100	0	0	60.1%
Mistral Large 2	98	74	60	51	13	59.2%
Llama 3.1 70B	83	63	62	45	42	59.0%
Mistral Small 4	78	68	49	49	28	54.5%
Z.AI GLM 5	100	58	56	35	21	54.0%
Mistral Small 4 (Reasoning)	84	67	48	41	19	51.6%
Claude Opus 4.5	56	54	47	41	21	43.8%
Mistral NeMO	100	100	16	0	0	43.1%
Cohere Command R+ (Aug. 2024)	85	68	56	0	0	41.9%
Claude Opus 4.7	83	42	40	21	21	41.2%
Hermes 3 405B	80	68	49	0	0	39.2%
o4 Mini High	79	75	35	4	0	38.4%
Claude Sonnet 4.6	79	58	24	24	6	38.2%
Claude Sonnet 4.5	95	48	24	23	0	38.0%
DeepSeek V4 Pro	65	52	29	26	18	37.8%
Ministral 3 8B	94	46	24	18	4	37.5%
Mistral Medium 3.1	58	47	41	37	3	37.1%
Grok 4.20	57	43	41	25	18	36.8%
Claude Sonnet 4	66	55	53	5	0	36.0%
Aion 3.0 Mini	100	25	19	16	14	34.9%
Mistral Large 3	52	43	40	25	14	34.5%
Cydonia 24B V4.1	94	40	33	0	0	33.3%
Hermes 3 70B	89	35	23	20	0	33.2%
Grok 4.5 (Reasoning, Low)	60	39	36	7	4	29.2%
GPT-5.4	39	34	28	24	18	28.5%
Grok 4.5 (Reasoning, High)	55	43	40	1	0	28.0%
DeepSeek V4 Pro (Reasoning)	73	59	3	1	0	27.2%
Claude Opus 4	35	33	25	22	11	25.1%
Z.AI GLM 5.1	67	31	13	9	0	24.1%
Claude Sonnet 4.6 (Reasoning)	40	27	24	24	5	24.1%
MiniMax M2.7	50	30	25	14	0	23.8%
Claude Haiku 4.5	52	49	9	6	0	23.1%
Qwen 3 32B	71	27	9	0	0	21.4%
Gemini 3.1 Flash Lite (Reasoning)	34	30	23	17	0	20.6%
MiniMax M2.5	70	15	14	1	0	20.0%
Claude Opus 4.6	40	24	19	16	1	19.8%
Mistral Small 3.2 24B	80	19	0	0	0	19.8%
Claude Opus 4.8 (Reasoning, Low)	33	27	16	11	9	19.2%
MoonshotAI: Kimi K2.5	51	20	16	4	3	18.7%
Z.AI GLM 5 Turbo	42	31	18	2	0	18.7%
Z.AI GLM 4.6	53	23	12	1	0	18.0%
Claude Opus 4.8 (Reasoning)	34	20	17	9	9	17.7%
Claude Opus 4.6 (Reasoning)	35	27	24	2	0	17.6%
GPT-5.5 (Reasoning, Low)	30	27	26	0	0	16.7%
DeepSeek V4 Flash	34	31	14	4	0	16.6%
Qwen3.6 Max Preview	41	30	10	0	0	16.3%
DeepSeek V3 (2024-12-26)	48	16	13	3	0	15.9%
Qwen 3.5 Plus (2026-04-20)	79	0	0	0	0	15.7%
Qwen 3.5 27B	70	6	0	0	0	15.2%
GPT-4o, Aug. 6th (temp=1)	29	26	19	3	0	15.2%
Gemma 3 27B	55	14	5	0	0	14.8%
o4 Mini	31	16	16	10	0	14.4%
Z.AI GLM 5.2 (Reasoning, High)	43	19	5	4	0	14.3%
MiniMax M3	54	11	5	1	0	14.2%
GPT-5.5 (Reasoning)	34	19	12	7	0	14.2%
GPT-5.4 (Reasoning)	29	13	13	10	6	14.2%
MoonshotAI: Kimi K2.6	34	25	6	4	1	14.1%
GPT-5	36	33	0	0	0	13.9%
GPT-4.1	23	22	22	0	0	13.1%
Claude Opus 4.7 (Reasoning)	34	30	0	0	0	12.8%
Claude Sonnet 5	48	13	0	0	0	12.2%
Qwen 3.6 Flash	21	20	20	0	0	12.1%
GPT-5.4 Mini	26	19	10	3	2	11.9%
Z.AI GLM 4.5	48	5	2	0	0	10.9%
GPT-5.5	22	15	11	6	0	10.9%
ByteDance Seed 2.0 Lite	49	3	0	0	0	10.6%
DeepSeek V3 (2025-03-24)	35	17	0	0	0	10.5%
Aion 3.0	17	13	12	7	1	10.0%
DeepSeek V4 Flash (Reasoning)	16	16	14	0	0	9.1%
GPT-5.4 (Reasoning, Low)	18	17	11	0	0	9.0%
DeepSeek-V2 Chat	25	20	0	0	0	9.0%
Ministral 8B	35	10	0	0	0	8.9%
Gemini 3.1 Flash Lite (Preview)	30	11	0	0	0	8.2%
ByteDance Seed 1.6 Flash	25	16	0	0	0	8.1%
DeepSeek V3.1	39	0	0	0	0	7.7%
Ministral 3B	16	14	6	0	0	7.2%
Qwen3.7 Max	22	13	0	0	0	6.9%
GPT-5.4 Mini (Reasoning, Low)	23	10	0	0	0	6.6%
GPT-4o Mini (temp=1)	20	12	0	0	0	6.4%
Gemini 2.5 Pro	20	8	4	0	0	6.3%
Qwen 2.5 72B	30	0	0	0	0	6.0%
Claude Sonnet 5 (Reasoning, Low)	13	8	7	2	0	5.8%
GPT-5.4 Mini (Reasoning)	15	11	2	0	0	5.7%
Aion 2.0	16	10	0	0	0	5.1%
Qwen 3.5 397B A17B	14	6	5	0	0	5.1%
Xiaomi MIMO v2.5 Pro	21	3	1	0	0	4.9%
Claude Sonnet 5 (Reasoning)	23	0	0	0	0	4.5%
Gemma 3 4B	14	8	0	0	0	4.3%
Gemini 3.5 Flash (Reasoning, Minimal)	16	4	0	0	0	4.1%
Qwen 3.5 35B	20	0	0	0	0	4.0%
Z.AI GLM 4.7	19	0	0	0	0	3.8%
Qwen 3.6 35B	16	3	0	0	0	3.8%
Gemma 3 12B	16	2	0	0	0	3.7%
WizardLM 2 8x22b	8	7	0	0	0	3.1%
Z.AI GLM 4.7 Flash	16	0	0	0	0	3.1%
GPT-4.1 Mini	16	0	0	0	0	3.1%
GPT-5.1	11	3	1	0	0	3.1%
DeepSeek V3.2	6	5	3	0	0	3.0%
Gemini 3 Flash (Preview)	14	0	0	0	0	2.9%
Nemotron 3 Super	14	0	0	0	0	2.7%
Z.AI GLM 4.5 Air	14	0	0	0	0	2.7%
Gemma 4 26B	13	0	0	0	0	2.5%
Gemini 2.5 Flash Lite (Reasoning)	9	2	0	0	0	2.1%
GPT-4.1 Nano	5	4	0	0	0	1.9%
ByteDance Seed 1.6	9	0	0	0	0	1.8%
GPT-5.4 Nano (Reasoning, Low)	9	0	0	0	0	1.8%
Ministral 3 3B	8	0	0	0	0	1.6%
Qwen 3.5 Plus (2026-02-15)	8	0	0	0	0	1.5%
Qwen 3.5 Flash	6	0	0	0	0	1.2%
Gemini 2.5 Flash Lite	3	1	0	0	0	0.8%
Xiaomi MIMO v2.5	4	0	0	0	0	0.8%
Gemma 4 31B	3	0	0	0	0	0.6%
Gemini 3 Flash (Preview, Reasoning)	3	0	0	0	0	0.6%
Qwen 3.5 122B	2	1	0	0	0	0.5%
GPT-5 Mini	3	0	0	0	0	0.5%
Gemini 3.1 Flash Lite	2	0	0	0	0	0.3%
Nemotron 3 Nano	2	0	0	0	0	0.3%
Grok 4.3	1	0	0	0	0	0.2%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Grok 4.3 (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.6 27B	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Mini	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3 235B A22B Instruct 2507	100	93	92	79	76	88.0%
Writer: Palmyra X5	100	100	100	100	39	87.8%
GPT-5.4 (Reasoning)	100	100	88	46	45	76.0%
Cohere Command R+ (Aug. 2024)	100	100	100	64	10	74.9%
GPT-5.4	88	77	74	72	59	73.8%
Qwen3.6 Max Preview	96	87	61	54	52	70.2%
Claude Opus 4.6 (Reasoning)	83	83	83	51	48	69.4%
Z.AI GLM 5	100	84	78	46	38	69.2%
Grok 4.20 (Reasoning)	90	73	62	60	57	68.5%
Z.AI GLM 5.2 (Reasoning, High)	100	70	60	55	51	67.4%
Claude Sonnet 4.6	100	90	70	36	36	66.5%
GPT-5.1	87	81	67	49	43	65.3%
Grok 4.5 (Reasoning, Low)	100	68	65	57	35	65.0%
Mistral Small 4 (Reasoning)	99	73	64	47	34	63.4%
GPT-5.5	76	70	66	61	40	62.5%
Claude Opus 4.6	94	81	51	51	34	62.3%
GPT-5.4 (Reasoning, Low)	69	64	62	62	48	61.1%
Aion 3.0	94	74	72	54	8	60.2%
Claude Opus 4	82	79	56	54	11	56.4%
GPT-5.5 (Reasoning)	78	56	52	49	46	56.3%
GPT-5.5 (Reasoning, Low)	69	61	59	50	41	55.9%
Grok 4.20	100	71	42	34	24	54.2%
Qwen 3.6 35B	100	66	57	31	14	53.4%
Claude Opus 4.7 (Reasoning)	74	57	52	46	34	52.7%
Claude Haiku 4.5	92	71	68	25	5	52.1%
Claude Opus 4.7	96	56	52	45	11	52.0%
MiniMax M3	100	73	49	31	3	51.2%
Claude Sonnet 5	82	67	47	39	20	50.9%
DeepSeek V4 Pro	68	65	46	41	27	49.3%
Grok 4.5 (Reasoning, High)	71	68	58	25	24	49.3%
ByteDance Seed 2.0 Lite	80	76	52	36	2	49.2%
Aion 3.0 Mini	93	55	41	38	18	49.1%
Z.AI GLM 5.1	82	46	39	39	32	47.6%
MiniMax M2.7	93	64	41	23	15	47.1%
MoonshotAI: Kimi K2.5	75	74	55	22	10	47.0%
Claude Opus 4.5	76	66	36	34	20	46.5%
GPT-5.4 Mini (Reasoning)	70	57	44	33	25	46.0%
Claude Sonnet 4.6 (Reasoning)	88	50	39	36	16	45.7%
GPT-5	94	67	26	22	19	45.6%
Xiaomi MIMO v2.5	79	64	48	27	11	45.4%
Cydonia 24B V4.1	69	66	47	23	18	44.3%
Z.AI GLM 5 Turbo	81	67	34	32	0	42.8%
Claude Sonnet 4	83	56	40	35	0	42.8%
Hermes 3 405B	90	71	42	8	0	42.3%
GPT-4.1	62	51	43	31	22	42.1%
Claude Opus 4.8 (Reasoning, Low)	69	47	41	34	16	41.3%
DeepSeek V4 Flash (Reasoning)	63	56	42	30	11	40.4%
o4 Mini	100	46	34	17	2	39.9%
WizardLM 2 8x22b	65	56	31	24	23	39.8%
Mistral Large 2	72	48	34	34	8	39.4%
ByteDance Seed 2.0 Mini	98	80	18	0	0	39.2%
Claude Opus 4.8 (Reasoning)	49	45	39	32	24	37.8%
DeepSeek V3.1	72	51	46	16	0	37.1%
Ministral 3 14B	54	51	34	23	23	36.8%
Mistral Medium 3.1	64	56	41	24	0	36.8%
Gemini 2.5 Flash (Reasoning)	78	49	37	20	0	36.7%
o4 Mini High	57	51	47	23	5	36.7%
MiniMax M2.5	51	45	39	26	21	36.3%
ByteDance Seed 1.6 Flash	100	45	21	15	0	36.0%
GPT-5.4 Mini (Reasoning, Low)	62	40	39	33	0	35.1%
Qwen 3.6 27B	66	40	29	29	11	34.8%
DeepSeek V3.2	62	46	27	23	11	33.9%
Z.AI GLM 4.6	47	42	40	26	9	33.0%
Qwen 3.5 Plus (2026-04-20)	69	51	35	3	0	31.7%
Claude Sonnet 4.5	51	50	49	5	2	31.5%
Mistral Small 4	77	42	21	9	7	31.3%
Xiaomi MIMO v2.5 Pro	78	28	25	17	8	31.2%
Hermes 3 70B	74	43	36	3	0	31.2%
Claude Sonnet 5 (Reasoning, Low)	60	49	36	9	0	30.8%
Gemini 2.5 Pro	35	34	31	29	24	30.6%
Gemini 2.5 Flash Lite	61	42	33	14	0	30.2%
DeepSeek V3 (2025-03-24)	42	39	31	27	11	30.0%
GPT-5.4 Mini	43	40	34	28	3	29.7%
Qwen 3.6 Flash	88	58	1	1	0	29.5%
Llama 3.1 70B	100	41	2	1	0	28.7%
Qwen 3.5 Flash	47	36	29	17	10	28.0%
Ministral 3B	65	48	27	0	0	28.0%
MoonshotAI: Kimi K2.6	56	33	33	18	0	28.0%
Gemini 3.5 Flash (Reasoning)	42	38	34	24	0	27.7%
Claude Sonnet 5 (Reasoning)	66	52	17	0	0	27.1%
Qwen 3 32B	58	33	31	5	4	26.5%
DeepSeek V4 Pro (Reasoning)	57	28	19	15	13	26.3%
Qwen 3.5 Plus (2026-02-15)	53	27	27	23	0	26.0%
GPT-4o, Aug. 6th (temp=1)	47	42	40	1	0	25.9%
Ministral 3 8B	65	29	18	17	0	25.8%
Ministral 8B	60	50	17	0	0	25.4%
Gemini 3.1 Flash Lite (Reasoning)	47	45	31	0	0	24.7%
ByteDance Seed 1.6	53	40	17	13	0	24.6%
Gemma 3 27B	55	34	20	5	5	24.0%
Grok 4.3	31	31	28	20	1	22.3%
Mistral Small 3.2 24B	71	31	5	0	0	21.6%
Gemini 2.5 Flash	43	24	23	19	0	21.5%
DeepSeek V4 Flash	56	37	13	0	0	21.3%
Qwen 3.5 397B A17B	53	26	25	0	0	20.8%
Gemini 3.1 Flash Lite (Preview)	55	18	15	12	0	20.1%
Aion 2.0	45	27	25	0	0	19.5%
Qwen 3.5 122B	38	29	23	6	0	19.3%
Gemini 2.5 Flash Lite (Reasoning)	29	27	24	9	0	18.0%
Gemini 3.1 Flash Lite	50	36	2	0	0	17.6%
Gemma 3 4B	53	19	8	7	0	17.5%
Nemotron 3 Super	41	27	9	9	0	17.2%
Gemma 4 31B	32	14	14	13	12	16.9%
GPT-5.4 Nano	28	25	18	9	0	16.0%
DeepSeek V3 (2024-12-26)	55	23	0	0	0	15.5%
Gemini 3 Flash (Preview)	32	23	11	11	0	15.4%
Z.AI GLM 4.7 Flash	55	13	3	2	0	14.4%
Gemma 3 12B	32	22	16	0	0	13.9%
GPT-4o Mini (temp=1)	28	26	7	5	3	13.9%
GPT-4o, Aug. 6th (temp=0)	58	7	3	0	0	13.7%
Z.AI GLM 4.5 Air	27	21	18	0	0	13.3%
Gemini 3.5 Flash (Reasoning, Minimal)	34	25	3	0	0	12.6%
GPT-5.2	23	15	12	9	0	11.9%
GPT-4.1 Nano	23	22	9	1	0	10.8%
GPT-5.4 Nano (Reasoning, Low)	16	16	16	2	0	9.8%
Mistral NeMO	28	10	4	3	0	8.9%
Gemini 3 Flash (Preview, Reasoning)	18	13	7	3	2	8.9%
Mistral Large 3	28	14	2	0	0	8.8%
GPT-5.4 Nano (Reasoning)	17	12	12	2	0	8.7%
Gemma 4 26B	31	8	0	0	0	7.8%
Gemma 4 31B (Reasoning)	16	13	7	0	0	7.2%
Z.AI GLM 4.7	17	11	7	0	0	6.9%
GPT-4o Mini (temp=0)	34	0	0	0	0	6.7%
DeepSeek-V2 Chat	25	8	0	0	0	6.6%
Qwen 3.5 35B	32	0	0	0	0	6.3%
Gemini 3.1 Pro (Preview)	13	9	8	0	0	6.1%
Grok 4.3 (Reasoning)	15	4	0	0	0	3.9%
GPT-5 Mini	12	5	1	0	0	3.6%
Arcee AI: Trinity Mini	17	0	0	0	0	3.4%
GPT-4.1 Mini	14	2	0	0	0	3.1%
Qwen3.7 Max	13	0	0	0	0	2.7%
Ministral 3 3B	13	0	0	0	0	2.6%
GPT-5 Nano	9	2	0	0	0	2.2%
Z.AI GLM 4.5	3	0	0	0	0	0.6%
Qwen 2.5 72B	1	0	0	0	0	0.2%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.1%
Qwen 3.5 27B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Mistral Small 4 (Reasoning)	100	72	51	35	25	56.6%
Claude Opus 4	97	58	46	40	36	55.4%
Claude Opus 4.6 (Reasoning)	85	67	49	48	20	53.8%
Ministral 8B	83	47	47	42	39	51.8%
Qwen 3.6 35B	71	66	55	38	21	50.3%
Ministral 3 14B	75	63	59	46	7	50.2%
Hermes 3 405B	100	56	33	28	25	48.4%
Qwen 3 32B	77	68	44	37	11	47.3%
Z.AI GLM 5	96	54	41	25	17	46.8%
Claude Opus 4.6	71	45	42	38	33	45.8%
Qwen3 235B A22B Instruct 2507	70	52	49	30	19	43.9%
Z.AI GLM 5.1	100	50	41	27	0	43.9%
Grok 4.20	59	40	40	37	36	42.4%
Writer: Palmyra X5	82	59	40	15	12	41.4%
Qwen 3.6 Flash	77	52	40	36	0	41.0%
MiniMax M2.5	55	47	39	36	25	40.5%
MiniMax M2.7	71	48	37	27	10	38.6%
Mistral Small 4	100	71	16	5	0	38.6%
GPT-5.4 Mini	46	38	38	34	32	37.7%
GPT-5 Nano	100	83	5	0	0	37.5%
Claude Opus 4.5	58	49	31	24	23	36.9%
DeepSeek V4 Pro	51	48	32	27	23	36.4%
Llama 3.1 70B	56	45	38	34	8	36.1%
ByteDance Seed 1.6 Flash	59	41	36	28	14	35.4%
GPT-5.4 (Reasoning, Low)	41	41	39	27	26	34.7%
Ministral 3 8B	76	38	31	19	0	32.9%
GPT-5.5	41	40	37	30	16	32.8%
Gemini 3.1 Flash Lite (Reasoning)	64	47	28	22	0	32.0%
Cydonia 24B V4.1	100	39	21	0	0	31.8%
Qwen 3.5 Plus (2026-04-20)	91	35	33	0	0	31.7%
Z.AI GLM 5 Turbo	90	42	13	10	0	31.0%
o4 Mini High	50	43	32	19	0	28.9%
GPT-5.4 (Reasoning)	40	31	31	25	13	28.0%
Mistral Large 3	77	44	17	0	0	27.8%
GPT-5.4 Mini (Reasoning)	51	47	21	20	0	27.6%
DeepSeek V4 Flash	47	36	24	23	8	27.6%
DeepSeek V4 Pro (Reasoning)	53	32	22	18	13	27.5%
Hermes 3 70B	71	31	21	12	0	27.2%
Aion 3.0 Mini	49	49	16	11	7	26.5%
GPT-5.5 (Reasoning, Low)	46	30	29	26	1	26.2%
DeepSeek V4 Flash (Reasoning)	59	37	34	0	0	25.9%
Grok 4.20 (Reasoning)	60	39	16	12	0	25.3%
DeepSeek V3 (2024-12-26)	63	29	27	6	0	25.1%
ByteDance Seed 2.0 Lite	45	36	22	18	0	24.2%
Z.AI GLM 4.6	64	24	19	11	0	23.6%
Claude Opus 4.7 (Reasoning)	54	37	14	8	2	23.0%
Z.AI GLM 5.2 (Reasoning, High)	32	31	29	23	0	22.9%
MoonshotAI: Kimi K2.5	49	39	16	8	0	22.3%
GPT-5.4	39	36	28	6	0	21.7%
MiniMax M3	40	30	24	12	0	21.2%
Grok 4.5 (Reasoning, High)	52	29	23	0	0	20.9%
Claude Opus 4.7	43	34	19	8	0	20.8%
Claude Sonnet 4.6 (Reasoning)	49	23	18	12	0	20.5%
GPT-4.1 Nano	33	23	17	16	12	20.2%
Gemini 3.1 Flash Lite (Preview)	39	25	21	17	0	20.1%
GPT-4o, Aug. 6th (temp=1)	37	30	26	7	0	20.1%
o4 Mini	43	28	27	0	0	19.8%
Claude Sonnet 4.5	56	28	14	0	0	19.7%
Gemma 3 27B	31	24	22	20	2	19.5%
WizardLM 2 8x22b	79	11	6	0	0	19.3%
Aion 3.0	41	34	13	7	0	19.0%
Claude Haiku 4.5	50	23	15	6	0	18.8%
GPT-4o Mini (temp=1)	46	17	16	10	2	18.3%
Claude Opus 4.8 (Reasoning, Low)	30	25	19	14	3	18.2%
DeepSeek V3 (2025-03-24)	35	25	20	10	0	18.0%
GPT-5	45	43	2	0	0	18.0%
DeepSeek V3.1	66	17	5	0	0	17.6%
Qwen 3.5 397B A17B	26	23	21	17	0	17.4%
DeepSeek V3.2	30	30	24	0	0	16.7%
GPT-5.1	42	14	9	8	7	16.0%
Grok 4.5 (Reasoning, Low)	43	26	9	0	0	15.7%
Xiaomi MIMO v2.5	27	23	21	7	0	15.6%
Mistral Small 3.2 24B	50	18	9	0	0	15.5%
Gemma 3 12B	32	23	16	5	0	15.4%
Claude Sonnet 4	28	27	11	3	2	14.2%
Mistral Medium 3.1	26	22	21	0	0	13.7%
Cohere Command R+ (Aug. 2024)	34	19	16	0	0	13.6%
Qwen3.6 Max Preview	40	27	0	0	0	13.4%
MoonshotAI: Kimi K2.6	51	14	0	0	0	13.1%
GPT-5.5 (Reasoning)	19	15	13	11	5	12.8%
ByteDance Seed 2.0 Mini	55	5	4	0	0	12.8%
Gemini 2.5 Flash Lite	31	18	11	3	0	12.7%
Gemini 2.5 Pro	39	18	6	0	0	12.6%
Claude Opus 4.8 (Reasoning)	45	11	5	0	0	12.3%
GPT-5.4 Mini (Reasoning, Low)	34	11	8	6	0	11.7%
Gemini 2.5 Flash Lite (Reasoning)	17	16	14	9	0	11.4%
GPT-4.1 Mini	30	26	1	0	0	11.3%
Mistral Large 2	57	0	0	0	0	11.3%
Claude Sonnet 5 (Reasoning)	29	27	0	0	0	11.1%
GPT-4o, Aug. 6th (temp=0)	39	10	5	0	0	10.9%
Qwen 3.5 35B	31	23	0	0	0	10.8%
Xiaomi MIMO v2.5 Pro	43	10	0	0	0	10.7%
GPT-4.1	22	16	14	2	0	10.7%
Mistral NeMO	42	11	1	0	0	10.7%
Grok 4.3 (Reasoning)	45	0	0	0	0	9.0%
Qwen 3.5 122B	26	18	1	0	0	9.0%
Qwen 3.5 Flash	38	5	2	0	0	9.0%
Claude Sonnet 4.6	17	15	13	0	0	8.9%
Gemini 3.1 Flash Lite	31	9	0	0	0	8.1%
Z.AI GLM 4.5	26	11	0	0	0	7.3%
Aion 2.0	16	15	3	2	0	7.2%
Gemini 2.5 Flash	34	0	0	0	0	6.7%
Z.AI GLM 4.7	29	0	0	0	0	5.7%
Claude Sonnet 5	27	0	0	0	0	5.3%
Grok 4.3	26	0	0	0	0	5.1%
Gemma 3 4B	16	9	0	0	0	4.9%
Qwen3.7 Max	22	0	0	0	0	4.4%
ByteDance Seed 1.6	13	3	0	0	0	3.1%
DeepSeek-V2 Chat	15	0	0	0	0	2.9%
Gemini 3.5 Flash (Reasoning)	14	0	0	0	0	2.8%
Gemini 2.5 Flash (Reasoning)	13	0	0	0	0	2.6%
Z.AI GLM 4.5 Air	13	0	0	0	0	2.6%
GPT-4o Mini (temp=0)	13	0	0	0	0	2.5%
Ministral 3 3B	12	0	0	0	0	2.3%
GPT-5.2	11	0	0	0	0	2.2%
Arcee AI: Trinity Mini	9	0	0	0	0	1.8%
Qwen 3.5 9B	6	0	0	0	0	1.2%
Nemotron 3 Super	3	2	0	0	0	1.0%
Qwen 2.5 72B	4	0	0	0	0	0.8%
Qwen 3.6 27B	3	0	0	0	0	0.6%
Ministral 3B	2	0	0	0	0	0.5%
GPT-5.4 Nano	1	0	0	0	0	0.3%
Gemini 3.5 Flash (Reasoning, Minimal)	1	0	0	0	0	0.2%
Z.AI GLM 4.7 Flash	1	0	0	0	0	0.2%
Gemini 3.1 Pro (Preview)	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning, Low)	0	0	0	0	0	0.0%
Qwen 3.5 27B	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3 235B A22B Instruct 2507	100	100	96	89	62	89.4%
Writer: Palmyra X5	100	100	100	81	61	88.3%
Z.AI GLM 5	100	99	96	90	54	87.8%
Hermes 3 70B	100	100	93	72	71	87.3%
Claude Sonnet 5 (Reasoning)	97	90	83	75	66	82.0%
Cydonia 24B V4.1	100	86	78	74	54	78.4%
Claude Opus 4.8 (Reasoning)	87	79	75	71	65	75.4%
Z.AI GLM 5.2 (Reasoning, High)	100	95	62	58	55	74.1%
Claude Opus 4.7	99	85	78	55	49	73.1%
Claude Haiku 4.5	100	100	75	60	25	71.9%
Claude Sonnet 4.5	89	75	75	57	49	69.1%
GPT-5.4	86	76	64	54	51	66.0%
Z.AI GLM 5.1	100	84	62	58	24	65.6%
Aion 3.0	100	78	77	43	26	64.9%
GPT-4.1 Nano	91	73	68	46	45	64.4%
Claude Opus 4.6	100	79	73	39	29	64.0%
Claude Opus 4.5	88	73	72	44	41	63.7%
Claude Sonnet 5	94	69	60	50	39	62.4%
Claude Opus 4.7 (Reasoning)	82	71	61	56	37	61.5%
Claude Opus 4.8 (Reasoning, Low)	65	64	60	59	59	61.2%
MiniMax M2.5	73	69	58	54	48	60.6%
Mistral Small 4 (Reasoning)	100	84	82	27	9	60.5%
Claude Sonnet 5 (Reasoning, Low)	99	80	60	38	25	60.3%
GPT-5.4 (Reasoning, Low)	79	68	64	54	34	59.6%
DeepSeek V4 Pro	72	67	63	48	48	59.5%
Claude Opus 4.6 (Reasoning)	79	67	50	50	44	58.2%
Mistral Small 4	97	84	64	31	14	57.8%
Claude Sonnet 4.6	85	79	55	47	19	57.1%
MoonshotAI: Kimi K2.5	94	89	55	28	16	56.4%
GPT-5.4 (Reasoning)	77	74	48	44	39	56.4%
MiniMax M3	100	70	47	29	29	55.1%
Grok 4.20	70	53	52	52	36	52.6%
Grok 4.20 (Reasoning)	58	57	57	52	34	51.7%
Hermes 3 405B	70	66	49	47	23	51.0%
Ministral 3 14B	87	68	47	31	20	50.4%
Gemini 2.5 Flash Lite	78	61	42	38	23	48.2%
GPT-4o, Aug. 6th (temp=1)	69	56	40	38	36	47.9%
GPT-5.5 (Reasoning, Low)	59	56	51	38	35	47.7%
Grok 4.5 (Reasoning, High)	55	54	44	43	41	47.4%
Claude Opus 4	63	54	41	39	36	46.7%
DeepSeek V4 Pro (Reasoning)	69	52	42	39	29	46.1%
Gemini 2.5 Flash Lite (Reasoning)	77	41	39	35	34	45.3%
Cohere Command R+ (Aug. 2024)	71	65	42	28	15	44.4%
GPT-4.1	56	45	44	37	36	43.7%
GPT-5.4 Mini	71	46	41	36	20	42.8%
DeepSeek V4 Flash (Reasoning)	81	44	44	31	14	42.8%
GPT-5.5 (Reasoning)	50	48	43	37	35	42.7%
Llama 3.1 70B	90	48	35	23	13	41.8%
Qwen 3.6 27B	67	57	45	25	14	41.8%
Mistral Small 3.2 24B	85	65	30	29	0	41.7%
GPT-4.1 Mini	74	57	48	21	2	40.5%
Z.AI GLM 4.6	50	42	40	37	32	40.4%
Grok 4.5 (Reasoning, Low)	53	44	42	40	22	40.4%
Mistral Medium 3.1	66	51	31	28	23	39.9%
Z.AI GLM 5 Turbo	57	55	42	35	8	39.5%
Qwen3.6 Max Preview	70	54	39	24	9	39.0%
Gemma 3 27B	62	56	38	24	15	39.0%
Gemma 3 12B	61	49	44	21	17	38.6%
GPT-5.5	47	40	39	33	30	37.9%
Gemini 3.1 Flash Lite (Reasoning)	70	47	42	17	12	37.7%
MoonshotAI: Kimi K2.6	49	45	36	35	20	36.8%
GPT-5.4 Mini (Reasoning, Low)	48	47	36	31	18	36.1%
Claude Sonnet 4	100	55	14	10	0	35.8%
Aion 3.0 Mini	50	48	40	29	8	34.9%
DeepSeek V3.1	57	49	44	15	7	34.6%
ByteDance Seed 1.6 Flash	60	52	34	18	8	34.4%
Gemini 3.1 Pro (Preview)	74	47	32	13	5	34.3%
Claude Sonnet 4.6 (Reasoning)	49	43	31	26	21	34.2%
GPT-5.1	48	39	38	26	18	33.7%
Xiaomi MIMO v2.5	58	45	33	23	5	32.9%
Xiaomi MIMO v2.5 Pro	58	54	32	10	8	32.5%
Aion 2.0	40	40	30	30	18	31.4%
DeepSeek V4 Flash	51	40	25	24	15	31.0%
o4 Mini High	50	38	26	21	14	29.7%
Ministral 3 8B	96	26	14	12	0	29.6%
Qwen 3.5 Plus (2026-02-15)	59	43	23	19	0	28.8%
DeepSeek-V2 Chat	43	40	34	16	3	27.2%
Qwen 3.6 Flash	40	36	34	13	13	27.1%
Z.AI GLM 4.7 Flash	43	30	27	19	13	26.5%
WizardLM 2 8x22b	46	31	25	24	6	26.5%
Gemini 2.5 Pro	51	29	22	14	12	25.6%
Gemini 3.5 Flash (Reasoning)	60	24	22	14	5	25.1%
GPT-4o, Aug. 6th (temp=0)	39	37	22	20	8	25.1%
Z.AI GLM 4.5 Air	40	40	23	21	1	25.0%
Ministral 3 3B	43	35	24	12	8	24.6%
DeepSeek V3.2	41	26	23	19	12	24.2%
MiniMax M2.7	47	31	17	13	12	24.0%
Z.AI GLM 4.5	42	27	25	16	11	24.0%
o4 Mini	51	33	16	15	5	23.8%
GPT-5.4 Mini (Reasoning)	41	30	29	14	5	23.8%
Qwen 3.5 Plus (2026-04-20)	70	48	0	0	0	23.7%
GPT-5 Nano	100	14	0	0	0	22.9%
GPT-4o Mini (temp=1)	40	22	19	19	11	22.3%
Gemini 2.5 Flash	35	28	27	19	1	21.9%
Mistral Large 3	36	29	25	11	8	21.8%
Gemini 2.5 Flash (Reasoning)	38	34	21	15	0	21.5%
Ministral 8B	58	31	10	1	0	19.9%
Gemma 3 4B	26	25	14	14	14	18.7%
Mistral NeMO	33	28	17	15	0	18.6%
DeepSeek V3 (2025-03-24)	34	31	17	2	0	16.9%
ByteDance Seed 2.0 Mini	30	30	24	0	0	16.8%
Arcee AI: Trinity Mini	28	23	16	14	0	16.2%
Qwen 3.6 35B	54	16	11	0	0	16.1%
Gemini 3.1 Flash Lite (Preview)	40	26	7	2	0	15.2%
ByteDance Seed 2.0 Lite	39	14	11	9	2	15.0%
Grok 4.3 (Reasoning)	35	31	8	0	0	15.0%
Qwen 3.5 397B A17B	35	35	5	0	0	14.9%
Nemotron 3 Nano	49	18	7	0	0	14.9%
Gemini 3.5 Flash (Reasoning, Minimal)	38	17	13	2	0	14.1%
Qwen3.7 Max	51	17	0	0	0	13.6%
Z.AI GLM 4.7	28	15	11	8	5	13.4%
Qwen 3.5 35B	30	25	9	0	0	12.9%
GPT-5.4 Nano	33	24	4	1	1	12.6%
Mistral Large 2	31	16	9	8	0	12.6%
GPT-5 Mini	37	16	5	4	0	12.5%
Ministral 3B	27	21	11	2	0	12.0%
Qwen 3.5 Flash	38	15	6	0	0	11.7%
Qwen 3 32B	21	19	10	0	0	9.9%
ByteDance Seed 1.6	41	8	0	0	0	9.9%
GPT-5.4 Nano (Reasoning, Low)	19	15	7	4	3	9.4%
Grok 4.3	29	12	3	1	0	9.0%
Gemini 3.1 Flash Lite	42	0	0	0	0	8.4%
Gemma 4 31B	25	13	0	0	0	7.8%
Gemma 4 31B (Reasoning)	14	11	10	0	0	7.1%
GPT-5.4 Nano (Reasoning)	24	9	0	0	0	6.4%
Gemini 3 Flash (Preview)	12	10	4	3	0	5.9%
Gemma 4 26B (Reasoning)	16	13	0	0	0	5.7%
Qwen 2.5 72B	15	11	1	0	0	5.1%
Qwen 3.5 9B	19	0	0	0	0	3.8%
DeepSeek V3 (2024-12-26)	18	0	0	0	0	3.6%
Gemma 4 26B	16	1	0	0	0	3.4%
Gemini 3 Flash (Preview, Reasoning)	13	1	0	0	0	2.8%
Nemotron 3 Super	12	0	0	0	0	2.3%
GPT-4o Mini (temp=0)	11	0	0	0	0	2.2%
GPT-5	11	0	0	0	0	2.2%
GPT-5.2	9	0	0	0	0	1.8%
Qwen 3.5 27B	5	0	0	0	0	1.1%
Qwen 3.5 122B	3	1	0	0	0	0.8%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%

Subject-first sentence starts

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets