Sentence opener variety

Test: Bad Writing Habits

Avg. Score

54.6%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-4o Mini (temp=1)	82.2%	$0.0012	34.8s	66%
2	GPT-4o, Aug. 6th (temp=1)	84.8%	$0.018	24.4s	66%
3	Cydonia 24B V4.1	80.1%	$0.0014	44.8s	58%
4	Claude Sonnet 5 (Reasoning, Low)	79.9%	$0.031	38.4s	62%
5	Hermes 3 405B	78.7%	$0.0032	53.2s	57%
6	DeepSeek V3 (2025-03-24)	77.8%	$0.0014	39.4s	56%
7	Claude Sonnet 5	77.5%	$0.027	33.5s	59%
8	Claude Sonnet 5 (Reasoning)	78.8%	$0.030	38.9s	59%
9	GPT-4.1 Mini	69.6%	$0.0027	19.0s	55%
10	Claude Sonnet 4	75.8%	$0.032	43.7s	58%
11	Claude Sonnet 4.5	72.8%	$0.035	38.1s	58%
12	Cohere Command R+ (Aug. 2024)	73.8%	$0.020	52.5s	52%
13	Hermes 3 70B	75.6%	$0.0010	1.2m	49%
14	GPT-4.1 Nano	64.7%	$0.0007	13.3s	51%
15	Z.AI GLM 4.5	68.1%	$0.0051	42.1s	50%
16	Grok 4.5 (Reasoning, High)	72.4%	$0.030	1.6m	57%
17	GPT-4.1	65.8%	$0.018	44.7s	54%
18	Grok 4.5 (Reasoning, Low)	69.1%	$0.018	1.1m	53%
19	Gemma 3 27B	65.9%	$0.0006	52.6s	48%
20	Gemma 3 12B	63.1%	$0.0004	41.3s	49%
21	Claude Opus 4.8 (Reasoning)	70.6%	$0.071	41.7s	56%
22	Claude Haiku 4.5	63.3%	$0.011	21.6s	49%
23	Claude Opus 4.8 (Reasoning, Low)	70.1%	$0.071	41.9s	56%
24	DeepSeek V3 (2024-12-26)	63.9%	$0.0021	54.6s	47%
25	Z.AI GLM 5 Turbo	62.5%	$0.0081	33.2s	47%
26	Claude Opus 4.7	69.1%	$0.069	30.4s	53%
27	GPT-4o Mini (temp=0)	62.1%	$0.0012	34.8s	45%
28	DeepSeek-V2 Chat	63.5%	$0.0021	53.3s	46%
29	Z.AI GLM 5	63.0%	$0.0084	1.2m	48%
30	Writer: Palmyra X5	58.2%	$0.011	22.0s	47%
31	Gemma 3 4B	57.9%	$0.0002	20.0s	44%
32	Llama 3.1 70B	60.5%	$0.0015	29.4s	43%
33	Qwen3 235B A22B Instruct 2507	58.7%	$0.0011	59.2s	46%
34	Z.AI GLM 4.5 Air	61.8%	$0.0029	58.2s	43%
35	Claude Opus 4.7 (Reasoning)	65.9%	$0.076	32.0s	50%
36	Gemini 2.5 Flash Lite	56.3%	$0.0009	9.5s	42%
37	Grok 4.3	56.6%	$0.0069	30.5s	44%
38	Grok 4.20	56.1%	$0.0093	45.7s	46%
39	Claude Sonnet 4.6	62.6%	$0.031	39.3s	43%
40	Gemini 3.5 Flash (Reasoning, Minimal)	57.5%	$0.018	12.0s	42%
41	Gemini 2.5 Flash	58.2%	$0.0052	10.6s	39%
42	Qwen 3.5 Plus (2026-02-15)	54.6%	$0.0060	31.5s	43%
43	Grok 4.20 (Reasoning)	59.0%	$0.018	1.5m	48%
44	DeepSeek V4 Flash	59.4%	$0.0006	31.6s	38%
45	Z.AI GLM 5.1	62.2%	$0.014	1.5m	44%
46	Qwen 3 32B	58.5%	$0.0015	54.6s	41%
47	o4 Mini	53.0%	$0.015	25.7s	45%
48	DeepSeek V4 Pro	61.4%	$0.0048	1.3m	42%
49	Gemini 2.5 Flash (Reasoning)	55.3%	$0.011	21.5s	42%
50	Mistral Small 4	54.9%	$0.0014	18.2s	40%
51	Claude Opus 4.5	62.7%	$0.070	53.4s	49%
52	GPT-4o, Aug. 6th (temp=0)	57.0%	$0.023	22.7s	42%
53	Z.AI GLM 5.2 (Reasoning, High)	57.0%	$0.011	1.0m	43%
54	DeepSeek V4 Flash (Reasoning)	57.1%	$0.0007	31.1s	38%
55	Qwen 2.5 72B	52.8%	$0.0010	36.7s	42%
56	MiniMax M2.7	57.3%	$0.0040	1.1m	41%
57	Arcee AI: Trinity Mini	55.9%	$0.0003	9.2s	36%
58	Gemini 2.5 Flash Lite (Reasoning)	53.0%	$0.0028	30.8s	40%
59	Mistral Medium 3.1	52.0%	$0.0048	36.5s	42%
60	MiniMax M2.5	56.9%	$0.0034	1.3m	41%
61	Mistral Large 2	51.7%	$0.013	29.4s	42%
62	Mistral Large 3	49.7%	$0.0033	30.3s	40%
63	Aion 3.0 Mini	58.2%	$0.0053	1.2m	38%
64	Mistral Small 4 (Reasoning)	50.1%	$0.0022	30.2s	39%
65	ByteDance Seed 1.6 Flash	50.8%	$0.0013	27.3s	37%
66	WizardLM 2 8x22b	57.4%	$0.0026	1.8m	40%
67	GPT-5.4 Mini (Reasoning, Low)	46.4%	$0.015	16.8s	41%
68	GPT-5.4 Mini	46.6%	$0.015	16.8s	41%
69	Ministral 3 14B	48.2%	$0.0007	11.7s	37%
70	Claude Sonnet 4.6 (Reasoning)	61.1%	$0.060	1.2m	43%
71	o4 Mini High	53.1%	$0.025	47.2s	40%
72	GPT-5.4	55.7%	$0.049	1.4m	46%
73	Xiaomi MIMO v2.5 Pro	50.4%	$0.0085	53.5s	39%
74	Ministral 3 8B	45.3%	$0.0008	19.6s	38%
75	Ministral 3B	46.8%	$0.0001	8.1s	36%
76	Xiaomi MIMO v2.5	47.2%	$0.0054	31.8s	38%
77	GPT-5.4 Mini (Reasoning)	47.7%	$0.022	28.1s	40%
78	Ministral 8B	44.3%	$0.0004	10.4s	37%
79	Nemotron 3 Super	48.5%	$0.0000	1.4m	41%
80	Aion 3.0	53.0%	$0.024	1.0m	38%
81	Mistral NeMO	46.4%	$0.0005	10.1s	34%
82	Ministral 3 3B	44.7%	$0.0005	11.1s	35%
83	Aion 2.0	49.4%	$0.0064	1.3m	39%
84	Gemini 2.5 Pro	50.7%	$0.036	36.2s	39%
85	GPT-5.4 Nano (Reasoning)	41.2%	$0.0061	24.5s	39%
86	GPT-5.4 Nano (Reasoning, Low)	40.7%	$0.0055	20.6s	39%
87	GPT-5.4 (Reasoning, Low)	53.8%	$0.055	1.4m	44%
88	Inception Mercury 2	41.1%	$0.0032	7.0s	36%
89	GPT-5.4 Nano	40.5%	$0.0057	26.3s	39%
90	Claude Opus 4	72.7%	$0.209	1.4m	57%
91	Z.AI GLM 4.6	47.4%	$0.0065	51.5s	36%
92	DeepSeek V3.2	47.8%	$0.0014	1.9m	40%
93	GPT-5.1	54.4%	$0.054	1.8m	44%
94	Gemini 3.1 Flash Lite	43.6%	$0.0030	12.1s	33%
95	Gemini 3 Flash (Preview)	43.7%	$0.0078	19.6s	34%
96	MoonshotAI: Kimi K2.5	57.7%	$0.019	3.2m	42%
97	Gemini 3.1 Flash Lite (Reasoning)	43.4%	$0.0030	11.9s	32%
98	Gemini 3.1 Flash Lite (Preview)	43.2%	$0.0030	8.4s	32%
99	DeepSeek V4 Pro (Reasoning)	57.6%	$0.015	3.1m	40%
100	Claude Opus 4.6	55.1%	$0.078	1.2m	42%
101	Claude Opus 4.6 (Reasoning)	57.2%	$0.088	1.4m	43%
102	Gemini 3 Flash (Preview, Reasoning)	43.5%	$0.012	30.1s	33%
103	Grok 4.3 (Reasoning)	53.5%	$0.021	2.3m	38%
104	DeepSeek V3.1	51.6%	$0.0020	1.8m	33%
105	Z.AI GLM 4.7	45.1%	$0.010	1.4m	37%
106	GPT-5 Mini	41.9%	$0.0100	57.4s	36%
107	GPT-OSS 120B	43.5%	$0.0015	1.8m	37%
108	Z.AI GLM 4.7 Flash	43.1%	$0.0017	1.2m	34%
109	Qwen 3.6 Flash	46.5%	$0.010	41.4s	31%
110	Gemini 3.5 Flash (Reasoning)	50.3%	$0.071	37.6s	38%
111	ByteDance Seed 2.0 Lite	55.7%	$0.012	2.2m	32%
112	Gemma 4 26B	39.7%	$0.0009	55.1s	33%
113	Qwen 3.5 Flash	38.0%	$0.0025	47.5s	34%
114	Nemotron 3 Nano	40.9%	$0.0010	1.1m	33%
115	Gemma 4 31B	43.1%	$0.0010	1.6m	34%
116	ByteDance Seed 1.6	51.7%	$0.013	2.5m	34%
117	Qwen 3.6 35B	43.0%	$0.0083	1.0m	30%
118	GPT-5.2	42.7%	$0.056	1.5m	41%
119	Qwen 3.5 Plus (2026-04-20)	47.5%	$0.017	1.8m	32%
120	MiniMax M3	50.9%	$0.0060	3.1m	34%
121	Gemma 4 31B (Reasoning)	41.0%	$0.0014	2.2m	34%
122	GPT-5.4 (Reasoning)	53.8%	$0.089	2.6m	42%
123	Qwen 3.5 122B	37.9%	$0.025	1.1m	33%
124	Qwen 3.6 27B	46.7%	$0.025	2.3m	33%
125	Gemma 4 26B (Reasoning)	39.8%	$0.0013	2.0m	32%
126	Qwen 3.5 9B	37.1%	$0.0011	1.4m	30%
127	Qwen 3.5 35B	35.7%	$0.018	1.0m	31%
128	Qwen 3.5 27B	37.5%	$0.020	1.6m	33%
129	GPT-5 Nano	33.5%	$0.0042	1.4m	31%
130	Qwen 3.5 397B A17B	42.7%	$0.014	3.0m	34%
131	Gemini 3.1 Pro (Preview)	49.1%	$0.107	1.8m	37%
132	ByteDance Seed 2.0 Mini	50.8%	$0.0045	4.9m	36%
133	Qwen3.7 Max	45.2%	$0.068	2.3m	35%
134	Qwen3.6 Max Preview	48.2%	$0.050	3.5m	35%
135	GPT-5.5 (Reasoning)	48.3%	$0.142	1.8m	41%
136	GPT-5	44.5%	$0.065	2.8m	36%
137	GPT-5.5 (Reasoning, Low)	48.4%	$0.139	1.8m	40%
138	GPT-5.5	48.2%	$0.139	1.7m	39%
139	MoonshotAI: Kimi K2.6	52.9%	$0.058	6.5m	39%
140	Mistral Small 3.2 24B	37.6%	$0.0068	5.6m	30%
54.64%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cydonia 24B V4.1	99	98	98	97	95	97.5%
DeepSeek V3 (2025-03-24)	100	98	94	92	83	93.4%
Claude Sonnet 5 (Reasoning, Low)	96	96	95	90	85	92.3%
GPT-4o Mini (temp=1)	100	98	89	87	82	91.2%
Grok 4.5 (Reasoning, High)	99	98	89	83	76	89.0%
Claude Sonnet 5 (Reasoning)	96	90	88	87	81	88.3%
Aion 3.0 Mini	93	91	89	82	77	86.4%
Claude Sonnet 5	94	93	87	83	75	86.3%
Hermes 3 405B	99	96	87	84	63	85.8%
Claude Opus 4.7 (Reasoning)	93	93	81	80	79	85.2%
GPT-4o, Aug. 6th (temp=1)	98	97	79	77	71	84.4%
Hermes 3 70B	99	97	82	72	70	84.0%
Claude Sonnet 4	100	90	84	75	70	83.9%
DeepSeek V3 (2024-12-26)	91	84	82	81	65	80.8%
Claude Opus 4.7	91	88	80	73	72	80.8%
DeepSeek-V2 Chat	98	95	81	65	61	79.9%
Claude Opus 4.8 (Reasoning)	88	83	79	75	74	79.7%
Z.AI GLM 5	84	83	81	79	71	79.6%
Claude Sonnet 4.5	94	81	80	80	62	79.4%
DeepSeek V4 Flash	84	84	82	79	64	78.7%
Gemma 3 12B	99	87	74	72	62	78.6%
DeepSeek V4 Pro	87	86	80	75	63	78.3%
Claude Sonnet 4.6	80	80	79	75	74	77.7%
DeepSeek V4 Pro (Reasoning)	100	91	71	65	60	77.6%
DeepSeek V4 Flash (Reasoning)	83	80	78	76	70	77.6%
Z.AI GLM 5.1	88	84	77	70	66	77.0%
Z.AI GLM 5 Turbo	84	81	77	75	67	77.0%
Grok 4.5 (Reasoning, Low)	80	80	79	74	69	76.4%
Claude Opus 4.8 (Reasoning, Low)	81	80	77	75	68	76.4%
Claude Haiku 4.5	86	76	73	72	70	75.3%
Gemma 3 4B	94	80	73	65	62	74.8%
ByteDance Seed 2.0 Lite	100	90	88	55	41	74.6%
Gemma 3 27B	83	82	78	66	58	73.3%
Gemini 2.5 Flash	92	84	77	58	54	73.1%
MiniMax M3	74	73	73	72	72	72.7%
Claude Sonnet 4.6 (Reasoning)	82	80	76	67	56	72.4%
ByteDance Seed 1.6	85	72	72	71	60	72.3%
Z.AI GLM 4.5	83	76	75	70	56	72.1%
MiniMax M2.7	81	78	69	66	65	71.9%
Qwen3 235B A22B Instruct 2507	88	78	70	63	58	71.5%
Claude Opus 4	82	80	72	71	53	71.4%
Aion 3.0	84	77	76	62	56	71.0%
GPT-4o Mini (temp=0)	79	76	75	65	61	70.9%
GPT-4.1	84	72	70	64	64	70.8%
Claude Opus 4.6 (Reasoning)	79	72	72	67	63	70.6%
Gemini 2.5 Flash (Reasoning)	78	75	69	64	63	70.0%
Z.AI GLM 4.5 Air	88	79	64	64	55	69.8%
MoonshotAI: Kimi K2.5	75	73	72	65	64	69.8%
MoonshotAI: Kimi K2.6	97	73	60	60	59	69.8%
Claude Opus 4.5	75	72	68	67	66	69.6%
Grok 4.3	93	80	62	60	50	68.8%
Cohere Command R+ (Aug. 2024)	90	73	67	58	55	68.7%
Gemini 3.5 Flash (Reasoning, Minimal)	77	74	71	65	53	68.1%
Grok 4.20	75	74	64	64	58	67.0%
Claude Opus 4.6	73	71	63	62	61	65.9%
GPT-5.4 (Reasoning)	76	70	67	60	56	65.9%
GPT-4.1 Mini	75	68	65	64	57	65.8%
Grok 4.3 (Reasoning)	79	69	66	62	53	65.8%
GPT-5.4 (Reasoning, Low)	77	68	65	58	56	64.8%
Mistral Large 2	76	75	70	57	46	64.7%
Gemini 2.5 Flash Lite	77	71	64	63	47	64.6%
Grok 4.20 (Reasoning)	72	70	67	64	50	64.5%
Z.AI GLM 5.2 (Reasoning, High)	73	63	62	61	57	63.3%
Writer: Palmyra X5	72	66	61	59	55	62.5%
GPT-5.4	72	63	63	60	55	62.4%
GPT-4.1 Nano	69	68	65	58	50	62.2%
GPT-5.4 Mini (Reasoning)	70	64	61	57	54	61.2%
Xiaomi MIMO v2.5 Pro	69	65	63	57	50	60.9%
Gemini 3.1 Flash Lite (Preview)	70	69	57	57	51	60.8%
Gemini 2.5 Pro	65	63	60	56	56	59.9%
ByteDance Seed 2.0 Mini	82	70	57	49	39	59.4%
WizardLM 2 8x22b	73	59	59	53	52	59.2%
Gemini 3.1 Pro (Preview)	76	62	53	52	51	58.7%
GPT-5.5	66	61	59	57	50	58.6%
Mistral Small 4 (Reasoning)	73	72	52	52	43	58.5%
MiniMax M2.5	80	69	55	48	40	58.4%
ByteDance Seed 1.6 Flash	81	63	58	47	43	58.4%
GPT-5.5 (Reasoning, Low)	60	59	57	57	55	57.8%
Mistral Small 4	72	59	57	54	44	57.3%
Gemini 2.5 Flash Lite (Reasoning)	62	59	58	56	51	57.2%
Qwen 3.6 Flash	64	63	63	62	33	57.2%
Aion 2.0	64	61	60	51	47	56.8%
Nemotron 3 Super	62	58	55	55	53	56.8%
Qwen3.6 Max Preview	71	59	56	55	42	56.7%
Qwen 3.5 Plus (2026-02-15)	67	65	55	49	47	56.5%
o4 Mini	64	62	55	54	47	56.4%
GPT-5.5 (Reasoning)	62	59	57	56	47	56.2%
Ministral 3 3B	98	53	50	46	33	56.1%
Gemini 3.1 Flash Lite (Reasoning)	68	67	53	51	38	55.4%
Ministral 3 8B	73	55	54	48	46	55.2%
Llama 3.1 70B	68	62	51	48	46	55.0%
Z.AI GLM 4.7	63	57	55	54	45	54.8%
Qwen 3.6 35B	64	63	57	49	40	54.5%
Arcee AI: Trinity Mini	72	61	49	46	44	54.4%
DeepSeek V3.2	61	55	54	54	47	54.3%
DeepSeek V3.1	67	61	52	46	45	54.3%
GPT-5.1	60	58	56	56	41	54.3%
Qwen 3.5 9B	80	67	49	41	32	53.9%
o4 Mini High	70	54	48	47	46	53.0%
Ministral 3 14B	69	53	51	51	41	52.8%
Gemma 4 31B (Reasoning)	60	56	53	48	47	52.6%
Gemma 4 31B	66	60	51	44	42	52.5%
Qwen 3.6 27B	64	59	53	46	39	52.5%
Mistral Medium 3.1	56	56	55	50	44	52.4%
Gemini 3.5 Flash (Reasoning)	59	57	52	49	45	52.2%
Nemotron 3 Nano	64	62	60	44	32	52.2%
Qwen 3 32B	61	60	48	46	45	52.1%
GPT-5.4 Mini	63	53	50	46	42	50.9%
Gemini 3.1 Flash Lite	59	56	53	51	33	50.4%
GPT-5	60	55	50	48	37	50.0%
Mistral Large 3	58	51	49	47	44	50.0%
Xiaomi MIMO v2.5	64	51	50	40	39	48.9%
GPT-OSS 120B	62	51	48	42	41	48.7%
Gemini 3 Flash (Preview, Reasoning)	57	51	47	46	43	48.7%
GPT-4o, Aug. 6th (temp=0)	50	50	49	49	46	48.7%
GPT-5.4 Mini (Reasoning, Low)	54	52	48	47	43	48.7%
Z.AI GLM 4.7 Flash	63	50	46	45	39	48.6%
Z.AI GLM 4.6	56	55	50	45	36	48.4%
Qwen 3.5 397B A17B	59	52	45	44	42	48.4%
Qwen 2.5 72B	61	52	46	43	40	48.3%
GPT-5 Mini	56	53	47	41	38	47.1%
Qwen3.7 Max	64	46	44	41	40	47.0%
Ministral 8B	49	48	47	44	41	45.8%
GPT-5.2	49	45	45	44	44	45.5%
Ministral 3B	58	46	46	41	34	45.1%
Gemma 4 26B (Reasoning)	62	50	43	41	28	45.0%
Gemini 3 Flash (Preview)	57	50	42	38	38	44.8%
GPT-5.4 Nano (Reasoning, Low)	48	47	45	43	39	44.6%
Mistral NeMO	56	54	43	35	34	44.4%
Qwen 3.5 Plus (2026-04-20)	57	50	41	37	36	44.2%
Gemma 4 26B	51	49	42	41	37	43.9%
GPT-5.4 Nano	46	44	44	41	38	42.7%
GPT-5.4 Nano (Reasoning)	44	43	42	40	39	41.4%
Qwen 3.5 122B	42	42	40	40	40	40.8%
Qwen 3.5 27B	42	41	41	39	39	40.4%
Inception Mercury 2	45	41	40	37	37	40.0%
Qwen 3.5 Flash	43	40	40	36	32	38.4%
Mistral Small 3.2 24B	45	41	40	38	25	37.7%
Qwen 3.5 35B	44	41	37	33	29	36.8%
GPT-5 Nano	35	34	32	28	25	30.8%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
DeepSeek V3 (2025-03-24)	100	94	85	79	77	86.9%
GPT-4o Mini (temp=1)	86	86	85	85	73	82.9%
Cydonia 24B V4.1	96	88	88	67	66	81.2%
Hermes 3 70B	100	98	84	75	35	78.5%
GPT-4o, Aug. 6th (temp=1)	99	83	77	72	53	76.7%
Cohere Command R+ (Aug. 2024)	95	78	75	73	58	75.8%
Hermes 3 405B	100	100	64	57	56	75.5%
Claude Sonnet 4	83	74	73	70	69	74.0%
Claude Sonnet 5 (Reasoning, Low)	86	79	71	70	61	73.5%
Claude Opus 4.8 (Reasoning, Low)	76	75	74	72	68	72.9%
Claude Sonnet 5 (Reasoning)	82	81	76	63	59	72.4%
Claude Sonnet 4.5	79	76	75	73	58	72.2%
Claude Sonnet 5	81	71	71	67	67	71.3%
Grok 4.5 (Reasoning, High)	84	75	71	66	60	71.3%
DeepSeek V3 (2024-12-26)	78	76	76	64	44	67.4%
Claude Opus 4	87	82	63	58	44	67.0%
Gemma 3 27B	78	67	66	64	58	66.8%
GPT-4.1	71	70	68	63	61	66.4%
Mistral Small 4	100	73	56	53	48	66.0%
Claude Opus 4.5	74	66	66	61	60	65.3%
Claude Opus 4.8 (Reasoning)	74	69	66	61	56	65.1%
Claude Opus 4.7	74	68	60	58	57	63.5%
DeepSeek-V2 Chat	79	79	70	44	44	63.0%
Aion 3.0 Mini	69	66	63	61	54	62.3%
Claude Opus 4.7 (Reasoning)	66	65	61	60	57	61.9%
Z.AI GLM 5.1	72	67	58	56	55	61.5%
DeepSeek V4 Pro	75	60	60	58	54	61.5%
Gemini 3.5 Flash (Reasoning, Minimal)	92	58	57	49	46	60.6%
Z.AI GLM 5 Turbo	68	64	59	59	52	60.5%
DeepSeek V4 Flash	74	66	57	51	50	59.7%
MiniMax M3	68	65	63	60	41	59.6%
GPT-4.1 Mini	66	64	63	53	51	59.5%
Z.AI GLM 4.5	73	63	58	57	46	59.2%
Grok 4.5 (Reasoning, Low)	71	60	57	54	53	58.9%
DeepSeek V4 Pro (Reasoning)	70	69	64	47	44	58.9%
Z.AI GLM 5	72	56	56	54	53	58.1%
Claude Opus 4.6 (Reasoning)	65	65	60	58	42	58.0%
Qwen 3.6 27B	78	67	52	49	44	57.9%
MiniMax M2.7	68	62	57	57	45	57.9%
Qwen 3.5 Plus (2026-04-20)	87	56	56	46	38	56.6%
Writer: Palmyra X5	72	60	52	52	45	56.4%
Claude Sonnet 4.6	60	59	56	53	46	54.9%
Claude Opus 4.6	62	61	56	54	41	54.9%
GPT-5.4	61	55	54	53	50	54.8%
MiniMax M2.5	56	55	55	54	53	54.6%
Qwen3 235B A22B Instruct 2507	64	58	56	48	47	54.5%
DeepSeek V4 Flash (Reasoning)	74	61	54	47	35	54.3%
Claude Sonnet 4.6 (Reasoning)	64	54	53	51	49	54.2%
MoonshotAI: Kimi K2.5	65	56	52	49	48	53.8%
Claude Haiku 4.5	60	56	53	51	43	52.7%
Gemini 2.5 Flash Lite (Reasoning)	65	58	49	46	42	52.1%
Gemini 3.5 Flash (Reasoning)	60	58	58	44	39	51.8%
Gemini 3.1 Pro (Preview)	64	56	51	47	41	51.8%
GPT-4.1 Nano	60	54	51	47	45	51.7%
DeepSeek V3.1	81	50	46	41	40	51.6%
Z.AI GLM 5.2 (Reasoning, High)	63	59	49	48	38	51.4%
GPT-4o Mini (temp=0)	59	53	50	47	47	51.2%
Arcee AI: Trinity Mini	76	50	43	43	40	50.5%
WizardLM 2 8x22b	68	59	44	41	38	50.1%
GPT-5.4 (Reasoning)	60	52	50	44	44	50.1%
GPT-5.4 (Reasoning, Low)	57	56	48	47	43	49.9%
Gemini 2.5 Flash Lite	56	53	52	48	38	49.6%
ByteDance Seed 2.0 Lite	65	50	47	47	36	49.0%
Z.AI GLM 4.5 Air	68	53	48	41	35	49.0%
Aion 3.0	58	54	48	45	39	48.8%
Mistral Large 3	56	53	52	45	37	48.6%
Gemma 3 12B	60	50	46	46	39	48.3%
GPT-5.1	54	51	50	44	40	47.8%
Qwen 3 32B	56	51	47	42	41	47.7%
Ministral 3 14B	71	52	42	37	36	47.6%
GPT-4o, Aug. 6th (temp=0)	56	47	46	45	43	47.5%
Gemini 2.5 Flash (Reasoning)	66	46	43	41	40	47.3%
Xiaomi MIMO v2.5 Pro	60	51	45	41	38	47.1%
Grok 4.20 (Reasoning)	52	47	45	45	43	46.5%
Nemotron 3 Super	60	46	43	43	40	46.3%
Gemma 3 4B	53	53	49	37	37	45.9%
Gemini 2.5 Pro	54	50	45	40	38	45.5%
Grok 4.20	49	46	45	44	42	45.4%
Mistral Small 4 (Reasoning)	53	47	47	42	37	45.3%
Gemini 2.5 Flash	56	45	43	42	40	45.3%
Mistral Medium 3.1	55	49	47	42	32	45.2%
Mistral NeMO	55	53	44	38	35	45.2%
GPT-5.5 (Reasoning, Low)	49	48	45	43	41	45.1%
Llama 3.1 70B	70	44	43	41	25	44.9%
o4 Mini	47	47	46	44	41	44.8%
Z.AI GLM 4.7 Flash	54	45	45	42	37	44.5%
Grok 4.3 (Reasoning)	48	44	44	43	43	44.4%
o4 Mini High	50	48	45	41	39	44.4%
Inception Mercury 2	55	45	42	40	40	44.3%
GPT-5.5	54	46	41	41	39	44.2%
Z.AI GLM 4.7	54	51	48	34	33	44.0%
Qwen 3.6 35B	69	48	38	34	29	43.6%
Aion 2.0	49	47	42	42	38	43.5%
GPT-5.5 (Reasoning)	50	45	43	41	37	43.0%
Mistral Large 2	54	47	44	36	33	42.7%
GPT-5.4 Mini (Reasoning)	43	43	42	42	41	42.3%
GPT-OSS 120B	46	44	42	41	39	42.2%
Grok 4.3	47	44	42	41	37	42.2%
Gemini 3.1 Flash Lite (Preview)	49	48	38	37	34	41.6%
GPT-5.4 Mini	46	42	42	40	38	41.6%
Ministral 3 3B	55	45	40	40	27	41.5%
GPT-5.4 Mini (Reasoning, Low)	42	42	41	41	39	41.2%
ByteDance Seed 1.6	56	49	36	34	31	41.1%
Qwen3.6 Max Preview	64	41	39	35	25	40.8%
Qwen 3.5 397B A17B	44	43	40	40	35	40.5%
Qwen 2.5 72B	43	43	41	39	36	40.5%
DeepSeek V3.2	47	46	42	34	33	40.2%
ByteDance Seed 1.6 Flash	42	41	40	40	38	40.0%
Qwen 3.5 Plus (2026-02-15)	43	42	41	38	34	39.7%
Ministral 3 8B	45	42	39	39	34	39.7%
GPT-5	46	42	37	37	35	39.4%
Qwen 3.6 Flash	44	42	38	37	35	39.4%
GPT-5 Mini	44	41	40	37	33	38.9%
Ministral 3B	48	44	37	37	27	38.7%
GPT-5.2	45	40	38	38	34	38.7%
ByteDance Seed 2.0 Mini	48	39	37	35	35	38.7%
MoonshotAI: Kimi K2.6	44	39	37	36	36	38.6%
Gemma 4 31B (Reasoning)	52	38	36	36	30	38.6%
Gemini 3.1 Flash Lite	42	41	37	34	32	37.2%
GPT-5.4 Nano (Reasoning)	40	37	36	36	34	36.8%
Qwen3.7 Max	41	39	37	34	33	36.8%
Gemini 3.1 Flash Lite (Reasoning)	44	41	35	30	30	36.2%
GPT-5.4 Nano (Reasoning, Low)	39	38	35	35	33	36.1%
Gemini 3 Flash (Preview, Reasoning)	39	38	36	34	33	35.9%
GPT-5.4 Nano	38	36	36	35	34	35.7%
Qwen 3.5 9B	44	39	33	31	31	35.5%
Z.AI GLM 4.6	43	36	34	33	29	35.2%
Ministral 8B	38	36	35	33	33	35.1%
Qwen 3.5 27B	41	38	35	31	30	35.0%
Gemini 3 Flash (Preview)	37	36	35	35	32	35.0%
Gemma 4 31B	43	35	34	33	30	34.8%
Qwen 3.5 122B	39	36	33	32	32	34.3%
Nemotron 3 Nano	45	38	32	28	26	34.0%
Xiaomi MIMO v2.5	35	35	35	34	30	33.8%
Qwen 3.5 Flash	38	37	34	32	28	33.6%
Mistral Small 3.2 24B	44	38	37	25	25	33.6%
Gemma 4 26B (Reasoning)	43	33	30	30	25	32.2%
Gemma 4 26B	36	34	33	29	25	31.4%
Qwen 3.5 35B	36	30	30	28	25	29.9%
GPT-5 Nano	25	25	25	25	25	25.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	99	98	98	91	87	94.4%
GPT-4o Mini (temp=1)	98	95	93	81	79	89.3%
Grok 4.5 (Reasoning, Low)	99	95	86	80	73	86.5%
Claude Sonnet 5 (Reasoning)	97	95	82	81	75	86.1%
Grok 4.5 (Reasoning, High)	100	96	84	74	73	85.5%
DeepSeek V3 (2025-03-24)	100	92	86	80	69	85.3%
Claude Sonnet 5 (Reasoning, Low)	95	94	89	84	66	85.3%
Cydonia 24B V4.1	98	97	81	76	73	85.0%
Hermes 3 70B	96	95	83	79	67	83.9%
Claude Sonnet 4	92	89	85	76	71	82.5%
Cohere Command R+ (Aug. 2024)	95	82	82	77	75	82.1%
DeepSeek V3 (2024-12-26)	90	88	77	77	74	81.2%
Z.AI GLM 4.5 Air	93	90	79	78	59	79.6%
Hermes 3 405B	93	88	78	77	60	79.4%
Claude Sonnet 4.5	95	80	77	75	68	79.3%
Claude Opus 4	88	82	76	75	70	78.4%
Z.AI GLM 4.5	90	82	78	69	67	77.0%
Gemini 2.5 Flash	100	76	75	68	64	76.6%
Claude Sonnet 5	81	78	75	73	67	74.9%
GPT-4.1 Mini	91	82	78	68	55	74.8%
GPT-4o Mini (temp=0)	76	75	75	74	68	73.6%
Z.AI GLM 5.1	81	81	72	72	61	73.4%
DeepSeek-V2 Chat	95	84	67	66	53	72.9%
Claude Opus 4.8 (Reasoning, Low)	87	69	68	66	61	70.1%
DeepSeek V4 Flash (Reasoning)	79	78	76	67	50	70.0%
Gemma 3 12B	82	74	72	67	53	69.7%
Z.AI GLM 5	89	68	66	61	59	68.4%
DeepSeek V4 Pro	79	74	67	66	56	68.3%
Mistral Medium 3.1	90	74	63	61	53	68.1%
Grok 4.3	94	82	60	57	45	67.7%
Claude Opus 4.8 (Reasoning)	77	72	66	65	56	67.3%
Z.AI GLM 5 Turbo	74	69	69	65	58	66.9%
Claude Opus 4.5	78	73	66	62	55	66.6%
GPT-4o, Aug. 6th (temp=0)	82	74	65	62	50	66.6%
Z.AI GLM 4.6	81	72	66	63	51	66.6%
GPT-4.1 Nano	74	72	72	62	52	66.3%
GPT-4.1	69	69	65	65	64	66.2%
Claude Opus 4.7 (Reasoning)	69	68	68	66	58	65.9%
MiniMax M2.5	73	73	69	62	52	65.8%
ByteDance Seed 1.6	97	69	55	55	54	65.7%
Gemini 2.5 Flash (Reasoning)	97	65	63	58	46	65.7%
Gemma 3 27B	75	67	64	61	59	65.3%
Grok 4.20 (Reasoning)	71	67	66	61	60	65.0%
DeepSeek V4 Flash	74	72	67	57	50	63.8%
Qwen 3 32B	78	71	65	53	49	63.3%
Claude Opus 4.7	70	65	65	60	56	63.3%
Qwen 3.5 Plus (2026-02-15)	69	67	63	60	57	63.3%
Mistral Large 2	75	68	58	58	57	63.2%
DeepSeek V4 Pro (Reasoning)	67	64	62	61	59	62.6%
Writer: Palmyra X5	71	70	65	52	51	61.9%
Gemini 2.5 Flash Lite	73	67	59	56	55	61.9%
Claude Sonnet 4.6 (Reasoning)	69	64	63	59	53	61.6%
Arcee AI: Trinity Mini	93	71	58	47	39	61.5%
Gemini 2.5 Flash Lite (Reasoning)	68	67	62	57	50	60.8%
Aion 3.0 Mini	68	68	63	62	43	60.6%
Claude Sonnet 4.6	79	60	59	53	51	60.4%
MiniMax M2.7	72	67	61	51	46	59.5%
WizardLM 2 8x22b	71	64	59	53	51	59.4%
Gemma 3 4B	71	65	58	52	45	58.4%
Qwen 2.5 72B	64	58	57	56	55	58.0%
Aion 3.0	76	59	58	55	42	58.0%
Claude Opus 4.6	65	63	61	54	47	57.9%
Claude Haiku 4.5	75	59	55	53	48	57.9%
Llama 3.1 70B	68	68	62	58	32	57.4%
Claude Opus 4.6 (Reasoning)	63	61	59	56	49	57.3%
Grok 4.20	68	58	56	55	48	57.0%
o4 Mini High	77	64	50	49	43	56.7%
MoonshotAI: Kimi K2.5	66	62	57	53	43	56.3%
Mistral Large 3	61	59	57	52	46	55.1%
Z.AI GLM 5.2 (Reasoning, High)	62	58	56	55	44	55.0%
Qwen3 235B A22B Instruct 2507	67	65	52	45	44	54.4%
MoonshotAI: Kimi K2.6	69	56	53	51	42	54.1%
Gemini 3.1 Flash Lite	65	58	53	50	43	54.0%
Aion 2.0	61	61	54	49	44	53.6%
Xiaomi MIMO v2.5 Pro	57	55	53	52	50	53.4%
Xiaomi MIMO v2.5	61	55	53	49	49	53.2%
Mistral Small 4	69	54	52	48	43	53.1%
o4 Mini	59	59	54	48	46	52.9%
ByteDance Seed 1.6 Flash	58	56	53	51	45	52.8%
Gemini 2.5 Pro	62	59	58	46	38	52.5%
Qwen 3.6 Flash	65	61	54	45	35	52.0%
Qwen3.6 Max Preview	66	55	55	44	38	51.6%
DeepSeek V3.2	53	52	50	50	49	50.9%
Grok 4.3 (Reasoning)	65	56	49	44	40	50.7%
Nemotron 3 Super	57	54	51	47	43	50.6%
Qwen3.7 Max	58	55	52	45	42	50.4%
Mistral Small 4 (Reasoning)	51	51	50	47	46	49.2%
Gemini 3.1 Pro (Preview)	53	50	48	48	47	49.0%
ByteDance Seed 2.0 Lite	59	58	44	42	38	48.3%
Ministral 3 14B	53	53	47	46	42	48.2%
Ministral 3B	53	48	48	46	45	48.1%
Ministral 3 3B	55	47	47	45	42	47.4%
Gemini 3.5 Flash (Reasoning, Minimal)	56	53	50	44	35	47.3%
Ministral 3 8B	51	48	46	46	45	47.1%
GPT-5.4	51	48	47	46	43	46.9%
Gemini 3.5 Flash (Reasoning)	55	48	46	43	41	46.4%
Ministral 8B	48	47	47	45	41	45.9%
GPT-5.4 (Reasoning, Low)	51	46	45	44	43	45.7%
GPT-5.4 Mini	48	47	45	44	43	45.5%
GPT-5.4 Mini (Reasoning)	48	48	46	44	39	45.1%
Nemotron 3 Nano	53	45	44	42	42	45.1%
Gemma 4 31B	52	51	43	39	38	44.6%
DeepSeek V3.1	56	48	44	41	33	44.6%
GPT-OSS 120B	47	47	44	43	42	44.5%
GPT-5.1	53	45	43	42	40	44.5%
GPT-5.5 (Reasoning)	48	44	44	43	43	44.4%
GPT-5.4 (Reasoning)	46	44	44	44	43	44.3%
GPT-5.5	46	45	44	44	43	44.2%
MiniMax M3	61	46	45	39	30	44.2%
GPT-5.5 (Reasoning, Low)	45	45	44	44	42	44.2%
GPT-5.4 Mini (Reasoning, Low)	47	45	43	43	42	44.0%
Inception Mercury 2	47	44	44	43	41	44.0%
GPT-5.2	46	44	44	43	42	43.8%
Qwen 3.5 Plus (2026-04-20)	50	47	43	43	36	43.7%
Z.AI GLM 4.7	54	47	43	37	37	43.7%
Mistral NeMO	49	48	44	43	34	43.6%
Qwen 3.5 397B A17B	48	45	44	41	38	43.3%
GPT-5.4 Nano (Reasoning)	44	44	44	43	41	43.1%
ByteDance Seed 2.0 Mini	59	43	41	38	34	43.1%
GPT-5.4 Nano	45	44	42	42	41	43.0%
Gemma 4 31B (Reasoning)	48	43	42	41	39	42.8%
GPT-5	55	43	39	37	37	42.2%
Qwen 3.6 35B	62	45	45	32	25	42.0%
Gemma 4 26B (Reasoning)	48	48	41	36	35	41.7%
GPT-5.4 Nano (Reasoning, Low)	44	43	42	41	39	41.6%
Mistral Small 3.2 24B	50	50	45	33	29	41.5%
Gemini 3 Flash (Preview, Reasoning)	54	44	37	37	35	41.3%
Gemini 3.1 Flash Lite (Reasoning)	54	39	39	38	33	40.3%
GPT-5 Mini	41	41	40	39	39	40.2%
Gemini 3.1 Flash Lite (Preview)	45	43	40	38	31	39.7%
Qwen 3.5 122B	46	41	40	35	32	38.9%
Gemini 3 Flash (Preview)	40	38	38	38	38	38.5%
Z.AI GLM 4.7 Flash	43	43	34	34	33	37.6%
Qwen 3.6 27B	43	42	39	34	29	37.5%
Qwen 3.5 9B	42	41	39	37	29	37.5%
Qwen 3.5 27B	41	40	36	34	34	37.1%
GPT-5 Nano	40	38	37	36	35	37.1%
Qwen 3.5 Flash	38	38	38	36	30	35.9%
Gemma 4 26B	39	39	38	32	30	35.5%
Qwen 3.5 35B	39	38	37	37	25	35.5%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	100	100	98	98	92	97.7%
Hermes 3 405B	99	98	95	95	91	95.7%
Claude Sonnet 5 (Reasoning, Low)	98	97	96	94	90	94.8%
Claude Sonnet 5	96	95	94	92	90	93.5%
Claude Sonnet 5 (Reasoning)	97	97	92	92	89	93.3%
DeepSeek V3 (2025-03-24)	100	99	96	88	81	92.7%
Cohere Command R+ (Aug. 2024)	97	97	95	94	69	90.5%
DeepSeek V4 Flash	98	97	92	89	76	90.4%
Grok 4.5 (Reasoning, High)	95	94	89	88	86	90.3%
DeepSeek V4 Pro	97	91	89	88	87	90.2%
Cydonia 24B V4.1	98	97	97	78	78	89.7%
Z.AI GLM 4.5	100	97	88	84	77	89.1%
Z.AI GLM 4.5 Air	98	96	92	83	76	89.1%
Claude Opus 4.7	98	93	91	83	74	87.9%
Hermes 3 70B	100	96	92	85	63	87.3%
GPT-4o Mini (temp=1)	92	89	89	84	74	85.6%
DeepSeek V4 Flash (Reasoning)	99	90	88	77	74	85.4%
Claude Opus 4	94	90	89	77	73	84.6%
Claude Sonnet 4.5	97	90	85	75	75	84.5%
Grok 4.5 (Reasoning, Low)	90	88	83	81	80	84.5%
Claude Sonnet 4.6	90	87	84	84	74	83.7%
GPT-4o Mini (temp=0)	89	87	87	81	74	83.4%
Claude Sonnet 4	95	84	80	79	74	82.5%
DeepSeek V4 Pro (Reasoning)	91	87	84	76	74	82.5%
Claude Opus 4.5	90	87	84	82	64	81.4%
Z.AI GLM 5 Turbo	97	89	78	72	71	81.4%
Claude Opus 4.8 (Reasoning)	84	81	79	79	76	79.8%
GPT-4.1 Mini	94	79	79	74	73	79.7%
MiniMax M2.7	95	85	77	72	69	79.4%
Z.AI GLM 5	82	82	80	77	73	78.8%
Claude Opus 4.7 (Reasoning)	84	83	81	75	72	78.7%
Claude Opus 4.6 (Reasoning)	87	80	78	76	72	78.7%
Z.AI GLM 5.2 (Reasoning, High)	95	91	72	66	66	78.0%
Gemini 2.5 Flash	100	82	73	72	63	78.0%
Gemma 3 27B	90	84	75	70	69	77.4%
MoonshotAI: Kimi K2.5	90	89	81	71	56	77.3%
GPT-4o, Aug. 6th (temp=0)	88	85	78	68	67	77.2%
MiniMax M2.5	95	77	71	68	66	75.3%
Aion 3.0	91	80	76	73	53	74.6%
Z.AI GLM 5.1	86	79	78	72	56	74.2%
Claude Opus 4.8 (Reasoning, Low)	78	77	73	72	68	73.6%
Qwen3 235B A22B Instruct 2507	77	76	76	76	61	73.2%
Gemma 3 12B	78	76	70	70	68	72.5%
Xiaomi MIMO v2.5 Pro	83	76	73	72	58	72.4%
GPT-4.1	80	80	69	69	64	72.3%
Aion 3.0 Mini	85	83	71	66	55	72.2%
GPT-4.1 Nano	81	78	68	67	66	72.0%
Claude Opus 4.6	93	82	66	59	59	71.8%
Claude Sonnet 4.6 (Reasoning)	88	86	67	61	57	71.7%
MiniMax M3	89	79	75	63	52	71.5%
WizardLM 2 8x22b	90	88	63	61	54	71.2%
DeepSeek-V2 Chat	84	83	75	60	54	71.0%
Aion 2.0	81	73	70	67	60	70.0%
DeepSeek V3.1	95	67	65	63	59	69.9%
Gemini 3.5 Flash (Reasoning, Minimal)	97	73	67	58	54	69.9%
Writer: Palmyra X5	81	70	68	65	64	69.8%
DeepSeek V3 (2024-12-26)	84	75	74	67	48	69.6%
Llama 3.1 70B	82	74	66	61	60	68.5%
Mistral Small 4	79	71	67	64	59	68.2%
GPT-5.4	72	68	68	68	63	67.8%
ByteDance Seed 2.0 Lite	100	73	68	52	46	67.8%
ByteDance Seed 1.6	74	70	66	64	63	67.2%
Claude Haiku 4.5	75	73	70	62	56	67.2%
GPT-5.1	74	74	68	59	58	66.8%
GPT-5.4 (Reasoning, Low)	73	67	67	65	62	66.6%
Arcee AI: Trinity Mini	79	76	66	62	50	66.6%
Gemini 3.1 Pro (Preview)	77	76	71	66	42	66.2%
Gemini 2.5 Flash Lite	88	65	64	59	57	66.2%
Grok 4.20	75	71	65	62	54	65.5%
Qwen 2.5 72B	73	68	68	59	59	65.4%
Grok 4.20 (Reasoning)	80	70	61	60	57	65.4%
Grok 4.3	79	69	61	60	57	65.1%
ByteDance Seed 2.0 Mini	92	70	58	56	45	64.4%
Ministral 3 3B	70	69	65	63	49	63.1%
Qwen 3.6 27B	81	68	63	61	42	62.9%
GPT-5.4 (Reasoning)	67	65	63	62	56	62.9%
ByteDance Seed 1.6 Flash	87	70	60	54	43	62.9%
GPT-5.5	68	67	67	59	54	62.8%
Gemini 3.5 Flash (Reasoning)	73	65	62	57	55	62.5%
Xiaomi MIMO v2.5	83	63	56	56	53	62.3%
Ministral 3 14B	79	79	54	50	49	62.1%
Ministral 3B	83	79	53	51	45	62.1%
Qwen3.6 Max Preview	75	69	64	53	49	61.8%
Gemini 2.5 Pro	72	71	69	49	48	61.7%
o4 Mini High	74	73	58	54	48	61.4%
Mistral NeMO	70	65	63	62	45	60.9%
Gemma 3 4B	74	63	56	55	54	60.5%
o4 Mini	73	62	62	54	51	60.4%
GPT-5.5 (Reasoning, Low)	66	63	61	56	54	60.1%
Qwen 3.6 Flash	87	65	59	52	38	60.1%
Gemini 3.1 Flash Lite	67	66	62	60	45	60.0%
GPT-5.5 (Reasoning)	64	64	59	58	54	59.5%
Gemini 2.5 Flash (Reasoning)	78	65	65	44	44	59.3%
Gemini 3.1 Flash Lite (Reasoning)	74	68	63	46	45	59.2%
Qwen 3.6 35B	83	65	53	52	43	59.1%
Qwen 3 32B	72	64	60	55	43	58.7%
Gemini 2.5 Flash Lite (Reasoning)	84	63	51	47	45	58.2%
Qwen3.7 Max	65	64	58	54	46	57.7%
DeepSeek V3.2	60	58	56	56	56	57.3%
Z.AI GLM 4.6	69	63	61	47	46	57.2%
Mistral Small 4 (Reasoning)	66	64	58	54	43	57.0%
Gemini 3 Flash (Preview)	70	59	52	52	47	56.0%
Mistral Medium 3.1	67	62	53	48	47	55.6%
Gemini 3.1 Flash Lite (Preview)	63	55	53	53	51	55.1%
Grok 4.3 (Reasoning)	75	55	54	46	45	55.0%
MoonshotAI: Kimi K2.6	70	61	55	45	43	54.7%
Qwen 3.5 Plus (2026-02-15)	62	57	55	52	46	54.3%
Qwen 3.5 397B A17B	74	59	49	45	44	54.1%
Z.AI GLM 4.7	75	53	47	45	44	52.9%
Ministral 8B	67	64	47	44	39	52.3%
GPT-5.4 Mini	56	55	52	50	47	52.1%
Nemotron 3 Super	62	58	49	46	44	51.8%
Gemma 4 31B	63	53	50	47	45	51.7%
GPT-5	57	52	52	50	48	51.6%
Qwen 3.5 Plus (2026-04-20)	70	49	47	45	39	50.1%
GPT-5 Mini	61	56	49	46	36	49.6%
Ministral 3 8B	59	57	48	43	42	49.6%
GPT-5.4 Mini (Reasoning, Low)	59	49	48	46	45	49.6%
Mistral Large 3	66	55	46	42	38	49.4%
Z.AI GLM 4.7 Flash	62	51	50	42	39	48.8%
Mistral Large 2	61	56	43	42	42	48.7%
GPT-OSS 120B	61	52	46	43	42	48.6%
GPT-5.4 Mini (Reasoning)	53	49	47	47	46	48.2%
Mistral Small 3.2 24B	71	50	50	43	26	47.7%
Nemotron 3 Nano	56	49	47	46	40	47.5%
Gemini 3 Flash (Preview, Reasoning)	53	49	46	45	43	47.1%
Gemma 4 31B (Reasoning)	61	54	42	39	31	45.4%
GPT-5.2	47	46	44	43	43	44.4%
Gemma 4 26B	48	46	45	44	38	44.3%
Inception Mercury 2	54	44	44	38	37	43.6%
Qwen 3.5 122B	65	41	39	39	33	43.2%
GPT-5.4 Nano	44	44	43	42	42	43.1%
Gemma 4 26B (Reasoning)	48	46	39	39	39	42.2%
GPT-5.4 Nano (Reasoning)	45	44	41	40	40	42.1%
Qwen 3.5 27B	48	48	43	37	25	40.3%
GPT-5.4 Nano (Reasoning, Low)	42	41	41	38	38	40.1%
Qwen 3.5 Flash	46	41	38	33	33	38.1%
Qwen 3.5 35B	44	39	38	36	33	37.8%
Qwen 3.5 9B	50	44	29	25	25	34.6%
GPT-5 Nano	38	35	33	32	31	33.9%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Cydonia 24B V4.1	100	99	98	95	93	96.8%
GPT-4o, Aug. 6th (temp=1)	100	95	91	90	86	92.5%
GPT-4o Mini (temp=1)	100	91	86	80	75	86.5%
Hermes 3 70B	98	93	91	89	60	86.0%
Claude Sonnet 5 (Reasoning, Low)	97	88	84	79	73	84.4%
Z.AI GLM 4.5	93	88	81	81	72	82.9%
Claude Sonnet 5 (Reasoning)	89	85	85	80	72	82.1%
Cohere Command R+ (Aug. 2024)	100	93	91	69	54	81.2%
Hermes 3 405B	99	83	78	73	69	80.4%
DeepSeek V3 (2025-03-24)	86	80	78	77	76	79.5%
Grok 4.5 (Reasoning, Low)	87	83	80	74	61	77.0%
DeepSeek V3 (2024-12-26)	97	81	81	69	57	76.8%
Claude Sonnet 5	85	82	79	69	68	76.7%
Grok 4.5 (Reasoning, High)	83	76	76	73	71	75.9%
Z.AI GLM 5.1	93	79	74	74	56	75.5%
Mistral Small 4	100	100	64	57	55	75.3%
Qwen 3 32B	86	85	73	70	58	74.6%
DeepSeek V4 Flash (Reasoning)	82	82	79	74	53	74.1%
Claude Sonnet 4	78	76	73	70	65	72.5%
GPT-4.1 Mini	86	79	76	63	59	72.4%
GPT-4o Mini (temp=0)	86	80	69	66	60	72.1%
DeepSeek V4 Flash	97	75	74	66	49	71.9%
GPT-4.1 Nano	86	83	68	63	59	71.7%
Claude Opus 4.7	79	78	73	69	58	71.2%
DeepSeek-V2 Chat	78	74	67	67	67	70.6%
Claude Opus 4.8 (Reasoning)	83	77	77	59	53	69.9%
Llama 3.1 70B	100	66	59	59	58	68.6%
Z.AI GLM 4.5 Air	76	76	70	64	56	68.3%
Claude Sonnet 4.5	73	71	70	68	59	68.3%
GPT-4.1	75	73	70	61	58	67.4%
Grok 4.3	71	70	67	64	64	67.4%
Qwen3 235B A22B Instruct 2507	84	73	67	61	51	67.2%
Claude Sonnet 4.6 (Reasoning)	83	68	66	59	58	67.0%
Gemma 3 27B	77	73	69	62	54	67.0%
MoonshotAI: Kimi K2.5	78	71	68	59	56	66.4%
Gemma 3 4B	79	76	66	57	52	66.2%
Qwen 3.6 Flash	94	83	62	46	45	66.2%
Claude Opus 4.7 (Reasoning)	73	68	64	64	59	65.5%
Gemini 2.5 Flash (Reasoning)	79	71	60	59	58	65.3%
Gemini 3.5 Flash (Reasoning, Minimal)	72	64	63	63	62	64.7%
Gemini 2.5 Flash	83	72	59	57	53	64.7%
Claude Sonnet 4.6	87	61	59	59	57	64.7%
Qwen 2.5 72B	70	69	64	59	59	64.2%
Claude Haiku 4.5	76	67	60	59	59	64.1%
Claude Opus 4	70	67	66	59	57	64.0%
Z.AI GLM 5 Turbo	71	68	66	59	51	63.0%
DeepSeek V4 Pro	70	67	66	58	53	62.9%
Z.AI GLM 5.2 (Reasoning, High)	76	66	59	55	55	62.3%
Claude Opus 4.8 (Reasoning, Low)	74	72	65	55	44	62.2%
Grok 4.20 (Reasoning)	71	65	60	59	52	61.4%
Aion 3.0 Mini	71	71	68	54	43	61.4%
Z.AI GLM 4.6	73	65	58	57	53	61.2%
Grok 4.3 (Reasoning)	70	67	61	58	50	61.2%
Grok 4.20	71	67	61	56	48	60.6%
Gemini 2.5 Flash Lite	82	59	58	53	49	60.3%
Writer: Palmyra X5	64	63	61	57	55	60.2%
GPT-4o, Aug. 6th (temp=0)	78	63	58	51	49	59.7%
Qwen3.6 Max Preview	73	68	60	53	44	59.5%
Claude Opus 4.5	66	66	61	56	48	59.5%
Claude Opus 4.6	68	64	59	58	47	59.0%
Gemma 3 12B	77	57	56	56	50	59.0%
ByteDance Seed 1.6	66	62	61	59	45	58.6%
MiniMax M2.7	76	61	57	49	49	58.6%
o4 Mini	63	61	61	57	48	58.0%
Claude Opus 4.6 (Reasoning)	61	59	57	57	51	57.0%
Gemini 2.5 Flash Lite (Reasoning)	65	64	55	51	50	56.9%
Mistral Small 4 (Reasoning)	61	59	57	55	50	56.3%
Arcee AI: Trinity Mini	77	56	52	48	46	55.9%
MiniMax M2.5	67	57	54	54	47	55.7%
Mistral NeMO	68	61	54	49	46	55.4%
DeepSeek V4 Pro (Reasoning)	73	62	53	45	43	55.3%
Z.AI GLM 5	67	60	60	52	36	55.1%
ByteDance Seed 1.6 Flash	68	57	55	51	45	55.0%
Gemini 3.1 Flash Lite (Reasoning)	67	61	60	52	35	54.9%
Aion 3.0	58	57	55	52	51	54.6%
Aion 2.0	65	63	58	44	43	54.5%
Mistral Medium 3.1	62	57	53	53	47	54.3%
Xiaomi MIMO v2.5 Pro	71	53	52	50	44	53.9%
Xiaomi MIMO v2.5	58	57	52	52	49	53.8%
Mistral Large 3	67	57	50	47	46	53.4%
DeepSeek V3.2	60	55	52	50	50	53.2%
Mistral Large 2	62	56	54	45	44	52.2%
Gemini 3.5 Flash (Reasoning)	63	56	50	46	45	52.1%
Qwen 3.5 Plus (2026-04-20)	73	56	55	42	33	51.9%
WizardLM 2 8x22b	61	60	53	43	42	51.9%
GPT-5.4 (Reasoning, Low)	55	55	52	49	49	51.8%
Ministral 3B	70	68	48	39	35	51.8%
Gemini 2.5 Pro	62	56	48	48	45	51.7%
Nemotron 3 Super	57	54	51	50	46	51.6%
Qwen 3.5 Plus (2026-02-15)	63	52	49	49	45	51.5%
GPT-5.4	57	51	51	51	47	51.3%
MoonshotAI: Kimi K2.6	56	52	49	49	46	50.2%
Gemini 3.1 Pro (Preview)	69	48	48	45	40	50.2%
DeepSeek V3.1	59	51	51	50	37	49.9%
GPT-OSS 120B	62	51	46	45	44	49.4%
ByteDance Seed 2.0 Lite	69	68	54	29	25	49.2%
Z.AI GLM 4.7	62	51	47	45	37	48.6%
Ministral 3 14B	56	48	46	45	45	48.0%
Gemini 3.1 Flash Lite	52	51	51	49	37	47.9%
o4 Mini High	54	48	48	46	42	47.6%
GPT-5.4 (Reasoning)	50	49	48	46	43	47.1%
Ministral 3 3B	53	50	45	45	43	47.1%
ByteDance Seed 2.0 Mini	66	48	42	42	37	47.0%
GPT-5.1	54	48	47	45	40	46.6%
GPT-5.4 Mini (Reasoning)	47	46	46	46	46	46.3%
Inception Mercury 2	48	48	48	44	42	46.2%
MiniMax M3	55	48	48	46	33	46.1%
GPT-5.5 (Reasoning, Low)	52	45	45	44	44	46.0%
Ministral 8B	50	47	47	46	39	45.8%
GPT-5.5 (Reasoning)	49	45	45	44	44	45.4%
GPT-5.4 Mini	49	46	45	45	42	45.4%
Nemotron 3 Nano	48	48	47	41	40	45.0%
Gemini 3.1 Flash Lite (Preview)	56	50	44	42	33	44.9%
GPT-5.5	50	46	45	43	42	44.9%
GPT-5.4 Mini (Reasoning, Low)	49	48	45	42	41	44.8%
Ministral 3 8B	46	46	45	44	43	44.7%
GPT-5	57	44	42	41	36	44.0%
GPT-5.2	45	45	44	44	42	44.0%
GPT-5.4 Nano (Reasoning)	44	44	43	41	41	42.9%
Qwen 3.6 35B	56	43	42	39	34	42.7%
Z.AI GLM 4.7 Flash	51	46	45	39	32	42.6%
Qwen 3.6 27B	51	48	42	38	34	42.5%
GPT-5 Mini	48	45	42	41	38	42.5%
Qwen 3.5 397B A17B	51	46	43	40	31	42.2%
Gemma 4 31B (Reasoning)	48	44	40	40	38	42.1%
GPT-5.4 Nano	44	43	43	43	37	42.0%
GPT-5.4 Nano (Reasoning, Low)	43	42	42	42	40	41.8%
Mistral Small 3.2 24B	52	50	48	34	25	41.7%
Gemma 4 31B	47	41	41	40	37	41.3%
Qwen 3.5 9B	64	37	37	37	31	41.3%
Gemini 3 Flash (Preview)	46	42	40	39	38	40.9%
Qwen3.7 Max	46	43	39	39	34	40.2%
Qwen 3.5 27B	45	42	40	39	35	40.1%
Qwen 3.5 122B	46	42	38	36	34	39.0%
Gemma 4 26B	48	39	37	35	34	38.6%
GPT-5 Nano	41	40	39	37	35	38.3%
Gemma 4 26B (Reasoning)	40	39	38	36	36	37.7%
Qwen 3.5 Flash	43	39	38	33	32	36.9%
Gemini 3 Flash (Preview, Reasoning)	45	40	37	31	30	36.8%
Qwen 3.5 35B	39	36	33	27	25	32.2%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
DeepSeek V3 (2025-03-24)	100	100	93	84	77	90.8%
Cydonia 24B V4.1	100	99	89	88	70	89.2%
Hermes 3 70B	100	98	86	82	71	87.6%
Hermes 3 405B	98	89	86	77	76	85.2%
Claude Sonnet 5 (Reasoning)	88	88	83	76	71	81.1%
GPT-4o, Aug. 6th (temp=1)	97	90	85	77	57	81.1%
GPT-4o Mini (temp=1)	96	82	80	79	68	81.1%
Claude Sonnet 5 (Reasoning, Low)	88	87	79	76	70	80.1%
Claude Sonnet 5	99	86	84	70	57	79.0%
Claude Sonnet 4.5	88	83	79	78	67	79.0%
Grok 4.5 (Reasoning, High)	87	80	77	76	74	78.7%
Claude Opus 4.8 (Reasoning, Low)	89	87	69	69	69	76.6%
Z.AI GLM 4.5 Air	97	79	75	65	64	76.1%
DeepSeek V4 Pro	86	84	82	78	48	75.7%
MiniMax M2.5	85	83	81	69	59	75.5%
Claude Opus 4.7	89	76	76	72	63	75.3%
Claude Sonnet 4	90	83	80	69	51	74.5%
Claude Opus 4.8 (Reasoning)	92	73	71	69	62	73.5%
Claude Opus 4	79	76	76	67	65	72.5%
Claude Sonnet 4.6 (Reasoning)	80	79	73	67	63	72.4%
Writer: Palmyra X5	81	74	73	67	65	72.2%
DeepSeek V4 Flash	91	77	73	67	52	71.8%
Z.AI GLM 5 Turbo	80	72	71	69	66	71.8%
Claude Opus 4.5	94	72	66	65	61	71.8%
MiniMax M2.7	90	74	69	62	59	70.8%
DeepSeek V4 Flash (Reasoning)	84	74	72	64	58	70.4%
Z.AI GLM 5.1	79	75	72	66	60	70.4%
DeepSeek-V2 Chat	85	79	67	65	51	69.5%
Claude Sonnet 4.6	80	75	71	61	59	69.3%
Claude Haiku 4.5	76	75	73	64	58	69.3%
Cohere Command R+ (Aug. 2024)	90	70	64	63	57	69.0%
Grok 4.5 (Reasoning, Low)	80	70	67	63	62	68.5%
Qwen3.6 Max Preview	83	72	68	64	51	67.6%
Z.AI GLM 4.5	74	66	66	65	65	67.2%
Z.AI GLM 5	81	71	65	60	58	67.1%
GPT-4.1 Mini	73	69	66	63	63	66.9%
Aion 3.0 Mini	76	71	66	65	56	66.6%
GPT-5.4	70	70	69	65	59	66.5%
Z.AI GLM 5.2 (Reasoning, High)	70	69	69	66	57	66.1%
MoonshotAI: Kimi K2.5	77	72	66	59	56	66.0%
Qwen 3.5 Plus (2026-04-20)	83	73	69	53	49	65.3%
Claude Opus 4.6 (Reasoning)	72	66	65	63	60	65.3%
Claude Opus 4.6	75	71	70	58	53	65.3%
Grok 4.20 (Reasoning)	70	70	63	61	61	65.1%
Qwen3 235B A22B Instruct 2507	73	72	65	61	53	64.9%
Claude Opus 4.7 (Reasoning)	76	66	62	60	59	64.6%
DeepSeek V4 Pro (Reasoning)	85	78	60	56	42	64.3%
DeepSeek V3 (2024-12-26)	75	73	66	57	48	64.0%
Grok 4.20	71	70	61	60	59	64.0%
MiniMax M3	73	72	70	53	48	63.0%
GPT-4.1	71	67	62	62	50	62.8%
o4 Mini High	77	72	59	56	49	62.6%
Gemini 3.5 Flash (Reasoning, Minimal)	75	64	63	55	54	62.2%
GPT-5.4 (Reasoning, Low)	67	67	63	59	53	61.7%
Xiaomi MIMO v2.5 Pro	68	66	64	64	45	61.4%
MoonshotAI: Kimi K2.6	79	61	59	58	47	60.9%
GPT-4.1 Nano	71	63	60	60	50	60.7%
Gemini 3.5 Flash (Reasoning)	67	66	64	55	50	60.5%
GPT-5.4 (Reasoning)	67	63	61	56	55	60.4%
Mistral Small 4 (Reasoning)	87	60	56	47	46	59.2%
Gemma 3 12B	70	70	66	46	40	58.3%
Gemini 3.1 Pro (Preview)	67	63	56	53	48	57.2%
Grok 4.3 (Reasoning)	74	56	56	52	49	57.2%
Aion 3.0	66	63	56	52	48	57.0%
WizardLM 2 8x22b	66	66	56	55	42	57.0%
Gemma 3 4B	66	63	62	51	43	56.9%
Qwen 3.5 397B A17B	74	58	54	53	43	56.2%
Aion 2.0	71	55	55	54	46	56.1%
GPT-4o Mini (temp=0)	64	58	53	52	50	55.5%
Llama 3.1 70B	67	58	53	50	46	55.1%
GPT-5.4 Mini (Reasoning)	59	56	55	54	50	54.9%
Grok 4.3	66	62	55	47	43	54.6%
Gemma 3 27B	58	57	55	52	51	54.6%
Arcee AI: Trinity Mini	67	67	47	46	46	54.5%
GPT-5.5 (Reasoning)	57	57	53	53	51	54.2%
Z.AI GLM 4.7 Flash	63	55	55	50	49	54.1%
ByteDance Seed 1.6 Flash	67	60	60	43	39	53.8%
Qwen 3 32B	77	65	46	43	37	53.5%
GPT-5.1	61	56	54	53	42	53.2%
ByteDance Seed 2.0 Mini	62	55	54	53	41	53.2%
Gemini 2.5 Flash	56	54	54	53	49	53.2%
o4 Mini	71	55	51	47	41	53.0%
GPT-5.4 Mini	65	54	50	49	45	52.8%
GPT-5.4 Mini (Reasoning, Low)	59	52	51	51	50	52.5%
ByteDance Seed 1.6	59	54	53	51	45	52.4%
Gemini 2.5 Flash (Reasoning)	67	57	52	44	40	52.2%
Qwen 3.5 Plus (2026-02-15)	60	59	50	48	42	52.0%
Qwen 3.6 Flash	70	64	50	38	36	51.6%
ByteDance Seed 2.0 Lite	68	63	55	41	29	51.4%
Mistral Medium 3.1	61	53	51	49	42	51.3%
GPT-5.5 (Reasoning, Low)	55	54	51	48	47	51.0%
GPT-5.5	59	54	50	50	42	51.0%
Nemotron 3 Super	56	54	50	47	47	50.8%
Mistral Small 4	74	54	44	41	36	49.8%
DeepSeek V3.2	57	56	47	46	42	49.5%
Nemotron 3 Nano	63	58	50	40	33	49.1%
Mistral Large 2	61	55	43	43	42	48.6%
Qwen 3.6 27B	76	50	48	37	31	48.6%
Qwen 3.6 35B	57	55	52	51	28	48.5%
Ministral 3B	62	50	47	43	39	48.1%
Gemini 3.1 Flash Lite	67	53	43	40	36	47.8%
GPT-4o, Aug. 6th (temp=0)	59	47	45	43	42	47.5%
Gemini 2.5 Flash Lite	54	53	48	41	39	47.0%
Gemini 2.5 Pro	54	52	46	42	41	47.0%
Gemini 2.5 Flash Lite (Reasoning)	61	54	46	37	35	46.7%
Inception Mercury 2	63	43	41	41	40	45.7%
Ministral 3 14B	60	44	43	43	38	45.5%
DeepSeek V3.1	49	49	46	43	39	45.2%
Xiaomi MIMO v2.5	49	47	46	42	41	45.1%
Z.AI GLM 4.7	52	48	43	42	41	45.1%
Gemini 3.1 Flash Lite (Reasoning)	52	50	42	41	40	44.9%
Ministral 8B	48	47	44	43	42	44.8%
Qwen 2.5 72B	47	45	45	45	41	44.6%
Ministral 3 8B	50	46	42	42	41	44.1%
Ministral 3 3B	56	45	42	38	38	43.9%
Z.AI GLM 4.6	56	49	48	38	29	43.8%
Gemini 3 Flash (Preview, Reasoning)	53	43	42	40	36	43.1%
GPT-OSS 120B	57	41	40	38	38	42.6%
Gemini 3.1 Flash Lite (Preview)	52	51	38	36	35	42.2%
GPT-5.2	44	43	43	41	40	42.2%
Mistral Large 3	48	42	41	41	37	42.1%
GPT-5	50	43	41	39	37	42.1%
Qwen 3.5 9B	70	42	38	30	28	41.7%
GPT-5.4 Nano (Reasoning)	45	42	41	40	39	41.4%
GPT-5.4 Nano (Reasoning, Low)	43	43	42	40	39	41.3%
Gemini 3 Flash (Preview)	50	43	41	37	33	40.9%
GPT-5.4 Nano	44	42	40	40	37	40.5%
Qwen 3.5 Flash	51	40	40	36	32	39.9%
Qwen3.7 Max	41	41	40	38	38	39.6%
Gemma 4 26B	44	44	38	34	31	38.3%
Gemma 4 31B	42	40	39	37	32	37.9%
Gemma 4 31B (Reasoning)	45	45	39	32	29	37.9%
Qwen 3.5 35B	39	37	37	37	36	37.3%
GPT-5 Mini	37	36	36	34	34	35.4%
Gemma 4 26B (Reasoning)	38	38	34	32	32	34.8%
GPT-5 Nano	37	36	34	31	30	33.5%
Qwen 3.5 122B	38	37	35	31	25	33.2%
Mistral NeMO	42	39	33	25	25	32.8%
Qwen 3.5 27B	37	36	30	28	25	31.3%
Mistral Small 3.2 24B	25	25	25	25	25	25.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Sonnet 5 (Reasoning, Low)	96	88	85	81	80	85.9%
GPT-4o Mini (temp=1)	96	92	86	79	71	85.0%
Claude Sonnet 5 (Reasoning)	94	89	85	79	74	84.2%
ByteDance Seed 2.0 Lite	96	94	87	77	64	83.5%
GPT-4o, Aug. 6th (temp=1)	100	96	85	69	64	82.8%
Claude Sonnet 4	99	97	84	67	53	79.8%
Hermes 3 405B	100	81	74	72	69	79.0%
Hermes 3 70B	100	79	76	73	67	78.9%
DeepSeek V3 (2025-03-24)	98	89	74	72	62	78.8%
ByteDance Seed 1.6	90	81	77	72	65	77.0%
Claude Opus 4.7	86	78	77	76	65	76.1%
Claude Opus 4.8 (Reasoning)	86	82	78	68	65	75.9%
GPT-4.1	87	81	77	71	62	75.6%
Claude Opus 4.8 (Reasoning, Low)	88	78	75	74	61	75.3%
Grok 4.5 (Reasoning, High)	81	76	75	74	70	75.2%
Claude Sonnet 5	92	81	74	64	62	74.4%
Gemma 3 4B	82	75	75	71	68	73.9%
Grok 4.5 (Reasoning, Low)	80	78	72	71	62	72.5%
Claude Opus 4.7 (Reasoning)	80	79	73	68	61	72.4%
GPT-4.1 Mini	83	83	74	64	53	71.3%
Z.AI GLM 5 Turbo	79	73	71	64	64	70.0%
Claude Opus 4	79	76	71	66	56	69.4%
Z.AI GLM 5	87	82	70	53	48	68.1%
Claude Haiku 4.5	85	72	71	58	50	67.2%
Claude Sonnet 4.5	86	74	65	57	53	67.0%
Cohere Command R+ (Aug. 2024)	86	71	65	57	53	66.6%
Cydonia 24B V4.1	72	71	67	65	59	66.6%
Qwen 3 32B	85	75	68	57	47	66.4%
Gemini 3.5 Flash (Reasoning, Minimal)	86	68	62	59	56	66.3%
DeepSeek V3 (2024-12-26)	75	69	69	64	55	66.2%
GPT-4o Mini (temp=0)	74	70	65	60	59	65.7%
Gemma 3 12B	71	70	66	64	57	65.6%
DeepSeek-V2 Chat	73	69	65	64	53	65.0%
Claude Opus 4.6 (Reasoning)	82	71	61	59	52	65.0%
GPT-4.1 Nano	78	68	62	55	53	63.2%
Z.AI GLM 4.5	66	65	63	63	58	63.0%
GPT-5.1	70	66	62	59	53	62.2%
Gemma 3 27B	68	63	62	61	55	61.8%
Llama 3.1 70B	81	71	59	53	45	61.6%
Qwen 3.5 Plus (2026-02-15)	66	64	60	59	58	61.4%
Aion 3.0 Mini	100	62	53	49	42	61.2%
DeepSeek V4 Flash	77	69	65	53	42	61.0%
Claude Sonnet 4.6	67	65	63	59	51	60.9%
Writer: Palmyra X5	73	60	59	57	56	60.8%
Claude Opus 4.6	67	65	61	58	51	60.5%
Z.AI GLM 5.1	78	68	60	49	46	60.3%
Claude Sonnet 4.6 (Reasoning)	80	65	55	55	46	60.0%
MoonshotAI: Kimi K2.6	65	64	63	54	52	59.7%
GPT-5.4 (Reasoning)	74	60	57	55	53	59.6%
DeepSeek V4 Flash (Reasoning)	78	61	60	50	49	59.6%
Gemini 3.1 Pro (Preview)	75	64	59	54	43	59.3%
GPT-4o, Aug. 6th (temp=0)	70	64	62	51	49	59.1%
Claude Opus 4.5	66	63	62	57	47	59.0%
Gemini 3 Flash (Preview, Reasoning)	77	58	57	52	50	58.9%
MiniMax M3	73	67	53	51	50	58.8%
GPT-5.5 (Reasoning, Low)	63	62	59	57	51	58.5%
Gemini 2.5 Flash (Reasoning)	66	64	62	51	49	58.3%
ByteDance Seed 2.0 Mini	63	62	59	55	52	58.2%
Grok 4.20 (Reasoning)	60	60	58	55	55	57.8%
WizardLM 2 8x22b	63	59	57	55	50	57.0%
Qwen3 235B A22B Instruct 2507	61	59	58	54	52	56.7%
Gemini 3.5 Flash (Reasoning)	69	58	55	54	46	56.4%
GPT-5.4	59	57	56	56	54	56.2%
Gemini 3 Flash (Preview)	79	57	51	50	44	56.1%
Arcee AI: Trinity Mini	66	63	61	48	42	56.1%
GPT-5.4 (Reasoning, Low)	65	58	53	53	51	56.0%
GPT-5 Mini	64	60	54	53	48	55.9%
Z.AI GLM 4.7 Flash	70	63	55	47	45	55.8%
Gemma 4 31B	68	59	54	50	47	55.6%
Gemini 2.5 Flash	75	58	51	48	46	55.3%
Gemini 2.5 Flash Lite	72	60	51	48	45	55.1%
GPT-5.4 Mini (Reasoning)	69	58	54	50	44	54.9%
DeepSeek V3.1	64	64	53	52	41	54.9%
Grok 4.3	61	60	54	51	46	54.5%
MiniMax M2.5	67	64	54	46	39	54.0%
Z.AI GLM 4.5 Air	64	60	59	46	41	53.9%
o4 Mini	61	59	53	49	46	53.6%
Qwen 3.5 397B A17B	65	52	52	51	47	53.3%
Aion 3.0	63	58	54	51	40	53.2%
DeepSeek V4 Pro (Reasoning)	72	57	49	47	42	53.1%
Gemini 2.5 Pro	62	58	50	49	46	53.1%
MoonshotAI: Kimi K2.5	65	56	50	46	46	52.8%
Z.AI GLM 4.7	62	52	52	50	47	52.6%
Gemini 3.1 Flash Lite	58	53	53	49	49	52.5%
Grok 4.20	56	54	53	52	45	52.3%
ByteDance Seed 1.6 Flash	64	59	53	45	41	52.3%
Qwen 2.5 72B	63	60	49	45	45	52.2%
Mistral Large 3	59	56	54	49	43	52.1%
Xiaomi MIMO v2.5	57	56	51	49	47	52.0%
MiniMax M2.7	64	62	50	46	39	52.0%
DeepSeek V4 Pro	58	54	50	49	48	51.9%
Z.AI GLM 4.6	56	56	55	47	45	51.9%
Mistral Large 2	66	54	47	47	45	51.8%
Mistral Medium 3.1	60	54	51	49	43	51.7%
o4 Mini High	56	56	53	52	40	51.4%
Qwen 3.6 27B	64	59	48	47	39	51.4%
Qwen 3.5 Plus (2026-04-20)	68	55	52	42	40	51.2%
GPT-5.5 (Reasoning)	57	55	51	49	43	51.2%
Z.AI GLM 5.2 (Reasoning, High)	62	53	51	49	41	51.0%
Ministral 3B	72	54	43	42	42	50.7%
Grok 4.3 (Reasoning)	56	53	49	48	47	50.6%
Mistral Small 4	63	54	52	41	40	50.1%
Gemma 4 31B (Reasoning)	56	52	49	47	45	49.9%
Gemma 4 26B (Reasoning)	54	54	51	46	43	49.6%
Gemini 2.5 Flash Lite (Reasoning)	64	55	46	42	40	49.6%
Gemini 3.1 Flash Lite (Reasoning)	67	47	46	45	43	49.2%
Mistral NeMO	62	55	53	37	37	49.1%
GPT-5.4 Mini (Reasoning, Low)	56	53	45	44	44	48.7%
Gemini 3.1 Flash Lite (Preview)	69	58	39	39	36	48.2%
Qwen 3.5 35B	80	42	41	41	37	48.1%
GPT-5.4 Mini	56	49	47	45	43	47.9%
Gemma 4 26B	54	48	47	45	45	47.7%
Ministral 3 8B	56	48	46	45	42	47.5%
GPT-5.5	61	46	45	44	42	47.5%
Qwen3.6 Max Preview	54	52	49	42	40	47.4%
Nemotron 3 Super	54	50	48	45	41	47.4%
Qwen3.7 Max	50	49	48	46	44	47.4%
DeepSeek V3.2	58	47	46	43	40	46.8%
Xiaomi MIMO v2.5 Pro	56	49	48	40	40	46.5%
GPT-5	53	50	46	44	40	46.5%
Qwen 3.5 122B	53	52	43	43	41	46.3%
Aion 2.0	51	50	47	42	41	46.1%
Qwen 3.6 Flash	57	55	42	38	36	45.7%
GPT-5.2	47	45	44	43	42	44.3%
Qwen 3.5 Flash	49	47	44	42	37	43.8%
GPT-5.4 Nano (Reasoning)	45	44	43	43	42	43.2%
Ministral 3 14B	47	43	43	42	38	42.6%
Mistral Small 4 (Reasoning)	48	42	41	40	39	42.3%
GPT-5.4 Nano	44	42	42	41	41	41.9%
GPT-5.4 Nano (Reasoning, Low)	43	42	42	41	41	41.8%
Qwen 3.6 35B	48	45	43	35	34	41.0%
Qwen 3.5 27B	43	43	41	41	37	40.9%
Nemotron 3 Nano	48	46	38	38	34	40.9%
Ministral 8B	50	42	39	37	37	40.9%
GPT-OSS 120B	44	42	40	39	37	40.2%
Ministral 3 3B	42	41	39	38	36	39.4%
Inception Mercury 2	42	40	39	37	33	38.2%
Qwen 3.5 9B	45	43	39	31	27	37.0%
Mistral Small 3.2 24B	50	43	29	25	25	34.3%
GPT-5 Nano	35	35	33	31	31	32.9%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	85	79	66	63	61	70.7%
GPT-4o Mini (temp=1)	80	69	69	67	65	70.0%
DeepSeek V3 (2025-03-24)	77	72	64	64	51	65.4%
Claude Sonnet 5 (Reasoning, Low)	78	71	70	50	49	63.9%
Hermes 3 405B	83	69	59	58	47	63.2%
Cydonia 24B V4.1	70	70	64	62	40	61.2%
Claude Opus 4	69	67	56	55	55	60.3%
Hermes 3 70B	73	72	62	52	41	59.9%
Claude Sonnet 4	63	62	58	57	52	58.4%
Claude Sonnet 4.5	63	62	59	56	49	57.9%
Claude Opus 4.7	69	59	59	54	49	57.8%
Claude Sonnet 5	61	60	57	55	53	57.4%
Cohere Command R+ (Aug. 2024)	69	68	53	50	47	57.3%
Grok 4.5 (Reasoning, High)	63	61	56	53	52	57.1%
Claude Opus 4.8 (Reasoning)	60	58	58	56	52	56.8%
Claude Opus 4.7 (Reasoning)	62	60	55	55	51	56.7%
Grok 4.5 (Reasoning, Low)	67	61	60	51	42	56.2%
GPT-5.4	62	57	56	53	52	56.0%
GPT-4.1 Mini	59	59	57	56	46	55.3%
DeepSeek-V2 Chat	76	62	55	44	38	54.8%
Claude Opus 4.8 (Reasoning, Low)	65	55	55	53	45	54.6%
Claude Haiku 4.5	68	57	49	49	46	53.6%
DeepSeek V4 Pro (Reasoning)	85	52	48	46	36	53.6%
Z.AI GLM 4.5	63	54	51	50	46	52.9%
Claude Sonnet 5 (Reasoning)	73	60	54	49	29	52.8%
Writer: Palmyra X5	61	56	53	49	44	52.6%
Claude Opus 4.5	65	59	51	45	42	52.5%
GPT-4.1	62	52	52	49	42	51.7%
Gemma 3 27B	54	53	51	48	42	49.6%
Aion 3.0 Mini	100	40	38	38	25	48.2%
Z.AI GLM 5 Turbo	57	54	52	41	35	48.0%
GPT-5.4 (Reasoning)	55	52	46	44	43	47.7%
GPT-4.1 Nano	63	48	43	43	40	47.4%
Claude Sonnet 4.6	53	50	48	43	41	47.2%
Mistral NeMO	57	56	50	39	34	47.1%
Gemma 3 12B	58	48	45	44	40	46.9%
Gemini 2.5 Flash	59	48	45	39	39	46.1%
Qwen3 235B A22B Instruct 2507	58	46	45	43	37	45.8%
DeepSeek V3 (2024-12-26)	52	48	47	43	37	45.3%
o4 Mini High	58	51	42	40	35	45.2%
Llama 3.1 70B	48	48	46	44	39	44.9%
MiniMax M2.5	62	50	43	42	25	44.4%
Mistral Large 2	62	53	36	36	34	44.4%
GPT-5.4 (Reasoning, Low)	50	47	41	41	40	44.0%
GPT-5.1	49	48	44	39	39	43.9%
GPT-4o Mini (temp=0)	46	44	44	43	42	43.8%
Claude Sonnet 4.6 (Reasoning)	58	49	45	34	33	43.7%
Qwen 2.5 72B	58	42	41	39	38	43.4%
Z.AI GLM 5.1	54	53	40	36	34	43.3%
Gemma 3 4B	49	46	41	40	39	43.1%
Grok 4.20	45	44	43	43	40	43.1%
Gemini 2.5 Flash Lite	49	45	42	40	39	43.0%
GPT-4o, Aug. 6th (temp=0)	49	46	42	40	37	43.0%
Z.AI GLM 5	48	44	42	42	39	42.8%
Grok 4.3 (Reasoning)	45	44	43	41	40	42.5%
Qwen 3 32B	49	42	42	41	36	42.1%
MoonshotAI: Kimi K2.6	52	44	41	36	35	41.8%
DeepSeek V4 Flash (Reasoning)	55	46	38	35	35	41.7%
Grok 4.3	46	43	41	39	39	41.6%
Claude Opus 4.6 (Reasoning)	47	46	41	40	33	41.4%
Grok 4.20 (Reasoning)	46	44	40	39	38	41.3%
Z.AI GLM 5.2 (Reasoning, High)	51	49	39	37	30	41.3%
o4 Mini	44	43	42	42	35	41.0%
Gemini 3.5 Flash (Reasoning, Minimal)	47	45	40	37	36	40.9%
Gemini 2.5 Flash (Reasoning)	59	39	36	35	34	40.9%
GPT-5.4 Mini (Reasoning, Low)	46	41	40	39	39	40.8%
GPT-5.4 Mini	42	41	41	41	38	40.7%
Mistral Medium 3.1	48	45	41	34	34	40.6%
DeepSeek V4 Pro	48	46	40	36	33	40.5%
DeepSeek V4 Flash	44	44	39	37	37	40.2%
WizardLM 2 8x22b	46	41	40	39	36	40.2%
Nemotron 3 Super	46	44	39	36	34	40.0%
GPT-5.5	43	40	40	39	38	40.0%
Mistral Small 4 (Reasoning)	45	43	42	38	30	39.7%
Qwen 3.6 35B	49	40	39	37	33	39.6%
Qwen3.6 Max Preview	45	40	40	40	32	39.3%
Aion 2.0	43	41	38	38	36	39.3%
Mistral Large 3	46	41	40	38	31	39.1%
Gemini 2.5 Pro	46	41	40	35	34	39.1%
GPT-5.5 (Reasoning)	41	39	39	38	38	39.0%
Qwen 3.5 Plus (2026-04-20)	44	43	37	36	34	38.9%
Gemini 3.1 Pro (Preview)	45	44	37	34	34	38.8%
GPT-5.4 Mini (Reasoning)	44	39	37	37	36	38.7%
ByteDance Seed 1.6	62	35	34	31	31	38.6%
GPT-5.5 (Reasoning, Low)	40	39	38	38	38	38.4%
Mistral Small 4	42	41	38	34	34	38.0%
MoonshotAI: Kimi K2.5	42	41	38	35	35	38.0%
ByteDance Seed 1.6 Flash	44	38	38	38	32	37.9%
ByteDance Seed 2.0 Lite	48	43	37	34	28	37.8%
Gemini 2.5 Flash Lite (Reasoning)	44	41	40	34	30	37.7%
Qwen 3.5 Plus (2026-02-15)	47	43	35	32	31	37.7%
Xiaomi MIMO v2.5 Pro	41	39	38	36	34	37.6%
GPT-5.4 Nano	40	39	39	35	35	37.6%
DeepSeek V3.2	44	40	35	35	33	37.5%
Gemini 3.5 Flash (Reasoning)	43	39	38	36	32	37.3%
Gemini 3 Flash (Preview)	44	40	36	35	32	37.3%
Qwen3.7 Max	46	40	35	33	32	37.0%
Xiaomi MIMO v2.5	43	41	36	34	30	37.0%
GPT-OSS 120B	39	38	36	36	34	36.6%
Ministral 3 14B	39	38	36	36	34	36.5%
GPT-5.2	40	39	36	34	33	36.5%
Ministral 3 8B	39	37	36	36	34	36.4%
Qwen 3.6 Flash	45	36	35	33	31	36.2%
Claude Opus 4.6	40	39	39	33	31	36.2%
Z.AI GLM 4.6	39	38	37	37	29	36.1%
Aion 3.0	39	38	34	34	33	35.7%
Z.AI GLM 4.7	43	37	37	34	26	35.4%
DeepSeek V3.1	39	38	36	33	31	35.4%
Arcee AI: Trinity Mini	39	37	35	34	32	35.4%
GPT-5.4 Nano (Reasoning)	37	36	36	35	32	35.2%
Qwen 3.5 122B	43	35	35	33	31	35.2%
GPT-5.4 Nano (Reasoning, Low)	37	36	36	36	32	35.2%
ByteDance Seed 2.0 Mini	45	42	33	29	25	35.0%
Inception Mercury 2	39	38	37	33	27	34.7%
GPT-5	38	37	34	31	30	34.1%
Ministral 8B	36	36	35	33	29	34.1%
Qwen 3.5 Flash	40	39	34	31	26	33.9%
Ministral 3B	36	36	33	32	31	33.8%
GPT-5 Mini	36	35	35	31	31	33.7%
Gemini 3 Flash (Preview, Reasoning)	38	36	32	32	31	33.7%
Qwen 3.6 27B	40	36	34	29	29	33.6%
Qwen 3.5 27B	41	33	32	32	31	33.5%
Z.AI GLM 4.5 Air	36	35	35	34	27	33.5%
Gemma 4 31B	37	35	34	31	31	33.4%
Gemini 3.1 Flash Lite (Reasoning)	37	35	33	31	30	33.2%
Z.AI GLM 4.7 Flash	35	34	34	33	30	33.2%
Ministral 3 3B	38	35	34	31	27	33.0%
MiniMax M2.7	35	35	33	30	30	32.7%
Gemma 4 31B (Reasoning)	38	34	33	33	25	32.5%
Gemma 4 26B (Reasoning)	38	35	31	29	28	32.2%
Qwen 3.5 397B A17B	34	33	32	31	30	31.9%
Nemotron 3 Nano	35	34	34	29	26	31.5%
Gemini 3.1 Flash Lite	37	32	32	28	27	31.2%
MiniMax M3	40	32	30	25	25	30.6%
Gemma 4 26B	37	33	30	27	25	30.5%
Qwen 3.5 9B	33	31	31	30	26	30.4%
Gemini 3.1 Flash Lite (Preview)	34	33	31	27	26	30.1%
Qwen 3.5 35B	34	33	30	27	25	29.7%
GPT-5 Nano	32	27	26	25	25	27.0%
Mistral Small 3.2 24B	25	25	25	25	25	25.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	99	95	85	79	73	86.2%
DeepSeek V3 (2025-03-24)	100	94	93	80	55	84.5%
GPT-4o Mini (temp=1)	89	87	86	84	76	84.3%
GPT-4.1 Mini	93	79	78	75	72	79.6%
Claude Sonnet 5 (Reasoning)	94	84	74	73	56	76.4%
Cohere Command R+ (Aug. 2024)	79	79	77	73	68	75.3%
Hermes 3 405B	86	78	72	70	70	75.3%
Claude Sonnet 5 (Reasoning, Low)	78	73	73	72	71	73.3%
Grok 4.5 (Reasoning, Low)	85	82	75	64	58	72.7%
GPT-4.1 Nano	86	71	70	69	66	72.6%
Qwen 3 32B	87	80	73	62	49	70.2%
WizardLM 2 8x22b	92	78	69	56	53	69.5%
Claude Opus 4	82	77	67	60	59	69.2%
Llama 3.1 70B	94	70	68	60	52	68.7%
Z.AI GLM 4.5	81	70	69	67	57	68.6%
Claude Sonnet 4.5	76	72	68	64	59	67.8%
DeepSeek V3 (2024-12-26)	75	74	69	62	53	66.7%
Claude Sonnet 4	75	67	66	62	60	65.9%
Claude Sonnet 5	78	77	73	55	46	65.8%
Grok 4.3 (Reasoning)	77	68	65	63	53	65.4%
Gemma 3 12B	69	66	66	65	60	65.3%
GPT-4.1	71	69	68	67	50	64.9%
DeepSeek-V2 Chat	86	75	59	51	48	63.7%
Z.AI GLM 5	91	68	59	54	45	63.3%
Hermes 3 70B	80	76	65	51	42	62.8%
Claude Opus 4.8 (Reasoning)	66	66	62	59	58	62.2%
Cydonia 24B V4.1	65	64	64	59	59	62.0%
Gemma 3 27B	71	66	62	55	51	61.1%
ByteDance Seed 2.0 Mini	88	60	58	52	46	61.0%
Z.AI GLM 4.5 Air	82	71	56	49	47	60.9%
Grok 4.5 (Reasoning, High)	69	66	62	57	50	60.7%
GPT-4o, Aug. 6th (temp=0)	67	64	61	59	52	60.7%
GPT-4o Mini (temp=0)	73	70	58	55	47	60.6%
Qwen 2.5 72B	65	64	60	59	55	60.3%
Claude Opus 4.7 (Reasoning)	77	63	60	60	40	60.0%
Claude Opus 4.7	69	60	59	56	53	59.3%
Claude Haiku 4.5	62	60	60	58	54	58.8%
Gemma 3 4B	63	63	56	56	53	58.1%
Claude Opus 4.8 (Reasoning, Low)	63	62	61	59	45	58.0%
Z.AI GLM 5.1	74	58	56	56	45	58.0%
Arcee AI: Trinity Mini	67	66	60	50	38	56.1%
Writer: Palmyra X5	60	58	55	54	50	55.6%
Qwen 3.5 Plus (2026-02-15)	61	59	54	52	51	55.6%
Claude Opus 4.5	64	57	57	52	47	55.4%
Gemini 2.5 Flash Lite (Reasoning)	61	57	57	57	41	54.5%
Claude Sonnet 4.6	65	58	54	48	46	54.5%
Mistral Large 2	60	59	59	49	45	54.4%
Mistral Small 4 (Reasoning)	73	58	52	45	44	54.2%
MoonshotAI: Kimi K2.5	65	61	52	48	43	53.7%
Z.AI GLM 5 Turbo	64	56	55	48	46	53.6%
Grok 4.20 (Reasoning)	65	55	52	51	44	53.5%
Gemini 2.5 Flash Lite	58	54	54	52	48	53.0%
Gemini 2.5 Flash (Reasoning)	61	54	54	47	47	52.7%
Qwen3 235B A22B Instruct 2507	58	55	55	50	45	52.6%
MiniMax M2.5	59	55	54	51	43	52.3%
Grok 4.20	57	57	54	46	45	52.1%
Mistral Medium 3.1	59	51	51	50	48	52.0%
GPT-5.1	58	56	52	49	45	51.9%
ByteDance Seed 2.0 Lite	57	54	52	50	45	51.7%
MiniMax M2.7	54	54	52	50	46	51.3%
Grok 4.3	62	55	46	46	45	50.8%
Nemotron 3 Super	62	53	47	47	45	50.6%
Mistral Small 3.2 24B	69	57	47	41	37	50.3%
Mistral Large 3	64	49	47	45	44	49.9%
Gemini 2.5 Flash	59	51	48	47	43	49.6%
Claude Sonnet 4.6 (Reasoning)	66	57	47	44	34	49.4%
Ministral 3 14B	56	52	52	46	40	49.1%
MoonshotAI: Kimi K2.6	60	53	44	44	43	48.8%
Gemini 3.5 Flash (Reasoning)	57	52	48	47	40	48.7%
Mistral Small 4	56	49	48	45	44	48.4%
Nemotron 3 Nano	60	48	48	43	42	48.2%
Gemini 3.5 Flash (Reasoning, Minimal)	57	51	46	43	43	48.0%
Xiaomi MIMO v2.5	53	52	47	47	41	48.0%
Xiaomi MIMO v2.5 Pro	59	46	46	43	42	47.2%
o4 Mini	51	50	47	45	43	47.1%
Claude Opus 4.6	52	51	45	44	43	46.9%
o4 Mini High	57	46	45	45	41	46.9%
ByteDance Seed 1.6 Flash	55	47	45	44	42	46.8%
DeepSeek V4 Pro	54	50	47	44	39	46.6%
DeepSeek V4 Flash	51	49	45	44	43	46.4%
Qwen 3.6 27B	62	51	41	39	38	46.3%
DeepSeek V4 Flash (Reasoning)	57	48	47	45	35	46.3%
GPT-5.4	47	46	46	45	45	45.9%
GPT-5.4 (Reasoning)	47	46	45	45	44	45.7%
Aion 3.0 Mini	53	48	45	42	40	45.6%
Gemini 3 Flash (Preview, Reasoning)	48	48	47	44	39	45.0%
DeepSeek V4 Pro (Reasoning)	53	45	45	44	37	44.9%
GPT-5.4 Mini	48	47	44	44	42	44.9%
GPT-OSS 120B	50	46	43	43	42	44.8%
GPT-5.4 (Reasoning, Low)	46	45	45	45	43	44.8%
Gemma 4 26B	47	47	44	43	43	44.7%
Ministral 3 3B	48	48	46	41	40	44.4%
Claude Opus 4.6 (Reasoning)	49	49	43	43	38	44.3%
Gemini 2.5 Pro	54	49	42	39	36	44.2%
GPT-5.5	45	45	44	43	43	44.0%
GPT-5.4 Mini (Reasoning, Low)	45	45	45	43	42	43.8%
Aion 2.0	53	53	41	37	35	43.7%
Z.AI GLM 5.2 (Reasoning, High)	48	45	45	44	36	43.5%
ByteDance Seed 1.6	54	44	41	40	36	43.0%
Aion 3.0	51	43	43	40	38	42.9%
GPT-5.4 Mini (Reasoning)	45	44	43	43	39	42.8%
GPT-5.5 (Reasoning)	44	43	43	42	42	42.8%
GPT-5.5 (Reasoning, Low)	44	43	43	42	42	42.8%
Mistral NeMO	64	53	35	33	29	42.8%
Ministral 3B	48	44	42	41	38	42.6%
Inception Mercury 2	45	44	42	41	40	42.4%
GPT-5	45	44	41	41	40	42.3%
DeepSeek V3.2	49	47	43	38	34	42.3%
GPT-5.2	44	42	42	42	40	42.0%
Ministral 8B	45	43	43	41	36	41.7%
Gemini 3.1 Pro (Preview)	56	41	40	39	33	41.6%
GPT-5.4 Nano (Reasoning)	43	43	42	39	39	41.5%
Ministral 3 8B	43	42	41	41	38	41.1%
Qwen3.7 Max	50	45	43	35	33	41.0%
GPT-5.4 Nano (Reasoning, Low)	42	42	41	40	39	40.9%
GPT-5.4 Nano	44	43	39	39	39	40.8%
Qwen 3.6 Flash	51	43	40	38	32	40.8%
Gemma 4 31B	47	42	40	36	36	40.2%
GPT-5 Mini	43	43	39	38	36	39.8%
Qwen 3.6 35B	43	41	39	38	37	39.7%
Gemini 3 Flash (Preview)	44	44	40	36	34	39.7%
Gemma 4 26B (Reasoning)	53	38	37	36	34	39.6%
DeepSeek V3.1	42	41	40	37	37	39.6%
Qwen3.6 Max Preview	50	39	37	37	32	39.1%
GPT-5 Nano	41	39	38	38	37	38.9%
Gemma 4 31B (Reasoning)	41	40	39	38	36	38.7%
Qwen 3.5 122B	42	40	38	38	33	38.4%
Z.AI GLM 4.6	41	39	39	38	33	38.0%
Z.AI GLM 4.7	45	42	38	32	31	37.9%
Qwen 3.5 35B	43	41	36	36	33	37.8%
Qwen 3.5 Plus (2026-04-20)	46	37	36	35	34	37.6%
Qwen 3.5 Flash	39	39	38	35	34	37.2%
MiniMax M3	57	41	33	30	25	37.2%
Gemini 3.1 Flash Lite (Preview)	40	38	37	36	29	36.2%
Z.AI GLM 4.7 Flash	40	39	32	31	30	34.4%
Qwen 3.5 27B	41	38	37	30	25	34.3%
Gemini 3.1 Flash Lite (Reasoning)	39	36	35	30	29	33.7%
Qwen 3.5 397B A17B	37	37	35	30	25	32.9%
Gemini 3.1 Flash Lite	36	34	33	33	27	32.7%
Qwen 3.5 9B	39	34	32	28	28	32.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Sonnet 5 (Reasoning)	100	98	96	96	96	97.3%
Claude Sonnet 5	93	92	92	91	89	91.7%
GPT-4o Mini (temp=1)	100	98	89	84	84	91.1%
Hermes 3 405B	98	96	91	86	76	89.5%
Claude Sonnet 5 (Reasoning, Low)	91	90	89	86	77	86.8%
Cohere Command R+ (Aug. 2024)	98	88	86	84	59	82.9%
GPT-4o, Aug. 6th (temp=1)	90	86	80	78	76	82.0%
Cydonia 24B V4.1	90	90	86	80	57	80.7%
Claude Sonnet 4	99	79	79	78	66	80.0%
Claude Opus 4.7 (Reasoning)	89	83	79	77	67	79.1%
Claude Opus 4.7	89	84	83	71	65	78.5%
Claude Opus 4.8 (Reasoning)	83	78	78	77	76	78.3%
Claude Sonnet 4.5	87	83	77	74	70	77.9%
Claude Opus 4.8 (Reasoning, Low)	86	83	80	72	61	76.5%
Claude Opus 4	93	78	75	73	61	75.9%
Grok 4.5 (Reasoning, High)	82	81	79	68	65	75.2%
Qwen 3 32B	98	89	64	60	59	74.1%
DeepSeek V3 (2025-03-24)	88	82	79	75	42	73.1%
Z.AI GLM 4.5 Air	82	75	70	70	67	73.0%
MiniMax M2.7	78	74	73	71	69	72.9%
GPT-4.1 Nano	80	76	74	68	64	72.5%
GPT-4.1 Mini	87	77	71	68	58	72.1%
ByteDance Seed 2.0 Lite	96	83	72	61	49	72.1%
Hermes 3 70B	89	82	78	68	41	71.5%
Z.AI GLM 4.5	78	74	70	70	64	71.1%
Claude Haiku 4.5	85	80	72	68	46	70.0%
GPT-4.1	78	74	72	69	56	69.9%
Grok 4.5 (Reasoning, Low)	74	73	68	68	63	68.9%
Gemma 3 27B	94	69	64	59	58	68.8%
Claude Sonnet 4.6	76	70	68	64	63	68.3%
GPT-5.1	72	70	68	64	64	67.5%
ByteDance Seed 2.0 Mini	84	72	65	58	58	67.1%
GPT-4o Mini (temp=0)	77	68	67	66	57	67.0%
Z.AI GLM 5 Turbo	79	68	67	64	57	66.8%
Qwen 2.5 72B	82	68	65	63	56	66.8%
Arcee AI: Trinity Mini	91	77	69	48	46	66.3%
GPT-5.4 (Reasoning)	75	67	67	62	58	65.7%
WizardLM 2 8x22b	83	62	62	61	58	65.1%
Gemini 2.5 Flash Lite	87	67	63	60	49	65.1%
Grok 4.3	79	70	63	57	54	64.7%
DeepSeek-V2 Chat	78	71	65	57	52	64.7%
Claude Sonnet 4.6 (Reasoning)	72	70	63	60	59	64.7%
ByteDance Seed 1.6	76	68	66	65	48	64.7%
Claude Opus 4.5	76	69	67	57	54	64.5%
Qwen 3.5 Plus (2026-02-15)	85	68	60	60	49	64.3%
Gemini 3.5 Flash (Reasoning, Minimal)	79	74	59	56	53	64.1%
Z.AI GLM 5	70	67	67	59	57	63.9%
GPT-5.4	67	66	65	63	57	63.7%
Llama 3.1 70B	76	63	61	59	58	63.4%
Z.AI GLM 5.2 (Reasoning, High)	76	66	65	55	54	63.1%
Grok 4.20 (Reasoning)	72	66	62	59	56	63.0%
Gemini 2.5 Flash (Reasoning)	73	65	62	60	51	62.4%
Gemini 3.5 Flash (Reasoning)	88	65	60	54	45	62.3%
o4 Mini High	73	64	61	57	54	61.9%
Z.AI GLM 5.1	74	63	62	58	54	61.9%
MiniMax M2.5	72	65	61	60	49	61.6%
Gemma 3 12B	77	64	63	59	46	61.5%
Gemini 2.5 Flash Lite (Reasoning)	78	69	65	51	44	61.1%
GPT-4o, Aug. 6th (temp=0)	81	57	56	55	54	60.6%
Writer: Palmyra X5	78	62	56	52	49	59.4%
Gemma 3 4B	70	68	60	51	47	59.2%
DeepSeek V4 Flash	76	75	55	50	40	59.0%
Gemini 3 Flash (Preview)	68	65	57	53	49	58.5%
GPT-5.4 (Reasoning, Low)	63	63	57	56	53	58.5%
o4 Mini	68	63	56	55	48	58.2%
MiniMax M3	71	63	57	55	44	58.2%
Qwen3 235B A22B Instruct 2507	68	58	58	55	50	57.8%
GPT-5	65	62	56	54	50	57.3%
Gemini 2.5 Flash	74	66	54	49	42	57.2%
Claude Opus 4.6 (Reasoning)	66	65	53	51	49	57.0%
Gemini 2.5 Pro	64	63	60	53	44	56.7%
DeepSeek V4 Pro	67	57	57	53	48	56.4%
DeepSeek V3 (2024-12-26)	75	53	49	49	48	55.1%
Mistral Large 3	64	55	54	51	51	55.0%
DeepSeek V4 Pro (Reasoning)	64	54	53	53	52	55.0%
MoonshotAI: Kimi K2.6	64	64	53	49	44	54.9%
Gemma 4 31B	63	58	56	53	43	54.6%
Grok 4.3 (Reasoning)	60	59	56	56	43	54.6%
GPT-5.5	61	61	51	50	49	54.4%
Qwen3.7 Max	66	61	56	48	42	54.4%
DeepSeek V3.2	74	60	50	45	42	54.1%
MoonshotAI: Kimi K2.5	58	57	55	52	48	54.0%
Aion 3.0	65	58	51	49	46	53.7%
Xiaomi MIMO v2.5	65	54	53	48	47	53.4%
Mistral NeMO	71	58	51	47	39	53.2%
Claude Opus 4.6	63	56	55	49	42	53.2%
Grok 4.20	62	56	55	49	43	53.0%
Gemini 3.1 Pro (Preview)	62	53	50	49	48	52.4%
Mistral Large 2	57	57	55	46	46	52.1%
GPT-5.5 (Reasoning, Low)	59	55	50	49	47	52.1%
DeepSeek V3.1	61	61	50	47	41	52.0%
Gemini 3 Flash (Preview, Reasoning)	69	55	54	41	39	51.6%
Aion 2.0	58	57	52	49	42	51.5%
Nemotron 3 Super	58	55	50	49	41	50.6%
Aion 3.0 Mini	56	53	52	49	44	50.5%
Qwen3.6 Max Preview	55	54	53	47	42	50.4%
Mistral Small 4	57	54	50	46	43	50.1%
GPT-5.5 (Reasoning)	54	51	50	50	44	49.8%
Mistral Small 4 (Reasoning)	62	50	47	46	44	49.7%
Qwen 3.6 27B	55	51	50	45	43	48.7%
Mistral Medium 3.1	57	50	49	46	41	48.6%
Qwen 3.5 397B A17B	63	52	44	43	41	48.5%
Gemma 4 26B (Reasoning)	57	52	49	46	38	48.4%
Xiaomi MIMO v2.5 Pro	63	53	46	44	33	47.9%
Z.AI GLM 4.6	57	54	51	40	36	47.7%
Z.AI GLM 4.7	52	50	49	47	41	47.7%
Gemma 4 31B (Reasoning)	56	51	50	44	34	47.1%
Z.AI GLM 4.7 Flash	57	50	45	41	40	46.8%
GPT-5.4 Mini	53	49	47	45	39	46.6%
Nemotron 3 Nano	62	50	42	40	38	46.4%
Qwen 3.6 35B	54	51	46	42	38	46.4%
GPT-5.4 Mini (Reasoning)	50	50	46	44	38	45.5%
Ministral 3 8B	53	45	45	43	41	45.5%
Ministral 8B	50	47	46	43	40	45.5%
ByteDance Seed 1.6 Flash	48	46	46	45	43	45.3%
GPT-5.4 Mini (Reasoning, Low)	49	48	45	43	42	45.2%
Qwen 3.5 27B	53	49	47	38	37	44.7%
DeepSeek V4 Flash (Reasoning)	57	45	41	41	39	44.3%
Ministral 3B	48	48	42	42	41	44.2%
GPT-5.2	49	45	43	42	41	43.8%
GPT-5 Mini	49	44	43	41	41	43.8%
Qwen 3.5 Flash	52	44	41	41	40	43.5%
Qwen 3.5 Plus (2026-04-20)	54	44	41	38	38	42.9%
Gemma 4 26B	55	44	40	38	37	42.8%
Qwen 3.5 122B	53	49	39	38	34	42.8%
Gemini 3.1 Flash Lite	51	49	40	37	36	42.5%
Qwen 3.6 Flash	53	43	42	40	34	42.3%
Ministral 3 14B	48	43	42	40	38	42.0%
GPT-5.4 Nano (Reasoning)	44	44	41	41	40	41.9%
GPT-5.4 Nano (Reasoning, Low)	44	43	43	39	37	41.3%
Gemini 3.1 Flash Lite (Reasoning)	45	44	43	40	33	41.1%
Gemini 3.1 Flash Lite (Preview)	48	46	41	37	34	41.0%
GPT-5.4 Nano	44	42	40	40	39	41.0%
Ministral 3 3B	48	43	43	40	25	39.6%
Mistral Small 3.2 24B	44	42	42	35	34	39.3%
Qwen 3.5 9B	56	42	37	31	30	39.2%
GPT-OSS 120B	46	41	40	36	33	39.0%
Qwen 3.5 35B	41	39	39	39	36	38.8%
Inception Mercury 2	39	39	37	37	32	36.9%
GPT-5 Nano	37	37	36	32	28	34.1%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	95	95	94	85	68	87.3%
Claude Sonnet 5 (Reasoning, Low)	91	88	81	78	77	83.1%
GPT-4.1 Mini	87	84	75	74	72	78.3%
Cydonia 24B V4.1	92	86	75	71	66	78.1%
GPT-4o Mini (temp=1)	82	81	79	78	67	77.4%
Hermes 3 405B	96	93	80	63	53	77.1%
DeepSeek V3 (2025-03-24)	90	80	79	68	61	75.3%
Hermes 3 70B	98	80	77	67	46	73.6%
Cohere Command R+ (Aug. 2024)	86	74	73	69	64	73.0%
Claude Sonnet 4.5	80	77	66	66	65	70.8%
Claude Opus 4	76	75	68	67	64	69.9%
GPT-4.1 Nano	84	76	71	60	59	69.9%
Claude Sonnet 5	91	72	68	61	57	69.7%
Claude Sonnet 4	74	72	70	62	59	67.3%
Qwen 3 32B	90	77	63	56	47	66.9%
GPT-4o, Aug. 6th (temp=0)	68	68	67	64	63	66.0%
DeepSeek V3 (2024-12-26)	76	67	67	66	53	65.9%
Claude Sonnet 5 (Reasoning)	80	68	63	62	55	65.7%
Claude Haiku 4.5	71	70	65	62	57	64.9%
WizardLM 2 8x22b	85	67	67	55	51	64.8%
Claude Opus 4.8 (Reasoning)	91	69	67	56	40	64.6%
Grok 4.5 (Reasoning, Low)	67	66	64	63	63	64.6%
Z.AI GLM 4.5 Air	74	70	64	55	55	63.7%
DeepSeek-V2 Chat	74	63	63	61	55	63.3%
Claude Opus 4.8 (Reasoning, Low)	67	67	66	65	50	62.9%
Llama 3.1 70B	77	64	57	55	54	61.5%
Grok 4.5 (Reasoning, High)	67	66	62	58	55	61.4%
Grok 4.3 (Reasoning)	86	63	54	53	51	61.4%
Claude Opus 4.5	66	62	61	58	58	61.1%
Z.AI GLM 4.5	70	69	60	55	51	60.9%
Gemma 3 12B	65	65	62	59	48	59.7%
GPT-4.1	65	61	61	55	55	59.6%
ByteDance Seed 2.0 Lite	77	63	60	60	37	59.3%
Gemma 3 27B	72	70	59	48	47	59.1%
Z.AI GLM 5.1	85	60	53	49	46	58.6%
MiniMax M2.7	68	62	60	55	47	58.4%
Arcee AI: Trinity Mini	80	63	61	52	35	58.3%
Claude Opus 4.7	61	58	58	56	51	57.0%
Qwen3 235B A22B Instruct 2507	68	60	54	52	50	56.8%
Qwen 3.5 Plus (2026-02-15)	62	60	54	51	50	55.3%
Gemini 3.5 Flash (Reasoning, Minimal)	60	57	55	52	50	54.9%
Grok 4.20 (Reasoning)	68	59	52	49	45	54.7%
Mistral Large 2	61	58	55	51	47	54.6%
MoonshotAI: Kimi K2.5	67	52	52	51	49	54.3%
Gemini 2.5 Flash (Reasoning)	64	62	51	46	45	53.6%
Gemini 2.5 Flash Lite	61	54	53	52	47	53.6%
Gemini 2.5 Flash	72	53	51	46	44	53.4%
Writer: Palmyra X5	62	57	53	46	46	53.0%
Gemma 3 4B	64	59	56	44	42	52.9%
Qwen 2.5 72B	70	54	50	45	42	52.3%
DeepSeek V3.1	70	52	50	47	41	51.8%
DeepSeek V4 Flash (Reasoning)	58	58	57	46	38	51.5%
Ministral 3 14B	56	53	52	51	46	51.4%
ByteDance Seed 2.0 Mini	65	63	50	45	33	51.3%
o4 Mini	59	58	48	47	43	51.1%
Mistral Large 3	61	53	49	48	44	51.0%
Grok 4.3	62	51	49	47	46	51.0%
Z.AI GLM 5	56	54	52	47	45	50.9%
Claude Sonnet 4.6 (Reasoning)	59	51	49	49	46	50.8%
GPT-4o Mini (temp=0)	54	52	50	49	48	50.6%
Gemini 2.5 Pro	56	53	49	48	46	50.4%
Aion 2.0	59	51	50	49	41	49.9%
Claude Opus 4.7 (Reasoning)	60	53	50	47	39	49.9%
GPT-5.1	59	50	49	46	44	49.6%
ByteDance Seed 1.6	64	56	49	42	37	49.6%
MoonshotAI: Kimi K2.6	54	53	49	48	42	49.0%
Mistral Medium 3.1	58	52	45	44	44	48.4%
o4 Mini High	58	53	46	44	41	48.4%
Gemini 3.5 Flash (Reasoning)	52	51	49	45	44	48.2%
Claude Opus 4.6	53	50	49	49	39	48.1%
Gemma 4 26B	61	49	49	41	40	48.1%
Z.AI GLM 5.2 (Reasoning, High)	59	53	50	42	37	48.1%
Grok 4.20	54	51	47	44	44	48.0%
Claude Sonnet 4.6	56	52	51	43	38	47.9%
DeepSeek V4 Flash	53	52	52	48	35	47.9%
Mistral Small 4	52	50	47	46	44	47.9%
Aion 3.0	56	55	45	44	40	47.8%
Z.AI GLM 4.6	54	51	48	46	39	47.8%
Z.AI GLM 5 Turbo	62	52	51	42	31	47.7%
GPT-5.4	55	46	46	46	44	47.7%
Mistral NeMO	79	46	43	39	32	47.6%
DeepSeek V4 Pro (Reasoning)	60	49	48	40	40	47.4%
Ministral 3 8B	64	46	45	42	41	47.4%
Gemini 3 Flash (Preview)	52	49	49	44	42	47.3%
Xiaomi MIMO v2.5 Pro	59	50	45	44	37	46.9%
Aion 3.0 Mini	57	51	51	39	34	46.5%
DeepSeek V3.2	49	49	47	46	42	46.5%
Gemini 2.5 Flash Lite (Reasoning)	60	46	45	44	36	46.2%
DeepSeek V4 Pro	65	48	42	39	36	46.1%
GPT-5.4 (Reasoning, Low)	49	47	46	45	43	46.0%
ByteDance Seed 1.6 Flash	50	50	47	43	39	45.9%
GPT-OSS 120B	50	46	44	44	43	45.6%
Claude Opus 4.6 (Reasoning)	50	50	45	42	41	45.5%
Mistral Small 4 (Reasoning)	60	44	43	43	38	45.5%
Nemotron 3 Super	54	44	44	42	42	45.3%
Xiaomi MIMO v2.5	51	49	45	42	38	45.2%
GPT-5.4 (Reasoning)	46	46	45	45	43	44.9%
GPT-5.4 Mini (Reasoning, Low)	48	47	43	43	43	44.8%
Ministral 3B	47	46	44	42	40	43.8%
Ministral 3 3B	47	46	45	43	38	43.7%
MiniMax M2.5	56	47	44	41	31	43.6%
GPT-5.5	45	44	43	43	42	43.4%
Mistral Small 3.2 24B	48	47	42	41	38	43.4%
GPT-5.4 Mini	46	44	43	42	41	43.3%
GPT-5.5 (Reasoning, Low)	44	44	43	43	42	43.2%
GPT-5.2	45	44	43	42	41	43.2%
GPT-5.5 (Reasoning)	44	43	43	42	42	42.9%
Gemini 3 Flash (Preview, Reasoning)	49	44	43	41	38	42.9%
GPT-5 Mini	45	44	43	41	40	42.7%
GPT-5.4 Nano (Reasoning, Low)	46	43	42	41	41	42.7%
GPT-5.4 Mini (Reasoning)	45	44	44	41	39	42.7%
Gemma 4 31B	47	44	43	40	39	42.5%
Gemma 4 26B (Reasoning)	49	44	42	41	36	42.4%
Qwen3.7 Max	50	46	40	38	38	42.2%
Qwen 3.5 Plus (2026-04-20)	50	43	42	40	35	42.1%
GPT-5	47	43	41	40	39	41.9%
Qwen 3.6 27B	53	41	40	39	36	41.9%
Gemma 4 31B (Reasoning)	46	44	41	40	38	41.6%
Qwen3.6 Max Preview	48	44	40	39	38	41.5%
GPT-5.4 Nano (Reasoning)	46	42	41	39	38	41.3%
Gemini 3.1 Flash Lite (Reasoning)	49	43	42	38	32	40.7%
Ministral 8B	49	44	39	36	35	40.7%
GPT-5.4 Nano	42	41	41	39	39	40.2%
Gemini 3.1 Flash Lite (Preview)	50	44	41	32	31	39.4%
Inception Mercury 2	46	44	37	36	34	39.4%
GPT-5 Nano	41	40	39	38	38	39.1%
Gemini 3.1 Pro (Preview)	52	38	37	37	29	38.6%
Qwen 3.5 27B	42	40	38	37	35	38.4%
Z.AI GLM 4.7 Flash	44	39	38	37	33	38.2%
Gemini 3.1 Flash Lite	48	40	35	34	33	38.1%
Qwen 3.5 122B	40	39	38	37	36	38.0%
Qwen 3.5 Flash	42	42	36	35	34	37.8%
Qwen 3.5 397B A17B	43	40	39	38	30	37.7%
Z.AI GLM 4.7	40	38	37	36	35	37.1%
Qwen 3.6 Flash	44	40	38	36	26	36.9%
Nemotron 3 Nano	43	42	34	34	30	36.6%
MiniMax M3	47	38	36	33	25	35.9%
Qwen 3.6 35B	39	37	35	34	32	35.1%
Qwen 3.5 9B	39	38	36	31	28	34.4%
Qwen 3.5 35B	37	34	34	31	30	33.2%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
WizardLM 2 8x22b	100	100	77	73	63	82.6%
Cydonia 24B V4.1	94	81	80	76	73	81.0%
GPT-4o, Aug. 6th (temp=1)	94	80	80	78	71	80.9%
DeepSeek V3 (2025-03-24)	94	80	78	76	63	78.3%
Grok 4.3 (Reasoning)	100	87	75	65	51	75.5%
Claude Sonnet 4	83	75	75	73	61	73.4%
Claude Sonnet 5 (Reasoning, Low)	82	81	80	66	56	72.9%
GPT-4o Mini (temp=1)	82	82	68	67	64	72.6%
Claude Sonnet 5	85	79	73	69	57	72.5%
Grok 4.5 (Reasoning, Low)	91	74	70	65	63	72.5%
Claude Opus 4.8 (Reasoning, Low)	91	74	72	65	56	71.8%
Grok 4.5 (Reasoning, High)	75	74	70	70	67	71.3%
Claude Sonnet 5 (Reasoning)	94	73	65	63	61	71.2%
Claude Opus 4.8 (Reasoning)	86	71	71	68	59	71.0%
GPT-4.1 Mini	76	75	69	69	65	70.9%
Claude Opus 4.7	74	74	74	71	57	70.0%
DeepSeek-V2 Chat	85	74	73	63	47	68.4%
Claude Sonnet 4.5	81	68	64	63	55	66.2%
Claude Opus 4	75	71	63	62	59	66.1%
Z.AI GLM 4.5	79	77	63	57	49	64.8%
Llama 3.1 70B	76	71	67	62	47	64.7%
Claude Opus 4.7 (Reasoning)	79	70	64	60	50	64.6%
GPT-5.4 (Reasoning, Low)	68	67	64	64	58	64.2%
DeepSeek V3 (2024-12-26)	77	71	66	60	46	63.9%
GPT-5.4	75	66	61	60	54	63.3%
ByteDance Seed 2.0 Lite	89	63	60	53	52	63.3%
MoonshotAI: Kimi K2.5	80	63	60	59	53	62.9%
Claude Haiku 4.5	72	71	60	57	53	62.6%
Hermes 3 405B	78	76	70	47	41	62.3%
MoonshotAI: Kimi K2.6	72	72	67	54	43	61.5%
Cohere Command R+ (Aug. 2024)	71	68	65	60	44	61.5%
GPT-4.1	72	67	62	59	47	61.2%
Gemma 3 4B	68	66	63	60	48	61.1%
Grok 4.20 (Reasoning)	80	61	56	55	53	61.0%
GPT-5.4 (Reasoning)	64	63	60	59	58	61.0%
Writer: Palmyra X5	68	66	57	56	51	59.7%
Claude Opus 4.5	71	62	59	54	48	58.8%
Grok 4.20	64	60	58	56	53	58.3%
Qwen3 235B A22B Instruct 2507	67	63	55	53	53	58.2%
o4 Mini	71	59	58	55	46	57.8%
Gemma 3 12B	65	64	57	54	50	57.8%
GPT-4.1 Nano	68	64	56	50	49	57.4%
Hermes 3 70B	100	75	42	36	33	57.4%
Z.AI GLM 4.5 Air	69	64	57	48	44	56.5%
GPT-5.1	62	59	56	54	49	55.9%
Grok 4.3	64	62	57	50	47	55.9%
Z.AI GLM 5 Turbo	70	60	50	50	46	55.4%
Gemini 2.5 Flash	78	59	49	47	45	55.4%
Gemini 3 Flash (Preview, Reasoning)	73	63	54	50	37	55.3%
GPT-5.4 Mini (Reasoning)	64	54	53	51	50	54.5%
Arcee AI: Trinity Mini	71	63	58	41	39	54.3%
Z.AI GLM 5.1	60	55	53	52	52	54.3%
Z.AI GLM 5	67	61	56	44	38	53.1%
GPT-5.5 (Reasoning)	60	52	50	49	49	52.2%
MiniMax M2.7	60	54	51	49	46	52.2%
Qwen3.6 Max Preview	65	53	49	48	46	52.1%
Qwen 3 32B	62	55	50	46	46	52.0%
MiniMax M2.5	64	53	52	49	40	51.7%
Qwen 3.6 27B	63	56	48	46	45	51.5%
Gemini 2.5 Flash Lite (Reasoning)	65	51	51	46	44	51.5%
DeepSeek V4 Pro	59	57	51	48	42	51.3%
DeepSeek V4 Pro (Reasoning)	65	63	46	42	36	50.5%
o4 Mini High	58	50	48	48	46	50.3%
Qwen 3.5 Plus (2026-02-15)	61	59	51	47	34	50.2%
Mistral Medium 3.1	69	52	45	44	40	50.0%
GPT-4o, Aug. 6th (temp=0)	59	50	49	47	44	49.9%
Z.AI GLM 5.2 (Reasoning, High)	62	55	47	44	41	49.7%
Gemini 3.5 Flash (Reasoning, Minimal)	55	55	50	46	41	49.5%
DeepSeek V4 Flash	53	51	49	47	47	49.4%
DeepSeek V3.1	73	61	39	38	36	49.3%
ByteDance Seed 1.6 Flash	63	50	47	45	39	48.7%
GPT-5.4 Mini (Reasoning, Low)	53	51	49	47	44	48.7%
GPT-4o Mini (temp=0)	55	50	49	47	41	48.6%
GPT-5.4 Mini	55	51	48	46	43	48.6%
Mistral Small 4	59	51	48	45	39	48.5%
Gemini 3.5 Flash (Reasoning)	56	48	47	45	44	48.1%
GPT-5.5 (Reasoning, Low)	51	49	48	47	42	47.5%
Gemini 2.5 Flash (Reasoning)	58	56	43	43	38	47.4%
GPT-5.5	57	50	45	43	42	47.3%
Gemini 3.1 Pro (Preview)	60	49	44	40	39	46.5%
Qwen 3.6 Flash	55	49	49	44	34	46.2%
Aion 3.0 Mini	52	51	46	45	36	46.1%
Gemma 3 27B	54	52	44	43	37	45.9%
DeepSeek V3.2	54	47	46	45	38	45.9%
ByteDance Seed 1.6	61	51	44	39	33	45.7%
Claude Opus 4.6	55	53	48	42	28	45.2%
Nemotron 3 Super	49	48	45	45	38	45.0%
Mistral Small 4 (Reasoning)	53	50	41	40	40	44.8%
Ministral 3B	55	46	43	40	39	44.6%
Claude Opus 4.6 (Reasoning)	50	49	44	43	36	44.6%
Claude Sonnet 4.6	55	53	42	39	33	44.5%
Mistral Large 2	53	45	45	40	39	44.5%
DeepSeek V4 Flash (Reasoning)	48	47	47	44	37	44.4%
Mistral Large 3	59	46	40	38	36	43.8%
Qwen 2.5 72B	53	42	42	40	40	43.6%
Gemini 3 Flash (Preview)	52	48	43	38	36	43.5%
ByteDance Seed 2.0 Mini	48	47	45	42	35	43.3%
GPT-5.2	46	44	44	43	38	42.9%
Xiaomi MIMO v2.5 Pro	47	46	44	40	36	42.7%
Aion 2.0	52	44	41	40	37	42.7%
Ministral 3 8B	47	44	43	41	37	42.5%
Nemotron 3 Nano	50	47	43	37	34	42.4%
Claude Sonnet 4.6 (Reasoning)	55	43	43	37	34	42.2%
Ministral 3 14B	47	42	41	41	39	42.1%
Gemma 4 31B	56	45	41	38	28	41.6%
Gemini 2.5 Flash Lite	44	43	43	42	36	41.6%
Aion 3.0	48	46	39	37	37	41.6%
Qwen 3.5 Plus (2026-04-20)	57	47	39	34	29	41.5%
GPT-5.4 Nano (Reasoning)	42	42	42	41	40	41.5%
Ministral 3 3B	46	44	41	38	36	41.3%
Qwen 3.5 397B A17B	50	47	43	33	33	41.1%
Qwen3.7 Max	47	41	40	40	36	40.8%
Gemini 2.5 Pro	44	43	42	41	33	40.6%
GPT-5.4 Nano (Reasoning, Low)	45	41	41	39	36	40.5%
Z.AI GLM 4.6	53	42	41	33	31	40.0%
MiniMax M3	55	48	36	34	25	39.8%
Gemini 3.1 Flash Lite (Reasoning)	53	43	36	33	32	39.3%
GPT-5.4 Nano	43	40	40	36	34	38.6%
Z.AI GLM 4.7 Flash	51	39	39	35	29	38.6%
GPT-OSS 120B	44	43	38	38	30	38.5%
GPT-5	40	39	39	37	36	38.3%
Qwen 3.6 35B	51	39	38	32	29	37.9%
Xiaomi MIMO v2.5	45	39	36	33	32	37.2%
Ministral 8B	48	40	35	33	28	36.7%
GPT-5 Mini	41	40	35	34	32	36.5%
Z.AI GLM 4.7	40	37	37	36	33	36.4%
Inception Mercury 2	40	40	36	33	31	36.1%
Qwen 3.5 9B	50	35	34	32	25	35.4%
Gemini 3.1 Flash Lite (Preview)	47	35	34	32	28	35.0%
Gemma 4 26B (Reasoning)	43	35	34	34	29	35.0%
Gemma 4 26B	38	35	35	34	32	34.9%
Gemma 4 31B (Reasoning)	39	36	34	33	32	34.6%
Mistral NeMO	40	39	34	31	25	33.8%
Gemini 3.1 Flash Lite	36	36	33	32	25	32.4%
Qwen 3.5 27B	36	35	33	31	26	32.2%
Qwen 3.5 35B	35	32	31	30	30	31.7%
Qwen 3.5 Flash	36	34	31	29	28	31.7%
Qwen 3.5 122B	34	33	31	30	28	31.2%
Mistral Small 3.2 24B	37	25	25	25	25	27.4%
GPT-5 Nano	32	27	27	25	25	27.1%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o Mini (temp=1)	98	96	95	90	77	91.1%
Claude Sonnet 5 (Reasoning, Low)	96	92	90	86	84	89.4%
Cydonia 24B V4.1	98	95	86	82	66	85.4%
Claude Sonnet 5 (Reasoning)	96	95	85	80	67	84.7%
Hermes 3 405B	98	86	82	80	72	83.7%
Claude Sonnet 4	94	92	84	78	67	83.2%
Claude Opus 4	95	92	87	73	63	82.1%
Claude Opus 4.8 (Reasoning, Low)	97	82	81	77	73	82.0%
Claude Sonnet 5	91	89	82	79	67	81.4%
Claude Sonnet 4.6	84	83	83	78	70	79.5%
Claude Opus 4.8 (Reasoning)	89	84	79	76	65	78.5%
Claude Sonnet 4.5	90	80	79	78	60	77.4%
GPT-4o, Aug. 6th (temp=1)	87	84	75	73	68	77.3%
Claude Opus 4.7	85	82	78	74	64	76.4%
Claude Sonnet 4.6 (Reasoning)	89	87	77	63	61	75.6%
Gemma 3 27B	89	79	75	66	64	74.4%
ByteDance Seed 2.0 Lite	96	86	74	65	50	74.3%
Claude Opus 4.6 (Reasoning)	85	80	72	71	63	74.0%
Aion 3.0 Mini	96	83	79	68	43	73.9%
Claude Opus 4.5	80	75	72	70	69	73.0%
GPT-4.1	86	80	78	65	55	72.7%
Gemma 3 12B	88	79	71	70	54	72.4%
Claude Opus 4.7 (Reasoning)	84	77	76	71	53	72.3%
Cohere Command R+ (Aug. 2024)	86	74	72	66	62	72.0%
Gemma 3 4B	75	75	72	67	65	70.7%
GPT-4.1 Nano	83	71	70	69	60	70.5%
Z.AI GLM 5	77	76	71	67	61	70.3%
Grok 4.5 (Reasoning, High)	74	72	69	68	67	69.9%
DeepSeek V4 Pro	83	74	67	66	57	69.5%
DeepSeek V3 (2025-03-24)	100	74	59	54	51	67.6%
Grok 4.5 (Reasoning, Low)	72	71	68	65	59	67.1%
Gemini 2.5 Flash Lite	80	68	64	60	60	66.3%
Gemini 2.5 Flash	77	74	72	65	44	66.3%
DeepSeek V4 Pro (Reasoning)	82	68	67	59	55	66.1%
Hermes 3 70B	73	70	68	60	58	65.9%
DeepSeek V4 Flash	74	72	66	60	57	65.9%
GPT-4.1 Mini	72	71	68	57	57	64.9%
Claude Haiku 4.5	79	69	64	59	53	64.8%
Gemini 2.5 Pro	89	70	57	56	48	64.0%
GPT-5.1	74	71	68	54	51	63.6%
Gemini 3.5 Flash (Reasoning, Minimal)	79	73	67	54	43	63.3%
Z.AI GLM 5.1	73	70	67	56	50	63.2%
Z.AI GLM 4.5	72	63	61	60	59	63.1%
GPT-4o Mini (temp=0)	71	67	59	59	58	62.9%
Z.AI GLM 5.2 (Reasoning, High)	75	66	58	58	57	62.8%
WizardLM 2 8x22b	72	69	61	57	55	62.7%
Llama 3.1 70B	78	65	62	62	46	62.6%
DeepSeek V4 Flash (Reasoning)	72	65	62	58	56	62.5%
MiniMax M3	71	70	60	59	52	62.4%
Grok 4.20	73	63	60	58	58	62.3%
DeepSeek V3.1	98	58	58	51	47	62.0%
Gemini 2.5 Flash (Reasoning)	75	69	57	55	54	62.0%
MiniMax M2.5	66	66	61	59	57	61.7%
GPT-5.4 (Reasoning, Low)	77	62	59	56	54	61.6%
Qwen3 235B A22B Instruct 2507	76	61	61	55	52	61.3%
Claude Opus 4.6	77	61	59	54	54	61.1%
Grok 4.20 (Reasoning)	67	59	58	53	50	57.3%
GPT-5.4	64	62	58	53	50	57.3%
Qwen 3 32B	64	63	63	49	47	57.3%
GPT-4o, Aug. 6th (temp=0)	76	61	56	50	43	57.1%
GPT-5.5 (Reasoning)	62	59	56	56	53	57.0%
Qwen 3.5 Plus (2026-02-15)	63	60	55	55	51	56.8%
MoonshotAI: Kimi K2.5	73	59	54	49	48	56.8%
DeepSeek V3 (2024-12-26)	75	60	52	51	43	56.2%
Gemini 3.1 Flash Lite	63	60	58	54	44	56.0%
Z.AI GLM 5 Turbo	61	57	55	54	52	55.8%
o4 Mini High	63	61	56	52	47	55.8%
ByteDance Seed 1.6	64	63	62	46	43	55.6%
o4 Mini	60	59	54	53	51	55.5%
Z.AI GLM 4.5 Air	67	61	57	50	43	55.5%
Writer: Palmyra X5	59	57	56	55	49	55.0%
Z.AI GLM 4.6	70	63	57	43	39	54.4%
GPT-5	63	54	53	52	50	54.3%
ByteDance Seed 1.6 Flash	58	55	55	54	48	53.8%
Grok 4.3	64	59	50	48	48	53.6%
GPT-5.4 (Reasoning)	63	59	49	49	48	53.6%
Mistral Medium 3.1	64	56	54	49	45	53.5%
MiniMax M2.7	70	68	46	45	37	53.2%
GPT-5.5 (Reasoning, Low)	55	55	53	52	48	52.7%
GPT-5.4 Mini (Reasoning, Low)	59	55	51	50	48	52.6%
Xiaomi MIMO v2.5 Pro	60	52	51	51	47	52.1%
GPT-5.4 Mini (Reasoning)	60	56	53	46	46	51.9%
Gemini 2.5 Flash Lite (Reasoning)	64	55	53	45	42	51.9%
Z.AI GLM 4.7	60	55	54	49	41	51.7%
Mistral Small 4	67	61	45	44	40	51.6%
Aion 3.0	66	57	51	45	35	50.8%
ByteDance Seed 2.0 Mini	63	51	49	45	44	50.5%
Qwen 3.5 Plus (2026-04-20)	68	57	57	41	29	50.3%
DeepSeek V3.2	57	54	50	49	41	50.2%
Nemotron 3 Super	54	51	50	48	47	50.1%
Grok 4.3 (Reasoning)	66	54	45	42	40	49.5%
Mistral NeMO	60	59	47	43	38	49.5%
MoonshotAI: Kimi K2.6	57	55	50	43	42	49.3%
GPT-5.5	57	50	48	46	44	48.9%
Qwen 3.6 27B	65	51	50	42	36	48.8%
Qwen 2.5 72B	60	48	47	45	44	48.8%
Arcee AI: Trinity Mini	65	53	48	46	31	48.7%
Aion 2.0	53	51	50	47	43	48.7%
Ministral 8B	55	54	45	45	43	48.3%
Qwen3.7 Max	55	53	53	42	36	47.7%
Mistral Small 4 (Reasoning)	63	48	43	42	42	47.5%
Gemini 3.1 Flash Lite (Preview)	56	52	47	44	37	47.3%
Mistral Large 3	57	50	45	42	41	47.0%
DeepSeek-V2 Chat	62	45	45	42	40	46.7%
GPT-5.4 Mini	51	47	46	45	45	46.7%
Ministral 3 14B	55	49	45	43	41	46.7%
Ministral 3B	70	46	41	38	38	46.6%
Gemini 3.1 Flash Lite (Reasoning)	52	49	47	44	40	46.4%
Xiaomi MIMO v2.5	49	46	46	45	44	46.2%
Gemini 3.1 Pro (Preview)	63	46	42	42	37	46.0%
Mistral Large 2	53	47	45	43	42	45.9%
Gemma 4 31B (Reasoning)	61	49	42	40	38	45.8%
Qwen 3.6 Flash	67	41	40	39	39	45.3%
GPT-5 Mini	53	45	44	43	42	45.2%
Gemma 4 31B	51	49	47	41	38	45.2%
Qwen3.6 Max Preview	53	46	44	42	36	44.4%
Ministral 3 8B	59	48	42	38	34	44.4%
Gemini 3 Flash (Preview)	53	50	42	39	38	44.3%
Gemma 4 26B (Reasoning)	69	43	37	37	36	44.2%
Z.AI GLM 4.7 Flash	51	47	42	42	38	44.0%
GPT-5.4 Nano (Reasoning, Low)	46	45	43	43	42	43.8%
GPT-5.2	47	44	43	42	41	43.5%
GPT-5.4 Nano (Reasoning)	44	44	43	43	42	43.3%
Gemini 3.5 Flash (Reasoning)	48	45	44	40	39	43.3%
Qwen 3.5 397B A17B	50	45	43	41	38	43.2%
GPT-5.4 Nano	44	43	43	42	41	42.6%
GPT-OSS 120B	44	44	43	41	39	42.1%
Mistral Small 3.2 24B	46	43	42	41	36	41.7%
Qwen 3.5 9B	44	44	41	41	37	41.5%
Ministral 3 3B	48	42	42	41	33	41.2%
Qwen 3.5 Flash	51	46	41	34	32	41.0%
Qwen 3.6 35B	53	47	39	37	28	40.6%
Gemini 3 Flash (Preview, Reasoning)	45	44	40	39	34	40.5%
Qwen 3.5 122B	44	43	41	40	33	40.1%
Qwen 3.5 27B	43	43	40	37	36	39.9%
Gemma 4 26B	41	41	40	39	32	38.6%
Inception Mercury 2	44	43	39	37	30	38.5%
Qwen 3.5 35B	41	39	37	34	32	36.7%
Nemotron 3 Nano	38	38	35	32	25	33.8%
GPT-5 Nano	34	31	31	30	25	30.2%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	100	91	83	82	78	86.8%
Hermes 3 70B	100	80	71	64	58	74.7%
Claude Sonnet 5 (Reasoning)	87	78	73	68	58	72.8%
Cohere Command R+ (Aug. 2024)	97	75	70	61	61	72.7%
Claude Sonnet 4	78	75	72	65	60	69.8%
Claude Sonnet 5	77	72	69	67	64	69.7%
Claude Sonnet 5 (Reasoning, Low)	81	73	69	65	60	69.6%
GPT-4o Mini (temp=1)	74	73	67	66	63	68.5%
Qwen 3.5 Plus (2026-04-20)	85	77	73	61	46	68.2%
Hermes 3 405B	80	74	68	65	52	67.7%
DeepSeek V3 (2025-03-24)	81	78	67	58	51	66.8%
Gemma 3 27B	75	74	62	59	58	65.5%
Cydonia 24B V4.1	75	74	65	64	49	65.3%
Claude Opus 4.8 (Reasoning)	77	69	67	62	50	65.0%
Claude Opus 4.8 (Reasoning, Low)	72	70	65	57	51	63.0%
Claude Opus 4	79	64	61	60	50	62.7%
Claude Sonnet 4.5	67	66	59	56	53	60.1%
Z.AI GLM 5 Turbo	71	67	56	53	48	59.0%
Grok 4.5 (Reasoning, High)	70	62	57	56	48	58.7%
Grok 4.5 (Reasoning, Low)	72	61	56	54	49	58.3%
GPT-4.1 Mini	63	63	60	57	47	58.2%
DeepSeek V4 Pro	61	59	56	55	55	57.0%
Claude Opus 4.7 (Reasoning)	62	58	58	52	52	56.6%
MoonshotAI: Kimi K2.6	100	51	48	42	40	56.1%
Claude Opus 4.7	62	57	55	50	45	53.9%
GPT-4.1	61	54	54	54	46	53.8%
Claude Sonnet 4.6 (Reasoning)	60	59	54	51	42	53.5%
Gemma 3 12B	63	57	51	50	41	52.6%
Claude Haiku 4.5	66	64	50	41	41	52.5%
DeepSeek V3 (2024-12-26)	88	51	46	42	35	52.4%
GPT-5.1	62	57	51	47	44	51.9%
Qwen3 235B A22B Instruct 2507	57	56	53	46	41	50.7%
GPT-4o Mini (temp=0)	54	52	50	50	47	50.7%
Z.AI GLM 5	58	51	50	46	45	49.9%
Claude Opus 4.5	57	51	50	49	40	49.6%
Writer: Palmyra X5	52	51	51	50	43	49.5%
GPT-4o, Aug. 6th (temp=0)	55	51	50	46	45	49.4%
Mistral Small 4 (Reasoning)	65	50	44	43	43	49.0%
Grok 4.20 (Reasoning)	62	51	45	44	42	48.9%
GPT-5.4 (Reasoning, Low)	54	50	50	47	43	48.7%
GPT-5.4 (Reasoning)	53	52	49	44	44	48.5%
MoonshotAI: Kimi K2.5	67	54	47	40	35	48.5%
Llama 3.1 70B	62	50	50	42	38	48.4%
Claude Sonnet 4.6	67	50	50	45	29	48.4%
GPT-5.4	52	52	47	45	45	48.3%
Claude Opus 4.6 (Reasoning)	54	54	47	44	41	47.9%
Z.AI GLM 5.2 (Reasoning, High)	51	49	48	48	43	47.8%
Mistral Small 4	50	49	48	47	43	47.3%
GPT-4.1 Nano	60	49	44	42	42	47.2%
Claude Opus 4.6	56	49	48	44	38	47.0%
Z.AI GLM 5.1	66	47	46	43	31	46.6%
o4 Mini	54	47	46	42	41	46.1%
Qwen 3 32B	54	46	44	41	41	45.2%
DeepSeek-V2 Chat	57	45	43	41	40	45.2%
o4 Mini High	51	47	44	43	40	45.0%
Gemini 2.5 Flash Lite (Reasoning)	51	47	45	44	37	44.7%
MiniMax M2.5	58	57	37	35	34	44.3%
Grok 4.20	55	43	42	42	40	44.3%
Grok 4.3	46	46	45	42	42	44.3%
Gemini 3.5 Flash (Reasoning, Minimal)	53	48	42	39	38	44.0%
Z.AI GLM 4.5	57	44	42	40	37	43.8%
Aion 3.0 Mini	56	51	47	34	30	43.5%
DeepSeek V4 Pro (Reasoning)	58	46	41	38	34	43.3%
Z.AI GLM 4.7	52	46	43	39	36	43.3%
Qwen 3.6 Flash	64	44	39	36	33	43.3%
Mistral Medium 3.1	47	45	44	43	37	43.1%
ByteDance Seed 1.6 Flash	47	46	43	41	38	43.1%
MiniMax M2.7	54	44	44	37	36	43.0%
Gemini 2.5 Flash Lite	45	44	44	41	40	42.8%
Mistral Large 2	55	41	40	39	34	41.8%
Z.AI GLM 4.5 Air	65	38	37	34	33	41.6%
GPT-5.4 Mini	44	42	42	40	40	41.6%
GPT-5.4 Mini (Reasoning, Low)	45	45	40	39	38	41.5%
GPT-5.5 (Reasoning, Low)	46	45	39	39	38	41.4%
Qwen3.7 Max	49	43	42	36	35	41.2%
DeepSeek V3.1	59	45	35	34	32	41.1%
Mistral Large 3	48	46	38	36	36	41.1%
GPT-5	44	42	40	39	39	41.0%
GPT-5.5	47	41	40	39	38	40.9%
Arcee AI: Trinity Mini	52	46	43	37	27	40.9%
Gemini 2.5 Pro	52	43	42	35	32	40.8%
DeepSeek V4 Flash	53	41	40	39	32	40.8%
GPT-5.4 Mini (Reasoning)	42	42	40	39	39	40.5%
Qwen 2.5 72B	42	41	40	40	39	40.4%
Ministral 3B	53	41	40	35	31	40.2%
Gemini 3.1 Flash Lite (Preview)	49	40	39	38	35	40.2%
Qwen 3.5 397B A17B	49	43	37	36	35	40.1%
Gemma 3 4B	45	40	39	39	38	40.1%
GPT-OSS 120B	53	40	39	38	31	40.0%
Ministral 3 8B	45	40	40	38	37	39.9%
ByteDance Seed 2.0 Mini	49	45	39	34	33	39.9%
Ministral 3 14B	53	41	37	35	33	39.8%
Gemini 3.5 Flash (Reasoning)	49	40	38	36	34	39.2%
GPT-5.5 (Reasoning)	43	40	38	38	36	39.1%
Aion 2.0	48	42	39	37	29	39.1%
GPT-5.2	40	40	39	39	37	39.0%
Xiaomi MIMO v2.5 Pro	46	45	39	34	31	39.0%
Aion 3.0	50	41	38	34	30	38.7%
Inception Mercury 2	46	41	40	38	28	38.6%
Ministral 8B	41	40	39	38	35	38.6%
GPT-5.4 Nano (Reasoning)	40	40	38	37	37	38.4%
GPT-5 Mini	43	40	38	35	35	38.3%
Nemotron 3 Super	42	41	39	35	33	37.8%
Qwen 3.5 Plus (2026-02-15)	46	40	36	34	34	37.8%
Qwen 3.5 Flash	39	39	38	36	35	37.4%
WizardLM 2 8x22b	46	39	35	34	34	37.4%
DeepSeek V3.2	42	38	36	35	34	37.2%
Ministral 3 3B	45	38	38	35	30	37.1%
Gemini 2.5 Flash	47	40	39	31	28	37.0%
Gemini 3.1 Pro (Preview)	42	39	35	35	34	36.9%
Xiaomi MIMO v2.5	43	41	34	32	32	36.6%
Z.AI GLM 4.7 Flash	39	38	37	35	34	36.6%
Qwen3.6 Max Preview	57	36	34	31	25	36.5%
Mistral NeMO	48	37	37	34	25	36.4%
Gemini 3.1 Flash Lite (Reasoning)	38	38	38	36	31	36.2%
DeepSeek V4 Flash (Reasoning)	42	38	35	35	30	36.2%
Z.AI GLM 4.6	47	38	32	31	30	35.7%
Gemini 3 Flash (Preview, Reasoning)	39	37	36	35	31	35.7%
Gemini 2.5 Flash (Reasoning)	39	39	38	37	25	35.6%
GPT-5.4 Nano	40	35	35	34	34	35.5%
Gemini 3 Flash (Preview)	42	37	35	35	29	35.5%
ByteDance Seed 1.6	43	41	33	31	30	35.5%
ByteDance Seed 2.0 Lite	46	36	36	30	29	35.2%
Gemma 4 31B	37	36	36	34	32	35.0%
Qwen 3.6 35B	43	34	33	32	32	34.9%
Gemini 3.1 Flash Lite	39	38	34	32	29	34.4%
Grok 4.3 (Reasoning)	46	34	33	29	29	34.2%
Qwen 3.5 122B	38	37	36	29	27	33.5%
GPT-5.4 Nano (Reasoning, Low)	37	35	33	32	31	33.5%
Qwen 3.5 9B	41	35	33	31	25	33.1%
MiniMax M3	49	35	29	28	25	33.1%
Gemma 4 31B (Reasoning)	34	34	33	29	28	31.6%
Qwen 3.5 27B	37	33	31	29	27	31.4%
Qwen 3.5 35B	40	33	30	28	25	31.2%
Qwen 3.6 27B	38	36	29	26	25	30.7%
Nemotron 3 Nano	33	32	31	29	27	30.5%
Gemma 4 26B (Reasoning)	30	29	29	29	29	29.3%
Mistral Small 3.2 24B	33	31	25	25	–	28.6%
Gemma 4 26B	31	30	27	26	25	27.7%
GPT-5 Nano	30	28	27	25	25	27.2%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o Mini (temp=1)	94	93	85	82	77	86.1%
GPT-4o, Aug. 6th (temp=1)	90	89	84	82	69	82.8%
Cohere Command R+ (Aug. 2024)	98	88	88	86	51	82.0%
Hermes 3 405B	88	83	82	82	73	81.5%
Claude Sonnet 5	91	83	83	77	70	80.8%
Claude Sonnet 4	94	86	81	80	59	80.1%
Hermes 3 70B	98	97	76	74	43	77.4%
Claude Sonnet 5 (Reasoning)	95	84	70	68	60	75.4%
Cydonia 24B V4.1	81	74	74	71	71	74.2%
Claude Sonnet 5 (Reasoning, Low)	82	78	72	68	66	73.3%
Claude Opus 4	80	80	77	67	62	73.1%
Claude Sonnet 4.5	97	76	75	59	58	72.9%
Z.AI GLM 4.5	94	76	69	66	59	72.6%
GPT-4.1	77	77	71	71	67	72.5%
GPT-4o Mini (temp=0)	93	71	65	64	63	71.1%
GPT-4.1 Mini	85	74	73	71	49	70.5%
Gemma 3 27B	92	78	68	57	56	70.2%
GPT-4.1 Nano	82	70	65	65	64	69.4%
Gemma 3 12B	71	71	69	69	64	68.9%
Arcee AI: Trinity Mini	89	69	63	63	61	68.9%
DeepSeek V3 (2024-12-26)	85	78	67	57	56	68.7%
Claude Opus 4.8 (Reasoning, Low)	73	71	69	66	63	68.5%
Grok 4.5 (Reasoning, High)	80	75	64	61	59	67.8%
Claude Opus 4.8 (Reasoning)	73	72	71	60	57	66.6%
Claude Opus 4.7	74	70	67	63	59	66.6%
Gemini 2.5 Flash Lite	77	71	65	61	58	66.2%
Qwen 3.5 Plus (2026-02-15)	77	72	67	63	51	66.1%
Z.AI GLM 5	76	69	67	63	55	66.1%
DeepSeek V3 (2025-03-24)	79	70	64	63	54	66.0%
Grok 4.20 (Reasoning)	76	67	63	62	61	65.7%
GPT-4o, Aug. 6th (temp=0)	70	66	62	61	59	63.5%
o4 Mini High	81	78	56	50	50	62.9%
Grok 4.5 (Reasoning, Low)	88	66	55	54	48	62.4%
Llama 3.1 70B	100	60	58	53	42	62.4%
Grok 4.20	69	64	63	60	54	62.1%
DeepSeek-V2 Chat	80	64	63	55	47	61.9%
Mistral Medium 3.1	72	68	60	55	52	61.4%
Z.AI GLM 4.5 Air	72	70	59	56	46	60.4%
Z.AI GLM 5 Turbo	71	63	59	55	54	60.2%
Mistral Large 3	70	69	61	60	38	59.6%
Gemini 2.5 Flash	75	74	52	52	43	59.4%
Claude Opus 4.5	66	62	58	56	55	59.3%
Mistral Large 2	72	60	58	53	51	58.6%
Mistral Small 4	65	65	58	54	50	58.5%
Claude Haiku 4.5	63	60	59	58	52	58.3%
Gemini 2.5 Flash Lite (Reasoning)	63	62	61	60	43	58.0%
Grok 4.3	65	61	59	53	46	56.9%
Claude Sonnet 4.6 (Reasoning)	75	60	54	49	46	56.6%
Qwen 3 32B	66	65	57	48	46	56.5%
Z.AI GLM 5.2 (Reasoning, High)	66	65	65	44	42	56.4%
Z.AI GLM 5.1	78	59	53	50	41	56.3%
Qwen 2.5 72B	67	60	55	47	47	55.1%
Gemini 2.5 Flash (Reasoning)	70	54	52	51	45	54.6%
Claude Sonnet 4.6	62	58	58	57	36	54.5%
DeepSeek V4 Flash	83	56	48	44	41	54.5%
Mistral Small 4 (Reasoning)	61	58	54	51	45	53.9%
DeepSeek V4 Pro	62	57	55	50	46	53.9%
Claude Opus 4.7 (Reasoning)	69	54	53	47	45	53.5%
Mistral NeMO	68	59	58	46	35	53.0%
Gemma 3 4B	58	56	55	53	42	52.8%
DeepSeek V4 Pro (Reasoning)	54	52	52	51	49	51.6%
WizardLM 2 8x22b	69	55	45	44	44	51.4%
Qwen3 235B A22B Instruct 2507	64	55	51	44	40	50.9%
Aion 3.0	68	48	48	46	44	50.9%
Gemini 2.5 Pro	58	54	52	47	44	50.8%
o4 Mini	54	51	50	48	48	50.1%
MoonshotAI: Kimi K2.5	56	52	50	47	42	49.4%
Nemotron 3 Super	58	56	47	43	43	49.4%
Writer: Palmyra X5	53	52	49	48	44	49.0%
Ministral 3 8B	55	51	48	46	45	48.9%
Gemini 3.5 Flash (Reasoning, Minimal)	57	51	51	44	41	48.9%
Claude Opus 4.6	57	52	48	46	40	48.8%
MiniMax M2.5	55	52	47	46	43	48.7%
Gemma 4 26B	60	51	50	43	39	48.6%
ByteDance Seed 1.6 Flash	58	48	46	45	44	48.4%
GPT-OSS 120B	51	49	48	47	45	48.1%
ByteDance Seed 2.0 Lite	65	57	47	42	29	47.9%
Aion 3.0 Mini	55	51	48	41	41	47.2%
GPT-5.1	54	48	47	45	43	47.2%
Xiaomi MIMO v2.5 Pro	60	50	43	42	41	47.2%
DeepSeek V4 Flash (Reasoning)	50	47	47	46	44	46.9%
MiniMax M2.7	54	49	46	42	41	46.5%
Claude Opus 4.6 (Reasoning)	50	49	47	43	42	46.3%
GPT-5.4 Mini (Reasoning, Low)	48	47	46	45	43	45.9%
Inception Mercury 2	50	49	46	44	41	45.8%
Ministral 3 14B	49	49	48	42	40	45.8%
DeepSeek V3.1	68	44	42	38	36	45.8%
GPT-5.4	47	46	46	45	44	45.7%
DeepSeek V3.2	59	47	45	39	37	45.3%
GPT-5.5	47	46	46	44	43	45.3%
GPT-5.4 (Reasoning)	46	45	45	45	45	45.2%
GPT-5.4 Mini	46	46	46	45	44	45.1%
Qwen 3.6 27B	64	55	42	39	25	45.1%
Ministral 8B	48	48	46	44	40	45.1%
GPT-5.4 Mini (Reasoning)	47	45	45	45	42	44.9%
GPT-5.4 (Reasoning, Low)	45	45	45	45	43	44.7%
Xiaomi MIMO v2.5	50	48	43	41	40	44.3%
Gemini 3.1 Flash Lite (Preview)	57	44	42	41	38	44.3%
GPT-5.5 (Reasoning, Low)	45	45	45	43	43	44.3%
Gemma 4 26B (Reasoning)	48	47	46	41	38	44.1%
ByteDance Seed 2.0 Mini	55	45	43	41	36	44.0%
Gemini 3.5 Flash (Reasoning)	50	46	45	42	37	44.0%
Mistral Small 3.2 24B	50	49	49	48	25	44.0%
GPT-5.2	46	45	43	43	42	43.7%
GPT-5.5 (Reasoning)	44	44	43	42	42	43.3%
Grok 4.3 (Reasoning)	60	50	41	36	30	43.3%
Gemini 3.1 Pro (Preview)	44	44	43	43	42	43.2%
Aion 2.0	47	46	44	42	35	42.9%
GPT-5.4 Nano (Reasoning)	45	43	43	42	41	42.8%
Nemotron 3 Nano	44	44	44	43	38	42.7%
Ministral 3 3B	45	45	42	42	39	42.6%
Z.AI GLM 4.7	48	46	41	40	38	42.6%
GPT-5.4 Nano (Reasoning, Low)	42	42	42	42	41	41.7%
Gemma 4 31B (Reasoning)	46	42	41	41	39	41.7%
Gemma 4 31B	43	43	42	41	41	41.7%
MoonshotAI: Kimi K2.6	43	43	42	41	38	41.6%
Ministral 3B	49	43	41	41	34	41.6%
Z.AI GLM 4.6	50	46	39	36	35	41.3%
Qwen3.7 Max	49	41	40	39	37	41.2%
GPT-5.4 Nano	44	41	41	40	40	40.9%
GPT-5 Mini	43	42	41	41	37	40.7%
GPT-5 Nano	43	41	38	37	35	38.9%
ByteDance Seed 1.6	50	48	36	30	30	38.9%
Gemini 3 Flash (Preview, Reasoning)	43	40	37	37	36	38.8%
Gemini 3 Flash (Preview)	41	40	39	38	36	38.6%
GPT-5	42	37	37	36	36	37.5%
Qwen 3.5 Flash	44	38	38	37	30	37.5%
Gemini 3.1 Flash Lite (Reasoning)	48	46	33	31	28	37.3%
Gemini 3.1 Flash Lite	46	40	39	32	29	37.0%
MiniMax M3	49	36	35	32	31	36.7%
Qwen 3.5 397B A17B	38	37	37	36	34	36.4%
Qwen 3.5 27B	43	41	40	33	25	36.4%
Z.AI GLM 4.7 Flash	45	37	37	32	30	36.3%
Qwen 3.5 Plus (2026-04-20)	54	34	33	33	25	35.7%
Qwen 3.5 122B	38	36	34	34	30	34.6%
Qwen 3.6 Flash	44	35	33	31	25	33.7%
Qwen 3.5 9B	39	38	38	29	25	33.7%
Qwen3.6 Max Preview	40	34	34	31	25	32.7%
Qwen 3.5 35B	39	38	32	29	25	32.5%
Qwen 3.6 35B	35	31	31	25	25	29.5%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Sonnet 5	95	95	95	89	88	92.5%
Cydonia 24B V4.1	100	95	92	92	82	92.3%
Claude Sonnet 5 (Reasoning)	94	92	91	87	82	89.1%
Claude Sonnet 5 (Reasoning, Low)	98	94	93	83	74	88.5%
Claude Opus 4	95	93	89	82	81	88.1%
GPT-4o, Aug. 6th (temp=1)	100	99	82	79	79	87.7%
Cohere Command R+ (Aug. 2024)	94	93	86	84	77	86.9%
Gemma 3 27B	99	89	80	78	77	84.5%
Hermes 3 405B	100	85	81	81	75	84.3%
DeepSeek V3.1	96	94	89	72	64	83.0%
GPT-4o Mini (temp=1)	92	88	85	79	71	82.9%
Claude Sonnet 4.6	94	85	81	78	75	82.9%
Arcee AI: Trinity Mini	89	86	84	81	69	82.0%
Claude Opus 4.8 (Reasoning)	89	85	83	77	77	81.9%
Hermes 3 70B	100	95	82	74	57	81.5%
Claude Sonnet 4.5	93	90	85	69	69	81.3%
Claude Sonnet 4.6 (Reasoning)	90	89	76	76	75	81.2%
Claude Sonnet 4	87	83	82	80	73	81.1%
Z.AI GLM 4.5	99	81	75	75	70	80.0%
Claude Opus 4.8 (Reasoning, Low)	84	81	80	80	72	79.3%
Z.AI GLM 5 Turbo	90	88	79	76	63	79.2%
Claude Opus 4.7	89	86	76	73	63	77.4%
Claude Haiku 4.5	84	83	73	73	73	77.3%
DeepSeek V3 (2025-03-24)	98	88	70	68	62	77.1%
GPT-4o Mini (temp=0)	80	80	74	72	70	75.2%
Claude Opus 4.7 (Reasoning)	81	78	75	70	68	74.6%
Z.AI GLM 5	89	73	71	67	67	73.5%
GPT-4.1 Mini	86	74	71	69	67	73.4%
GPT-4.1	78	78	74	66	65	72.4%
Grok 4.5 (Reasoning, High)	81	79	72	68	61	72.1%
MiniMax M3	89	80	77	59	52	71.4%
DeepSeek V4 Pro	88	69	69	65	65	71.0%
Grok 4.5 (Reasoning, Low)	78	77	71	64	64	70.9%
Z.AI GLM 5.2 (Reasoning, High)	79	77	71	64	63	70.9%
Gemma 3 12B	81	77	71	65	61	70.8%
Gemini 2.5 Flash Lite	79	76	74	61	61	70.2%
Aion 3.0	76	75	71	70	57	69.8%
Llama 3.1 70B	100	69	66	58	54	69.5%
MiniMax M2.5	76	73	69	67	61	69.2%
GPT-4.1 Nano	82	71	68	63	57	68.3%
Claude Opus 4.6 (Reasoning)	77	73	67	62	60	67.9%
GPT-5.1	71	71	70	64	61	67.5%
Gemini 2.5 Flash Lite (Reasoning)	81	70	67	62	56	67.4%
Qwen 3.5 Plus (2026-02-15)	72	71	64	63	63	66.6%
MoonshotAI: Kimi K2.5	77	73	64	61	57	66.4%
MiniMax M2.7	89	63	60	60	59	66.2%
Grok 4.20 (Reasoning)	75	73	66	58	58	66.0%
Z.AI GLM 5.1	78	70	68	62	49	65.4%
Claude Opus 4.6	77	76	66	59	47	65.2%
Gemini 3.5 Flash (Reasoning, Minimal)	74	72	66	59	55	65.1%
Qwen3 235B A22B Instruct 2507	74	64	64	62	62	65.0%
Aion 3.0 Mini	75	65	64	61	60	65.0%
GPT-5.4 (Reasoning)	68	66	65	62	60	64.3%
Claude Opus 4.5	73	69	64	60	54	64.2%
Xiaomi MIMO v2.5	69	67	64	62	58	63.9%
Ministral 8B	81	68	58	57	56	63.9%
Z.AI GLM 4.5 Air	67	67	63	62	60	63.8%
Qwen 2.5 72B	75	71	61	55	53	63.0%
Mistral Large 2	65	65	64	64	56	62.8%
GPT-4o, Aug. 6th (temp=0)	81	67	65	50	50	62.7%
DeepSeek V4 Flash	75	65	64	57	50	62.0%
GPT-5.4	73	65	62	59	52	62.0%
Writer: Palmyra X5	66	66	61	60	54	61.3%
Gemini 2.5 Pro	78	62	58	54	54	61.1%
Ministral 3 14B	79	72	66	46	42	61.0%
Qwen3.7 Max	67	63	59	57	57	60.9%
Gemini 2.5 Flash (Reasoning)	68	63	62	59	53	60.9%
Ministral 3B	71	67	63	62	42	60.8%
DeepSeek-V2 Chat	66	66	62	59	51	60.8%
Mistral Small 4	66	64	59	58	56	60.7%
Gemini 2.5 Flash	70	67	62	53	50	60.6%
o4 Mini High	67	67	65	56	46	60.3%
DeepSeek V4 Pro (Reasoning)	70	68	59	55	48	59.9%
Mistral Large 3	83	63	57	51	45	59.8%
Gemini 3.5 Flash (Reasoning)	77	70	56	52	43	59.5%
Aion 2.0	71	69	59	52	43	58.8%
ByteDance Seed 1.6 Flash	68	63	62	55	46	58.7%
Gemma 3 4B	68	64	62	59	40	58.7%
DeepSeek V4 Flash (Reasoning)	74	65	61	54	39	58.6%
GPT-5.5	64	60	57	56	55	58.3%
Grok 4.20	69	67	55	55	46	58.3%
DeepSeek V3 (2024-12-26)	75	69	53	47	46	58.0%
o4 Mini	66	60	58	53	52	57.8%
Z.AI GLM 4.7	64	59	57	56	50	57.1%
GPT-5.4 (Reasoning, Low)	60	59	59	58	48	56.8%
Nemotron 3 Super	78	61	50	48	46	56.5%
Xiaomi MIMO v2.5 Pro	64	62	54	52	49	56.3%
Qwen 3 32B	63	60	59	51	48	56.2%
ByteDance Seed 2.0 Mini	71	65	53	50	40	55.6%
GPT-5.5 (Reasoning, Low)	58	56	56	54	53	55.5%
Grok 4.3	64	60	59	49	45	55.3%
Z.AI GLM 4.6	64	57	56	52	47	55.1%
MoonshotAI: Kimi K2.6	60	56	55	51	48	54.0%
WizardLM 2 8x22b	62	57	54	50	45	53.8%
Mistral Medium 3.1	61	58	56	47	47	53.7%
GPT-5.5 (Reasoning)	59	57	52	51	48	53.4%
ByteDance Seed 2.0 Lite	62	58	52	52	43	53.3%
GPT-5	64	58	52	51	42	53.1%
Mistral Small 4 (Reasoning)	65	59	54	45	42	53.0%
Mistral NeMO	65	62	54	50	30	52.4%
Qwen3.6 Max Preview	64	58	56	47	34	51.8%
Ministral 3 8B	63	60	53	42	41	51.7%
DeepSeek V3.2	57	55	49	48	46	50.9%
Qwen 3.5 Plus (2026-04-20)	57	55	54	52	34	50.5%
Gemini 3.1 Flash Lite (Preview)	58	54	50	50	38	49.9%
Ministral 3 3B	64	53	45	45	43	49.7%
Gemini 3.1 Pro (Preview)	59	51	49	42	42	48.6%
Gemini 3 Flash (Preview, Reasoning)	60	59	44	41	39	48.5%
GPT-5.4 Mini	52	50	47	46	45	47.9%
Gemini 3.1 Flash Lite (Reasoning)	66	49	46	40	38	47.7%
Qwen 3.6 Flash	70	51	44	42	30	47.2%
GPT-5.4 Mini (Reasoning, Low)	51	48	47	45	45	47.2%
GPT-5.4 Mini (Reasoning)	50	48	48	46	42	46.9%
Gemini 3 Flash (Preview)	61	47	44	42	41	46.9%
Gemma 4 31B	53	53	46	44	38	46.8%
Qwen 3.6 35B	69	50	40	39	35	46.5%
Qwen 3.6 27B	57	53	51	35	35	46.3%
Z.AI GLM 4.7 Flash	58	45	43	43	41	45.9%
Gemma 4 26B (Reasoning)	52	49	44	43	41	45.7%
GPT-5 Mini	50	47	45	44	42	45.6%
Qwen 3.5 397B A17B	58	53	42	38	37	45.6%
GPT-OSS 120B	63	45	41	40	39	45.5%
GPT-5.2	48	46	46	45	40	44.8%
GPT-5.4 Nano (Reasoning)	45	45	43	42	41	43.2%
GPT-5.4 Nano	43	43	43	42	42	42.5%
GPT-5.4 Nano (Reasoning, Low)	43	43	43	43	40	42.5%
ByteDance Seed 1.6	43	43	43	42	41	42.3%
Qwen 3.5 Flash	50	42	40	40	40	42.3%
Qwen 3.5 27B	49	47	42	40	32	42.0%
Gemini 3.1 Flash Lite	48	47	41	36	36	41.5%
Gemma 4 31B (Reasoning)	44	44	40	40	34	40.4%
Grok 4.3 (Reasoning)	45	44	41	40	31	40.2%
Gemma 4 26B	42	41	39	39	38	39.9%
Mistral Small 3.2 24B	58	50	39	25	25	39.4%
Inception Mercury 2	45	42	39	37	33	39.2%
Qwen 3.5 122B	48	40	39	35	34	39.2%
Qwen 3.5 9B	47	45	41	29	25	37.3%
Qwen 3.5 35B	41	41	38	36	25	36.2%
Nemotron 3 Nano	41	37	36	33	26	34.7%
GPT-5 Nano	37	34	34	33	32	33.7%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	95	95	84	79	77	86.2%
Claude Sonnet 4	91	89	85	80	68	82.4%
Hermes 3 405B	91	90	75	72	72	80.0%
GPT-4o Mini (temp=1)	86	81	80	77	73	79.5%
Cydonia 24B V4.1	98	81	80	68	67	78.8%
Gemma 3 27B	93	81	75	69	63	76.4%
Hermes 3 70B	98	82	76	66	59	76.2%
Claude Sonnet 5	90	78	75	65	61	73.9%
Claude Opus 4	87	73	69	68	66	72.7%
GPT-4.1 Mini	82	77	72	68	58	71.4%
Claude Sonnet 4.5	86	75	74	60	60	71.1%
DeepSeek V3 (2025-03-24)	83	73	67	64	61	69.4%
GPT-4.1 Nano	84	76	69	64	52	69.0%
Cohere Command R+ (Aug. 2024)	79	70	69	64	64	69.0%
Grok 4.3	78	67	67	65	65	68.6%
Z.AI GLM 4.5	72	71	67	66	65	68.1%
Llama 3.1 70B	88	69	65	63	55	67.8%
Claude Sonnet 5 (Reasoning)	81	73	68	63	54	67.7%
Claude Opus 4.8 (Reasoning, Low)	75	74	67	62	57	66.9%
Grok 4.5 (Reasoning, High)	80	71	63	61	55	66.1%
Claude Haiku 4.5	74	72	63	61	59	65.8%
Claude Sonnet 5 (Reasoning, Low)	78	68	64	59	58	65.6%
GPT-4o Mini (temp=0)	76	70	62	61	54	64.7%
Gemma 3 12B	78	65	64	61	55	64.6%
Qwen 3 32B	77	66	65	59	55	64.3%
DeepSeek-V2 Chat	76	65	61	59	58	63.9%
GPT-4.1	76	65	61	59	55	63.2%
DeepSeek V3 (2024-12-26)	70	70	60	58	57	62.8%
GPT-4o, Aug. 6th (temp=0)	74	73	55	52	52	61.4%
Claude Opus 4.7 (Reasoning)	70	66	59	57	55	61.2%
Grok 4.5 (Reasoning, Low)	68	63	62	56	54	60.6%
Claude Sonnet 4.6	70	67	61	52	50	60.3%
Qwen 2.5 72B	64	64	59	58	56	60.2%
Qwen 3.5 Plus (2026-02-15)	75	63	60	60	42	59.9%
Claude Opus 4.7	75	63	59	52	46	59.1%
Mistral Small 4	70	66	56	55	49	59.0%
Grok 4.3 (Reasoning)	76	73	65	43	37	58.8%
Aion 3.0 Mini	63	62	62	56	50	58.6%
Claude Opus 4.8 (Reasoning)	69	62	59	57	47	58.6%
Gemma 3 4B	65	63	60	53	51	58.5%
Gemini 2.5 Flash (Reasoning)	73	62	60	49	48	58.3%
Z.AI GLM 4.5 Air	64	64	63	53	47	58.0%
Z.AI GLM 5	66	65	53	52	51	57.5%
Claude Sonnet 4.6 (Reasoning)	62	60	59	56	47	56.9%
Gemini 2.5 Flash	65	62	55	54	48	56.9%
Grok 4.20	71	57	53	51	50	56.4%
Mistral Large 2	67	60	58	50	48	56.4%
ByteDance Seed 1.6 Flash	70	64	57	48	41	55.9%
Claude Opus 4.5	64	57	57	54	47	55.7%
DeepSeek V4 Pro	59	59	57	54	47	55.3%
Mistral Medium 3.1	65	56	55	51	49	55.2%
DeepSeek V4 Flash	61	58	58	49	48	55.0%
o4 Mini	62	61	54	49	48	54.8%
Gemini 3.5 Flash (Reasoning, Minimal)	59	56	55	54	44	53.8%
Z.AI GLM 5.2 (Reasoning, High)	58	56	53	51	50	53.6%
Gemini 2.5 Flash Lite	71	60	49	45	41	53.4%
Grok 4.20 (Reasoning)	57	55	52	51	50	53.0%
DeepSeek V4 Pro (Reasoning)	59	54	50	50	49	52.7%
Z.AI GLM 5.1	65	58	57	50	33	52.7%
Gemini 2.5 Pro	65	53	52	48	45	52.3%
Qwen3 235B A22B Instruct 2507	59	55	54	48	45	52.3%
MiniMax M3	61	59	55	43	42	52.1%
Ministral 3 14B	68	54	51	44	43	51.9%
MiniMax M2.7	64	58	52	45	38	51.5%
Ministral 3 8B	61	58	48	46	44	51.4%
Claude Opus 4.6 (Reasoning)	57	54	53	45	45	50.8%
DeepSeek V4 Flash (Reasoning)	59	56	48	47	41	50.3%
Mistral Large 3	58	51	51	47	43	49.9%
o4 Mini High	63	48	48	46	44	49.8%
MoonshotAI: Kimi K2.5	54	52	50	49	42	49.4%
WizardLM 2 8x22b	60	54	47	44	42	49.4%
Claude Opus 4.6	51	51	50	50	45	49.4%
Ministral 3 3B	63	48	48	44	43	49.3%
Mistral Small 4 (Reasoning)	56	54	51	43	40	49.1%
Writer: Palmyra X5	58	57	44	43	41	48.6%
MoonshotAI: Kimi K2.6	55	51	51	44	42	48.4%
Gemini 2.5 Flash Lite (Reasoning)	53	51	47	46	43	47.9%
Nemotron 3 Super	58	48	44	44	44	47.8%
GPT-5.1	53	49	46	44	44	47.3%
MiniMax M2.5	51	49	48	46	42	47.2%
Mistral NeMO	67	49	44	42	33	47.2%
GPT-5.4	48	47	47	47	46	46.9%
ByteDance Seed 2.0 Mini	66	45	43	43	38	46.9%
Z.AI GLM 4.6	63	49	47	38	35	46.5%
Inception Mercury 2	49	47	47	45	44	46.5%
Ministral 8B	50	49	48	46	40	46.5%
Qwen 3.6 Flash	92	37	36	34	33	46.4%
Z.AI GLM 5 Turbo	54	49	48	40	40	46.4%
Aion 3.0	56	48	46	46	37	46.3%
GPT-5.4 (Reasoning, Low)	50	47	45	44	44	46.3%
Ministral 3B	49	48	47	47	38	45.9%
DeepSeek V3.2	52	51	46	41	40	45.8%
GPT-5.4 Mini	47	47	45	45	44	45.8%
GPT-5.4 (Reasoning)	47	46	46	45	45	45.8%
GPT-5.4 Mini (Reasoning)	46	46	46	45	44	45.5%
GPT-OSS 120B	47	47	47	44	42	45.4%
Arcee AI: Trinity Mini	54	53	45	38	37	45.3%
GPT-5.4 Mini (Reasoning, Low)	46	46	46	44	44	45.2%
GPT-5.5 (Reasoning)	46	46	45	45	44	45.1%
DeepSeek V3.1	58	43	43	41	40	44.9%
Xiaomi MIMO v2.5 Pro	53	48	45	40	38	44.8%
Xiaomi MIMO v2.5	52	46	42	42	40	44.3%
Qwen 3.6 35B	77	43	35	34	32	44.2%
GPT-5.2	46	45	44	43	43	44.0%
Gemini 3 Flash (Preview)	47	45	45	44	39	44.0%
GPT-5.5 (Reasoning, Low)	45	45	44	44	42	43.9%
Aion 2.0	51	47	43	41	37	43.8%
GPT-5.5	45	44	44	43	42	43.7%
Z.AI GLM 4.7	46	46	44	42	37	43.0%
Qwen3.7 Max	46	46	43	41	38	42.9%
Gemini 3.5 Flash (Reasoning)	46	44	44	41	39	42.8%
Gemini 3.1 Pro (Preview)	44	43	43	42	42	42.8%
Mistral Small 3.2 24B	49	47	43	41	34	42.5%
GPT-5.4 Nano (Reasoning)	43	43	43	41	40	42.1%
GPT-5.4 Nano (Reasoning, Low)	44	42	42	42	39	41.8%
Gemma 4 26B	47	42	41	41	38	41.8%
GPT-5 Nano	43	42	41	40	40	41.0%
GPT-5.4 Nano	42	41	41	41	40	40.9%
Gemini 3 Flash (Preview, Reasoning)	43	41	41	40	39	40.8%
GPT-5	43	42	40	40	38	40.6%
Z.AI GLM 4.7 Flash	47	40	38	38	38	40.2%
Gemma 4 26B (Reasoning)	43	42	41	37	36	39.8%
GPT-5 Mini	42	41	40	39	37	39.6%
Qwen 3.6 27B	54	43	39	35	26	39.4%
ByteDance Seed 1.6	50	38	38	37	33	39.3%
Gemma 4 31B	42	41	41	35	34	38.8%
Qwen 3.5 27B	46	44	37	34	32	38.6%
Gemma 4 31B (Reasoning)	42	39	38	37	36	38.3%
Gemini 3.1 Flash Lite	44	44	36	33	32	37.7%
Qwen 3.5 122B	41	40	38	34	32	37.0%
Qwen3.6 Max Preview	46	45	33	32	25	36.3%
Gemini 3.1 Flash Lite (Reasoning)	51	36	34	29	29	35.8%
Nemotron 3 Nano	43	42	38	29	25	35.5%
Qwen 3.5 Plus (2026-04-20)	48	42	38	25	25	35.5%
Qwen 3.5 397B A17B	40	39	35	34	27	35.0%
Qwen 3.5 35B	40	37	35	34	29	34.9%
Qwen 3.5 Flash	42	38	32	32	30	34.7%
Gemini 3.1 Flash Lite (Preview)	48	38	29	25	25	33.1%
ByteDance Seed 2.0 Lite	38	37	36	29	25	33.0%
Qwen 3.5 9B	37	36	28	27	25	30.6%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-4o, Aug. 6th (temp=1)	100	100	88	80	73	88.3%
Claude Sonnet 5	93	89	85	79	67	82.6%
Claude Opus 4	96	88	76	74	74	81.6%
Claude Sonnet 4.5	83	82	78	74	71	77.6%
Grok 4.5 (Reasoning, High)	82	79	77	75	74	77.5%
Cydonia 24B V4.1	95	87	77	74	54	77.4%
Claude Sonnet 5 (Reasoning)	85	80	78	76	65	77.0%
Claude Opus 4.8 (Reasoning)	83	82	79	76	63	76.8%
Claude Sonnet 5 (Reasoning, Low)	96	78	77	73	56	76.2%
GPT-4o Mini (temp=1)	86	74	74	72	63	73.8%
Hermes 3 70B	92	80	74	72	48	73.1%
Claude Sonnet 4	84	78	78	62	60	72.6%
GPT-4.1 Nano	84	78	75	69	56	72.3%
Grok 4.20 (Reasoning)	77	75	73	71	63	71.8%
Claude Opus 4.8 (Reasoning, Low)	81	72	71	66	62	70.4%
Hermes 3 405B	93	82	66	64	46	70.4%
Z.AI GLM 4.5	77	76	69	66	61	69.7%
Claude Opus 4.7	84	77	68	65	51	69.0%
DeepSeek V3 (2025-03-24)	76	71	70	66	62	68.8%
DeepSeek V4 Pro	75	73	71	69	54	68.6%
GPT-4.1 Mini	76	70	68	65	62	68.2%
Z.AI GLM 5	72	71	68	66	63	68.0%
Z.AI GLM 5.1	80	73	69	65	48	66.9%
Claude Sonnet 4.6	77	70	68	61	57	66.6%
Grok 4.5 (Reasoning, Low)	78	67	66	59	59	65.8%
Claude Sonnet 4.6 (Reasoning)	80	76	61	60	47	64.8%
Gemma 3 27B	69	67	63	61	60	64.0%
Claude Opus 4.7 (Reasoning)	81	68	58	56	55	63.7%
Llama 3.1 70B	76	74	65	59	42	63.4%
Gemini 3.5 Flash (Reasoning, Minimal)	79	62	61	59	52	62.5%
Gemma 3 12B	89	69	54	54	47	62.5%
Cohere Command R+ (Aug. 2024)	77	68	66	52	49	62.5%
MoonshotAI: Kimi K2.5	83	79	58	53	39	62.3%
Z.AI GLM 5 Turbo	72	66	60	57	56	62.0%
Claude Opus 4.5	65	63	62	61	58	61.9%
Qwen3 235B A22B Instruct 2507	69	63	62	60	56	61.9%
Z.AI GLM 5.2 (Reasoning, High)	84	61	60	53	49	61.4%
GPT-4.1	73	66	60	55	49	60.9%
Writer: Palmyra X5	72	69	56	55	51	60.8%
MiniMax M2.5	81	58	58	55	51	60.7%
Grok 4.20	69	63	63	55	53	60.6%
GPT-5.4	68	64	59	56	54	60.2%
MoonshotAI: Kimi K2.6	71	61	60	58	48	59.7%
Gemini 2.5 Flash	82	59	56	55	46	59.4%
Z.AI GLM 4.5 Air	65	60	59	56	56	59.3%
Qwen3.6 Max Preview	67	60	58	55	55	59.0%
Aion 3.0	61	61	58	58	57	59.0%
DeepSeek-V2 Chat	74	64	61	55	39	58.4%
DeepSeek V4 Pro (Reasoning)	69	60	56	56	49	58.0%
Mistral Small 4	72	56	54	54	53	57.7%
Claude Opus 4.6 (Reasoning)	66	60	57	54	51	57.6%
Claude Haiku 4.5	63	59	57	54	53	57.1%
GPT-5.1	59	58	58	58	52	57.1%
GPT-5.4 (Reasoning, Low)	63	58	56	54	52	56.6%
Gemini 3.1 Pro (Preview)	67	60	53	50	50	55.9%
Claude Opus 4.6	68	66	52	48	44	55.6%
ByteDance Seed 2.0 Mini	62	61	59	52	44	55.5%
Grok 4.3	65	57	55	54	47	55.4%
GPT-5.4 (Reasoning)	66	58	51	51	50	55.2%
Qwen 3.6 27B	82	66	48	42	37	54.7%
o4 Mini	65	60	55	51	42	54.7%
ByteDance Seed 1.6 Flash	86	53	49	44	41	54.7%
Qwen 3.5 Plus (2026-02-15)	59	56	54	52	51	54.4%
Ministral 3 14B	63	62	58	44	42	53.9%
Ministral 3B	61	59	54	49	46	53.8%
DeepSeek V3.1	74	56	52	46	41	53.6%
MiniMax M2.7	68	56	51	51	42	53.5%
DeepSeek V4 Flash (Reasoning)	65	58	53	50	39	53.2%
Gemini 2.5 Flash Lite	67	56	50	48	43	53.1%
DeepSeek V3.2	65	53	51	50	45	52.8%
Aion 3.0 Mini	69	55	49	45	42	52.2%
Grok 4.3 (Reasoning)	68	56	53	51	32	52.1%
GPT-5.4 Mini	61	55	49	47	46	51.8%
Qwen 3 32B	64	52	50	47	46	51.7%
Gemini 2.5 Flash Lite (Reasoning)	61	58	54	44	41	51.5%
o4 Mini High	55	55	52	50	45	51.5%
ByteDance Seed 2.0 Lite	86	50	43	40	37	51.3%
Mistral Medium 3.1	66	58	48	42	42	51.2%
GPT-5.5 (Reasoning)	56	51	51	49	49	51.1%
Arcee AI: Trinity Mini	69	50	50	44	41	50.8%
GPT-5.4 Mini (Reasoning)	56	54	53	49	42	50.8%
Gemma 3 4B	56	54	49	48	47	50.7%
Gemini 3.1 Flash Lite	62	56	48	45	42	50.7%
GPT-5.4 Mini (Reasoning, Low)	56	54	49	47	46	50.4%
Gemini 3.1 Flash Lite (Reasoning)	58	58	56	50	30	50.3%
DeepSeek V4 Flash	62	58	53	43	34	50.1%
GPT-4o Mini (temp=0)	54	54	50	46	45	49.9%
Xiaomi MIMO v2.5 Pro	57	53	52	45	41	49.7%
WizardLM 2 8x22b	60	57	52	42	37	49.6%
Gemini 3.5 Flash (Reasoning)	66	53	47	44	38	49.5%
Z.AI GLM 4.7 Flash	57	55	53	45	37	49.4%
Gemini 2.5 Flash (Reasoning)	64	50	45	44	40	48.7%
Qwen 3.6 35B	68	61	42	39	33	48.5%
GPT-5.5	52	49	48	47	47	48.5%
DeepSeek V3 (2024-12-26)	71	46	44	41	40	48.5%
Gemini 3.1 Flash Lite (Preview)	65	53	51	36	36	48.4%
Mistral Large 3	53	52	47	46	44	48.3%
Aion 2.0	56	54	48	43	40	48.2%
Qwen 3.5 Plus (2026-04-20)	70	58	42	41	30	48.0%
Mistral Small 4 (Reasoning)	54	54	54	41	37	47.8%
Qwen 3.6 Flash	58	48	46	45	38	46.8%
GPT-5.5 (Reasoning, Low)	51	51	44	44	44	46.8%
Z.AI GLM 4.6	71	49	39	37	33	45.7%
Ministral 8B	52	48	45	43	40	45.7%
Qwen3.7 Max	55	52	41	40	39	45.5%
Nemotron 3 Super	48	48	45	43	42	45.2%
GPT-4o, Aug. 6th (temp=0)	54	45	45	42	39	45.1%
GPT-5	46	46	45	44	41	44.4%
Xiaomi MIMO v2.5	52	49	43	42	35	44.3%
ByteDance Seed 1.6	70	45	36	35	35	44.1%
MiniMax M3	54	51	45	37	32	43.8%
Ministral 3 3B	46	46	45	41	41	43.6%
Mistral Large 2	45	44	44	43	42	43.5%
Qwen 2.5 72B	45	44	43	42	40	42.7%
GPT-5.2	45	44	43	41	39	42.5%
Gemini 2.5 Pro	49	43	40	39	38	42.0%
Mistral NeMO	47	43	42	41	35	41.5%
Qwen 3.5 35B	49	45	42	38	33	41.5%
GPT-5.4 Nano (Reasoning, Low)	44	42	42	41	37	41.3%
Qwen 3.5 Flash	44	43	43	40	35	40.8%
GPT-OSS 120B	48	40	40	38	36	40.5%
Inception Mercury 2	44	43	40	38	35	40.1%
GPT-5.4 Nano	43	42	40	39	36	39.9%
GPT-5.4 Nano (Reasoning)	42	40	40	40	38	39.7%
Nemotron 3 Nano	44	41	39	38	36	39.6%
Qwen 3.5 27B	46	42	40	36	32	39.2%
Qwen 3.5 9B	44	44	42	40	25	39.0%
Qwen 3.5 397B A17B	51	39	39	34	31	38.6%
Gemini 3 Flash (Preview)	41	41	37	36	36	38.4%
Ministral 3 8B	51	40	38	32	29	38.1%
Gemini 3 Flash (Preview, Reasoning)	41	40	39	36	34	38.0%
Z.AI GLM 4.7	41	40	38	37	34	38.0%
GPT-5 Mini	44	42	39	36	28	37.8%
Gemma 4 26B	41	39	39	36	31	37.1%
Gemma 4 31B	41	40	37	34	33	37.0%
Gemma 4 31B (Reasoning)	40	37	36	33	33	35.9%
Qwen 3.5 122B	37	37	36	35	34	35.9%
GPT-5 Nano	36	35	35	34	33	34.5%
Gemma 4 26B (Reasoning)	34	34	33	33	33	33.3%
Mistral Small 3.2 24B	42	39	29	25	25	32.0%

Sentence opener variety

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets