Dialogue tag variety (said vs. fancy)

Test: Bad Writing Habits

Avg. Score

69.6%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Claude Sonnet 4.6	99.4%	$0.031	39.3s	95%
2	Claude Sonnet 4.6 (Reasoning)	99.4%	$0.060	1.2m	93%
3	Z.AI GLM 5 Turbo	93.9%	$0.0081	33.2s	56%
4	DeepSeek V4 Flash	90.5%	$0.0006	31.6s	54%
5	Aion 3.0 Mini	93.9%	$0.0053	1.2m	59%
6	MiniMax M2.5	92.4%	$0.0034	1.3m	60%
7	Z.AI GLM 5.2 (Reasoning, High)	93.4%	$0.011	1.0m	54%
8	MiniMax M2.7	89.5%	$0.0040	1.1m	54%
9	Z.AI GLM 5.1	94.1%	$0.014	1.5m	54%
10	DeepSeek V4 Flash (Reasoning)	86.9%	$0.0007	31.1s	41%
11	Qwen 3.6 35B	89.5%	$0.0083	1.0m	45%
12	Qwen 3.5 397B A17B	95.7%	$0.014	3.0m	66%
13	Mistral Large 2	86.8%	$0.013	29.4s	39%
14	DeepSeek V4 Pro	86.3%	$0.0048	1.3m	46%
15	Ministral 8B	80.0%	$0.0004	10.4s	35%
16	Aion 3.0	90.4%	$0.024	1.0m	45%
17	MiniMax M3	93.7%	$0.0060	3.1m	63%
18	Z.AI GLM 5	88.4%	$0.0084	1.2m	42%
19	Claude Sonnet 4.5	88.4%	$0.035	38.1s	45%
20	Mistral Large 3	82.1%	$0.0033	30.3s	35%
21	GPT-5 Mini	81.8%	$0.0100	57.4s	44%
22	Claude Sonnet 5 (Reasoning)	86.8%	$0.030	38.9s	42%
23	Qwen 3.5 9B	85.3%	$0.0011	1.4m	40%
24	Claude Sonnet 5	85.9%	$0.027	33.5s	39%
25	Qwen 3.5 35B	86.5%	$0.018	1.0m	41%
26	Ministral 3 3B	79.1%	$0.0005	11.1s	29%
27	Claude Opus 4.5	91.0%	$0.070	53.4s	56%
28	Ministral 3B	77.5%	$0.0001	8.1s	28%
29	Grok 4.5 (Reasoning, Low)	85.9%	$0.018	1.1m	38%
30	Qwen 3.5 Flash	82.4%	$0.0025	47.5s	30%
31	Qwen3.6 Max Preview	97.2%	$0.050	3.5m	73%
32	ByteDance Seed 1.6 Flash	77.0%	$0.0013	27.3s	29%
33	Claude Haiku 4.5	77.2%	$0.011	21.6s	32%
34	Grok 4.3	80.8%	$0.0069	30.5s	28%
35	Qwen 3.6 Flash	82.6%	$0.010	41.4s	30%
36	GPT-5.4 Nano (Reasoning)	75.3%	$0.0061	24.5s	32%
37	Mistral Small 4 (Reasoning)	76.3%	$0.0022	30.2s	30%
38	Ministral 3 8B	75.1%	$0.0008	19.6s	27%
39	GPT-5.4 Mini (Reasoning, Low)	77.8%	$0.015	16.8s	30%
40	Mistral Small 4	74.4%	$0.0014	18.2s	26%
41	Writer: Palmyra X5	77.5%	$0.011	22.0s	28%
42	GPT-5.4 Mini	76.8%	$0.015	16.8s	27%
43	GPT-5.4 Nano (Reasoning, Low)	72.6%	$0.0055	20.6s	28%
44	Qwen 3.5 27B	84.3%	$0.020	1.6m	40%
45	Claude Sonnet 5 (Reasoning, Low)	82.7%	$0.031	38.4s	32%
46	Qwen3 235B A22B Instruct 2507	77.6%	$0.0011	59.2s	29%
47	Grok 4.5 (Reasoning, High)	86.4%	$0.030	1.6m	40%
48	GPT-5.4	87.7%	$0.049	1.4m	44%
49	Grok 4.3 (Reasoning)	87.6%	$0.021	2.3m	44%
50	Mistral Medium 3.1	75.6%	$0.0048	36.5s	25%
51	Ministral 3 14B	69.6%	$0.0007	11.7s	22%
52	Claude Sonnet 4	80.1%	$0.032	43.7s	31%
53	GPT-5.4 Nano	69.9%	$0.0057	26.3s	23%
54	GPT-5.4 (Reasoning, Low)	85.1%	$0.055	1.4m	41%
55	GPT-5.4 Mini (Reasoning)	75.3%	$0.022	28.1s	24%
56	Gemini 3.1 Flash Lite (Reasoning)	70.9%	$0.0030	11.9s	16%
57	Qwen 3.5 122B	80.3%	$0.025	1.1m	28%
58	ByteDance Seed 1.6	85.2%	$0.013	2.5m	34%
59	GPT-5	90.2%	$0.065	2.8m	55%
60	DeepSeek V3 (2025-03-24)	68.8%	$0.0014	39.4s	17%
61	Claude Opus 4.6 (Reasoning)	88.5%	$0.088	1.4m	43%
62	Gemini 3.1 Flash Lite	66.7%	$0.0030	12.1s	12%
63	Claude Opus 4.7	81.3%	$0.069	30.4s	29%
64	Claude Opus 4.6	86.0%	$0.078	1.2m	37%
65	Mistral NeMO	62.9%	$0.0005	10.1s	14%
66	Aion 2.0	70.8%	$0.0064	1.3m	24%
67	Xiaomi MIMO v2.5	66.9%	$0.0054	31.8s	17%
68	Gemini 2.5 Pro	73.3%	$0.036	36.2s	23%
69	Claude Opus 4.8 (Reasoning, Low)	78.8%	$0.071	41.9s	31%
70	Llama 3.1 70B	64.3%	$0.0015	29.4s	11%
71	Gemini 3.1 Flash Lite (Preview)	61.5%	$0.0030	8.4s	9%
72	ByteDance Seed 2.0 Lite	77.4%	$0.012	2.2m	24%
73	Claude Opus 4.7 (Reasoning)	78.8%	$0.076	32.0s	26%
74	Qwen 3 32B	61.9%	$0.0015	54.6s	18%
75	DeepSeek V4 Pro (Reasoning)	80.4%	$0.015	3.1m	34%
76	Xiaomi MIMO v2.5 Pro	66.0%	$0.0085	53.5s	15%
77	Z.AI GLM 4.6	65.4%	$0.0065	51.5s	14%
78	Qwen3.7 Max	87.2%	$0.068	2.3m	37%
79	GPT-5.5	89.8%	$0.139	1.7m	58%
80	DeepSeek V3 (2024-12-26)	63.6%	$0.0021	54.6s	14%
81	GPT-5.4 (Reasoning)	87.7%	$0.089	2.6m	47%
82	GPT-5.5 (Reasoning, Low)	89.8%	$0.139	1.8m	55%
83	Gemini 2.5 Flash	56.9%	$0.0052	10.6s	9%
84	GPT-4.1	63.7%	$0.018	44.7s	15%
85	Gemma 4 26B (Reasoning)	72.3%	$0.0013	2.0m	14%
86	Claude Opus 4.8 (Reasoning)	74.9%	$0.071	41.7s	23%
87	o4 Mini	59.3%	$0.015	25.7s	11%
88	Qwen 3.5 Plus (2026-04-20)	72.7%	$0.017	1.8m	16%
89	Qwen 2.5 72B	56.5%	$0.0010	36.7s	10%
90	Z.AI GLM 4.5	59.4%	$0.0051	42.1s	10%
91	WizardLM 2 8x22b	66.5%	$0.0026	1.8m	16%
92	Grok 4.20 (Reasoning)	67.7%	$0.018	1.5m	16%
93	Gemma 4 26B	59.6%	$0.0009	55.1s	8%
94	MoonshotAI: Kimi K2.5	77.1%	$0.019	3.2m	29%
95	GPT-4.1 Nano	51.8%	$0.0007	13.3s	7%
96	Grok 4.20	56.9%	$0.0093	45.7s	12%
97	Gemma 3 27B	56.7%	$0.0006	52.6s	9%
98	Arcee AI: Trinity Mini	50.0%	$0.0003	9.2s	5%
99	DeepSeek V3.2	64.4%	$0.0014	1.9m	14%
100	GPT-4o, Aug. 6th (temp=0)	54.9%	$0.023	22.7s	13%
101	Gemma 4 31B (Reasoning)	66.9%	$0.0014	2.2m	14%
102	DeepSeek-V2 Chat	55.7%	$0.0021	53.3s	8%
103	o4 Mini High	61.2%	$0.025	47.2s	10%
104	GPT-5.1	72.0%	$0.054	1.8m	23%
105	DeepSeek V3.1	60.6%	$0.0020	1.8m	13%
106	GPT-5.5 (Reasoning)	87.2%	$0.142	1.8m	42%
107	GPT-4.1 Mini	43.7%	$0.0027	19.0s	8%
108	Nemotron 3 Super	52.7%	$0.0000	1.4m	8%
109	Hermes 3 405B	48.9%	$0.0032	53.2s	5%
110	Gemini 2.5 Flash Lite	40.0%	$0.0009	9.5s	4%
111	Gemini 3.1 Pro (Preview)	79.9%	$0.107	1.8m	28%
112	Z.AI GLM 4.7 Flash	49.2%	$0.0017	1.2m	8%
113	Z.AI GLM 4.5 Air	46.6%	$0.0029	58.2s	8%
114	Inception Mercury 2	38.2%	$0.0032	7.0s	4%
115	Gemini 3 Flash (Preview, Reasoning)	45.3%	$0.012	30.1s	5%
116	Gemini 2.5 Flash Lite (Reasoning)	43.3%	$0.0028	30.8s	3%
117	Z.AI GLM 4.7	51.7%	$0.010	1.4m	8%
118	GPT-5 Nano	47.2%	$0.0042	1.4m	9%
119	GPT-5.2	61.4%	$0.056	1.5m	17%
120	Gemini 2.5 Flash (Reasoning)	41.7%	$0.011	21.5s	2%
121	ByteDance Seed 2.0 Mini	77.8%	$0.0045	4.9m	23%
122	Gemini 3 Flash (Preview)	37.4%	$0.0078	19.6s	3%
123	Qwen 3.6 27B	58.5%	$0.025	2.3m	8%
124	GPT-4o Mini (temp=0)	34.6%	$0.0012	34.8s	0%
125	Gemini 3.5 Flash (Reasoning, Minimal)	36.2%	$0.018	12.0s	0%
126	Gemma 4 31B	44.1%	$0.0010	1.6m	3%
127	Gemma 3 12B	31.2%	$0.0004	41.3s	3%
128	Cydonia 24B V4.1	32.5%	$0.0014	44.8s	0%
129	Cohere Command R+ (Aug. 2024)	38.6%	$0.020	52.5s	3%
130	Qwen 3.5 Plus (2026-02-15)	30.5%	$0.0060	31.5s	0%
131	MoonshotAI: Kimi K2.6	87.6%	$0.058	6.5m	42%
132	Nemotron 3 Nano	30.7%	$0.0010	1.1m	2%
133	Claude Opus 4	85.3%	$0.209	1.4m	36%
134	Hermes 3 70B	30.8%	$0.0010	1.2m	0%
135	Gemma 3 4B	19.7%	$0.0002	20.0s	0%
136	Gemini 3.5 Flash (Reasoning)	42.9%	$0.071	37.6s	7%
137	GPT-4o Mini (temp=1)	20.1%	$0.0012	34.8s	0%
138	Mistral Small 3.2 24B	68.9%	$0.0069	5.7m	15%
139	GPT-4o, Aug. 6th (temp=1)	19.5%	$0.018	24.4s	0%
140	GPT-OSS 120B	19.7%	$0.0015	1.8m	0%
69.61%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	92	98.3%
MiniMax M2.7	100	100	100	100	91	98.2%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	88	97.5%
ByteDance Seed 1.6	100	100	100	97	88	97.0%
Claude Sonnet 5	100	100	100	100	83	96.7%
Claude Opus 4.6 (Reasoning)	100	100	100	91	91	96.5%
GPT-5.4 (Reasoning, Low)	100	100	100	96	84	96.0%
Claude Opus 4	100	100	100	100	79	95.9%
Claude Opus 4.7 (Reasoning)	100	100	100	91	83	94.9%
Claude Sonnet 4.5	100	100	100	94	79	94.6%
GPT-5.4 Mini (Reasoning)	100	100	100	96	69	93.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	96	64	92.0%
GPT-5.5 (Reasoning)	100	100	100	100	59	91.8%
GPT-5.4	100	100	100	96	58	90.8%
ByteDance Seed 2.0 Lite	100	100	100	83	67	90.0%
Qwen 3.5 35B	100	100	100	100	47	89.5%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	47	89.3%
GPT-5	100	100	86	82	77	89.0%
Qwen 3.5 397B A17B	100	100	100	100	42	88.4%
Qwen 3.6 35B	100	100	100	100	37	87.4%
DeepSeek V4 Flash (Reasoning)	100	100	93	83	59	87.2%
Grok 4.5 (Reasoning, Low)	100	100	100	91	39	86.0%
Aion 3.0 Mini	100	100	100	100	25	85.0%
GPT-5.5	100	100	85	75	64	84.8%
DeepSeek V4 Pro	100	100	100	67	53	84.0%
Gemini 3.1 Pro (Preview)	100	100	83	82	50	83.0%
Claude Opus 4.7	100	100	100	100	10	82.1%
Claude Opus 4.8 (Reasoning)	100	100	100	100	0	80.0%
Gemma 4 26B (Reasoning)	100	100	100	100	0	80.0%
MiniMax M2.5	100	100	100	79	18	79.4%
Claude Opus 4.6	100	100	100	80	15	79.0%
Z.AI GLM 5	100	100	100	50	43	78.6%
ByteDance Seed 2.0 Mini	100	100	100	91	0	78.2%
Mistral Large 2	100	100	100	79	0	75.7%
GPT-5.4 Mini	100	100	70	62	36	73.6%
Grok 4.5 (Reasoning, High)	100	83	63	59	59	72.9%
DeepSeek V4 Pro (Reasoning)	100	100	88	47	20	70.7%
Ministral 8B	100	100	79	73	0	70.3%
DeepSeek V4 Flash	100	100	90	59	0	69.8%
Writer: Palmyra X5	94	93	88	64	0	67.9%
Claude Opus 4.8 (Reasoning, Low)	96	91	71	64	11	66.7%
Mistral Medium 3.1	100	99	95	21	12	65.4%
Qwen 3.5 9B	100	96	67	35	28	65.1%
Qwen3 235B A22B Instruct 2507	100	99	88	25	0	62.2%
GPT-5.4 Nano	89	77	76	67	0	61.6%
Qwen 3.5 27B	100	93	62	37	12	60.9%
Qwen3.6 Max Preview	100	100	70	32	0	60.5%
Qwen 3.5 122B	100	100	98	4	0	60.3%
GPT-4o, Aug. 6th (temp=0)	100	100	94	7	0	60.3%
Gemma 4 31B (Reasoning)	100	100	100	0	0	60.0%
Ministral 3 14B	76	70	59	45	45	58.9%
Mistral Large 3	91	78	67	42	11	57.7%
Qwen 3.5 Flash	100	100	84	0	0	56.8%
GPT-5.1	100	100	47	37	0	56.7%
GPT-5.2	81	71	68	31	29	55.9%
ByteDance Seed 1.6 Flash	100	73	67	21	10	54.1%
Qwen 2.5 72B	71	63	53	50	33	54.1%
Qwen 3 32B	100	94	76	0	0	54.1%
Claude Sonnet 4	100	100	70	0	0	54.0%
Xiaomi MIMO v2.5 Pro	100	100	70	0	0	54.0%
Ministral 3 8B	76	69	67	55	0	53.3%
MoonshotAI: Kimi K2.5	100	100	59	0	0	51.8%
GPT-4.1	93	83	81	0	0	51.4%
Mistral Small 4	97	89	50	21	0	51.4%
GPT-5 Mini	85	84	68	17	0	51.0%
Mistral Small 3.2 24B	100	77	69	0	0	49.3%
GPT-5.4 Nano (Reasoning)	100	50	41	35	14	47.9%
Qwen 3.6 27B	100	93	39	0	0	46.3%
Qwen3.7 Max	100	100	25	3	0	45.6%
Mistral NeMO	100	67	30	25	0	44.3%
Grok 4.3 (Reasoning)	67	50	50	50	0	43.3%
Grok 4.20 (Reasoning)	100	100	17	0	0	43.3%
Qwen 3.5 Plus (2026-04-20)	100	100	0	0	0	40.0%
Qwen 3.6 Flash	100	100	0	0	0	40.0%
o4 Mini	64	50	39	32	7	38.5%
Gemini 2.5 Flash	83	69	32	0	0	36.9%
Mistral Small 4 (Reasoning)	73	62	47	0	0	36.5%
GPT-5.4 Nano (Reasoning, Low)	100	77	2	0	0	35.9%
WizardLM 2 8x22b	76	67	31	0	0	34.6%
Ministral 3 3B	88	79	0	0	0	33.2%
Ministral 3B	83	59	0	0	0	28.5%
Aion 2.0	94	47	0	0	0	28.4%
Hermes 3 70B	53	53	25	0	0	26.3%
Grok 4.3	100	25	0	0	0	25.0%
Nemotron 3 Super	59	32	25	0	0	23.3%
Gemma 4 26B	79	36	0	0	0	22.9%
Claude Haiku 4.5	47	47	12	0	0	21.2%
Gemini 3 Flash (Preview, Reasoning)	100	0	0	0	0	20.0%
o4 Mini High	100	0	0	0	0	20.0%
Gemma 4 31B	100	0	0	0	0	20.0%
DeepSeek-V2 Chat	100	0	0	0	0	20.0%
DeepSeek V3 (2024-12-26)	79	17	0	0	0	19.0%
DeepSeek V3 (2025-03-24)	67	25	0	0	0	18.3%
DeepSeek V3.1	59	25	7	0	0	18.2%
Grok 4.20	28	25	18	2	0	14.8%
GPT-4o, Aug. 6th (temp=1)	73	0	0	0	0	14.6%
Z.AI GLM 4.7 Flash	67	0	0	0	0	13.3%
Z.AI GLM 4.5 Air	61	4	0	0	0	13.0%
Hermes 3 405B	35	30	0	0	0	12.9%
DeepSeek V3.2	64	0	0	0	0	12.9%
Gemini 2.5 Pro	63	0	0	0	0	12.6%
Gemini 3 Flash (Preview)	59	3	0	0	0	12.4%
GPT-5 Nano	52	0	0	0	0	10.3%
GPT-4.1 Mini	43	7	0	0	0	10.0%
Llama 3.1 70B	50	0	0	0	0	10.0%
Z.AI GLM 4.7	28	17	4	0	0	9.7%
Z.AI GLM 4.5	31	7	0	0	0	7.6%
Z.AI GLM 4.6	25	0	0	0	0	5.0%
Gemini 3.1 Flash Lite (Preview)	17	0	0	0	0	3.3%
Cohere Command R+ (Aug. 2024)	17	0	0	0	0	3.3%
Gemini 3.5 Flash (Reasoning)	10	0	0	0	0	2.1%
Gemini 2.5 Flash Lite (Reasoning)	7	0	0	0	0	1.4%
Cydonia 24B V4.1	7	0	0	0	0	1.4%
Gemma 3 12B	2	0	0	0	0	0.4%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	97	99.5%
Qwen 3.5 9B	100	100	100	100	97	99.5%
Z.AI GLM 5.1	100	100	100	100	88	97.5%
GPT-5	100	100	100	100	83	96.7%
Qwen 3.5 397B A17B	100	100	100	100	83	96.7%
Grok 4.5 (Reasoning, Low)	100	100	100	100	79	95.7%
Claude Sonnet 4	100	100	100	100	76	95.2%
GPT-5.5 (Reasoning)	100	100	100	100	59	91.8%
Claude Opus 4.5	100	100	97	88	67	90.3%
GPT-5.4	100	97	94	94	59	89.1%
Claude Sonnet 4.5	100	100	100	100	39	87.8%
MoonshotAI: Kimi K2.6	100	100	100	100	25	85.0%
GPT-5.4 Nano (Reasoning)	100	100	100	67	50	83.3%
GPT-5 Mini	100	100	100	89	23	82.5%
Qwen 3.5 Flash	100	100	100	99	12	82.2%
DeepSeek V4 Pro	100	100	100	100	7	81.4%
DeepSeek V4 Flash	100	100	100	100	7	81.4%
Z.AI GLM 5 Turbo	100	100	100	100	0	80.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	0	80.0%
Aion 3.0	100	100	100	100	0	80.0%
Z.AI GLM 4.6	100	100	100	100	0	80.0%
Mistral Large 3	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	73	25	79.6%
Claude Opus 4	100	100	99	94	0	78.8%
GPT-5.4 (Reasoning)	100	79	73	67	67	77.0%
GPT-5.4 (Reasoning, Low)	100	100	97	79	0	75.2%
MiniMax M2.7	100	100	100	67	7	74.8%
MiniMax M2.5	100	100	100	71	0	74.2%
DeepSeek V4 Flash (Reasoning)	100	100	100	67	0	73.3%
Qwen 3.6 35B	100	100	100	50	0	70.0%
Writer: Palmyra X5	100	100	100	50	0	70.0%
Qwen 3.6 27B	100	100	100	39	0	67.8%
Qwen 3 32B	90	89	73	57	25	66.9%
Ministral 3B	100	100	100	25	0	65.0%
Qwen 3.5 35B	100	100	100	12	0	62.4%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	7	0	61.4%
DeepSeek V3.1	100	100	100	7	0	61.4%
GPT-5.1	100	100	50	39	17	61.1%
Qwen3.7 Max	100	100	100	0	0	60.0%
Gemini 3.1 Pro (Preview)	100	100	100	0	0	60.0%
MoonshotAI: Kimi K2.5	100	100	100	0	0	60.0%
MiniMax M3	100	100	100	0	0	60.0%
Z.AI GLM 5	100	100	100	0	0	60.0%
ByteDance Seed 1.6	100	100	100	0	0	60.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	0	0	60.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	0	0	60.0%
Hermes 3 405B	100	100	100	0	0	60.0%
Gemma 4 31B (Reasoning)	100	100	83	7	0	58.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	88	0	0	57.5%
GPT-5.4 Mini (Reasoning, Low)	96	91	39	39	17	56.3%
GPT-5.2	94	79	79	25	0	55.3%
Claude Opus 4.7 (Reasoning)	100	100	59	0	0	51.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	59	0	0	51.8%
Gemma 4 26B (Reasoning)	100	100	50	0	0	50.0%
Claude Opus 4.7	100	50	39	25	25	47.8%
o4 Mini	100	100	25	0	0	45.0%
ByteDance Seed 2.0 Lite	100	100	25	0	0	45.0%
Z.AI GLM 4.7 Flash	88	73	50	14	0	44.8%
DeepSeek V4 Pro (Reasoning)	100	85	39	0	0	44.7%
GPT-5.4 Nano	100	79	32	7	0	43.6%
Mistral Small 4 (Reasoning)	100	59	50	0	0	41.8%
Ministral 3 14B	100	59	50	0	0	41.8%
GPT-5.4 Mini (Reasoning)	100	94	7	7	0	41.7%
DeepSeek V3 (2025-03-24)	100	100	7	0	0	41.4%
Claude Opus 4.6	100	100	0	0	0	40.0%
Gemma 4 26B	100	100	0	0	0	40.0%
Mistral Small 3.2 24B	100	100	0	0	0	40.0%
Mistral NeMO	100	100	0	0	0	40.0%
Qwen 3.5 122B	100	94	0	0	0	38.9%
Z.AI GLM 4.5	100	91	0	0	0	38.2%
Hermes 3 70B	100	67	7	0	0	34.8%
Claude Sonnet 5 (Reasoning)	100	50	7	7	7	34.3%
DeepSeek V3.2	100	63	0	0	0	32.6%
Claude Sonnet 5	100	59	0	0	0	31.8%
WizardLM 2 8x22b	100	50	0	0	0	30.0%
Ministral 8B	100	25	25	0	0	30.0%
Cydonia 24B V4.1	94	39	14	0	0	29.4%
GPT-4o, Aug. 6th (temp=0)	100	39	0	0	0	27.8%
Ministral 3 8B	100	39	0	0	0	27.8%
Mistral Small 4	100	25	7	0	0	26.4%
GPT-5.4 Mini	70	43	14	0	0	25.3%
Claude Opus 4.6 (Reasoning)	100	25	0	0	0	25.0%
Grok 4.20 (Reasoning)	100	25	0	0	0	25.0%
GPT-4.1	100	25	0	0	0	25.0%
Aion 2.0	100	25	0	0	0	25.0%
Claude Opus 4.8 (Reasoning, Low)	67	55	0	0	0	24.3%
Mistral Medium 3.1	100	17	0	0	0	23.3%
Gemini 3 Flash (Preview)	76	20	17	0	0	22.4%
Gemma 4 31B	100	0	0	0	0	20.0%
DeepSeek-V2 Chat	100	0	0	0	0	20.0%
DeepSeek V3 (2024-12-26)	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=1)	100	0	0	0	0	20.0%
ByteDance Seed 1.6 Flash	100	0	0	0	0	20.0%
GPT-4.1 Nano	100	0	0	0	0	20.0%
Gemini 3.1 Flash Lite (Reasoning)	59	32	0	0	0	18.3%
GPT-4.1 Mini	83	0	0	0	0	16.7%
Grok 4.20	59	0	0	0	0	11.8%
Gemini 3.5 Flash (Reasoning, Minimal)	45	0	0	0	0	8.9%
GPT-5 Nano	39	0	0	0	0	7.8%
Gemini 3.1 Flash Lite	21	14	0	0	0	6.9%
Qwen 2.5 72B	17	17	0	0	0	6.7%
Claude Opus 4.8 (Reasoning)	25	0	0	0	0	5.0%
Gemini 3 Flash (Preview, Reasoning)	25	0	0	0	0	5.0%
Gemma 3 27B	25	0	0	0	0	5.0%
Gemma 3 4B	25	0	0	0	0	5.0%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0.0%
Z.AI GLM 4.7	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5 Pro	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	99	99.7%
Z.AI GLM 4.6	100	100	100	100	99	99.7%
DeepSeek-V2 Chat	100	100	100	100	98	99.7%
Grok 4.20	100	100	100	100	98	99.7%
Gemma 3 27B	100	100	100	100	97	99.5%
Grok 4.20 (Reasoning)	100	100	100	100	96	99.2%
Gemma 4 31B	100	100	100	100	96	99.2%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	94	98.9%
GPT-4.1	100	100	100	100	91	98.2%
ByteDance Seed 2.0 Lite	100	100	100	100	91	98.2%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	91	98.2%
Mistral NeMO	100	100	100	100	91	98.2%
Gemini 3.1 Pro (Preview)	100	100	100	100	90	98.1%
Grok 4.5 (Reasoning, High)	100	100	100	100	89	97.9%
Qwen 3.5 Flash	100	100	100	100	89	97.9%
Gemma 4 31B (Reasoning)	100	100	100	100	89	97.8%
Xiaomi MIMO v2.5	100	100	100	97	90	97.5%
Mistral Small 3.2 24B	100	100	100	100	86	97.2%
Xiaomi MIMO v2.5 Pro	100	100	100	100	85	97.0%
DeepSeek V3.2	100	100	100	100	83	96.7%
Gemma 3 12B	100	100	100	91	90	96.2%
GPT-5 Mini	100	100	100	98	82	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	94	84	95.7%
Z.AI GLM 4.5 Air	100	100	100	100	79	95.7%
Llama 3.1 70B	100	100	100	100	79	95.7%
Ministral 3B	100	100	100	100	79	95.7%
Claude Haiku 4.5	100	100	100	100	76	95.2%
Gemini 2.5 Pro	100	100	100	88	88	95.0%
Qwen 3 32B	100	100	100	89	85	94.8%
DeepSeek V3.1	100	100	93	91	89	94.8%
Nemotron 3 Super	100	100	100	100	73	94.6%
Z.AI GLM 4.7	100	100	100	100	70	94.0%
Grok 4.3	100	100	100	100	43	88.6%
Mistral Small 4	100	100	100	100	39	87.8%
GPT-5 Nano	100	100	100	85	54	87.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	75	62	87.4%
GPT-4o Mini (temp=0)	100	92	89	81	75	87.4%
Qwen 3.6 35B	100	100	100	100	28	85.5%
Qwen 3.6 Flash	100	100	100	90	14	80.7%
GPT-5.4 Nano (Reasoning, Low)	95	82	76	72	70	79.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	96	0	79.2%
GPT-4.1 Nano	100	91	91	81	32	79.1%
Cydonia 24B V4.1	100	100	90	71	32	78.7%
Gemini 3.5 Flash (Reasoning)	100	93	76	62	50	76.2%
GPT-4o, Aug. 6th (temp=0)	100	100	83	69	28	76.1%
Gemini 3 Flash (Preview)	97	95	92	48	44	75.4%
Arcee AI: Trinity Mini	100	100	79	76	21	75.1%
GPT-4.1 Mini	100	100	77	47	42	73.1%
Qwen 3.5 Plus (2026-02-15)	100	91	85	47	35	71.8%
Gemini 3.1 Flash Lite (Preview)	100	100	79	62	0	68.1%
Cohere Command R+ (Aug. 2024)	100	100	100	35	0	66.9%
Gemini 3 Flash (Preview, Reasoning)	100	93	56	45	30	64.7%
Gemini 2.5 Flash Lite (Reasoning)	99	85	61	50	18	62.6%
Gemini 3.1 Flash Lite (Reasoning)	100	85	81	21	17	60.7%
Gemini 2.5 Flash	100	100	100	0	0	60.0%
Nemotron 3 Nano	86	84	83	25	7	57.2%
Gemini 2.5 Flash Lite	100	81	50	22	17	54.0%
Inception Mercury 2	100	73	67	0	0	47.9%
Gemma 3 4B	100	55	47	32	0	46.7%
Gemini 3.1 Flash Lite	100	45	36	32	0	42.6%
Qwen 3.6 27B	100	100	2	0	0	40.4%
GPT-OSS 120B	79	31	29	27	0	33.1%
GPT-4o, Aug. 6th (temp=1)	99	50	17	0	0	33.1%
GPT-4o Mini (temp=1)	36	25	17	15	0	18.7%
Hermes 3 70B	47	0	0	0	0	9.5%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	99	99.8%
Claude Sonnet 5	100	100	100	100	96	99.2%
Grok 4.5 (Reasoning, High)	100	100	100	100	94	98.9%
Claude Sonnet 4	100	100	100	100	92	98.5%
WizardLM 2 8x22b	100	100	100	100	92	98.5%
ByteDance Seed 2.0 Mini	100	100	100	100	91	98.2%
Qwen 3.6 Flash	100	100	100	100	90	98.0%
Qwen3.7 Max	100	100	100	100	89	97.8%
Mistral Small 4	100	100	100	100	88	97.5%
MoonshotAI: Kimi K2.5	100	100	100	100	87	97.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	85	97.0%
Qwen3.6 Max Preview	100	100	100	100	83	96.7%
Claude Opus 4.8 (Reasoning)	100	100	100	100	80	96.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	79	95.7%
Grok 4.3	100	100	100	100	76	95.2%
DeepSeek V3 (2025-03-24)	100	100	100	91	83	94.9%
Z.AI GLM 4.5	100	100	100	96	75	94.1%
Claude Opus 4	100	100	100	100	70	94.0%
o4 Mini	100	100	95	88	83	93.2%
Mistral Medium 3.1	100	100	100	100	62	92.4%
Mistral Small 3.2 24B	100	100	100	100	59	91.8%
Qwen 3.5 27B	100	100	100	94	64	91.6%
Qwen 3.5 9B	100	100	100	100	46	89.2%
Grok 4.20	100	100	100	77	68	89.0%
o4 Mini High	100	100	90	79	76	89.0%
Qwen 3.5 122B	100	100	100	83	61	88.9%
Gemma 4 26B (Reasoning)	100	100	100	99	45	88.7%
DeepSeek V3.2	100	100	100	76	61	87.4%
Gemma 4 26B	100	99	83	77	77	87.3%
Grok 4.20 (Reasoning)	100	100	100	100	36	87.1%
Gemma 4 31B (Reasoning)	100	100	100	70	63	86.6%
ByteDance Seed 1.6 Flash	100	100	100	71	59	86.0%
GPT-5 Mini	95	90	89	83	72	86.0%
Aion 2.0	100	100	100	64	62	85.2%
Mistral Small 4 (Reasoning)	100	100	100	89	35	84.8%
Gemini 3.1 Pro (Preview)	100	100	100	100	23	84.6%
GPT-5.4 Nano (Reasoning)	100	100	87	75	60	84.3%
GPT-5.4 Nano (Reasoning, Low)	100	91	82	74	70	83.4%
Ministral 8B	100	100	100	100	17	83.3%
DeepSeek-V2 Chat	100	100	100	56	48	80.8%
DeepSeek V3 (2024-12-26)	100	90	84	79	48	80.3%
Qwen 3.6 35B	100	100	100	100	0	80.0%
Nemotron 3 Super	100	100	83	70	34	77.4%
Gemma 3 27B	100	88	85	75	36	76.7%
GPT-4.1	100	100	100	80	0	76.0%
Ministral 3 8B	100	100	91	73	7	74.3%
Qwen 3.5 Flash	100	100	83	80	0	72.6%
Gemini 2.5 Pro	100	100	100	55	0	71.0%
Xiaomi MIMO v2.5	100	100	59	59	36	70.8%
Grok 4.3 (Reasoning)	100	100	100	50	0	70.0%
Gemini 3.5 Flash (Reasoning)	100	100	77	70	0	69.4%
Ministral 3 14B	100	88	88	70	0	69.0%
Hermes 3 70B	100	100	100	45	0	68.9%
Mistral NeMO	100	100	91	36	17	68.8%
Ministral 3 3B	100	100	79	32	25	67.2%
Z.AI GLM 4.7 Flash	100	100	69	43	0	62.3%
Hermes 3 405B	100	100	100	0	0	60.0%
Gemini 2.5 Flash	86	75	75	56	0	58.5%
Z.AI GLM 4.7	83	79	47	43	39	58.0%
Arcee AI: Trinity Mini	100	67	53	45	25	57.9%
Ministral 3B	100	100	79	7	0	57.1%
Cydonia 24B V4.1	100	96	79	7	0	56.3%
Qwen 2.5 72B	100	67	50	44	15	55.0%
Z.AI GLM 4.5 Air	100	68	59	47	0	54.7%
DeepSeek V3.1	100	79	42	39	0	51.9%
Gemini 3 Flash (Preview, Reasoning)	100	80	42	25	7	50.8%
GPT-4o, Aug. 6th (temp=0)	59	53	52	39	28	46.3%
GPT-4o Mini (temp=0)	99	65	63	0	0	45.5%
Qwen 3 32B	73	50	50	25	21	43.8%
Gemini 3.1 Flash Lite (Preview)	91	81	35	0	0	41.4%
Cohere Command R+ (Aug. 2024)	81	55	39	25	0	39.9%
Gemini 2.5 Flash (Reasoning)	81	45	39	32	0	39.4%
Gemma 3 12B	79	75	28	5	0	37.1%
GPT-4.1 Mini	75	57	29	22	0	36.6%
GPT-4.1 Nano	73	63	30	17	0	36.6%
Qwen 3.6 27B	100	63	0	0	0	32.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	56	0	0	0	31.3%
Gemma 4 31B	67	53	29	0	0	29.7%
Qwen 3.5 Plus (2026-02-15)	63	47	36	0	0	29.1%
Gemini 3.1 Flash Lite	94	30	17	0	0	28.2%
GPT-5 Nano	48	25	15	12	0	19.8%
Gemini 2.5 Flash Lite (Reasoning)	59	7	7	7	0	16.1%
GPT-4o, Aug. 6th (temp=1)	36	35	0	0	0	14.1%
Gemini 3.1 Flash Lite (Reasoning)	25	12	0	0	0	7.4%
GPT-4o Mini (temp=1)	25	0	0	0	0	5.0%
Gemini 3 Flash (Preview)	17	4	3	0	0	4.7%
Gemini 2.5 Flash Lite	20	0	0	0	0	3.9%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	99	99.7%
Grok 4.5 (Reasoning, High)	100	100	100	100	97	99.5%
GPT-5.2	100	100	100	100	95	99.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	94	98.9%
ByteDance Seed 2.0 Mini	100	100	100	100	94	98.9%
Gemini 3.1 Pro (Preview)	100	100	100	100	94	98.8%
DeepSeek V3 (2024-12-26)	100	100	100	100	92	98.5%
ByteDance Seed 1.6	100	100	100	100	91	98.2%
Gemma 4 31B (Reasoning)	100	100	100	100	88	97.5%
Grok 4.3	100	100	100	100	88	97.5%
GPT-5.4 Nano (Reasoning)	100	100	100	100	87	97.3%
o4 Mini	100	100	100	94	92	97.1%
WizardLM 2 8x22b	100	100	100	100	84	96.9%
DeepSeek V3.2	100	100	100	100	83	96.7%
MiniMax M2.5	100	100	100	98	84	96.5%
Gemma 4 31B	100	100	100	93	89	96.5%
o4 Mini High	100	100	97	92	89	95.6%
Llama 3.1 70B	100	100	100	88	88	95.0%
Mistral Medium 3.1	100	100	96	95	81	94.6%
Qwen3.7 Max	100	100	100	100	72	94.3%
Aion 2.0	100	100	100	100	69	93.9%
Qwen 3.6 35B	100	100	100	97	72	93.8%
GPT-5 Mini	100	100	100	88	81	93.6%
Gemini 2.5 Flash	100	100	100	94	73	93.5%
Z.AI GLM 4.7 Flash	100	100	100	91	74	93.1%
Gemma 4 26B	100	100	100	100	65	93.1%
Claude Haiku 4.5	100	100	100	92	73	93.0%
DeepSeek V3.1	100	100	95	93	75	92.7%
Xiaomi MIMO v2.5	100	100	100	100	62	92.4%
Mistral Small 4	100	100	100	100	61	92.1%
Grok 4.3 (Reasoning)	100	100	100	100	59	91.8%
Qwen 3.5 122B	100	100	100	100	57	91.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	82	75	91.4%
DeepSeek V3 (2025-03-24)	100	100	100	73	69	88.4%
Ministral 3B	100	100	100	81	61	88.3%
Z.AI GLM 4.5 Air	100	100	100	93	48	88.3%
DeepSeek-V2 Chat	100	100	100	96	44	88.1%
Gemini 2.5 Pro	100	100	85	80	73	87.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	76	62	87.5%
ByteDance Seed 2.0 Lite	100	100	100	79	59	87.5%
Ministral 3 14B	100	100	100	97	39	87.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	69	67	87.2%
Z.AI GLM 4.6	93	91	89	83	79	87.1%
ByteDance Seed 1.6 Flash	100	100	100	100	29	85.8%
Gemini 2.5 Flash (Reasoning)	100	100	98	83	44	85.0%
GPT-5 Nano	100	85	81	76	75	83.4%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Mistral Small 4 (Reasoning)	100	100	94	67	39	80.0%
GPT-4o Mini (temp=0)	100	100	96	88	15	79.8%
Ministral 3 8B	100	100	100	79	20	79.6%
MoonshotAI: Kimi K2.5	100	100	100	56	41	79.5%
GPT-5.4 Nano	100	97	68	63	61	77.8%
Ministral 8B	100	100	100	53	35	77.7%
Qwen 3 32B	100	91	83	63	50	77.5%
Mistral NeMO	100	100	100	88	0	77.5%
Grok 4.20	100	94	94	92	7	77.5%
Nemotron 3 Super	100	100	88	75	22	76.9%
Gemma 3 27B	100	100	100	54	28	76.4%
Gemini 3 Flash (Preview)	100	89	87	73	31	75.9%
Mistral Small 3.2 24B	100	100	88	79	3	73.8%
Grok 4.20 (Reasoning)	100	82	65	62	52	72.1%
Z.AI GLM 4.7	100	100	73	58	28	71.9%
Gemini 3.1 Flash Lite (Preview)	100	100	77	68	0	69.0%
Qwen 3.6 27B	100	100	93	41	0	66.8%
Gemini 3.1 Flash Lite (Reasoning)	100	97	67	48	21	66.6%
GPT-4o Mini (temp=1)	80	73	54	52	48	61.3%
GPT-4.1 Nano	100	70	59	56	12	59.5%
Qwen 3.5 Plus (2026-02-15)	100	100	64	31	0	59.1%
Gemini 3.5 Flash (Reasoning)	76	68	54	49	44	58.0%
Hermes 3 70B	100	100	63	0	0	52.6%
Nemotron 3 Nano	100	77	63	22	0	52.3%
Ministral 3 3B	100	100	55	4	0	51.7%
Gemini 3.1 Flash Lite	96	93	55	14	0	51.4%
Cydonia 24B V4.1	100	100	25	17	0	48.4%
GPT-4.1 Mini	100	75	23	22	0	43.8%
Inception Mercury 2	83	82	43	0	0	41.6%
Gemma 3 12B	76	56	39	31	0	40.5%
Gemini 3.5 Flash (Reasoning, Minimal)	68	65	59	0	0	38.4%
Cohere Command R+ (Aug. 2024)	79	71	20	0	0	33.9%
Arcee AI: Trinity Mini	100	45	20	0	0	32.9%
Gemma 3 4B	79	29	22	21	0	30.0%
Gemini 2.5 Flash Lite (Reasoning)	63	63	0	0	0	25.2%
GPT-4o, Aug. 6th (temp=1)	79	43	0	0	0	24.3%
GPT-OSS 120B	52	36	3	0	0	18.2%
Gemini 2.5 Flash Lite	56	0	0	0	0	11.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	91	98.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	91	98.2%
Qwen 3.5 Flash	100	100	100	97	93	98.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	89	97.8%
Z.AI GLM 5	100	100	100	100	88	97.5%
GPT-5.4 Mini	100	100	100	100	88	97.5%
DeepSeek V3.1	100	100	100	99	88	97.2%
Writer: Palmyra X5	100	100	100	100	83	96.7%
MiniMax M3	100	100	100	100	83	96.7%
Z.AI GLM 5 Turbo	100	100	100	100	81	96.2%
GPT-5.5	100	100	100	89	88	95.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	73	94.6%
GPT-5.4	100	99	97	89	86	94.4%
Qwen3.6 Max Preview	100	100	100	100	67	93.3%
Ministral 3 8B	100	100	100	88	73	92.1%
Claude Haiku 4.5	100	100	100	100	59	91.8%
Aion 3.0 Mini	100	100	100	79	79	91.4%
Claude Sonnet 4.5	100	100	100	100	55	91.0%
GPT-5.2	100	100	100	100	54	90.8%
Qwen 3.6 35B	100	100	100	100	52	90.5%
Ministral 8B	100	100	100	99	50	89.7%
ByteDance Seed 1.6 Flash	100	100	100	83	62	89.0%
DeepSeek V4 Pro	100	100	100	94	39	86.7%
Qwen 3.5 35B	100	100	93	72	67	86.2%
Qwen 3.5 9B	100	100	100	89	39	85.7%
Gemini 2.5 Flash Lite	100	100	100	100	25	85.0%
Ministral 3 3B	100	100	100	100	25	85.0%
Claude Opus 4	100	100	100	73	39	82.4%
GPT-5.1	100	100	86	70	55	82.2%
Claude Opus 4.8 (Reasoning)	100	100	100	100	7	81.4%
GPT-5 Mini	100	100	100	93	14	81.3%
MiniMax M2.7	100	100	100	97	7	80.9%
DeepSeek V4 Flash	100	100	100	79	25	80.7%
ByteDance Seed 1.6	100	100	100	100	0	80.0%
Aion 3.0	100	100	100	100	0	80.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Z.AI GLM 4.7 Flash	100	100	100	100	0	80.0%
Z.AI GLM 5.1	100	100	100	96	0	79.2%
Claude Sonnet 4	100	100	100	96	0	79.2%
Mistral Large 2	100	100	100	94	0	78.9%
Qwen 3.6 Flash	100	100	100	93	0	78.6%
DeepSeek V3 (2025-03-24)	100	100	100	85	7	78.5%
MoonshotAI: Kimi K2.5	100	100	100	50	39	77.8%
GPT-5.4 (Reasoning, Low)	100	100	79	57	53	77.8%
Mistral Medium 3.1	100	100	81	62	45	77.5%
Mistral Small 3.2 24B	100	100	100	83	0	76.7%
Gemma 3 27B	100	88	85	63	45	76.2%
DeepSeek V3.2	100	100	100	77	0	75.4%
Xiaomi MIMO v2.5	100	100	100	76	0	75.2%
GPT-5.4 Nano	100	100	100	76	0	75.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	82	69	22	74.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	97	73	0	74.1%
Grok 4.20 (Reasoning)	100	100	79	67	25	74.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	0	73.3%
Gemma 4 31B (Reasoning)	100	100	100	67	0	73.3%
Claude Sonnet 5	100	100	100	67	0	73.3%
Grok 4.20	100	100	100	53	0	70.6%
Claude Opus 4.5	100	100	81	67	0	69.5%
o4 Mini	100	100	100	45	0	68.9%
Mistral Small 4	100	100	83	59	0	68.5%
Qwen 3 32B	100	100	94	32	7	66.6%
Grok 4.3	100	97	83	50	0	66.1%
GPT-5.4 Nano (Reasoning)	100	100	77	44	7	65.5%
Mistral Large 3	100	100	100	25	0	65.0%
Llama 3.1 70B	100	100	100	25	0	65.0%
WizardLM 2 8x22b	100	100	72	39	0	62.2%
Gemma 4 26B (Reasoning)	100	100	100	7	0	61.4%
Claude Opus 4.7 (Reasoning)	100	100	59	45	0	60.8%
Grok 4.3 (Reasoning)	100	100	100	0	0	60.0%
o4 Mini High	100	100	100	0	0	60.0%
Gemini 2.5 Pro	100	100	100	0	0	60.0%
Z.AI GLM 4.6	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5 Pro	100	100	100	0	0	60.0%
Gemma 4 31B	100	100	100	0	0	60.0%
Gemini 2.5 Flash	100	100	100	0	0	60.0%
Arcee AI: Trinity Mini	100	100	100	0	0	60.0%
Claude Opus 4.7	100	100	94	0	0	58.9%
Gemini 2.5 Flash (Reasoning)	100	100	83	0	0	56.7%
Z.AI GLM 4.7	100	99	75	7	0	56.2%
Z.AI GLM 4.5	100	88	73	20	0	56.0%
Ministral 3B	100	100	73	0	0	54.6%
Ministral 3 14B	100	83	76	14	0	54.6%
Hermes 3 405B	100	100	50	17	0	53.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	83	76	0	0	51.9%
Mistral Small 4 (Reasoning)	100	94	39	14	12	51.8%
Mistral NeMO	100	100	25	21	0	49.2%
DeepSeek-V2 Chat	100	63	55	25	0	48.6%
Gemini 3.1 Pro (Preview)	67	67	55	50	3	48.2%
Z.AI GLM 4.5 Air	100	64	62	13	0	47.8%
GPT-5.4 Nano (Reasoning, Low)	68	61	57	31	21	47.7%
ByteDance Seed 2.0 Mini	100	100	25	7	0	46.4%
GPT-4o, Aug. 6th (temp=0)	100	100	25	7	0	46.4%
DeepSeek V3 (2024-12-26)	100	45	39	32	0	43.2%
Gemma 4 26B	100	45	43	25	0	42.5%
Qwen 3.6 27B	100	100	1	0	0	40.2%
Qwen 2.5 72B	100	100	0	0	0	40.0%
GPT-4.1 Nano	100	100	0	0	0	40.0%
Gemma 3 4B	100	79	12	0	0	38.1%
Claude Sonnet 5 (Reasoning, Low)	100	59	25	0	0	36.8%
GPT-4.1	100	55	29	0	0	36.7%
Gemini 3.1 Flash Lite (Reasoning)	88	59	30	2	0	35.7%
Gemini 3 Flash (Preview)	100	56	7	0	0	32.7%
Cohere Command R+ (Aug. 2024)	100	35	14	7	7	32.5%
Gemma 3 12B	76	67	14	0	0	31.2%
Cydonia 24B V4.1	100	50	0	0	0	30.0%
GPT-4.1 Mini	100	39	0	0	0	27.8%
Hermes 3 70B	100	32	0	0	0	26.5%
Gemini 3.1 Flash Lite (Preview)	63	35	0	0	0	19.5%
Qwen 3.5 Plus (2026-02-15)	91	0	0	0	0	18.2%
Nemotron 3 Super	79	0	0	0	0	15.7%
Gemini 3.5 Flash (Reasoning)	71	0	0	0	0	14.2%
Gemini 3.1 Flash Lite	50	14	0	0	0	12.7%
Nemotron 3 Nano	45	0	0	0	0	8.9%
GPT-5 Nano	11	0	0	0	0	2.2%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	97	99.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	94	88	96.4%
Aion 3.0 Mini	100	100	100	100	71	94.2%
Aion 3.0	100	100	100	82	79	92.1%
MiniMax M2.5	100	94	91	83	75	88.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	94	47	88.2%
GPT-5.5	99	93	92	89	64	87.4%
Grok 4.3 (Reasoning)	100	100	83	83	67	86.7%
DeepSeek V4 Flash	100	97	85	79	67	85.5%
Mistral Large 3	100	91	89	80	62	84.4%
GPT-5.4 Mini (Reasoning, Low)	99	91	85	82	59	83.2%
ByteDance Seed 1.6 Flash	100	100	94	81	37	82.5%
GPT-5.5 (Reasoning, Low)	100	90	84	67	63	80.7%
MiniMax M3	100	85	79	76	63	80.6%
Ministral 8B	100	100	100	73	28	80.2%
Z.AI GLM 5	100	100	100	99	2	80.1%
Qwen3.7 Max	100	100	100	100	0	80.0%
Qwen 3.5 397B A17B	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
Qwen 3.6 35B	100	100	100	100	0	80.0%
DeepSeek V4 Pro	89	88	88	83	47	79.0%
GPT-5.4 (Reasoning)	100	85	79	70	56	77.9%
ByteDance Seed 1.6	100	100	94	88	0	76.4%
GPT-5.4 (Reasoning, Low)	100	84	82	75	41	76.4%
GPT-5.5 (Reasoning)	100	95	82	62	37	75.2%
Qwen 3.5 9B	100	100	91	80	0	74.3%
GPT-5.4 Mini	96	94	73	56	50	73.9%
Claude Sonnet 5 (Reasoning, Low)	100	100	73	59	35	73.4%
MiniMax M2.7	100	100	85	62	12	71.9%
Z.AI GLM 5 Turbo	100	100	97	53	7	71.5%
Mistral Large 2	81	71	67	67	64	69.9%
GPT-5.4	100	96	78	57	17	69.6%
DeepSeek V4 Flash (Reasoning)	100	81	79	53	32	69.0%
Ministral 3 3B	100	100	94	50	0	68.9%
Claude Sonnet 5 (Reasoning)	100	88	73	56	17	66.7%
Claude Haiku 4.5	100	70	59	47	39	62.9%
Claude Opus 4.6 (Reasoning)	100	85	77	25	7	58.9%
DeepSeek V4 Pro (Reasoning)	100	85	69	39	0	58.7%
Claude Opus 4.5	100	67	50	42	35	58.6%
Claude Opus 4.8 (Reasoning)	100	70	67	47	0	56.6%
GPT-5.4 Mini (Reasoning)	89	69	67	32	25	56.5%
Xiaomi MIMO v2.5	100	77	53	52	0	56.4%
Claude Opus 4.7	100	100	50	20	0	53.9%
Qwen 3.5 Flash	100	100	67	0	0	53.3%
Mistral Small 4	100	63	52	36	11	52.5%
GPT-4.1	100	100	50	0	0	50.0%
Mistral Small 4 (Reasoning)	83	73	47	46	0	49.9%
Qwen3 235B A22B Instruct 2507	99	73	43	35	0	49.9%
GPT-5 Mini	91	56	50	39	0	47.3%
Mistral Medium 3.1	100	89	42	0	0	46.3%
ByteDance Seed 2.0 Lite	100	59	39	25	7	46.0%
Ministral 3B	100	79	50	0	0	45.7%
MoonshotAI: Kimi K2.6	88	73	39	29	0	45.7%
Claude Sonnet 5	100	47	39	39	0	44.9%
Qwen 2.5 72B	100	97	20	0	0	43.4%
Qwen 3.5 122B	100	100	17	0	0	43.3%
Qwen 3 32B	73	68	56	12	0	42.0%
GPT-5.2	58	39	39	35	32	40.5%
Ministral 3 14B	69	67	65	0	0	40.2%
Qwen 3.5 Plus (2026-04-20)	100	100	0	0	0	40.0%
Qwen 3.5 35B	100	100	0	0	0	40.0%
Grok 4.5 (Reasoning, High)	83	55	45	14	0	39.3%
MoonshotAI: Kimi K2.5	83	65	47	0	0	39.0%
Grok 4.5 (Reasoning, Low)	63	50	39	39	0	38.2%
Claude Opus 4.7 (Reasoning)	85	59	25	20	0	37.8%
Claude Opus 4.6	82	36	36	25	7	37.2%
WizardLM 2 8x22b	100	73	7	0	0	36.0%
Claude Sonnet 4.5	88	53	25	12	0	35.6%
Mistral NeMO	88	79	7	0	0	34.6%
GPT-5	63	46	41	18	0	33.6%
Aion 2.0	85	56	15	7	0	32.7%
GPT-4o, Aug. 6th (temp=0)	73	45	25	14	0	31.3%
GPT-5 Nano	90	59	0	0	0	29.8%
Qwen 3.5 27B	45	36	35	21	4	28.1%
ByteDance Seed 2.0 Mini	100	21	14	0	0	26.9%
Inception Mercury 2	47	41	36	3	0	25.4%
Gemini 2.5 Pro	100	25	0	0	0	25.0%
Ministral 3 8B	100	18	2	0	0	24.1%
GPT-4.1 Mini	70	50	0	0	0	24.0%
Xiaomi MIMO v2.5 Pro	76	34	7	0	0	23.4%
Hermes 3 405B	59	55	3	0	0	23.4%
Grok 4.20	64	50	0	0	0	22.9%
Claude Opus 4.8 (Reasoning, Low)	73	39	2	0	0	22.8%
Claude Opus 4	92	19	0	0	0	22.2%
Hermes 3 70B	76	32	0	0	0	21.7%
Gemini 3.1 Pro (Preview)	100	0	0	0	0	20.0%
Gemma 4 31B (Reasoning)	100	0	0	0	0	20.0%
Qwen 3.6 27B	100	0	0	0	0	20.0%
Grok 4.3	100	0	0	0	0	20.0%
Mistral Small 3.2 24B	100	0	0	0	0	20.0%
Gemini 2.5 Flash Lite	53	47	0	0	0	20.0%
Claude Sonnet 4	67	25	0	0	0	18.3%
DeepSeek V3.2	88	0	0	0	0	17.5%
Nemotron 3 Nano	30	25	17	12	0	16.7%
Qwen 3.5 Plus (2026-02-15)	64	10	3	0	0	15.5%
Z.AI GLM 4.5 Air	46	29	0	0	0	15.0%
GPT-5.1	30	30	14	2	0	14.9%
GPT-5.4 Nano	72	0	0	0	0	14.3%
Writer: Palmyra X5	62	4	3	0	0	13.7%
GPT-5.4 Nano (Reasoning)	41	25	0	0	0	13.2%
DeepSeek V3 (2024-12-26)	41	22	0	0	0	12.6%
GPT-5.4 Nano (Reasoning, Low)	37	20	0	0	0	11.4%
DeepSeek V3 (2025-03-24)	45	0	0	0	0	8.9%
Z.AI GLM 4.7 Flash	35	7	0	0	0	8.4%
DeepSeek V3.1	39	0	0	0	0	7.8%
GPT-4o Mini (temp=0)	22	15	0	0	0	7.3%
Gemma 3 27B	25	2	0	0	0	5.4%
Z.AI GLM 4.5	18	7	0	0	0	5.1%
o4 Mini High	25	0	0	0	0	5.0%
Z.AI GLM 4.6	25	0	0	0	0	5.0%
Gemma 3 4B	20	0	0	0	0	3.9%
o4 Mini	7	0	0	0	0	1.4%
Gemini 2.5 Flash (Reasoning)	7	0	0	0	0	1.4%
Gemini 2.5 Flash	2	0	0	0	0	0.4%
Gemini 3.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Grok 4.20 (Reasoning)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 4.7	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	88	67	90.8%
Claude Sonnet 5	100	100	100	100	7	81.4%
Qwen3.7 Max	100	100	100	100	0	80.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	0	80.0%
Z.AI GLM 5 Turbo	100	100	100	100	0	80.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	0	80.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	0	80.0%
Claude Opus 4.7	100	100	100	100	0	80.0%
Claude Opus 4.5	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	0	80.0%
MiniMax M2.5	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Qwen 3.5 Flash	100	100	100	100	0	80.0%
Gemma 4 31B	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite	100	100	100	100	0	80.0%
GPT-5	100	100	100	67	32	79.8%
Claude Sonnet 4	100	100	100	45	39	76.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	50	25	75.0%
DeepSeek V4 Flash	100	100	88	79	0	73.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	59	0	71.8%
MiniMax M2.7	100	100	100	39	0	67.8%
Mistral NeMO	100	100	100	39	0	67.8%
Z.AI GLM 5	100	100	94	25	7	65.3%
Claude Sonnet 4.5	100	100	100	25	0	65.0%
Qwen 3.6 35B	100	100	100	7	0	61.4%
GPT-4o, Aug. 6th (temp=0)	100	100	100	7	0	61.4%
Mistral Small 4	100	100	100	7	0	61.4%
Grok 4.5 (Reasoning, High)	100	100	100	0	0	60.0%
MoonshotAI: Kimi K2.5	100	100	100	0	0	60.0%
Qwen 3.5 122B	100	100	100	0	0	60.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	0	0	60.0%
Gemma 4 31B (Reasoning)	100	100	100	0	0	60.0%
ByteDance Seed 1.6	100	100	100	0	0	60.0%
Gemini 2.5 Pro	100	100	100	0	0	60.0%
Claude Opus 4	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5 Pro	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Mini	100	100	100	0	0	60.0%
Mistral Large 2	100	100	100	0	0	60.0%
Gemini 2.5 Flash	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	100	0	0	60.0%
GPT-4.1 Nano	100	100	100	0	0	60.0%
GPT-5.4 Nano (Reasoning, Low)	100	79	67	50	0	59.0%
Ministral 3 14B	100	100	50	7	0	51.4%
WizardLM 2 8x22b	100	100	25	25	0	50.0%
DeepSeek V3.2	100	100	39	0	0	47.8%
Hermes 3 70B	100	100	39	0	0	47.8%
GPT-5.4 Nano (Reasoning)	100	100	25	7	0	46.4%
Claude Opus 4.8 (Reasoning)	100	100	25	0	0	45.0%
Mistral Small 3.2 24B	100	100	25	0	0	45.0%
GPT-5.4 (Reasoning)	97	50	39	25	0	42.3%
Claude Opus 4.7 (Reasoning)	100	100	7	0	0	41.4%
o4 Mini High	100	100	7	0	0	41.4%
Claude Haiku 4.5	100	100	7	0	0	41.4%
DeepSeek V3 (2025-03-24)	100	100	7	0	0	41.4%
Mistral Small 4 (Reasoning)	83	73	50	0	0	41.3%
Qwen 2.5 72B	100	88	14	0	0	40.2%
Z.AI GLM 5.1	100	100	0	0	0	40.0%
MoonshotAI: Kimi K2.6	100	100	0	0	0	40.0%
Grok 4.5 (Reasoning, Low)	100	100	0	0	0	40.0%
Qwen 3.5 27B	100	100	0	0	0	40.0%
Gemma 4 26B (Reasoning)	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Lite	100	100	0	0	0	40.0%
Qwen 3.5 9B	100	100	0	0	0	40.0%
Xiaomi MIMO v2.5	100	100	0	0	0	40.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	0	0	0	40.0%
DeepSeek V3.1	100	100	0	0	0	40.0%
GPT-4.1 Mini	100	100	0	0	0	40.0%
GPT-4o, Aug. 6th (temp=1)	100	100	0	0	0	40.0%
Qwen3 235B A22B Instruct 2507	100	100	0	0	0	40.0%
Gemma 3 4B	100	100	0	0	0	40.0%
DeepSeek V4 Pro	100	67	25	0	0	38.3%
ByteDance Seed 1.6 Flash	100	50	17	7	0	34.8%
Qwen 3.6 27B	100	67	0	0	0	33.3%
GPT-5.5	59	50	45	0	0	30.8%
Aion 2.0	100	39	7	0	0	29.2%
Mistral Medium 3.1	100	45	0	0	0	28.9%
GPT-5.5 (Reasoning, Low)	50	47	32	15	0	28.9%
Gemma 3 27B	100	25	0	0	0	25.0%
GPT-5.4 (Reasoning, Low)	73	50	0	0	0	24.6%
GPT-5.4 Nano	50	47	25	0	0	24.3%
GPT-5.4	97	17	0	0	0	22.8%
GPT-5.2	76	25	7	0	0	21.6%
Gemini 3.5 Flash (Reasoning)	100	0	0	0	0	20.0%
Z.AI GLM 4.6	100	0	0	0	0	20.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	0	0	0	0	20.0%
Mistral Large 3	100	0	0	0	0	20.0%
DeepSeek-V2 Chat	100	0	0	0	0	20.0%
DeepSeek V3 (2024-12-26)	100	0	0	0	0	20.0%
Hermes 3 405B	100	0	0	0	0	20.0%
GPT-5 Nano	100	0	0	0	0	20.0%
Qwen 3 32B	100	0	0	0	0	20.0%
Ministral 3 8B	100	0	0	0	0	20.0%
Cohere Command R+ (Aug. 2024)	100	0	0	0	0	20.0%
Z.AI GLM 4.5 Air	63	14	0	0	0	15.3%
Writer: Palmyra X5	59	7	0	0	0	13.2%
GPT-5.1	50	0	0	0	0	10.0%
Cydonia 24B V4.1	50	0	0	0	0	10.0%
Z.AI GLM 4.7 Flash	39	0	0	0	0	7.8%
GPT-5.5 (Reasoning)	21	14	0	0	0	6.9%
Inception Mercury 2	25	7	0	0	0	6.4%
Grok 4.20 (Reasoning)	25	0	0	0	0	5.0%
Gemini 3 Flash (Preview, Reasoning)	25	0	0	0	0	5.0%
GPT-5.4 Mini (Reasoning)	25	0	0	0	0	5.0%
Qwen 3.5 Plus (2026-02-15)	25	0	0	0	0	5.0%
Nemotron 3 Nano	25	0	0	0	0	5.0%
GPT-4.1	7	0	0	0	0	1.4%
GPT-5.4 Mini (Reasoning, Low)	7	0	0	0	0	1.4%
Grok 4.20	7	0	0	0	0	1.4%
Z.AI GLM 4.7	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	99	99.8%
GPT-5.1	100	100	100	100	99	99.8%
Claude Sonnet 4	100	100	100	100	96	99.3%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	96	99.2%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	95	99.0%
Gemma 3 27B	100	100	100	100	91	98.2%
Claude Opus 4.7 (Reasoning)	100	100	100	100	90	98.0%
Qwen 3.5 122B	100	100	100	100	90	98.0%
DeepSeek V4 Pro	100	100	100	100	89	97.8%
MiniMax M2.7	100	100	100	100	88	97.7%
GPT-5.2	100	100	100	96	89	97.1%
Gemma 4 26B (Reasoning)	100	100	100	100	83	96.7%
Qwen 3.6 35B	100	100	100	100	83	96.7%
Qwen 3.5 35B	100	100	100	100	83	96.7%
GPT-4.1	100	100	100	100	83	96.7%
Grok 4.3 (Reasoning)	100	100	100	97	85	96.6%
GPT-4.1 Nano	100	100	100	100	81	96.2%
GPT-5 Mini	100	100	100	96	83	96.0%
Mistral Small 4	100	100	100	100	79	95.7%
Ministral 3 8B	100	100	100	100	79	95.7%
Grok 4.20	100	100	100	97	80	95.4%
GPT-5.4 Nano (Reasoning)	100	100	100	89	88	95.4%
Claude Sonnet 5 (Reasoning)	100	100	100	100	77	95.4%
Ministral 3 3B	100	100	100	100	76	95.2%
MoonshotAI: Kimi K2.5	100	100	100	91	82	94.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	72	94.3%
Mistral NeMO	100	100	100	100	71	94.2%
Z.AI GLM 5	100	100	100	100	70	94.0%
Mistral Medium 3.1	100	100	100	100	70	94.0%
MiniMax M2.5	100	100	100	96	73	93.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	69	93.8%
o4 Mini	100	100	100	91	76	93.4%
Mistral Large 3	100	100	100	100	67	93.3%
Z.AI GLM 4.5 Air	100	100	97	91	78	93.1%
Ministral 8B	100	100	100	100	65	93.0%
Qwen 3.5 Flash	100	100	100	100	64	92.9%
Qwen 3 32B	100	100	100	100	62	92.4%
Gemini 2.5 Flash	100	100	97	96	67	92.1%
Xiaomi MIMO v2.5	100	100	100	100	57	91.4%
Mistral Small 4 (Reasoning)	100	100	100	91	65	91.3%
Z.AI GLM 4.5	100	100	100	89	67	91.1%
Claude Sonnet 5	100	96	93	88	79	91.0%
Z.AI GLM 4.7	100	100	100	91	61	90.4%
Aion 2.0	100	100	100	100	46	89.2%
o4 Mini High	100	100	100	98	47	89.0%
Gemma 4 26B	100	100	83	81	79	88.6%
Qwen 3.6 27B	100	100	100	90	50	88.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	39	87.8%
GPT-4.1 Mini	100	93	91	81	73	87.6%
Qwen 3.5 9B	100	100	100	100	35	86.9%
Arcee AI: Trinity Mini	100	100	100	85	28	82.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	89	79	42	81.9%
Qwen 2.5 72B	100	100	88	85	36	81.9%
Inception Mercury 2	100	100	100	71	35	81.1%
DeepSeek V3.2	100	100	90	64	50	80.9%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	0	80.0%
DeepSeek-V2 Chat	100	100	100	54	41	79.0%
GPT-5.4 Nano	100	100	75	60	58	78.5%
DeepSeek V3 (2025-03-24)	100	100	100	83	7	78.1%
Gemini 2.5 Flash Lite	86	85	80	64	61	75.3%
GPT-5.4 Nano (Reasoning, Low)	83	81	78	68	67	75.3%
ByteDance Seed 1.6	100	100	100	50	25	75.0%
Gemini 3 Flash (Preview)	97	82	80	59	56	75.0%
ByteDance Seed 2.0 Mini	100	100	100	39	35	74.7%
GPT-OSS 120B	100	100	85	79	7	74.2%
Hermes 3 70B	100	100	100	56	7	72.7%
GPT-5 Nano	100	96	64	61	37	71.6%
Cydonia 24B V4.1	100	100	87	38	30	70.9%
GPT-4o, Aug. 6th (temp=0)	100	100	67	50	34	70.1%
Gemini 3.1 Pro (Preview)	100	100	100	25	17	68.3%
Cohere Command R+ (Aug. 2024)	100	100	100	35	0	66.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	69	45	17	66.1%
Z.AI GLM 4.6	100	100	82	29	20	66.0%
DeepSeek V3 (2024-12-26)	100	100	100	27	0	65.4%
Z.AI GLM 4.7 Flash	100	89	47	41	37	63.0%
ByteDance Seed 2.0 Lite	100	100	59	55	0	62.8%
Xiaomi MIMO v2.5 Pro	94	80	68	45	22	61.8%
WizardLM 2 8x22b	100	100	50	39	12	60.2%
Nemotron 3 Nano	100	61	53	52	32	59.8%
Gemini 2.5 Pro	100	86	65	25	18	58.8%
DeepSeek V3.1	100	68	55	42	25	58.0%
Gemma 3 12B	82	75	71	32	25	57.0%
Nemotron 3 Super	100	69	43	39	34	56.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	83	0	0	56.7%
Gemma 4 31B (Reasoning)	100	88	67	25	2	56.2%
GPT-4o Mini (temp=0)	99	91	54	22	0	53.4%
Gemma 3 4B	100	70	62	22	0	50.7%
Hermes 3 405B	100	100	25	7	0	46.4%
Llama 3.1 70B	100	100	25	0	0	45.0%
Gemini 2.5 Flash (Reasoning)	100	73	39	0	0	42.4%
Gemma 4 31B	70	56	39	17	11	38.6%
GPT-4o Mini (temp=1)	97	56	15	0	0	33.6%
Qwen 3.5 Plus (2026-02-15)	77	31	29	25	0	32.3%
GPT-4o, Aug. 6th (temp=1)	100	30	12	0	0	28.4%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	99	99.7%
GPT-5	100	100	100	100	97	99.5%
Z.AI GLM 5	100	100	100	100	97	99.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	95	99.0%
GPT-5.2	100	100	100	100	94	98.7%
Ministral 3 3B	100	100	100	100	93	98.6%
Qwen 3.5 Flash	100	100	100	100	91	98.2%
MiniMax M3	100	100	100	100	89	97.9%
ByteDance Seed 1.6	100	100	100	100	88	97.5%
Claude Sonnet 4	100	100	100	100	88	97.5%
Qwen 3.6 35B	100	100	100	100	85	97.1%
GPT-5.1	100	100	100	96	89	96.9%
Z.AI GLM 5 Turbo	100	100	100	100	83	96.7%
Grok 4.20 (Reasoning)	100	100	100	100	83	96.7%
Claude Opus 4	100	100	100	100	81	96.2%
Writer: Palmyra X5	100	100	100	93	86	95.8%
Claude Sonnet 5	100	100	100	100	76	95.2%
DeepSeek V4 Pro	100	100	100	100	76	95.2%
Grok 4.3 (Reasoning)	100	100	100	100	73	94.6%
Claude Sonnet 4.6	100	100	100	88	85	94.6%
MiniMax M2.5	100	100	100	97	75	94.4%
Qwen 3.5 397B A17B	100	100	100	100	67	93.3%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	67	93.3%
Ministral 3 8B	100	100	100	100	67	93.3%
Qwen 3.6 Flash	100	100	100	100	63	92.6%
Mistral Medium 3.1	100	100	100	93	70	92.6%
GPT-5 Mini	100	100	100	100	62	92.5%
ByteDance Seed 1.6 Flash	100	100	89	87	79	90.9%
Qwen 3.5 122B	100	100	100	83	67	90.0%
Xiaomi MIMO v2.5	100	100	100	100	50	90.0%
Mistral Large 3	100	100	100	94	55	89.8%
Qwen3 235B A22B Instruct 2507	100	100	100	91	52	88.6%
DeepSeek V3 (2024-12-26)	100	100	94	83	62	87.9%
ByteDance Seed 2.0 Mini	100	100	100	100	39	87.8%
GPT-4.1	100	100	100	81	50	86.2%
Aion 2.0	100	100	79	79	67	84.8%
o4 Mini High	100	100	99	62	59	83.9%
DeepSeek V3 (2025-03-24)	100	100	100	59	53	82.5%
Gemini 2.5 Pro	100	97	79	69	59	80.8%
Grok 4.20	100	100	71	71	62	80.7%
MoonshotAI: Kimi K2.6	100	99	77	70	56	80.4%
Qwen3.7 Max	100	100	100	100	0	80.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	85	11	79.3%
GPT-5.4 Nano	100	100	100	83	11	78.9%
Mistral Small 4	100	100	79	69	47	78.8%
Ministral 3 14B	100	100	83	63	39	77.1%
Llama 3.1 70B	100	100	100	79	0	75.7%
o4 Mini	100	96	80	53	47	75.5%
Claude Haiku 4.5	100	100	76	73	25	74.8%
Ministral 8B	100	91	91	76	14	74.4%
GPT-4.1 Mini	100	100	83	79	7	73.8%
Nemotron 3 Super	97	88	79	67	35	72.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	54	0	70.8%
Qwen 3 32B	100	100	69	59	25	70.7%
Qwen 3.5 27B	100	80	77	53	39	69.8%
GPT-5.4 Nano (Reasoning)	94	86	84	45	36	68.9%
Inception Mercury 2	100	90	73	63	18	68.9%
Gemini 3.1 Pro (Preview)	100	100	100	44	0	68.7%
Z.AI GLM 4.5	100	75	73	53	42	68.6%
Qwen 3.5 9B	100	100	100	42	0	68.4%
DeepSeek-V2 Chat	100	100	73	67	0	67.9%
GPT-4o Mini (temp=0)	100	88	75	71	0	66.7%
Gemma 3 27B	100	93	65	64	11	66.6%
WizardLM 2 8x22b	100	100	91	39	0	66.0%
Z.AI GLM 4.5 Air	100	100	59	43	20	64.3%
Qwen 3.6 27B	100	100	81	39	0	64.0%
MoonshotAI: Kimi K2.5	100	100	56	45	17	63.5%
Xiaomi MIMO v2.5 Pro	100	100	88	29	0	63.3%
Mistral Small 3.2 24B	100	100	100	0	0	60.0%
Qwen 3.5 35B	100	100	64	30	0	58.9%
Cydonia 24B V4.1	100	100	69	0	0	53.8%
Mistral NeMO	100	100	43	25	0	53.6%
Gemini 3 Flash (Preview, Reasoning)	91	62	62	47	0	52.4%
DeepSeek V3.2	94	89	67	2	0	50.3%
Cohere Command R+ (Aug. 2024)	100	100	50	0	0	50.0%
Gemini 2.5 Flash (Reasoning)	85	67	67	25	0	48.6%
GPT-4o, Aug. 6th (temp=0)	73	71	67	20	0	46.1%
Qwen 2.5 72B	100	100	28	0	0	45.6%
GPT-5 Nano	81	61	37	22	10	42.1%
Qwen 3.5 Plus (2026-04-20)	100	100	4	0	0	40.7%
Z.AI GLM 4.7 Flash	65	63	61	10	0	39.9%
Z.AI GLM 4.6	89	35	32	30	12	39.7%
GPT-OSS 120B	100	69	28	0	0	39.4%
Gemini 3.5 Flash (Reasoning, Minimal)	83	73	25	15	0	39.3%
GPT-4.1 Nano	100	50	39	0	0	37.8%
Gemma 4 26B (Reasoning)	100	50	25	7	0	36.4%
GPT-4o Mini (temp=1)	91	50	31	0	0	34.4%
Gemini 3.5 Flash (Reasoning)	50	50	48	7	0	31.1%
Z.AI GLM 4.7	51	50	32	15	7	31.1%
DeepSeek V3.1	100	35	20	0	0	30.8%
Gemma 3 12B	83	42	21	0	0	29.2%
Gemini 2.5 Flash	62	55	17	7	0	28.2%
Gemini 2.5 Flash Lite	71	42	28	0	0	28.1%
Hermes 3 70B	100	17	0	0	0	23.3%
GPT-4o, Aug. 6th (temp=1)	50	35	17	2	0	20.6%
Gemma 4 31B (Reasoning)	67	36	0	0	0	20.5%
Gemma 3 4B	89	11	0	0	0	20.1%
Gemini 2.5 Flash Lite (Reasoning)	47	30	15	7	0	19.9%
Arcee AI: Trinity Mini	89	7	0	0	0	19.3%
Gemini 3 Flash (Preview)	47	39	0	0	0	17.1%
Nemotron 3 Nano	80	0	0	0	0	16.0%
Gemma 4 26B	53	12	2	0	0	13.4%
Gemma 4 31B	14	0	0	0	0	2.7%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.9%
Claude Sonnet 4.5	100	100	100	99	98	99.5%
Claude Opus 4	100	100	100	100	97	99.4%
DeepSeek V3 (2025-03-24)	100	100	100	97	97	98.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	99	94	98.6%
GPT-5 Mini	100	100	100	100	93	98.6%
Qwen 3.5 35B	100	100	100	100	93	98.6%
MiniMax M3	100	100	100	100	91	98.2%
Aion 3.0 Mini	100	100	100	100	89	97.9%
Gemma 3 27B	100	100	100	95	93	97.8%
ByteDance Seed 2.0 Lite	100	100	100	97	91	97.7%
MoonshotAI: Kimi K2.6	100	100	100	97	89	97.2%
Claude Sonnet 5	100	100	100	100	85	97.1%
Aion 3.0	100	100	100	100	82	96.4%
Claude Opus 4.6	100	100	100	100	79	95.7%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	79	95.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	77	95.4%
MiniMax M2.7	100	100	100	89	86	95.1%
Claude Opus 4.5	100	100	100	100	73	94.6%
Ministral 3B	100	100	100	100	70	94.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	69	93.8%
Grok 4.3	100	100	100	98	69	93.4%
DeepSeek V4 Pro (Reasoning)	100	100	100	92	68	92.1%
MiniMax M2.5	100	100	100	83	76	91.9%
GPT-5 Nano	100	100	97	88	67	90.3%
GPT-5	100	100	97	91	60	89.7%
Ministral 3 8B	100	100	100	78	70	89.5%
ByteDance Seed 1.6 Flash	100	100	100	100	46	89.2%
Qwen 3.5 Flash	100	100	100	100	44	88.7%
Qwen 3.6 35B	100	100	100	100	39	87.8%
Grok 4.5 (Reasoning, High)	100	100	100	98	36	86.8%
Mistral Small 4 (Reasoning)	100	100	100	88	46	86.7%
Claude Opus 4.8 (Reasoning)	100	100	100	85	47	86.6%
Claude Sonnet 5 (Reasoning)	100	100	96	83	53	86.5%
Mistral Small 4	100	100	100	81	52	86.4%
Claude Haiku 4.5	99	91	89	85	65	85.9%
Llama 3.1 70B	100	94	91	83	59	85.6%
Claude Sonnet 4	100	100	97	79	52	85.5%
Qwen 2.5 72B	100	100	100	81	39	84.0%
Mistral Large 2	100	100	100	94	25	83.9%
GPT-5.4 Nano (Reasoning, Low)	100	91	80	77	68	83.3%
GPT-4.1 Nano	100	100	100	63	50	82.6%
ByteDance Seed 2.0 Mini	100	100	100	81	25	81.2%
Xiaomi MIMO v2.5 Pro	100	100	100	93	13	81.1%
Cohere Command R+ (Aug. 2024)	100	100	100	67	39	81.1%
Ministral 8B	100	96	91	84	33	81.0%
Qwen 3 32B	100	100	85	69	50	80.9%
Mistral Large 3	100	100	83	73	47	80.8%
Mistral Medium 3.1	100	100	97	90	14	80.4%
Writer: Palmyra X5	100	99	82	80	39	80.1%
Grok 4.5 (Reasoning, Low)	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	77	7	76.8%
Xiaomi MIMO v2.5	100	100	89	79	15	76.5%
o4 Mini High	100	100	94	70	15	75.9%
GPT-5.1	96	91	85	82	16	73.8%
Ministral 3 14B	100	100	100	67	0	73.3%
ByteDance Seed 1.6	100	100	100	50	11	72.2%
Qwen 3.5 122B	100	100	83	73	0	71.3%
Grok 4.3 (Reasoning)	100	96	88	70	0	70.7%
Gemini 2.5 Flash Lite	100	100	96	56	0	70.4%
Aion 2.0	100	89	63	59	39	70.1%
DeepSeek V3.2	100	79	73	48	41	68.2%
Arcee AI: Trinity Mini	100	100	100	39	0	67.8%
Qwen3 235B A22B Instruct 2507	97	69	63	61	47	67.5%
DeepSeek V3.1	97	93	75	54	17	67.1%
GPT-4o, Aug. 6th (temp=0)	100	96	79	47	14	67.1%
Nemotron 3 Super	100	100	81	52	2	67.0%
Mistral Small 3.2 24B	100	100	100	20	12	66.5%
Inception Mercury 2	100	85	64	59	7	63.0%
MoonshotAI: Kimi K2.5	100	94	72	25	22	62.6%
Gemini 2.5 Pro	99	82	61	50	21	62.5%
Qwen 3.5 9B	100	91	70	31	15	61.5%
Gemini 3.1 Flash Lite (Preview)	100	100	100	0	0	60.0%
GPT-5.2	79	75	64	59	21	59.8%
GPT-5.4 Nano	78	74	57	53	31	58.6%
Grok 4.20 (Reasoning)	96	69	57	42	28	58.4%
GPT-5.4 Nano (Reasoning)	97	93	57	31	13	58.2%
GPT-4o Mini (temp=0)	100	81	67	27	12	57.4%
DeepSeek V3 (2024-12-26)	100	100	47	39	0	57.3%
Qwen3.7 Max	100	100	50	35	0	56.9%
Gemini 2.5 Flash	100	97	73	12	1	56.7%
o4 Mini	88	85	56	52	0	56.1%
Mistral NeMO	100	89	39	32	17	55.5%
Z.AI GLM 4.6	93	64	56	28	0	48.3%
Grok 4.20	54	52	50	42	41	47.7%
GPT-4o Mini (temp=1)	99	86	52	0	0	47.5%
Hermes 3 405B	99	71	52	14	0	47.2%
Qwen 3.5 Plus (2026-04-20)	81	70	47	30	0	45.7%
Nemotron 3 Nano	85	76	39	15	11	45.1%
GPT-4.1 Mini	81	59	47	14	7	41.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	2	0	0	40.4%
Gemini 3.1 Pro (Preview)	100	100	0	0	0	40.0%
Z.AI GLM 4.5 Air	62	56	37	33	11	39.9%
Z.AI GLM 4.5	100	67	14	11	0	38.4%
Cydonia 24B V4.1	100	47	22	4	0	34.6%
Gemma 3 12B	91	59	17	0	0	33.4%
Z.AI GLM 4.7	83	37	27	18	0	33.0%
DeepSeek-V2 Chat	59	55	48	0	0	32.4%
WizardLM 2 8x22b	67	62	25	0	0	30.7%
Qwen 3.5 Plus (2026-02-15)	82	55	15	0	0	30.3%
Qwen 3.6 27B	82	61	0	0	0	28.6%
Z.AI GLM 4.7 Flash	57	30	25	10	0	24.5%
Gemma 4 26B	59	29	17	17	0	24.2%
GPT-OSS 120B	46	28	22	15	7	23.7%
GPT-4o, Aug. 6th (temp=1)	67	32	0	0	0	19.8%
Gemma 4 26B (Reasoning)	93	0	0	0	0	18.6%
Gemini 3.5 Flash (Reasoning)	52	32	0	0	0	17.0%
Gemini 3 Flash (Preview)	73	0	0	0	0	14.6%
Hermes 3 70B	70	0	0	0	0	14.0%
Gemma 3 4B	39	3	0	0	0	8.4%
Gemini 2.5 Flash (Reasoning)	22	0	0	0	0	4.4%
Gemini 3 Flash (Preview, Reasoning)	21	0	0	0	0	4.2%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	79	95.7%
Qwen 3.5 Flash	100	100	100	100	79	95.7%
DeepSeek V4 Flash	100	100	100	100	73	94.6%
GPT-5	100	100	100	100	70	94.0%
GPT-5 Mini	100	100	100	100	67	93.3%
Ministral 3 3B	100	100	100	100	55	91.0%
Claude Opus 4.6 (Reasoning)	100	100	100	79	73	90.3%
DeepSeek V4 Pro	100	100	100	100	50	90.0%
Ministral 3 8B	100	100	100	79	67	89.0%
Z.AI GLM 5	100	100	100	100	45	88.9%
GPT-5.4 Mini	100	100	100	75	61	87.1%
Grok 4.5 (Reasoning, Low)	100	100	100	100	25	85.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	25	85.0%
MiniMax M3	100	100	88	67	67	84.2%
Qwen 3.5 9B	100	100	100	59	50	81.8%
Mistral Large 2	100	100	100	97	7	80.9%
Grok 4.5 (Reasoning, High)	100	100	100	100	0	80.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	0	80.0%
MoonshotAI: Kimi K2.6	100	100	100	100	0	80.0%
Claude Opus 4.6	100	100	100	100	0	80.0%
Gemma 4 31B (Reasoning)	100	100	100	100	0	80.0%
Qwen 3.6 27B	100	100	100	100	0	80.0%
Qwen 3.6 35B	100	100	100	100	0	80.0%
Claude Sonnet 4	100	100	100	100	0	80.0%
Claude Sonnet 4.5	100	100	100	100	0	80.0%
Qwen 3.5 35B	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
GPT-5.4 Nano (Reasoning, Low)	100	91	88	79	42	79.9%
Grok 4.20	100	100	100	94	0	78.9%
Ministral 3 14B	100	100	100	94	0	78.9%
Claude Opus 4	100	100	100	79	14	78.4%
Qwen3 235B A22B Instruct 2507	100	100	85	81	25	78.3%
Aion 2.0	100	100	100	76	14	77.9%
Gemini 2.5 Pro	100	100	100	88	0	77.5%
Aion 3.0 Mini	100	100	100	88	0	77.5%
ByteDance Seed 1.6	100	100	100	67	17	76.7%
Mistral Medium 3.1	100	100	86	67	29	76.3%
Mistral Small 3.2 24B	100	100	100	79	0	75.7%
Mistral Large 3	100	100	100	39	39	75.6%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	50	25	75.0%
Claude Sonnet 5 (Reasoning)	100	100	100	73	0	74.6%
Aion 3.0	100	100	100	73	0	74.6%
DeepSeek V3 (2024-12-26)	100	100	100	73	0	74.6%
GPT-5.4	100	100	76	67	29	74.3%
Writer: Palmyra X5	100	100	70	69	30	73.8%
Gemma 3 27B	100	100	100	67	0	73.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	50	0	70.0%
GPT-5.4 Nano (Reasoning)	100	100	89	56	0	69.1%
DeepSeek V3.1	100	100	76	59	0	67.0%
Ministral 3B	100	100	100	25	7	66.4%
Qwen 3.5 27B	100	100	88	39	0	65.3%
Qwen 3.6 Flash	100	100	100	25	0	65.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	25	0	65.0%
Claude Sonnet 5	100	100	100	25	0	65.0%
Mistral NeMO	100	100	92	25	0	63.4%
GPT-5.5	89	84	58	57	17	60.9%
DeepSeek V4 Pro (Reasoning)	100	100	59	25	20	60.7%
Claude Opus 4.5	100	77	73	53	0	60.6%
Claude Opus 4.7	100	100	50	25	25	60.0%
Gemma 4 26B (Reasoning)	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite	100	100	100	0	0	60.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5	100	100	50	50	0	60.0%
Gemini 2.5 Flash Lite	100	100	100	0	0	60.0%
Mistral Small 4 (Reasoning)	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	100	0	0	60.0%
Mistral Small 4	100	100	100	0	0	60.0%
WizardLM 2 8x22b	100	100	100	0	0	60.0%
Qwen 3.5 122B	100	88	73	39	0	59.9%
ByteDance Seed 1.6 Flash	100	100	99	0	0	59.7%
Z.AI GLM 4.5 Air	100	99	94	0	0	58.6%
GPT-5.4 (Reasoning)	100	83	75	30	0	57.7%
Z.AI GLM 4.5	100	100	79	0	0	55.7%
DeepSeek V3.2	100	100	67	7	0	54.8%
GPT-5.5 (Reasoning, Low)	72	65	60	43	30	54.1%
GPT-5 Nano	100	70	67	25	0	52.3%
GPT-4o, Aug. 6th (temp=1)	100	59	50	50	0	51.8%
Hermes 3 405B	100	100	59	0	0	51.8%
Qwen 2.5 72B	100	100	32	25	0	51.5%
GPT-5.2	100	88	45	25	0	51.4%
GPT-5.4 Mini (Reasoning, Low)	100	89	59	7	0	51.1%
GPT-5.4 (Reasoning, Low)	100	83	70	0	0	50.7%
DeepSeek-V2 Chat	100	100	25	7	0	46.4%
Claude Sonnet 5 (Reasoning, Low)	100	100	25	0	0	45.0%
Z.AI GLM 4.6	100	100	25	0	0	45.0%
Gemma 4 31B	100	100	25	0	0	45.0%
Inception Mercury 2	100	57	50	14	0	44.1%
Cohere Command R+ (Aug. 2024)	100	79	17	14	7	43.2%
GPT-5.4 Mini (Reasoning)	100	73	35	0	0	41.5%
GPT-4.1 Nano	100	100	7	0	0	41.4%
Hermes 3 70B	100	73	25	7	0	41.0%
GPT-4.1	100	88	17	0	0	40.8%
Claude Opus 4.7 (Reasoning)	100	100	0	0	0	40.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	0	0	0	40.0%
Gemini 3.1 Flash Lite (Preview)	100	100	0	0	0	40.0%
Claude Haiku 4.5	100	100	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	94	0	0	0	38.9%
Nemotron 3 Super	100	50	39	0	0	37.8%
Gemma 3 12B	55	47	45	32	0	35.7%
Claude Opus 4.8 (Reasoning)	73	67	25	0	0	32.9%
DeepSeek V3 (2025-03-24)	100	25	25	0	0	30.0%
Gemma 3 4B	76	70	0	0	0	29.2%
Arcee AI: Trinity Mini	100	39	0	0	0	27.8%
GPT-5.4 Nano	67	39	14	7	7	26.7%
GPT-5.1	63	50	15	0	0	25.7%
Cydonia 24B V4.1	100	25	0	0	0	25.0%
Z.AI GLM 4.7 Flash	79	25	18	0	0	24.4%
ByteDance Seed 2.0 Lite	100	7	0	0	0	21.4%
o4 Mini High	100	7	0	0	0	21.4%
o4 Mini	100	0	0	0	0	20.0%
Nemotron 3 Nano	100	0	0	0	0	20.0%
GPT-4o Mini (temp=1)	88	0	0	0	0	17.5%
GPT-4.1 Mini	67	7	7	0	0	16.2%
Qwen 3 32B	63	17	0	0	0	15.9%
GPT-5.5 (Reasoning)	35	31	13	0	0	15.7%
Gemini 3 Flash (Preview)	45	30	0	0	0	14.9%
GPT-OSS 120B	53	21	0	0	0	14.8%
Gemini 3.5 Flash (Reasoning)	50	0	0	0	0	10.0%
Qwen 3.5 Plus (2026-02-15)	45	0	0	0	0	8.9%
GPT-4o Mini (temp=0)	43	0	0	0	0	8.6%
Grok 4.20 (Reasoning)	39	0	0	0	0	7.8%
Z.AI GLM 4.7	7	0	0	0	0	1.4%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	98	99.7%
GPT-5.5 (Reasoning, Low)	100	100	100	100	98	99.6%
Gemini 3.1 Pro (Preview)	100	100	100	100	94	98.9%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.9%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	94	98.9%
Claude Opus 4.6	100	100	100	100	89	97.9%
Claude Opus 4	100	100	100	100	89	97.8%
Claude Opus 4.5	100	100	100	96	89	96.9%
Claude Sonnet 5 (Reasoning)	100	100	100	100	83	96.7%
Mistral Large 2	100	100	100	100	83	96.7%
GPT-5.4	100	100	100	97	85	96.6%
Qwen 3.5 Flash	100	100	100	97	84	96.2%
Claude Sonnet 4.6	100	100	100	88	88	95.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	73	94.6%
Claude Opus 4.6 (Reasoning)	100	100	100	97	75	94.5%
GPT-5.5 (Reasoning)	100	100	100	100	72	94.4%
Qwen 3.5 27B	100	100	89	89	88	93.0%
Qwen 3.6 Flash	100	100	100	100	55	91.0%
Z.AI GLM 4.7	100	100	91	86	77	90.9%
Claude Opus 4.8 (Reasoning, Low)	100	99	97	88	69	90.5%
Claude Opus 4.8 (Reasoning)	100	100	89	76	73	87.7%
GPT-5.4 (Reasoning)	100	100	92	74	71	87.5%
Mistral Small 4 (Reasoning)	100	100	100	83	53	87.3%
DeepSeek V4 Flash	100	100	85	80	69	86.9%
Grok 4.5 (Reasoning, Low)	100	100	100	100	25	85.0%
GPT-5.4 (Reasoning, Low)	100	100	100	65	56	84.1%
Qwen 3.5 122B	100	100	100	70	50	84.0%
Aion 3.0 Mini	100	100	100	81	39	84.0%
Qwen 3.5 9B	100	100	100	100	18	83.7%
Claude Sonnet 4.5	100	100	99	88	25	82.2%
GPT-5.5	94	90	79	78	64	81.1%
ByteDance Seed 1.6 Flash	100	100	85	77	42	80.8%
Ministral 3B	94	91	83	73	59	80.2%
MoonshotAI: Kimi K2.6	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Llama 3.1 70B	100	83	79	71	50	76.6%
Ministral 3 8B	100	100	79	50	50	75.7%
GPT-5.1	100	100	100	74	0	74.8%
MoonshotAI: Kimi K2.5	100	100	91	80	0	74.3%
MiniMax M2.7	97	88	67	53	47	70.4%
MiniMax M3	100	100	72	45	35	70.2%
DeepSeek V3 (2024-12-26)	100	100	73	70	7	70.0%
Mistral Medium 3.1	100	100	67	63	18	69.6%
MiniMax M2.5	100	100	73	45	30	69.6%
Ministral 8B	100	88	83	67	0	67.5%
GPT-5	100	100	97	34	0	66.1%
DeepSeek V4 Pro	100	89	77	44	17	65.3%
GPT-5.4 Nano (Reasoning, Low)	100	100	50	41	20	62.2%
Gemini 2.5 Pro	100	100	100	7	0	61.4%
GPT-5.4 Nano (Reasoning)	100	88	79	41	0	61.3%
Mistral NeMO	100	100	73	25	7	61.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	5	0	60.9%
Claude Opus 4.7	100	99	69	32	0	60.0%
Grok 4.5 (Reasoning, High)	100	100	55	45	0	59.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	94	0	0	58.9%
GPT-5.4 Mini (Reasoning, Low)	98	83	57	27	25	58.2%
Gemma 4 31B (Reasoning)	100	100	55	25	0	56.0%
Ministral 3 3B	97	83	59	39	0	55.7%
Claude Opus 4.7 (Reasoning)	99	93	62	22	0	55.0%
Qwen 3.6 27B	100	100	63	0	0	52.6%
Mistral Small 4	100	86	43	32	0	52.3%
GPT-4.1	100	85	50	25	0	52.1%
DeepSeek V3 (2025-03-24)	100	83	45	32	0	52.1%
Z.AI GLM 4.6	100	100	59	0	0	51.8%
Grok 4.3	100	100	59	0	0	51.8%
DeepSeek V4 Pro (Reasoning)	100	89	55	5	0	49.7%
Claude Sonnet 4	77	63	47	39	20	49.0%
Gemini 3.5 Flash (Reasoning)	100	100	45	0	0	48.9%
GPT-5.4 Mini	80	78	65	12	9	48.9%
Qwen 3 32B	100	85	47	0	0	46.4%
GPT-4o, Aug. 6th (temp=0)	100	83	35	0	0	43.6%
Xiaomi MIMO v2.5	100	50	50	15	0	43.0%
GPT-5.4 Nano	52	46	46	39	27	41.8%
Ministral 3 14B	88	63	55	0	0	41.1%
o4 Mini High	83	59	39	20	0	40.2%
Gemini 3 Flash (Preview)	100	100	0	0	0	40.0%
DeepSeek-V2 Chat	97	69	12	9	0	37.5%
Nemotron 3 Super	100	35	25	25	0	36.9%
Aion 2.0	56	48	47	32	0	36.6%
GPT-4.1 Nano	94	88	0	0	0	36.4%
Claude Haiku 4.5	63	47	35	32	0	35.3%
WizardLM 2 8x22b	89	80	0	0	0	33.9%
o4 Mini	100	36	17	0	0	30.5%
Qwen3 235B A22B Instruct 2507	80	70	0	0	0	30.0%
Grok 4.20	91	44	12	0	0	29.4%
GPT-5 Mini	75	41	17	14	0	29.3%
Xiaomi MIMO v2.5 Pro	75	47	15	7	0	28.6%
GPT-5.4 Mini (Reasoning)	54	39	37	13	0	28.5%
Writer: Palmyra X5	75	55	0	0	0	26.0%
Hermes 3 405B	67	63	0	0	0	25.9%
Nemotron 3 Nano	79	50	0	0	0	25.7%
Qwen 2.5 72B	69	29	28	0	0	25.2%
DeepSeek V3.2	59	50	0	0	0	21.8%
Inception Mercury 2	56	52	0	0	0	21.7%
GPT-4.1 Mini	100	0	0	0	0	20.0%
GPT-5 Nano	88	7	0	0	0	18.9%
DeepSeek V3.1	76	17	0	0	0	18.5%
Mistral Small 3.2 24B	49	0	0	0	0	9.7%
Cohere Command R+ (Aug. 2024)	25	14	0	0	0	7.7%
Z.AI GLM 4.5	36	0	0	0	0	7.3%
GPT-4o, Aug. 6th (temp=1)	32	0	0	0	0	6.5%
GPT-5.2	25	0	0	0	0	5.0%
Gemma 3 12B	12	0	0	0	0	2.4%
Z.AI GLM 4.7 Flash	7	2	0	0	0	1.8%
Gemini 2.5 Flash	7	0	0	0	0	1.4%
Gemma 3 4B	2	0	0	0	0	0.4%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	73	94.6%
Claude Opus 4.5	100	100	100	94	59	90.7%
GPT-5	100	100	98	83	53	87.0%
GPT-5.4 Nano (Reasoning)	100	100	100	67	67	86.7%
Qwen 3.6 Flash	100	100	100	100	32	86.5%
Qwen 3.5 35B	100	100	100	100	29	85.8%
GPT-5.4 Nano (Reasoning, Low)	100	94	73	73	73	82.7%
GPT-5.4 Nano	100	100	81	70	56	81.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	7	81.4%
Z.AI GLM 5.1	100	100	100	100	0	80.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	0	80.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	100	100	0	80.0%
Gemma 4 26B (Reasoning)	100	100	100	100	0	80.0%
Gemini 2.5 Pro	100	100	100	100	0	80.0%
Z.AI GLM 4.6	100	100	100	100	0	80.0%
Claude Sonnet 5	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Claude Haiku 4.5	100	100	100	100	0	80.0%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	100	100	0	80.0%
Ministral 3B	100	100	100	100	0	80.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	59	39	79.6%
ByteDance Seed 1.6 Flash	100	94	94	79	20	77.4%
Qwen3.7 Max	100	100	100	83	0	76.7%
GPT-5.5	100	100	73	62	42	75.3%
Claude Sonnet 5 (Reasoning)	100	100	100	50	25	75.0%
MiniMax M2.7	100	100	83	50	39	74.4%
Qwen 3.5 397B A17B	100	100	100	50	0	70.0%
Writer: Palmyra X5	100	100	100	50	0	70.0%
GPT-5 Mini	100	100	60	57	29	69.3%
Qwen 3.5 27B	100	100	88	59	0	69.3%
Z.AI GLM 5 Turbo	100	100	100	25	0	65.0%
Grok 4.5 (Reasoning, Low)	100	100	100	25	0	65.0%
DeepSeek V4 Flash	100	100	73	39	7	63.8%
Mistral Small 4 (Reasoning)	100	100	100	7	7	62.9%
Grok 4.20 (Reasoning)	100	100	100	7	0	61.4%
ByteDance Seed 2.0 Mini	100	100	100	7	0	61.4%
Mistral Large 3	100	100	100	7	0	61.4%
Grok 4.5 (Reasoning, High)	100	100	100	0	0	60.0%
Qwen 3.5 122B	100	100	100	0	0	60.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	0	0	60.0%
Aion 2.0	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	0	0	60.0%
Gemma 4 26B	100	100	100	0	0	60.0%
Aion 3.0 Mini	100	100	100	0	0	60.0%
DeepSeek V3.1	100	100	100	0	0	60.0%
DeepSeek V3 (2025-03-24)	100	100	100	0	0	60.0%
WizardLM 2 8x22b	100	100	100	0	0	60.0%
GPT-4.1 Nano	100	100	100	0	0	60.0%
Ministral 3 3B	100	100	100	0	0	60.0%
Claude Opus 4.7 (Reasoning)	100	100	50	39	7	59.2%
Qwen 3.6 27B	100	100	83	12	0	59.1%
Claude Sonnet 4	100	100	94	0	0	58.9%
Claude Sonnet 4.5	100	100	50	39	0	57.8%
GPT-5.5 (Reasoning, Low)	100	64	53	39	21	55.5%
Claude Opus 4	100	91	83	0	0	54.9%
DeepSeek V4 Pro	100	94	69	7	0	54.1%
GPT-4.1	100	100	50	0	0	50.0%
Xiaomi MIMO v2.5 Pro	100	83	59	0	0	48.5%
MoonshotAI: Kimi K2.5	100	100	39	0	0	47.8%
DeepSeek V4 Pro (Reasoning)	100	83	50	0	0	46.7%
GPT-5.4 (Reasoning, Low)	91	73	55	14	0	46.5%
Ministral 8B	100	100	25	7	0	46.4%
Aion 3.0	100	100	25	0	0	45.0%
Z.AI GLM 4.7 Flash	100	100	25	0	0	45.0%
GPT-5.4	100	83	25	0	0	41.7%
Z.AI GLM 4.5	100	50	25	25	7	41.4%
Qwen 3 32B	100	79	25	0	0	40.7%
Claude Opus 4.6 (Reasoning)	100	100	0	0	0	40.0%
o4 Mini High	100	100	0	0	0	40.0%
Qwen 3.5 Plus (2026-02-15)	100	100	0	0	0	40.0%
Qwen 3.5 Flash	100	100	0	0	0	40.0%
Gemini 2.5 Flash (Reasoning)	100	100	0	0	0	40.0%
Xiaomi MIMO v2.5	100	100	0	0	0	40.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	0	0	0	40.0%
Nemotron 3 Super	100	100	0	0	0	40.0%
Gemini 2.5 Flash Lite	100	100	0	0	0	40.0%
Llama 3.1 70B	100	100	0	0	0	40.0%
Mistral Small 4	100	100	0	0	0	40.0%
Nemotron 3 Nano	100	100	0	0	0	40.0%
Ministral 3 14B	100	100	0	0	0	40.0%
Gemini 3.5 Flash (Reasoning)	100	59	39	0	0	39.6%
DeepSeek V3 (2024-12-26)	100	88	0	0	0	37.5%
GPT-5.4 (Reasoning)	100	79	0	0	0	35.7%
DeepSeek V3.2	100	73	0	0	0	34.6%
Cohere Command R+ (Aug. 2024)	100	59	0	0	0	31.8%
Claude Opus 4.6	100	50	7	0	0	31.4%
Z.AI GLM 4.7	100	50	0	0	0	30.0%
Claude Opus 4.8 (Reasoning, Low)	73	50	25	0	0	29.6%
Gemini 3 Flash (Preview)	100	32	7	0	0	27.9%
Hermes 3 405B	100	25	7	0	0	26.4%
GPT-5.1	94	31	0	0	0	25.2%
Gemma 4 31B	100	25	0	0	0	25.0%
GPT-5.4 Mini (Reasoning)	73	50	0	0	0	24.6%
o4 Mini	100	7	0	0	0	21.4%
GPT-4o, Aug. 6th (temp=0)	100	7	0	0	0	21.4%
Qwen3 235B A22B Instruct 2507	100	7	0	0	0	21.4%
Claude Opus 4.7	100	0	0	0	0	20.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	0	0	0	0	20.0%
Mistral Medium 3.1	100	0	0	0	0	20.0%
Mistral NeMO	100	0	0	0	0	20.0%
Inception Mercury 2	73	7	0	0	0	16.0%
Mistral Large 2	73	7	0	0	0	16.0%
Claude Opus 4.8 (Reasoning)	79	0	0	0	0	15.7%
DeepSeek-V2 Chat	67	0	0	0	0	13.3%
GPT-4.1 Mini	25	25	0	0	0	10.0%
Grok 4.20	35	7	0	0	0	8.4%
GPT-5.4 Mini (Reasoning, Low)	39	0	0	0	0	7.8%
GPT-5 Nano	25	0	0	0	0	5.0%
GPT-5.4 Mini	21	0	0	0	0	4.2%
GPT-OSS 120B	7	0	0	0	0	1.4%
Gemma 3 12B	7	0	0	0	0	1.4%
Cydonia 24B V4.1	7	0	0	0	0	1.4%
GPT-5.2	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	99	99.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	99	99.7%
Gemini 3.1 Pro (Preview)	100	100	100	100	97	99.5%
GPT-4.1	100	100	100	100	97	99.5%
Gemma 3 27B	100	100	100	100	97	99.5%
Ministral 3 8B	100	100	100	100	97	99.5%
MiniMax M2.5	100	100	100	100	96	99.3%
GPT-5.4 Nano	100	100	100	100	96	99.2%
Gemma 4 31B	100	100	100	100	96	99.2%
Z.AI GLM 4.7 Flash	100	100	100	100	96	99.2%
Mistral Small 4	100	100	100	100	96	99.2%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	94	98.9%
Gemma 4 31B (Reasoning)	100	100	100	100	93	98.6%
Grok 4.20	100	100	100	100	92	98.5%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	90	98.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	89	97.8%
WizardLM 2 8x22b	100	100	100	97	90	97.5%
Nemotron 3 Super	100	100	100	100	88	97.5%
Aion 2.0	100	100	100	100	87	97.3%
GPT-5 Mini	100	100	100	100	85	97.1%
DeepSeek V3 (2024-12-26)	100	100	100	100	83	96.7%
Mistral Small 3.2 24B	100	100	100	100	83	96.7%
Gemini 3 Flash (Preview)	100	100	96	91	89	95.3%
Claude Sonnet 4	100	100	100	93	82	95.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	90	85	95.0%
GPT-4.1 Mini	100	100	100	100	62	92.4%
DeepSeek V3.1	100	100	100	85	77	92.3%
Qwen 3 32B	100	100	100	100	59	91.8%
Gemini 3.1 Flash Lite	100	100	100	100	55	91.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	50	90.0%
GPT-4.1 Nano	100	100	97	97	53	89.6%
Qwen 2.5 72B	100	94	93	89	70	89.3%
Qwen 3.6 27B	100	100	100	96	48	88.9%
Claude Haiku 4.5	100	100	100	71	69	88.0%
GPT-4o Mini (temp=0)	100	100	100	98	39	87.4%
Z.AI GLM 4.5 Air	100	100	100	100	33	86.6%
Mistral NeMO	100	100	100	100	31	86.2%
ByteDance Seed 2.0 Lite	100	100	100	67	59	85.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	25	85.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	96	73	55	84.8%
GPT-5 Nano	100	100	100	62	55	83.5%
DeepSeek-V2 Chat	100	100	100	100	14	82.9%
Gemini 2.5 Flash Lite	100	100	96	67	46	81.7%
Hermes 3 405B	100	100	100	59	47	81.1%
MoonshotAI: Kimi K2.6	100	100	100	100	0	80.0%
GPT-OSS 120B	100	100	100	79	17	79.0%
Arcee AI: Trinity Mini	100	100	76	69	10	70.9%
Nemotron 3 Nano	93	85	69	67	41	70.8%
Cohere Command R+ (Aug. 2024)	100	100	100	41	0	68.3%
ByteDance Seed 1.6	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	100	0	0	60.0%
Gemini 2.5 Flash Lite (Reasoning)	93	59	52	50	43	59.4%
Gemini 2.5 Flash	100	97	50	45	0	58.4%
GPT-5.2	100	69	57	34	28	57.5%
Gemini 2.5 Flash (Reasoning)	100	100	67	18	0	56.9%
Hermes 3 70B	100	81	76	17	0	54.7%
GPT-4o, Aug. 6th (temp=0)	85	59	57	20	18	47.8%
GPT-4o Mini (temp=1)	68	54	50	43	0	42.9%
Gemma 3 12B	76	67	52	0	0	38.9%
GPT-4o, Aug. 6th (temp=1)	97	50	36	0	0	36.6%
Gemma 3 4B	32	31	30	12	0	21.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	94	98.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	94	98.9%
MiniMax M2.5	100	100	100	100	92	98.5%
Claude Opus 4.6	100	100	100	100	91	98.2%
Qwen3.7 Max	100	100	100	100	89	97.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	89	97.9%
Gemini 2.5 Pro	100	100	100	100	88	97.5%
Writer: Palmyra X5	100	100	100	93	93	97.3%
Claude Opus 4	100	100	100	100	86	97.2%
MiniMax M2.7	100	100	100	100	85	97.1%
Claude Opus 4.8 (Reasoning)	100	100	100	96	89	96.9%
DeepSeek V3 (2024-12-26)	100	100	100	100	83	96.7%
DeepSeek V4 Pro	100	100	100	100	83	96.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	80	96.0%
o4 Mini	100	100	100	100	79	95.7%
Grok 4.3	100	100	100	100	79	95.7%
ByteDance Seed 1.6 Flash	100	100	100	100	79	95.7%
Xiaomi MIMO v2.5	100	100	100	100	77	95.4%
Qwen 3.6 Flash	100	100	100	100	75	95.0%
Aion 2.0	100	100	100	100	75	95.0%
Qwen 3.5 397B A17B	100	100	100	98	76	94.8%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	70	94.0%
Ministral 8B	100	100	100	100	70	94.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	59	91.8%
MoonshotAI: Kimi K2.5	100	100	100	100	57	91.4%
Z.AI GLM 4.5	100	100	100	100	54	90.8%
Qwen 3.5 Flash	100	100	100	100	52	90.4%
Gemma 4 26B (Reasoning)	100	100	100	100	50	90.0%
Ministral 3 8B	100	100	100	83	67	90.0%
WizardLM 2 8x22b	100	100	100	93	53	89.3%
Z.AI GLM 4.6	100	100	100	81	64	89.1%
Z.AI GLM 4.7	100	100	100	81	63	88.8%
GPT-5	100	100	100	100	44	88.7%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	41	88.1%
DeepSeek V3.1	100	100	100	81	47	85.5%
Claude Haiku 4.5	100	100	100	70	56	85.3%
Qwen3 235B A22B Instruct 2507	100	100	100	81	45	85.2%
Grok 4.3 (Reasoning)	100	100	100	100	17	83.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	59	55	82.8%
Qwen 3 32B	100	95	83	79	56	82.7%
Grok 4.20	100	100	99	70	39	81.5%
Ministral 3B	100	100	100	59	47	81.1%
Z.AI GLM 5	100	100	100	100	0	80.0%
ByteDance Seed 1.6	100	100	100	100	0	80.0%
GPT-5 Mini	100	89	75	63	62	77.8%
GPT-5 Nano	100	97	94	83	9	76.9%
Nemotron 3 Nano	100	100	73	67	43	76.5%
Z.AI GLM 4.5 Air	100	97	85	54	46	76.4%
DeepSeek-V2 Chat	100	100	100	61	18	75.8%
o4 Mini High	100	100	100	62	11	74.6%
GPT-5.2	100	100	100	70	0	74.0%
Gemma 3 27B	100	100	83	67	0	70.0%
Xiaomi MIMO v2.5 Pro	100	91	67	59	31	69.6%
Ministral 3 14B	100	100	100	25	20	68.9%
GPT-4.1 Mini	99	81	71	59	34	68.7%
Gemini 2.5 Flash	100	97	79	65	0	68.2%
Gemini 3.1 Flash Lite	100	100	100	39	0	67.8%
GPT-4o, Aug. 6th (temp=0)	100	100	79	48	7	66.7%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	20	7	65.3%
Inception Mercury 2	100	100	97	25	2	64.8%
Hermes 3 405B	100	97	94	17	14	64.4%
Qwen 3.5 35B	100	85	68	38	25	63.3%
GPT-4.1 Nano	94	93	67	53	0	61.4%
Cohere Command R+ (Aug. 2024)	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	97	0	0	59.5%
Mistral NeMO	100	100	97	0	0	59.5%
GPT-4.1	91	70	69	39	28	59.4%
Ministral 3 3B	100	73	63	59	0	59.0%
Gemma 4 31B (Reasoning)	100	100	67	20	0	57.2%
Qwen 2.5 72B	100	100	81	0	0	56.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	47	29	0	54.3%
Gemini 3 Flash (Preview, Reasoning)	100	99	59	0	0	51.7%
Z.AI GLM 4.7 Flash	99	77	51	25	0	50.4%
Hermes 3 70B	97	88	45	15	0	48.9%
Gemini 3 Flash (Preview)	91	89	50	11	0	48.2%
Arcee AI: Trinity Mini	100	73	59	2	0	46.8%
Gemini 2.5 Flash Lite (Reasoning)	100	79	55	0	0	46.7%
Gemini 2.5 Flash (Reasoning)	100	91	14	4	0	41.7%
Gemma 3 12B	91	76	28	0	0	39.0%
Gemma 4 31B	100	53	36	0	0	37.8%
GPT-OSS 120B	100	59	10	0	0	33.8%
GPT-4o Mini (temp=0)	72	48	17	15	12	32.7%
Qwen 3.5 Plus (2026-02-15)	71	52	20	0	0	28.5%
GPT-4o Mini (temp=1)	77	28	18	0	0	24.7%
Cydonia 24B V4.1	75	47	0	0	0	24.3%
Gemini 2.5 Flash Lite	56	50	7	0	0	22.7%
Gemma 3 4B	73	1	0	0	0	14.8%
GPT-4o, Aug. 6th (temp=1)	7	0	0	0	0	1.4%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	97	99.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	97	99.5%
DeepSeek V3 (2025-03-24)	100	100	100	100	97	99.5%
Mistral Small 4 (Reasoning)	100	100	100	100	97	99.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	99	97	99.2%
Claude Opus 4	100	100	100	100	94	98.9%
Ministral 3 3B	100	100	100	100	94	98.7%
Z.AI GLM 4.7	100	100	100	100	93	98.7%
Mistral Small 4	100	100	100	100	91	98.2%
Gemini 3.1 Pro (Preview)	100	100	100	100	91	98.1%
o4 Mini	100	100	100	100	90	98.0%
MoonshotAI: Kimi K2.6	100	100	100	100	88	97.5%
Claude Sonnet 4.5	100	100	100	100	88	97.5%
Claude Haiku 4.5	100	100	100	100	88	97.5%
WizardLM 2 8x22b	100	100	100	100	88	97.5%
GPT-4o Mini (temp=0)	100	100	97	96	94	97.5%
ByteDance Seed 1.6 Flash	100	100	100	100	85	97.0%
MiniMax M2.5	100	100	100	96	85	96.4%
Grok 4.5 (Reasoning, Low)	100	100	96	94	91	96.3%
Xiaomi MIMO v2.5 Pro	100	100	100	99	82	96.1%
MiniMax M2.7	100	100	100	100	80	96.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	80	95.9%
o4 Mini High	100	100	100	95	83	95.8%
GPT-5 Mini	100	100	100	100	79	95.7%
Claude Sonnet 4	100	100	100	100	77	95.4%
GPT-4.1 Nano	100	100	100	100	73	94.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	90	80	94.1%
GPT-4.1	100	100	100	97	64	92.3%
Qwen3 235B A22B Instruct 2507	100	100	100	94	64	91.7%
Nemotron 3 Super	100	100	100	94	62	91.2%
GPT-5 Nano	100	100	100	100	55	91.0%
DeepSeek-V2 Chat	100	100	100	79	76	90.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	54	90.9%
Gemini 2.5 Pro	100	100	100	83	69	90.5%
Grok 4.20 (Reasoning)	100	100	100	100	44	88.7%
Llama 3.1 70B	100	100	88	79	59	85.0%
Qwen 2.5 72B	100	100	100	89	28	83.5%
Gemma 4 31B (Reasoning)	100	100	93	88	36	83.2%
Gemma 3 27B	100	100	93	76	46	83.0%
Ministral 3B	100	100	100	100	10	82.0%
Ministral 8B	100	100	100	100	7	81.4%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	100	85	12	79.4%
Inception Mercury 2	100	100	100	74	22	79.2%
Qwen 3 32B	100	100	94	64	35	78.7%
DeepSeek V3 (2024-12-26)	100	100	99	92	0	78.2%
Gemma 4 31B	100	100	88	64	35	77.3%
GPT-4o Mini (temp=1)	100	100	100	85	0	77.0%
GPT-4.1 Mini	100	94	79	76	36	76.9%
Gemini 3 Flash (Preview)	100	100	100	83	0	76.7%
DeepSeek V3.1	100	100	100	69	4	74.6%
Gemini 2.5 Flash	100	100	68	44	39	70.2%
Z.AI GLM 4.7 Flash	100	99	69	60	0	65.7%
Qwen 3.6 27B	100	100	90	36	0	65.1%
Grok 4.20	100	77	74	73	0	64.8%
Cohere Command R+ (Aug. 2024)	100	93	76	32	21	64.4%
Mistral Small 3.2 24B	100	100	77	43	0	63.9%
Mistral NeMO	100	100	63	28	14	60.9%
Gemma 3 12B	100	94	57	41	0	58.5%
Z.AI GLM 4.5 Air	89	64	47	23	0	44.5%
Arcee AI: Trinity Mini	88	70	50	7	0	42.9%
GPT-5.2	80	60	50	24	0	42.8%
Gemini 2.5 Flash Lite	88	67	31	7	7	39.9%
Gemini 3.5 Flash (Reasoning)	100	52	40	5	0	39.5%
Nemotron 3 Nano	100	37	37	17	5	39.2%
GPT-4o, Aug. 6th (temp=0)	100	62	17	17	0	39.0%
GPT-OSS 120B	79	56	37	16	0	37.5%
Gemini 2.5 Flash (Reasoning)	80	59	41	2	0	36.4%
Gemini 2.5 Flash Lite (Reasoning)	100	56	0	0	0	31.3%
Hermes 3 405B	100	25	18	0	0	28.7%
Gemma 3 4B	85	18	15	7	0	25.0%
GPT-4o, Aug. 6th (temp=1)	100	25	0	0	0	25.0%
Cydonia 24B V4.1	93	2	1	0	0	19.4%
Hermes 3 70B	63	0	0	0	0	12.6%
Gemini 3.5 Flash (Reasoning, Minimal)	39	17	0	0	0	11.1%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	98	99.7%
DeepSeek-V2 Chat	100	100	100	100	97	99.5%
MiniMax M3	100	100	100	100	91	98.2%
Z.AI GLM 5.1	100	100	100	100	88	97.5%
Claude Haiku 4.5	100	100	100	100	88	97.5%
Mistral NeMO	100	100	100	100	88	97.5%
Claude Opus 4.5	100	100	100	100	83	96.7%
Qwen 3.5 35B	100	100	100	94	88	96.4%
GPT-5.4 Nano	100	100	100	100	80	96.0%
GPT-5 Mini	100	100	100	91	85	95.2%
Mistral Small 3.2 24B	100	100	100	100	73	94.6%
MoonshotAI: Kimi K2.5	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
DeepSeek V4 Flash	100	100	94	91	79	92.8%
MoonshotAI: Kimi K2.6	100	100	100	100	59	91.8%
Writer: Palmyra X5	100	100	100	100	55	91.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	54	90.8%
GPT-5.4 Nano (Reasoning)	100	100	100	93	58	90.2%
Claude Sonnet 5	100	100	100	100	50	90.0%
Mistral Small 4	100	100	100	100	50	90.0%
Claude Opus 4.6	100	100	100	100	39	87.8%
Ministral 3 8B	100	100	100	100	39	87.8%
MiniMax M2.7	100	100	100	88	50	87.5%
DeepSeek V3 (2024-12-26)	100	100	100	92	45	87.4%
DeepSeek V4 Pro	100	100	97	70	59	85.3%
Qwen3 235B A22B Instruct 2507	100	100	100	83	39	84.4%
DeepSeek V3.2	100	94	94	79	43	82.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	97	88	25	82.0%
Grok 4.3	100	100	100	67	39	81.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	0	80.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	0	80.0%
Grok 4.3 (Reasoning)	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
Qwen 3.6 27B	100	100	100	100	0	80.0%
Claude Opus 4	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.8 (Reasoning)	100	100	100	97	0	79.5%
GPT-5.4 Mini (Reasoning, Low)	100	99	71	67	47	76.8%
Z.AI GLM 4.7	100	100	100	73	7	76.0%
Xiaomi MIMO v2.5	100	100	100	79	0	75.7%
Ministral 3B	100	100	94	83	0	75.6%
GPT-5.1	100	94	93	63	25	74.9%
Z.AI GLM 4.5	100	100	96	79	0	74.9%
DeepSeek V3.1	100	100	100	67	0	73.3%
Claude Opus 4.8 (Reasoning, Low)	100	100	88	73	0	72.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	59	0	71.8%
GPT-5.4 Mini	100	91	83	45	39	71.6%
Ministral 8B	100	100	73	59	25	71.4%
Mistral Large 3	100	100	100	25	25	70.0%
Ministral 3 14B	100	100	67	50	32	69.8%
o4 Mini High	100	91	83	73	0	69.5%
Aion 2.0	100	100	100	39	7	69.2%
GPT-5.4 Mini (Reasoning)	100	100	100	25	21	69.2%
Z.AI GLM 5	100	100	100	39	0	67.8%
ByteDance Seed 2.0 Mini	100	100	100	39	0	67.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	85	52	0	67.6%
Gemma 3 27B	100	100	73	45	20	67.5%
DeepSeek V3 (2025-03-24)	100	100	67	59	7	66.6%
Llama 3.1 70B	100	100	100	25	0	65.0%
Gemini 3.5 Flash (Reasoning)	100	100	79	39	0	63.5%
Gemma 4 31B	100	94	59	59	0	62.5%
Z.AI GLM 4.7 Flash	100	100	91	21	0	62.4%
Gemma 3 12B	100	81	76	47	0	60.7%
Aion 3.0	100	100	100	0	0	60.0%
Claude Sonnet 4	100	100	100	0	0	60.0%
Xiaomi MIMO v2.5 Pro	100	100	100	0	0	60.0%
Nemotron 3 Super	100	100	100	0	0	60.0%
Qwen 2.5 72B	100	100	100	0	0	60.0%
Ministral 3 3B	100	100	94	0	0	58.9%
GPT-5 Nano	100	85	67	30	0	56.3%
DeepSeek V4 Flash (Reasoning)	100	73	63	39	0	55.0%
GPT-5.2	100	91	41	31	11	54.8%
Claude Sonnet 5 (Reasoning)	100	100	73	0	0	54.6%
GPT-4.1	100	88	39	25	17	53.6%
Grok 4.20	94	91	39	32	0	51.4%
GPT-4o, Aug. 6th (temp=0)	100	73	73	0	0	49.2%
Gemini 2.5 Flash Lite	100	100	39	0	0	47.8%
Qwen 3 32B	100	91	47	0	0	47.7%
Qwen 3.5 Plus (2026-04-20)	100	100	29	0	0	45.9%
Z.AI GLM 4.5 Air	100	83	45	0	0	45.6%
Claude Sonnet 5 (Reasoning, Low)	100	100	25	0	0	45.0%
ByteDance Seed 1.6 Flash	100	100	7	7	0	42.9%
Qwen 3.5 Flash	100	100	0	0	0	40.0%
Gemini 3 Flash (Preview)	96	63	39	0	0	39.7%
GPT-4.1 Nano	100	88	0	0	0	37.5%
Arcee AI: Trinity Mini	100	83	0	0	0	36.7%
o4 Mini	100	59	0	0	0	31.8%
GPT-4.1 Mini	73	67	0	0	0	27.9%
Inception Mercury 2	100	36	0	0	0	27.3%
Cohere Command R+ (Aug. 2024)	73	55	0	0	0	25.6%
Gemma 3 4B	50	45	10	0	0	20.9%
Hermes 3 405B	100	0	0	0	0	20.0%
Nemotron 3 Nano	100	0	0	0	0	20.0%
Qwen 3.5 Plus (2026-02-15)	89	0	0	0	0	17.9%
GPT-4o, Aug. 6th (temp=1)	45	25	7	0	0	15.4%
Cydonia 24B V4.1	4	0	0	0	0	0.7%
GPT-OSS 120B	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0.0%

Dialogue tag variety (said vs. fancy)

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets