Adverbs in dialogue tags

Test: Bad Writing Habits

Avg. Score

91.3%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Inception Mercury 2	100.0%	$0.0032	7.0s	100%
2	Gemini 3.1 Flash Lite (Reasoning)	99.7%	$0.0030	11.9s	96%
3	Gemini 3.1 Flash Lite (Preview)	98.9%	$0.0030	8.4s	89%
4	Gemini 3.1 Flash Lite	99.3%	$0.0030	12.1s	86%
5	ByteDance Seed 1.6 Flash	99.2%	$0.0013	27.3s	88%
6	Qwen 3.6 35B	99.2%	$0.0083	1.0m	91%
7	Ministral 8B	97.6%	$0.0004	10.4s	76%
8	Gemini 3 Flash (Preview)	98.4%	$0.0078	19.6s	78%
9	GPT-5.4 Nano	97.2%	$0.0057	26.3s	81%
10	DeepSeek V4 Flash	97.8%	$0.0006	31.6s	78%
11	Ministral 3 3B	96.8%	$0.0005	11.1s	70%
12	Qwen 3.5 Flash	98.1%	$0.0025	47.5s	77%
13	Gemini 3 Flash (Preview, Reasoning)	97.8%	$0.012	30.1s	77%
14	GPT-5.4 Mini	97.8%	$0.015	16.8s	74%
15	Gemma 4 26B	97.5%	$0.0009	55.1s	78%
16	Qwen 2.5 72B	97.7%	$0.0010	36.7s	71%
17	Mistral NeMO	95.6%	$0.0005	10.1s	64%
18	DeepSeek V4 Flash (Reasoning)	96.2%	$0.0007	31.1s	67%
19	Qwen 3.5 35B	98.5%	$0.018	1.0m	78%
20	Z.AI GLM 4.6	96.6%	$0.0065	51.5s	73%
21	DeepSeek V4 Pro	97.6%	$0.0048	1.3m	76%
22	o4 Mini	95.8%	$0.015	25.7s	71%
23	GPT-5.4 Mini (Reasoning, Low)	96.8%	$0.015	16.8s	66%
24	Qwen 3.5 27B	98.9%	$0.020	1.6m	85%
25	Ministral 3B	94.3%	$0.0001	8.1s	61%
26	Qwen 3.6 Flash	96.3%	$0.010	41.4s	68%
27	Qwen 3.5 Plus (2026-02-15)	94.6%	$0.0060	31.5s	65%
28	Nemotron 3 Nano	96.2%	$0.0010	1.1m	67%
29	Aion 3.0 Mini	96.0%	$0.0053	1.2m	70%
30	Mistral Small 4 (Reasoning)	92.5%	$0.0022	30.2s	65%
31	Z.AI GLM 5 Turbo	95.2%	$0.0081	33.2s	63%
32	Grok 4.5 (Reasoning, Low)	95.9%	$0.018	1.1m	73%
33	GPT-5.4 Nano (Reasoning)	94.2%	$0.0061	24.5s	61%
34	GPT-5.4 Nano (Reasoning, Low)	94.1%	$0.0055	20.6s	59%
35	Gemma 4 31B	97.4%	$0.0010	1.6m	70%
36	GPT-OSS 120B	96.5%	$0.0015	1.8m	73%
37	Gemma 4 26B (Reasoning)	97.8%	$0.0013	2.0m	74%
38	GPT-4o Mini (temp=0)	93.4%	$0.0012	34.8s	60%
39	Qwen 3.5 Plus (2026-04-20)	98.0%	$0.017	1.8m	76%
40	GPT-5.4 Mini (Reasoning)	95.6%	$0.022	28.1s	62%
41	Nemotron 3 Super	95.4%	$0.0000	1.4m	66%
42	Xiaomi MIMO v2.5 Pro	94.8%	$0.0085	53.5s	62%
43	Mistral Medium 3.1	93.4%	$0.0048	36.5s	58%
44	Aion 3.0	96.7%	$0.024	1.0m	67%
45	WizardLM 2 8x22b	94.7%	$0.0026	1.8m	73%
46	Qwen 3.5 122B	96.2%	$0.025	1.1m	69%
47	Qwen3 235B A22B Instruct 2507	93.5%	$0.0011	59.2s	59%
48	Gemini 3.5 Flash (Reasoning, Minimal)	93.1%	$0.018	12.0s	56%
49	GPT-5.4	98.4%	$0.049	1.4m	79%
50	Gemma 4 31B (Reasoning)	97.2%	$0.0014	2.2m	69%
51	Gemini 2.5 Pro	94.8%	$0.036	36.2s	65%
52	Ministral 3 8B	90.8%	$0.0008	19.6s	52%
53	Grok 4.3	92.6%	$0.0069	30.5s	54%
54	Writer: Palmyra X5	92.3%	$0.011	22.0s	54%
55	Qwen 3.5 9B	94.6%	$0.0011	1.4m	59%
56	Cohere Command R+ (Aug. 2024)	93.8%	$0.020	52.5s	62%
57	Gemini 2.5 Flash Lite	89.1%	$0.0009	9.5s	50%
58	Z.AI GLM 5.2 (Reasoning, High)	94.5%	$0.011	1.0m	57%
59	GPT-4.1	93.4%	$0.018	44.7s	58%
60	Qwen 3 32B	92.7%	$0.0015	54.6s	54%
61	Qwen 3.5 397B A17B	98.9%	$0.014	3.0m	79%
62	Gemini 2.5 Flash	89.8%	$0.0052	10.6s	49%
63	Gemma 3 4B	89.6%	$0.0002	20.0s	49%
64	Z.AI GLM 4.5	89.3%	$0.0051	42.1s	56%
65	Qwen3.6 Max Preview	100.0%	$0.050	3.5m	100%
66	Z.AI GLM 4.5 Air	91.8%	$0.0029	58.2s	54%
67	GPT-4o, Aug. 6th (temp=0)	90.5%	$0.023	22.7s	54%
68	Xiaomi MIMO v2.5	90.6%	$0.0054	31.8s	48%
69	Aion 2.0	92.8%	$0.0064	1.3m	55%
70	Grok 4.3 (Reasoning)	96.9%	$0.021	2.3m	69%
71	Ministral 3 14B	88.8%	$0.0007	11.7s	43%
72	Claude Sonnet 5	91.9%	$0.027	33.5s	54%
73	Grok 4.5 (Reasoning, High)	94.8%	$0.030	1.6m	65%
74	MiniMax M2.7	90.6%	$0.0040	1.1m	53%
75	o4 Mini High	91.8%	$0.025	47.2s	56%
76	Z.AI GLM 4.7	92.0%	$0.010	1.4m	57%
77	Mistral Large 2	90.1%	$0.013	29.4s	47%
78	Gemini 3.5 Flash (Reasoning)	95.3%	$0.071	37.6s	65%
79	Gemma 3 27B	87.8%	$0.0006	52.6s	49%
80	DeepSeek V3.2	91.7%	$0.0014	1.9m	56%
81	Mistral Large 3	88.9%	$0.0033	30.3s	41%
82	Z.AI GLM 4.7 Flash	89.9%	$0.0017	1.2m	49%
83	Claude Sonnet 4.5	91.7%	$0.035	38.1s	52%
84	GPT-5.5 (Reasoning, Low)	100.0%	$0.139	1.8m	100%
85	GPT-5.2	95.2%	$0.056	1.5m	65%
86	Qwen3.7 Max	98.2%	$0.068	2.3m	76%
87	ByteDance Seed 1.6	94.4%	$0.013	2.5m	59%
88	MiniMax M3	94.8%	$0.0060	3.1m	64%
89	Mistral Small 4	84.2%	$0.0014	18.2s	38%
90	Z.AI GLM 5	87.7%	$0.0084	1.2m	48%
91	Gemini 2.5 Flash Lite (Reasoning)	85.4%	$0.0028	30.8s	39%
92	Z.AI GLM 5.1	91.2%	$0.014	1.5m	48%
93	Gemini 2.5 Flash (Reasoning)	85.8%	$0.011	21.5s	39%
94	Grok 4.20	85.2%	$0.0093	45.7s	44%
95	Claude Opus 4.7 (Reasoning)	93.9%	$0.076	32.0s	55%
96	Claude Sonnet 4.6	89.0%	$0.031	39.3s	45%
97	DeepSeek V3 (2025-03-24)	85.0%	$0.0014	39.4s	36%
98	Grok 4.20 (Reasoning)	89.4%	$0.018	1.5m	47%
99	GPT-5 Mini	86.1%	$0.0100	57.4s	41%
100	GPT-5.4 (Reasoning, Low)	93.0%	$0.055	1.4m	55%
101	Gemma 3 12B	82.5%	$0.0004	41.3s	36%
102	Claude Opus 4.6	93.4%	$0.078	1.2m	59%
103	Llama 3.1 70B	83.2%	$0.0015	29.4s	32%
104	Claude Sonnet 5 (Reasoning, Low)	86.5%	$0.031	38.4s	41%
105	Arcee AI: Trinity Mini	80.1%	$0.0003	9.2s	30%
106	MiniMax M2.5	82.7%	$0.0034	1.3m	42%
107	Qwen 3.6 27B	91.3%	$0.025	2.3m	53%
108	ByteDance Seed 2.0 Lite	90.8%	$0.012	2.2m	45%
109	GPT-5.1	90.8%	$0.054	1.8m	58%
110	Claude Opus 4.6 (Reasoning)	93.8%	$0.088	1.4m	60%
111	DeepSeek V3 (2024-12-26)	82.4%	$0.0021	54.6s	34%
112	GPT-4o Mini (temp=1)	78.2%	$0.0012	34.8s	36%
113	Claude Sonnet 4.6 (Reasoning)	90.1%	$0.060	1.2m	48%
114	DeepSeek-V2 Chat	80.8%	$0.0021	53.3s	30%
115	DeepSeek V3.1	84.8%	$0.0020	1.8m	37%
116	GPT-5.5 (Reasoning)	98.0%	$0.142	1.8m	77%
117	MoonshotAI: Kimi K2.5	91.8%	$0.019	3.2m	52%
118	Claude Opus 4.7	89.1%	$0.069	30.4s	40%
119	GPT-5.4 (Reasoning)	95.4%	$0.089	2.6m	68%
120	GPT-5	94.3%	$0.065	2.8m	62%
121	Claude Opus 4.8 (Reasoning)	88.8%	$0.071	41.7s	42%
122	Claude Sonnet 5 (Reasoning)	82.4%	$0.030	38.9s	33%
123	DeepSeek V4 Pro (Reasoning)	90.4%	$0.015	3.1m	47%
124	Claude Sonnet 4	82.1%	$0.032	43.7s	35%
125	Claude Opus 4.5	87.5%	$0.070	53.4s	44%
126	GPT-5.5	97.2%	$0.139	1.7m	69%
127	GPT-4o, Aug. 6th (temp=1)	77.0%	$0.018	24.4s	30%
128	Gemini 3.1 Pro (Preview)	93.3%	$0.107	1.8m	59%
129	Claude Opus 4.8 (Reasoning, Low)	85.8%	$0.071	41.9s	37%
130	ByteDance Seed 2.0 Mini	92.9%	$0.0045	4.9m	51%
131	Claude Haiku 4.5	72.0%	$0.011	21.6s	22%
132	GPT-4.1 Mini	67.0%	$0.0027	19.0s	20%
133	Hermes 3 405B	70.7%	$0.0032	53.2s	18%
134	Mistral Small 3.2 24B	92.8%	$0.0069	5.7m	50%
135	Cydonia 24B V4.1	64.1%	$0.0014	44.8s	15%
136	GPT-5 Nano	65.9%	$0.0042	1.4m	18%
137	Hermes 3 70B	63.7%	$0.0010	1.2m	13%
138	MoonshotAI: Kimi K2.6	94.4%	$0.058	6.5m	61%
139	Claude Opus 4	88.7%	$0.209	1.4m	50%
140	GPT-4.1 Nano	46.6%	$0.0007	13.3s	4%
91.26%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	95	98.9%
Claude Sonnet 5	100	100	100	100	92	98.4%
Grok 4.20	100	100	100	100	92	98.4%
Gemini 2.5 Flash	100	100	100	100	92	98.4%
Aion 2.0	100	100	100	100	89	97.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	89	97.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	89	97.8%
o4 Mini	100	100	100	100	86	97.1%
Mistral Small 3.2 24B	100	100	100	100	85	96.9%
Claude Sonnet 4.6	100	100	100	100	82	96.5%
Mistral Small 4 (Reasoning)	100	100	100	100	82	96.5%
Grok 4.20 (Reasoning)	100	100	100	100	79	95.8%
WizardLM 2 8x22b	100	100	100	92	84	95.2%
Xiaomi MIMO v2.5	100	100	100	100	75	95.0%
Gemini 2.5 Flash Lite	100	100	100	100	75	95.0%
Llama 3.1 70B	100	100	100	100	75	95.0%
Gemma 3 12B	100	100	100	100	70	93.9%
Grok 4.5 (Reasoning, High)	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	100	67	93.3%
Mistral Large 3	100	100	100	100	65	93.0%
Claude Opus 4	100	100	100	86	75	92.3%
GPT-4.1 Mini	100	100	100	100	57	91.4%
Ministral 3B	100	100	100	100	57	91.4%
Z.AI GLM 5.1	100	100	100	95	62	91.4%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	89	67	91.1%
Claude Sonnet 5 (Reasoning)	100	100	100	79	75	90.8%
Gemini 3.1 Pro (Preview)	100	100	100	100	52	90.4%
Qwen 3 32B	100	100	100	100	50	90.0%
Claude Haiku 4.5	100	100	100	100	42	88.4%
GPT-5 Nano	100	100	100	87	44	86.1%
GPT-4o Mini (temp=1)	100	100	100	85	40	84.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	82	42	84.9%
GPT-5 Mini	100	100	100	100	24	84.7%
DeepSeek V3 (2024-12-26)	100	100	100	67	46	82.6%
Claude Sonnet 4	100	100	100	57	52	81.8%
Aion 3.0 Mini	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	67	33	80.0%
Ministral 3 3B	100	100	100	100	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	89	0	77.8%
MiniMax M2.5	100	97	87	57	42	76.7%
Cohere Command R+ (Aug. 2024)	100	100	100	57	18	75.1%
ByteDance Seed 1.6	100	100	100	75	0	75.0%
Z.AI GLM 4.5	100	100	100	42	29	74.1%
Z.AI GLM 5	100	100	100	57	10	73.3%
MoonshotAI: Kimi K2.6	100	100	100	46	6	70.5%
Mistral Small 4	100	100	71	50	29	69.9%
Cydonia 24B V4.1	100	100	82	46	0	65.7%
MoonshotAI: Kimi K2.5	100	100	100	18	0	63.6%
ByteDance Seed 2.0 Lite	100	100	100	0	0	60.0%
Hermes 3 405B	100	100	89	0	0	57.8%
GPT-4.1 Nano	100	100	33	0	0	46.7%
Hermes 3 70B	100	100	33	0	0	46.7%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	89	97.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	89	97.8%
Claude Opus 4.5	100	100	100	100	89	97.8%
GPT-5.4	100	100	100	100	89	97.8%
Z.AI GLM 4.5 Air	100	100	100	100	89	97.8%
GPT-5.4 Nano (Reasoning)	100	100	100	100	89	97.8%
ByteDance Seed 1.6 Flash	100	100	100	100	89	97.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	82	96.5%
Z.AI GLM 4.5	100	100	100	100	82	96.5%
GPT-5.1	100	100	100	100	75	95.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	57	91.4%
MiniMax M2.7	100	100	100	100	57	91.4%
Gemma 3 12B	100	100	100	100	57	91.4%
GPT-5.4 Nano	100	100	100	100	57	91.4%
Cohere Command R+ (Aug. 2024)	100	100	100	100	57	91.4%
GPT-5.4 (Reasoning)	100	100	100	100	33	86.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	33	86.7%
Grok 4.20 (Reasoning)	100	100	100	100	33	86.7%
Gemini 3.1 Flash Lite	100	100	100	100	33	86.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	33	86.7%
ByteDance Seed 1.6	100	100	100	100	18	83.6%
Z.AI GLM 5.1	100	100	100	100	0	80.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.7	100	100	100	100	0	80.0%
Gemma 4 31B (Reasoning)	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
GPT-OSS 120B	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
DeepSeek-V2 Chat	100	100	100	100	0	80.0%
Claude Haiku 4.5	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
DeepSeek V3.1	100	100	100	100	0	80.0%
Nemotron 3 Super	100	100	100	100	0	80.0%
Mistral Large 2	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
GPT-5.4 (Reasoning, Low)	100	100	100	95	0	78.9%
Ministral 3 8B	100	100	100	89	0	77.8%
Writer: Palmyra X5	100	100	100	82	0	76.5%
Hermes 3 405B	100	100	100	75	0	75.0%
Gemma 3 4B	100	100	89	75	0	72.8%
Gemini 2.5 Flash	100	100	100	57	0	71.4%
GPT-5 Nano	100	100	100	26	0	65.2%
GPT-4.1 Mini	100	100	67	57	0	64.8%
Claude Opus 4.6	100	100	100	0	0	60.0%
GPT-5 Mini	100	100	100	0	0	60.0%
MiniMax M2.5	100	100	100	0	0	60.0%
DeepSeek V3 (2024-12-26)	100	100	100	0	0	60.0%
Mistral Small 4	100	100	100	0	0	60.0%
Ministral 3 14B	100	100	100	0	0	60.0%
Claude Sonnet 4	100	100	67	0	0	53.3%
Cydonia 24B V4.1	100	100	33	0	0	46.7%
GPT-4o Mini (temp=1)	67	33	33	33	0	33.3%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	98	99.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	97	99.3%
GPT-5 Nano	100	100	100	100	97	99.3%
DeepSeek V3 (2024-12-26)	100	100	100	100	95	98.9%
Mistral Small 4 (Reasoning)	100	100	100	100	93	98.6%
Gemini 2.5 Flash	100	100	100	100	92	98.4%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	89	97.8%
Mistral NeMO	100	100	100	100	89	97.8%
Z.AI GLM 5	100	100	100	100	87	97.5%
Aion 2.0	100	100	100	100	87	97.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	87	97.4%
Claude Sonnet 4.6	100	100	100	100	82	96.5%
Gemini 2.5 Pro	100	100	100	100	80	96.0%
Llama 3.1 70B	100	100	100	89	89	95.6%
Claude Sonnet 4	100	100	100	100	75	95.0%
Z.AI GLM 4.6	100	100	97	97	80	95.0%
Grok 4.5 (Reasoning, High)	100	100	100	95	79	94.7%
Grok 4.20	100	100	100	97	77	94.7%
DeepSeek-V2 Chat	100	100	100	86	86	94.3%
Claude Opus 4.5	100	100	100	100	71	94.2%
Claude Opus 4	100	100	100	100	65	93.0%
GPT-4o Mini (temp=0)	100	100	92	89	79	91.9%
WizardLM 2 8x22b	100	100	100	92	64	91.3%
Mistral Medium 3.1	100	100	100	100	43	88.6%
Arcee AI: Trinity Mini	100	100	100	100	42	88.4%
Mistral Large 3	100	100	100	100	38	87.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	38	87.6%
DeepSeek V3.2	100	100	100	100	33	86.7%
Gemini 2.5 Flash Lite	100	100	100	75	57	86.4%
GPT-4.1 Mini	100	100	97	71	62	85.9%
Gemma 3 12B	100	100	100	82	46	85.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	67	57	84.8%
Aion 3.0 Mini	100	100	100	92	31	84.5%
o4 Mini High	100	100	100	100	21	84.3%
Ministral 3 8B	100	100	100	65	43	81.6%
DeepSeek V3.1	100	100	100	79	29	81.5%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
Mistral Small 4	100	100	100	98	0	79.7%
Ministral 3 14B	100	100	100	67	31	79.4%
Z.AI GLM 4.5	100	100	77	53	51	76.1%
Gemma 3 4B	100	100	100	80	0	76.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	39	36	75.0%
Hermes 3 405B	100	100	100	67	0	73.3%
Gemma 3 27B	100	95	95	48	18	71.2%
GPT-4o Mini (temp=1)	100	93	93	57	0	68.7%
Hermes 3 70B	100	100	89	46	0	67.0%
MiniMax M2.5	100	89	73	39	0	60.2%
Claude Haiku 4.5	100	71	40	3	0	42.8%
Cydonia 24B V4.1	67	62	21	0	0	30.0%
GPT-4.1 Nano	40	24	0	0	0	12.7%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	98	99.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	92	98.4%
Grok 4.5 (Reasoning, High)	100	100	100	100	89	97.8%
Claude Opus 4.8 (Reasoning)	100	100	100	100	86	97.1%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	86	97.1%
Ministral 3 3B	100	100	100	100	82	96.5%
Gemini 2.5 Flash	100	100	100	100	80	96.0%
Mistral NeMO	100	100	100	100	80	96.0%
Writer: Palmyra X5	100	100	100	100	79	95.8%
Claude Sonnet 4.5	100	100	100	100	78	95.5%
MiniMax M3	100	100	100	100	75	95.0%
MiniMax M2.7	100	100	100	100	75	95.0%
Ministral 3 8B	100	100	100	100	75	95.0%
WizardLM 2 8x22b	100	100	100	97	77	94.6%
MoonshotAI: Kimi K2.6	100	100	100	100	71	94.2%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	67	93.3%
GPT-4o Mini (temp=0)	100	100	100	100	64	92.9%
Grok 4.20	100	100	100	100	64	92.7%
GPT-5 Nano	100	100	100	100	62	92.4%
MiniMax M2.5	100	100	100	85	73	91.5%
GPT-4o Mini (temp=1)	100	100	100	100	57	91.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	75	75	90.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	50	90.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	40	88.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	40	88.0%
Aion 3.0	100	100	100	100	37	87.3%
Claude Sonnet 4.6	100	100	100	100	33	86.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	33	86.7%
Qwen 3.6 27B	100	100	100	100	33	86.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	31	86.1%
Mistral Medium 3.1	100	100	100	78	52	85.9%
Z.AI GLM 4.5	100	100	100	100	29	85.7%
Hermes 3 70B	100	100	100	100	18	83.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	89	29	83.5%
Gemini 2.5 Flash (Reasoning)	100	100	89	57	57	80.6%
Grok 4.3 (Reasoning)	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Gemma 3 12B	100	100	100	100	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	95	0	78.9%
Cydonia 24B V4.1	100	100	100	89	0	77.8%
Mistral Small 4 (Reasoning)	100	100	100	46	37	76.6%
Gemini 2.5 Flash Lite	100	100	100	40	0	68.0%
Hermes 3 405B	100	100	71	57	0	65.6%
GPT-4.1 Mini	100	79	72	57	14	64.4%
GPT-4.1 Nano	71	67	0	0	0	27.5%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	99	99.7%
Grok 4.5 (Reasoning, High)	100	100	100	100	97	99.5%
Z.AI GLM 4.7	100	100	100	100	97	99.5%
Mistral Small 3.2 24B	100	100	100	100	97	99.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	95	98.9%
Qwen 3.6 35B	100	100	100	100	95	98.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	95	98.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	95	98.9%
Grok 4.20	100	100	100	100	93	98.6%
Ministral 3 14B	100	100	100	100	89	97.8%
WizardLM 2 8x22b	100	100	98	95	95	97.5%
Gemini 2.5 Flash	100	100	100	100	87	97.4%
Claude Sonnet 4.5	100	100	100	100	86	97.3%
Claude Opus 4.8 (Reasoning)	100	100	100	100	85	96.9%
Z.AI GLM 4.7 Flash	100	100	100	100	79	95.8%
o4 Mini High	100	100	100	100	78	95.5%
DeepSeek V3 (2024-12-26)	100	100	100	98	79	95.4%
DeepSeek V4 Pro	100	100	100	100	77	95.4%
Qwen 3.6 27B	100	100	100	100	75	95.0%
GPT-OSS 120B	100	100	100	100	75	95.0%
DeepSeek V3.1	100	100	100	100	75	95.0%
Mistral Large 2	100	100	100	86	82	93.6%
GPT-5 Mini	100	100	100	98	69	93.4%
MiniMax M2.5	100	100	100	100	65	93.0%
DeepSeek V3.2	100	100	100	100	60	92.1%
Claude Haiku 4.5	100	100	97	84	78	91.8%
Z.AI GLM 4.5	100	100	100	95	63	91.6%
Claude Sonnet 4	100	100	100	100	52	90.4%
Mistral Medium 3.1	100	100	100	97	55	90.2%
Gemma 3 12B	100	100	100	100	43	88.6%
Mistral Small 4 (Reasoning)	100	100	100	100	42	88.4%
Xiaomi MIMO v2.5	100	100	100	100	33	86.7%
MiniMax M2.7	100	100	100	89	44	86.6%
Ministral 3 8B	100	100	100	100	26	85.2%
ByteDance Seed 2.0 Mini	100	100	100	89	18	81.4%
GPT-4.1 Mini	100	100	97	55	50	80.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	89	13	80.3%
Arcee AI: Trinity Mini	100	100	100	100	0	80.0%
GPT-4o Mini (temp=1)	100	95	89	85	28	79.2%
Gemma 3 4B	100	100	97	57	33	77.6%
GPT-5 Nano	100	100	93	68	15	75.2%
GPT-4o, Aug. 6th (temp=0)	100	100	67	57	52	75.1%
Mistral Small 4	100	100	100	71	0	74.2%
Hermes 3 70B	100	100	100	13	0	62.5%
Gemma 3 27B	100	100	57	46	5	61.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	70	0	0	53.9%
DeepSeek-V2 Chat	100	79	62	8	0	49.8%
Llama 3.1 70B	100	75	67	0	0	48.3%
Cydonia 24B V4.1	93	33	5	0	0	26.2%
GPT-4.1 Nano	62	18	13	0	0	18.6%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	97	99.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	95	98.9%
DeepSeek V3 (2024-12-26)	100	100	100	100	95	98.9%
Gemma 3 27B	100	100	100	100	95	98.9%
WizardLM 2 8x22b	100	100	100	100	95	98.9%
Z.AI GLM 5	100	100	100	100	92	98.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	89	97.8%
Claude Opus 4	100	100	100	100	89	97.8%
o4 Mini	100	100	100	100	89	97.8%
Mistral Medium 3.1	100	100	100	100	82	96.5%
Gemini 3 Flash (Preview)	100	100	100	100	75	95.0%
Grok 4.3	100	100	100	100	75	95.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	71	94.2%
MiniMax M2.5	100	100	100	92	75	93.4%
o4 Mini High	100	100	100	100	67	93.3%
Nemotron 3 Super	100	100	100	89	75	92.8%
Claude Sonnet 4.5	100	100	100	100	62	92.4%
Grok 4.20	100	100	100	92	67	91.7%
DeepSeek V4 Flash	100	100	100	100	57	91.4%
MoonshotAI: Kimi K2.5	100	100	100	100	52	90.4%
Claude Sonnet 5 (Reasoning)	100	100	100	95	46	88.2%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	40	88.0%
Grok 4.20 (Reasoning)	100	100	100	100	33	86.7%
Z.AI GLM 4.6	100	100	100	100	33	86.7%
Llama 3.1 70B	100	100	100	100	33	86.7%
Claude Sonnet 4	100	100	100	92	33	85.0%
Hermes 3 70B	100	100	100	100	18	83.6%
Gemini 2.5 Flash	100	100	100	100	10	81.9%
Cydonia 24B V4.1	100	100	100	64	42	81.1%
DeepSeek V3.1	100	100	100	57	46	80.7%
DeepSeek-V2 Chat	100	100	100	89	14	80.6%
Claude Opus 4.8 (Reasoning)	100	100	100	100	0	80.0%
Qwen 3.6 27B	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
Claude Haiku 4.5	100	100	100	100	0	80.0%
DeepSeek V3.2	100	100	100	100	0	80.0%
DeepSeek V4 Pro	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
GPT-5 Nano	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	100	0	80.0%
Gemma 3 4B	100	100	100	100	0	80.0%
Ministral 8B	100	100	100	100	0	80.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	79	0	75.8%
GPT-4.1 Mini	100	100	100	57	18	75.1%
Gemma 3 12B	100	100	100	52	18	74.0%
Mistral Small 4	100	100	100	67	0	73.3%
Claude Sonnet 4.6 (Reasoning)	100	100	82	67	0	69.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	33	0	66.7%
GPT-4.1 Nano	100	100	100	33	0	66.7%
Aion 2.0	100	100	95	0	0	58.9%
GPT-4o, Aug. 6th (temp=1)	100	100	18	0	0	43.6%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	97	99.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	95	98.9%
Ministral 8B	100	100	100	100	95	98.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	89	97.8%
MoonshotAI: Kimi K2.6	100	100	100	100	89	97.8%
o4 Mini High	100	100	100	100	89	97.8%
GPT-4.1	100	100	100	100	89	97.8%
ByteDance Seed 2.0 Lite	100	100	100	100	89	97.8%
Claude Sonnet 4	100	100	100	100	82	96.5%
Mistral Large 3	100	100	100	100	82	96.5%
GPT-5.2	100	100	100	100	77	95.4%
Grok 4.20 (Reasoning)	100	100	100	97	79	95.2%
ByteDance Seed 1.6	100	100	100	100	75	95.0%
Qwen 3.6 Flash	100	100	100	100	75	95.0%
Gemini 2.5 Pro	100	100	100	100	75	95.0%
WizardLM 2 8x22b	100	100	100	100	75	95.0%
Mistral Small 4 (Reasoning)	100	100	100	100	67	93.3%
DeepSeek V3.2	100	100	100	89	75	92.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	57	91.4%
DeepSeek V3.1	100	100	100	100	57	91.4%
DeepSeek V4 Flash	100	100	100	100	57	91.4%
Ministral 3 14B	100	100	100	100	57	91.4%
GPT-5.4 (Reasoning, Low)	100	100	100	75	75	90.0%
Z.AI GLM 5	100	100	100	100	50	90.0%
Xiaomi MIMO v2.5	100	100	100	75	71	89.2%
GPT-4.1 Mini	100	100	100	82	57	87.9%
Mistral Medium 3.1	100	100	100	100	38	87.6%
Claude Opus 4.5	100	100	100	100	33	86.7%
Writer: Palmyra X5	100	100	100	100	33	86.7%
Gemma 3 12B	100	100	100	100	33	86.7%
Claude Haiku 4.5	100	100	89	82	57	85.7%
DeepSeek V3 (2025-03-24)	100	100	100	95	33	85.6%
GPT-5.4 (Reasoning)	100	100	100	70	57	85.3%
Claude Opus 4	100	100	100	85	40	84.9%
MiniMax M3	100	100	100	70	52	84.3%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	75	46	84.2%
GPT-5.4 Mini (Reasoning)	100	100	100	82	38	84.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	18	83.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	18	83.6%
Qwen 3.5 9B	100	100	100	75	42	83.4%
Claude Opus 4.6	100	100	78	70	64	82.2%
Z.AI GLM 5 Turbo	100	100	100	89	18	81.4%
DeepSeek V3 (2024-12-26)	100	100	100	70	33	80.6%
Qwen 3.5 122B	100	100	100	100	0	80.0%
Nemotron 3 Super	100	100	100	100	0	80.0%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
Claude Sonnet 5	100	100	100	52	46	79.6%
Grok 4.20	100	100	100	67	29	79.0%
MiniMax M2.7	100	100	100	95	0	78.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	95	0	78.9%
Grok 4.3	100	100	100	95	0	78.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	57	33	78.1%
Z.AI GLM 4.5	100	100	95	60	26	76.3%
Claude Opus 4.8 (Reasoning)	100	100	100	67	13	75.8%
GPT-5	100	100	97	80	0	75.5%
MiniMax M2.5	100	95	82	67	33	75.4%
Arcee AI: Trinity Mini	100	100	100	57	18	75.1%
Claude Sonnet 5 (Reasoning)	100	100	100	57	13	73.9%
Gemini 3.1 Pro (Preview)	100	100	100	67	0	73.3%
Mistral Small 4	100	89	86	64	26	72.9%
Claude Sonnet 4.6	100	100	100	57	0	71.4%
GPT-4o Mini (temp=1)	100	100	100	42	13	70.9%
Grok 4.3 (Reasoning)	100	100	82	67	0	69.8%
Grok 4.5 (Reasoning, High)	100	100	95	18	18	66.2%
GPT-5.1	100	100	67	55	0	64.4%
Claude Opus 4.6 (Reasoning)	100	100	71	50	0	64.2%
Z.AI GLM 4.7	100	95	64	57	0	63.1%
Hermes 3 405B	100	100	79	24	0	60.5%
Cydonia 24B V4.1	100	100	64	22	15	60.1%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	0	0	60.0%
Llama 3.1 70B	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	89	0	0	57.8%
GPT-5 Nano	100	89	42	39	0	53.9%
GPT-4.1 Nano	75	75	75	18	18	52.3%
Claude Opus 4.7	100	100	26	18	0	48.9%
Claude Sonnet 4.6 (Reasoning)	100	89	13	0	0	40.3%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	89	97.8%
Claude Opus 4	100	100	100	100	75	95.0%
Mistral Small 4 (Reasoning)	100	100	100	100	67	93.3%
GPT-5.4 Nano	100	100	100	89	62	90.2%
ByteDance Seed 1.6 Flash	100	100	100	100	46	89.2%
GPT-OSS 120B	100	100	89	89	57	87.0%
Qwen 3.6 27B	100	100	100	100	33	86.7%
GPT-4o Mini (temp=1)	100	100	100	75	57	86.4%
GPT-5 Mini	100	100	100	75	46	84.2%
Qwen 3 32B	100	100	100	75	33	81.7%
Claude Opus 4.6 (Reasoning)	100	100	100	100	0	80.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	0	80.0%
Z.AI GLM 5.1	100	100	100	100	0	80.0%
Z.AI GLM 5 Turbo	100	100	100	100	0	80.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.6	100	100	100	100	0	80.0%
Claude Sonnet 4.6	100	100	100	100	0	80.0%
MiniMax M3	100	100	100	100	0	80.0%
Gemma 4 31B (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.5	100	100	100	100	0	80.0%
Aion 3.0	100	100	100	100	0	80.0%
Gemini 2.5 Pro	100	100	100	100	0	80.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 4.7	100	100	100	100	0	80.0%
Qwen 3.5 35B	100	100	100	100	0	80.0%
o4 Mini	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
Qwen 3.5 Flash	100	100	100	100	0	80.0%
Gemini 3 Flash (Preview)	100	100	100	100	0	80.0%
Qwen 3.5 9B	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	0	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
DeepSeek V3.1	100	100	100	100	0	80.0%
Grok 4.20	100	100	100	100	0	80.0%
Z.AI GLM 4.5 Air	100	100	100	100	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	0	80.0%
GPT-4o Mini (temp=0)	100	100	100	100	0	80.0%
Gemma 3 12B	100	100	100	100	0	80.0%
Mistral Small 4	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	100	0	80.0%
GPT-4.1 Nano	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	100	89	0	77.8%
Claude Sonnet 4	100	100	100	89	0	77.8%
GPT-5.4	100	100	95	89	0	76.7%
GPT-5.2	100	100	100	75	0	75.0%
GPT-5.4 Mini	100	100	100	75	0	75.0%
Hermes 3 70B	100	100	100	33	33	73.3%
ByteDance Seed 2.0 Lite	100	100	100	57	0	71.4%
Writer: Palmyra X5	100	100	100	57	0	71.4%
GPT-5.5 (Reasoning)	100	100	100	33	18	70.3%
GPT-5	100	100	100	33	10	68.6%
Nemotron 3 Nano	100	100	100	33	0	66.7%
GPT-5.1	100	100	67	64	0	66.1%
GPT-5.4 (Reasoning)	100	95	75	46	0	63.2%
Claude Sonnet 5 (Reasoning)	100	100	100	0	0	60.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	0	0	60.0%
Claude Opus 4.7	100	100	100	0	0	60.0%
GPT-5.4 Mini (Reasoning)	100	100	100	0	0	60.0%
Claude Sonnet 4.5	100	100	100	0	0	60.0%
MiniMax M2.5	100	100	100	0	0	60.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Mini	100	100	100	0	0	60.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	0	0	60.0%
DeepSeek-V2 Chat	100	100	100	0	0	60.0%
Claude Haiku 4.5	100	100	100	0	0	60.0%
GPT-4.1 Mini	100	100	100	0	0	60.0%
GPT-5 Nano	100	100	100	0	0	60.0%
Grok 4.3	100	100	100	0	0	60.0%
Mistral Medium 3.1	100	100	95	0	0	58.9%
o4 Mini High	100	100	57	33	0	58.1%
DeepSeek V4 Pro (Reasoning)	100	100	75	0	0	55.0%
GPT-5.4 Nano (Reasoning)	100	100	75	0	0	55.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	75	0	0	55.0%
Z.AI GLM 4.7 Flash	100	100	57	0	0	51.4%
GPT-5.5	100	95	50	0	0	48.9%
GPT-5.4 (Reasoning, Low)	100	57	46	0	0	40.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	0	0	0	40.0%
Claude Opus 4.8 (Reasoning)	100	100	0	0	0	40.0%
Grok 4.20 (Reasoning)	100	100	0	0	0	40.0%
Mistral Large 3	100	100	0	0	0	40.0%
Mistral Large 2	100	100	0	0	0	40.0%
GPT-4o, Aug. 6th (temp=1)	100	100	0	0	0	40.0%
Ministral 3 14B	100	100	0	0	0	40.0%
Claude Opus 4.8 (Reasoning, Low)	100	57	0	0	0	31.4%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning)	100	100	100	100	96	99.2%
GPT-5.4	100	100	100	100	94	98.8%
Writer: Palmyra X5	100	100	100	100	91	98.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	89	97.8%
Gemma 4 31B (Reasoning)	100	100	100	100	89	97.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	89	97.8%
GPT-4.1	100	100	100	100	87	97.4%
Qwen 3.5 Flash	100	100	100	100	86	97.1%
Claude Opus 4.6 (Reasoning)	100	100	100	100	84	96.8%
DeepSeek V4 Flash	100	100	100	100	82	96.5%
Xiaomi MIMO v2.5	100	100	100	100	80	96.0%
Gemini 3 Flash (Preview)	100	100	100	95	85	95.9%
Qwen 3.5 35B	100	100	100	100	79	95.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	89	89	95.6%
Grok 4.3 (Reasoning)	100	100	100	95	82	95.4%
Qwen 3.5 27B	100	100	100	100	75	95.0%
GPT-5	100	100	100	100	73	94.6%
GPT-4o Mini (temp=0)	100	100	100	100	72	94.5%
GPT-5.4 (Reasoning)	100	100	100	100	71	94.2%
Mistral Small 4 (Reasoning)	100	100	100	87	82	93.9%
Z.AI GLM 4.6	100	100	100	100	70	93.9%
Gemini 2.5 Flash Lite	100	100	100	100	70	93.9%
Mistral Medium 3.1	100	100	100	89	80	93.8%
Claude Sonnet 4.6	100	100	100	100	69	93.8%
Qwen 3.6 35B	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	67	93.3%
Gemma 4 31B	100	100	100	89	75	92.8%
Ministral 3 8B	100	100	100	100	62	92.4%
Ministral 8B	100	100	100	100	57	91.4%
Claude Sonnet 4.5	100	100	87	85	82	90.8%
GPT-5.4 Nano	100	100	90	89	72	90.3%
Xiaomi MIMO v2.5 Pro	100	100	97	80	75	90.3%
GPT-OSS 120B	100	100	100	78	71	89.7%
Claude Opus 4.6	100	100	100	89	57	89.2%
Grok 4.5 (Reasoning, Low)	100	100	100	89	54	88.5%
Claude Opus 4.8 (Reasoning)	100	100	100	100	42	88.4%
Gemini 2.5 Flash	100	100	100	100	42	88.4%
o4 Mini High	100	100	100	80	62	88.4%
MiniMax M3	100	100	100	100	40	88.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	79	54	86.5%
Z.AI GLM 5 Turbo	100	100	100	100	31	86.2%
Z.AI GLM 4.5	100	100	100	87	44	86.2%
GPT-5.4 Mini	100	100	100	100	31	86.1%
Z.AI GLM 4.7	100	100	100	89	36	85.0%
Z.AI GLM 4.7 Flash	100	100	95	71	57	84.6%
WizardLM 2 8x22b	100	100	100	75	46	84.2%
DeepSeek V4 Pro	100	100	95	78	48	84.2%
Mistral Large 3	100	100	89	78	50	83.3%
Grok 4.20 (Reasoning)	100	91	89	79	57	83.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	75	38	82.6%
Nemotron 3 Super	100	100	80	75	52	81.4%
Grok 4.5 (Reasoning, High)	100	100	100	57	46	80.7%
Nemotron 3 Nano	100	100	95	86	22	80.5%
Gemini 2.5 Pro	100	100	100	71	30	80.2%
Qwen 3.5 397B A17B	100	100	100	100	0	80.0%
Qwen 3.6 Flash	100	100	100	100	0	80.0%
Grok 4.3	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	100	100	0	80.0%
Ministral 3B	100	100	100	100	0	80.0%
GPT-5.2	100	100	100	72	27	79.7%
MiniMax M2.5	100	100	100	95	0	78.9%
Qwen3 235B A22B Instruct 2507	100	100	89	75	29	78.5%
o4 Mini	100	100	100	62	28	77.9%
Ministral 3 3B	100	100	100	52	33	77.0%
MoonshotAI: Kimi K2.5	100	100	100	82	0	76.5%
Qwen 3.5 122B	100	100	80	54	46	76.0%
DeepSeek V3 (2024-12-26)	100	100	100	77	0	75.4%
MoonshotAI: Kimi K2.6	100	100	100	71	0	74.2%
DeepSeek V4 Flash (Reasoning)	100	100	100	71	0	74.2%
Grok 4.20	100	82	72	60	55	73.8%
GPT-5.1	100	100	80	71	14	73.2%
Gemma 4 26B	100	100	89	62	13	72.7%
Ministral 3 14B	100	90	78	55	37	72.0%
GPT-4o, Aug. 6th (temp=0)	100	89	57	55	50	70.1%
DeepSeek V3.2	100	100	80	51	18	69.8%
MiniMax M2.7	100	100	100	48	0	69.7%
GPT-5.4 Nano (Reasoning)	100	100	100	27	21	69.6%
Mistral Large 2	100	100	100	46	0	69.2%
GPT-5.4 Nano (Reasoning, Low)	100	91	71	38	33	66.6%
Qwen 3.6 27B	100	95	80	54	0	65.7%
Claude Sonnet 4	100	100	71	40	15	65.2%
Hermes 3 70B	100	100	95	29	0	64.7%
Z.AI GLM 5	100	100	75	33	14	64.5%
Claude Opus 4	92	82	75	39	33	64.3%
Gemini 3.5 Flash (Reasoning)	100	81	54	46	40	64.2%
Gemini 2.5 Flash (Reasoning)	100	100	68	50	0	63.7%
Claude Sonnet 5	100	100	75	38	0	62.6%
Z.AI GLM 5.1	100	100	100	13	0	62.5%
Z.AI GLM 4.5 Air	100	100	43	35	30	61.6%
Gemini 3.1 Pro (Preview)	100	100	100	0	0	60.0%
Gemma 4 26B (Reasoning)	100	100	67	33	0	60.0%
GPT-5 Nano	100	93	67	39	0	59.6%
Qwen 3 32B	100	100	97	0	0	59.5%
Hermes 3 405B	100	100	95	0	0	58.9%
Mistral Small 4	100	100	48	31	14	58.7%
Claude Sonnet 5 (Reasoning, Low)	100	82	54	29	13	55.4%
GPT-5 Mini	100	100	75	0	0	55.0%
Aion 2.0	71	67	65	40	31	54.7%
DeepSeek V4 Pro (Reasoning)	100	75	64	18	15	54.4%
GPT-4o Mini (temp=1)	100	89	57	25	0	54.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	46	18	8	53.0%
Gemma 3 12B	100	100	46	18	0	52.9%
Claude Haiku 4.5	100	100	50	14	0	52.8%
Gemma 3 27B	89	78	43	31	22	52.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	33	18	0	50.3%
GPT-4o, Aug. 6th (temp=1)	89	67	60	18	0	46.8%
Cydonia 24B V4.1	93	72	67	0	0	46.3%
Arcee AI: Trinity Mini	100	100	8	0	0	41.5%
Claude Opus 4.5	100	62	40	0	0	40.4%
Gemma 3 4B	100	64	28	0	0	38.2%
Claude Sonnet 5 (Reasoning)	89	85	6	0	0	36.0%
DeepSeek-V2 Chat	100	57	8	0	0	33.0%
DeepSeek V3.1	78	18	0	0	0	19.1%
GPT-4.1 Mini	33	0	0	0	0	6.7%
GPT-4.1 Nano	6	0	0	0	0	1.3%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Cydonia 24B V4.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	97	99.5%
Aion 3.0 Mini	100	100	100	100	97	99.5%
GPT-5.4 Nano	100	100	100	100	97	99.5%
Gemini 2.5 Flash	100	100	100	100	95	98.9%
GPT-4o Mini (temp=0)	100	100	100	100	95	98.9%
GPT-5.4	100	100	100	100	94	98.7%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	93	98.6%
DeepSeek V4 Flash	100	100	100	100	92	98.4%
GPT-5	100	100	100	100	89	97.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	89	97.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	86	97.1%
Gemma 3 27B	100	100	100	100	86	97.1%
Ministral 8B	100	100	100	100	82	96.5%
Claude Opus 4.7 (Reasoning)	100	100	100	97	82	96.0%
o4 Mini High	100	100	100	100	79	95.8%
Grok 4.20	100	100	100	95	82	95.4%
MiniMax M2.5	100	100	100	89	87	95.1%
Qwen 3.6 35B	100	100	100	100	75	95.0%
Gemini 2.5 Pro	100	100	100	95	79	94.7%
Claude Sonnet 4.6	100	100	100	98	75	94.7%
Claude Opus 4.7	100	100	100	100	71	94.2%
Qwen 3.5 Flash	100	100	100	100	70	93.9%
Z.AI GLM 4.7	100	100	100	95	73	93.6%
Z.AI GLM 5 Turbo	100	100	100	100	67	93.3%
Qwen 3.6 Flash	100	100	100	100	67	93.3%
Gemma 4 26B	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	100	67	93.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	64	92.7%
MoonshotAI: Kimi K2.5	100	100	100	95	67	92.3%
Z.AI GLM 5	100	100	100	87	71	91.6%
DeepSeek V3 (2024-12-26)	100	100	100	82	75	91.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	57	91.4%
ByteDance Seed 2.0 Lite	100	100	100	100	57	91.4%
Mistral Large 2	100	100	100	86	67	90.5%
Grok 4.3	100	100	100	75	75	90.0%
DeepSeek-V2 Chat	100	100	100	100	46	89.2%
Gemma 3 12B	100	100	100	100	46	89.2%
MiniMax M3	100	100	100	100	40	88.0%
GPT-5.4 Nano (Reasoning)	100	100	95	72	68	87.0%
Qwen 3.5 27B	100	100	100	100	33	86.7%
WizardLM 2 8x22b	100	100	100	100	33	86.7%
Qwen3 235B A22B Instruct 2507	100	100	100	82	50	86.5%
GPT-5 Mini	100	100	100	79	52	86.1%
Claude Sonnet 4.5	100	100	100	100	29	85.7%
GPT-5.1	100	100	100	73	54	85.3%
Gemini 2.5 Flash Lite	100	100	100	92	33	85.0%
Grok 4.5 (Reasoning, Low)	100	100	100	82	40	84.5%
Claude Opus 4.5	100	100	100	82	37	83.8%
Claude Opus 4	100	100	100	100	18	83.6%
Mistral Small 4 (Reasoning)	100	100	100	92	22	82.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	64	50	82.7%
Aion 2.0	100	100	100	100	10	81.9%
Qwen 3.5 9B	100	100	100	100	10	81.9%
Claude Opus 4.6	100	100	100	79	29	81.5%
MiniMax M2.7	100	100	100	95	8	80.5%
Xiaomi MIMO v2.5 Pro	100	100	100	69	33	80.4%
Z.AI GLM 4.5	100	100	86	70	46	80.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	0	80.0%
Aion 3.0	100	100	100	100	0	80.0%
Claude Sonnet 4	100	100	100	100	0	80.0%
Mistral Large 3	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	95	95	0	77.9%
GPT-4o Mini (temp=1)	100	100	93	82	6	76.3%
Gemini 3.1 Pro (Preview)	100	100	92	57	30	75.8%
Writer: Palmyra X5	100	100	100	79	0	75.8%
DeepSeek V3.2	100	100	79	78	13	73.8%
Claude Sonnet 5	100	100	100	67	0	73.3%
GPT-4.1	100	100	89	75	0	72.8%
Claude Opus 4.8 (Reasoning)	100	100	89	71	0	72.0%
Claude Opus 4.6 (Reasoning)	100	100	82	64	10	71.1%
Grok 4.20 (Reasoning)	100	100	86	52	0	67.5%
GPT-5 Nano	100	100	57	46	13	63.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	67	40	0	61.3%
Claude Sonnet 5 (Reasoning, Low)	100	86	62	33	0	56.2%
Hermes 3 405B	100	57	50	46	0	50.7%
Claude Sonnet 5 (Reasoning)	100	100	18	0	0	43.6%
Claude Haiku 4.5	97	67	24	0	0	37.5%
GPT-4.1 Mini	100	57	0	0	0	31.4%
GPT-4.1 Nano	82	18	0	0	0	20.1%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	97	99.5%
Qwen 3.5 122B	100	100	100	100	97	99.5%
MiniMax M2.7	100	100	100	100	97	99.5%
Qwen 2.5 72B	100	100	100	100	95	98.9%
Grok 4.3 (Reasoning)	100	100	100	100	92	98.4%
Qwen 3.6 35B	100	100	100	100	89	97.8%
Ministral 3 14B	100	100	100	100	87	97.4%
Grok 4.5 (Reasoning, High)	100	100	100	100	86	97.1%
Qwen 3.5 35B	100	100	100	100	86	97.1%
Nemotron 3 Nano	100	100	100	100	86	97.1%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	82	96.5%
Z.AI GLM 4.6	100	100	100	100	82	96.5%
Mistral Small 4	100	100	100	100	80	96.0%
Ministral 3 8B	100	100	100	100	80	95.9%
GPT-5.2	100	100	100	100	79	95.8%
Gemma 4 26B	100	100	100	100	79	95.8%
Grok 4.3	100	100	100	92	86	95.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	75	95.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	75	95.0%
Mistral Large 2	100	100	100	100	75	95.0%
Qwen 3.5 Flash	100	100	100	100	72	94.5%
GPT-5.4 Nano	100	100	100	100	72	94.5%
Ministral 3B	100	100	100	100	71	94.2%
MiniMax M2.5	100	100	100	90	80	94.1%
Qwen3 235B A22B Instruct 2507	100	100	100	100	67	93.3%
Gemma 3 12B	100	100	100	100	67	93.3%
Gemini 3.1 Pro (Preview)	100	100	95	89	82	93.2%
Z.AI GLM 5 Turbo	100	100	100	82	82	92.9%
Ministral 8B	100	100	100	98	67	92.9%
o4 Mini High	100	100	100	100	64	92.7%
Writer: Palmyra X5	100	100	100	98	64	92.5%
Cohere Command R+ (Aug. 2024)	100	100	100	100	62	92.4%
DeepSeek V4 Pro (Reasoning)	100	100	100	85	73	91.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	84	74	91.5%
Gemma 4 31B (Reasoning)	100	100	100	100	57	91.4%
GPT-4o Mini (temp=0)	100	100	100	97	60	91.2%
Grok 4.5 (Reasoning, Low)	100	100	100	100	54	90.7%
Z.AI GLM 4.7	100	100	100	93	60	90.5%
GPT-4.1	100	100	95	82	75	90.4%
MoonshotAI: Kimi K2.6	100	100	100	100	52	90.4%
Claude Opus 4.6	100	100	100	75	75	90.0%
Qwen 3.6 Flash	100	100	100	100	50	90.0%
Gemma 3 4B	100	100	100	100	50	90.0%
o4 Mini	100	100	87	82	79	89.6%
GPT-5	100	100	98	75	73	89.2%
Nemotron 3 Super	100	100	100	100	43	88.6%
ByteDance Seed 1.6	100	100	100	100	42	88.4%
WizardLM 2 8x22b	100	100	100	100	42	88.4%
DeepSeek V3 (2025-03-24)	100	100	95	75	71	88.1%
Claude Opus 4.6 (Reasoning)	100	100	100	95	44	87.7%
GPT-5.4 Nano (Reasoning)	100	100	100	93	37	86.1%
DeepSeek V3.2	100	100	100	78	50	85.5%
Z.AI GLM 5.1	100	100	100	89	36	85.0%
Gemini 2.5 Flash	100	100	100	89	33	84.4%
GPT-4o, Aug. 6th (temp=1)	100	100	95	89	33	83.4%
Gemini 2.5 Pro	100	100	100	100	13	82.5%
Qwen 3.5 9B	100	100	100	95	14	81.7%
Z.AI GLM 4.5	100	100	98	98	6	80.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	95	82	24	80.1%
GPT-5.1	100	91	82	77	50	80.1%
Grok 4.20 (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.5	100	100	100	100	0	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
Gemma 3 27B	100	100	91	60	49	79.9%
DeepSeek V3.1	100	100	100	92	0	78.4%
Mistral Small 4 (Reasoning)	100	96	78	67	51	78.2%
Claude Sonnet 5	100	100	92	75	5	74.4%
Gemini 3.5 Flash (Reasoning)	100	100	100	67	0	73.3%
ByteDance Seed 2.0 Lite	100	100	100	67	0	73.3%
Z.AI GLM 4.5 Air	100	100	87	67	6	71.8%
Qwen 3.5 Plus (2026-04-20)	100	100	100	46	0	69.2%
Hermes 3 70B	100	100	100	40	0	68.0%
Claude Sonnet 5 (Reasoning)	100	100	92	33	13	67.5%
Arcee AI: Trinity Mini	100	75	75	67	18	67.0%
Qwen 3.6 27B	100	100	70	64	0	66.6%
Qwen 3.5 Plus (2026-02-15)	100	92	64	57	18	66.2%
GPT-4o, Aug. 6th (temp=0)	100	100	48	42	33	64.8%
Grok 4.20	100	100	75	46	0	64.2%
Z.AI GLM 5	100	82	73	46	15	63.3%
Cydonia 24B V4.1	100	100	57	54	4	63.0%
Claude Sonnet 4.6	100	100	57	52	0	61.8%
Mistral Small 3.2 24B	100	100	100	0	0	60.0%
GPT-5 Mini	100	100	37	36	21	58.8%
Claude Sonnet 4.5	100	100	88	4	0	58.3%
Claude Sonnet 4	100	100	57	25	0	56.3%
Z.AI GLM 4.7 Flash	100	89	70	14	0	54.5%
MoonshotAI: Kimi K2.5	100	100	67	0	0	53.3%
DeepSeek-V2 Chat	100	72	50	41	0	52.6%
Gemini 2.5 Flash Lite	100	85	50	18	0	50.6%
GPT-4o Mini (temp=1)	100	57	46	40	0	48.7%
Llama 3.1 70B	100	82	18	0	0	40.1%
DeepSeek V3 (2024-12-26)	100	100	0	0	0	40.0%
Hermes 3 405B	100	54	42	0	0	39.2%
GPT-4.1 Mini	100	57	18	0	0	35.1%
Claude Haiku 4.5	95	50	30	0	0	34.9%
GPT-5 Nano	79	48	33	0	0	32.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	95	98.9%
Cohere Command R+ (Aug. 2024)	100	100	100	100	95	98.9%
Qwen 3.5 27B	100	100	100	100	89	97.8%
ByteDance Seed 1.6	100	100	100	100	89	97.8%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	89	97.8%
DeepSeek V3.2	100	100	100	100	89	97.8%
MiniMax M2.5	100	100	100	100	82	96.5%
Gemma 3 12B	100	100	100	100	82	96.5%
MiniMax M2.7	100	100	100	100	79	95.8%
Gemini 2.5 Pro	100	100	100	100	75	95.0%
o4 Mini	100	100	100	100	75	95.0%
ByteDance Seed 2.0 Mini	100	100	100	100	75	95.0%
Aion 3.0 Mini	100	100	100	100	75	95.0%
GPT-4o Mini (temp=1)	100	100	100	100	75	95.0%
Mistral Small 4	100	100	100	100	71	94.2%
Qwen 3 32B	100	100	100	95	75	93.9%
GPT-5.5 (Reasoning)	100	100	100	100	67	93.3%
Gemma 4 26B	100	100	100	100	67	93.3%
Claude Opus 4.6 (Reasoning)	100	100	100	100	57	91.4%
Grok 4.20 (Reasoning)	100	100	100	100	57	91.4%
MoonshotAI: Kimi K2.5	100	100	100	100	57	91.4%
GPT-OSS 120B	100	100	100	100	50	90.0%
Qwen 3.5 122B	100	100	100	100	46	89.2%
Claude Sonnet 4	100	100	100	100	46	89.2%
Mistral Large 2	100	100	100	100	46	89.2%
Z.AI GLM 4.5	100	100	100	85	57	88.4%
GPT-4.1	100	100	100	75	67	88.3%
GPT-5.4 (Reasoning)	100	100	100	100	40	88.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	33	86.7%
Grok 4.3	100	100	100	100	33	86.7%
GPT-4o Mini (temp=0)	100	100	100	100	33	86.7%
Hermes 3 70B	100	100	100	100	33	86.7%
Writer: Palmyra X5	100	100	100	92	40	86.4%
Z.AI GLM 4.7	100	100	89	75	57	84.2%
GPT-5.4 Nano	100	100	100	57	57	82.9%
Grok 4.5 (Reasoning, Low)	100	100	100	67	46	82.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	0	80.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 5 Turbo	100	100	100	100	0	80.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	0	80.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	0	80.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	0	80.0%
Claude Opus 4.7	100	100	100	100	0	80.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	0	80.0%
Qwen 3.6 27B	100	100	100	100	0	80.0%
Mistral Large 3	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
DeepSeek-V2 Chat	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	0	80.0%
Claude Haiku 4.5	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	0	80.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	0	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning)	100	100	100	95	0	78.9%
Xiaomi MIMO v2.5	100	100	100	89	0	77.8%
GPT-5.2	100	100	100	82	0	76.5%
Qwen 3.5 9B	100	100	100	82	0	76.5%
DeepSeek V3 (2024-12-26)	100	100	100	46	33	75.9%
Xiaomi MIMO v2.5 Pro	100	100	100	57	18	75.1%
Qwen 3.6 Flash	100	100	100	75	0	75.0%
Ministral 3 8B	100	100	100	75	0	75.0%
GPT-5	100	93	91	82	0	73.2%
o4 Mini High	100	100	100	57	0	71.4%
DeepSeek V3.1	100	100	100	57	0	71.4%
Arcee AI: Trinity Mini	100	100	100	57	0	71.4%
GPT-5.1	100	85	70	67	33	70.8%
Hermes 3 405B	100	100	100	46	0	69.2%
Cydonia 24B V4.1	100	100	89	50	0	67.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	33	0	66.7%
Claude Opus 4.5	100	100	54	46	24	64.7%
GPT-5.4 (Reasoning, Low)	100	100	82	40	0	64.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	18	0	63.6%
Z.AI GLM 5.1	100	100	100	0	0	60.0%
Gemma 4 31B	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Lite	100	100	100	0	0	60.0%
GPT-4.1 Mini	100	100	100	0	0	60.0%
GPT-4.1 Nano	100	100	57	0	0	51.4%
GPT-5 Mini	100	100	18	0	0	43.6%
Grok 4.20	100	89	18	0	0	41.4%
Claude Opus 4.8 (Reasoning, Low)	100	100	0	0	0	40.0%
DeepSeek V3 (2025-03-24)	100	100	0	0	0	40.0%
Claude Opus 4	79	57	18	0	0	30.8%
GPT-5 Nano	100	0	0	0	0	20.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	97	99.5%
GPT-5	100	100	100	100	97	99.3%
Gemini 2.5 Flash	100	100	100	100	95	98.9%
Z.AI GLM 5.1	100	100	100	100	93	98.7%
Xiaomi MIMO v2.5	100	100	100	100	92	98.4%
Z.AI GLM 4.6	100	100	100	100	89	97.8%
Qwen3 235B A22B Instruct 2507	100	100	100	100	86	97.1%
MiniMax M2.5	100	100	100	100	82	96.5%
Gemma 3 4B	100	100	100	100	82	96.5%
Z.AI GLM 5	100	100	100	100	82	96.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	52	90.4%
DeepSeek V3.1	100	100	100	100	52	90.4%
DeepSeek V3 (2024-12-26)	100	100	100	100	46	89.2%
WizardLM 2 8x22b	100	100	100	100	46	89.2%
Arcee AI: Trinity Mini	100	100	100	89	52	88.1%
Z.AI GLM 4.5 Air	100	100	100	100	39	87.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	38	87.6%
DeepSeek V3 (2025-03-24)	100	100	100	100	33	86.7%
GPT-4o, Aug. 6th (temp=1)	100	100	82	82	67	86.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	89	33	84.4%
Claude Opus 4	100	100	100	100	18	83.6%
GPT-4.1 Mini	100	100	100	100	13	82.5%
Mistral Small 4	100	100	100	82	30	82.4%
GPT-4o Mini (temp=1)	100	100	100	80	24	80.7%
ByteDance Seed 1.6	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	95	0	78.9%
DeepSeek-V2 Chat	100	100	100	92	0	78.4%
Claude Haiku 4.5	100	100	89	67	0	71.1%
GPT-4.1 Nano	100	89	89	0	0	55.6%
Claude Sonnet 4.6	100	100	18	0	0	43.6%
GPT-5 Nano	100	62	29	0	0	38.3%
Hermes 3 70B	100	26	0	0	0	25.2%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	89	97.8%
Mistral Small 4	100	100	100	100	89	97.8%
Gemma 3 4B	100	100	100	100	89	97.8%
Z.AI GLM 5.1	100	100	100	100	82	96.5%
GPT-OSS 120B	100	100	100	100	75	95.0%
Aion 3.0 Mini	100	100	100	100	75	95.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	75	95.0%
Nemotron 3 Super	100	100	100	100	75	95.0%
GPT-4.1 Mini	100	100	100	100	75	95.0%
Z.AI GLM 4.5 Air	100	100	100	100	75	95.0%
GPT-5.2	100	100	100	100	57	91.4%
Claude Opus 4	100	100	100	100	57	91.4%
MiniMax M2.5	100	100	100	100	57	91.4%
Claude Opus 4.8 (Reasoning)	100	100	100	100	46	89.2%
Gemma 3 27B	100	100	100	100	46	89.2%
Qwen 3.5 122B	100	100	100	100	33	86.7%
Claude Sonnet 4.5	100	100	100	100	33	86.7%
Mistral Small 4 (Reasoning)	100	100	100	100	33	86.7%
Nemotron 3 Nano	100	100	100	100	33	86.7%
Grok 4.20	100	100	100	75	57	86.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	18	83.6%
GPT-4o Mini (temp=1)	100	100	100	89	18	81.4%
Qwen3.7 Max	100	100	100	100	0	80.0%
MoonshotAI: Kimi K2.6	100	100	100	100	0	80.0%
Claude Sonnet 4.6	100	100	100	100	0	80.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	100	100	0	80.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	0	80.0%
o4 Mini High	100	100	100	100	0	80.0%
Z.AI GLM 4.7	100	100	100	100	0	80.0%
Claude Sonnet 4	100	100	100	100	0	80.0%
Claude Sonnet 5	100	100	100	100	0	80.0%
GPT-4.1	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
DeepSeek-V2 Chat	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Z.AI GLM 4.7 Flash	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite	100	100	100	100	0	80.0%
Writer: Palmyra X5	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	100	100	0	80.0%
GPT-4.1 Nano	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	100	0	80.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	75	0	75.0%
Mistral Large 2	100	100	100	57	0	71.4%
Cohere Command R+ (Aug. 2024)	100	100	100	57	0	71.4%
Claude Sonnet 5 (Reasoning)	100	100	100	0	0	60.0%
Claude Opus 4.7	100	100	100	0	0	60.0%
Ministral 3 14B	100	100	100	0	0	60.0%
Hermes 3 70B	100	100	46	33	0	55.9%
Claude Opus 4.7 (Reasoning)	100	100	57	0	0	51.4%
Mistral Large 3	100	100	0	0	0	40.0%
GPT-5 Nano	100	0	0	0	0	20.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	98	99.7%
GPT-5 Mini	100	100	100	100	97	99.4%
DeepSeek V3.2	100	100	100	100	95	98.9%
DeepSeek-V2 Chat	100	100	100	98	95	98.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	92	98.4%
Claude Sonnet 4.6	100	100	100	100	91	98.2%
Qwen3 235B A22B Instruct 2507	100	100	100	100	86	97.1%
Claude Sonnet 5 (Reasoning)	100	100	100	100	82	96.5%
Qwen 3 32B	100	100	100	100	82	96.5%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	79	95.8%
Mistral Large 2	100	100	100	100	75	95.0%
GPT-5 Nano	100	100	100	100	75	95.0%
Xiaomi MIMO v2.5	100	100	100	100	61	92.2%
Gemma 3 4B	100	100	89	86	82	91.4%
Z.AI GLM 5	100	100	100	77	73	90.0%
Gemini 2.5 Pro	100	100	100	97	52	89.9%
Z.AI GLM 4.5	100	100	100	100	49	89.8%
Mistral Small 4 (Reasoning)	100	100	100	93	52	88.9%
Aion 3.0 Mini	100	100	100	100	42	88.4%
GPT-4o Mini (temp=1)	100	100	97	93	48	87.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	30	86.0%
Claude Sonnet 4	100	100	100	64	57	84.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	18	83.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	14	82.8%
Z.AI GLM 4.7 Flash	100	97	92	75	46	82.1%
Claude Opus 4	100	100	100	97	13	82.0%
Gemini 2.5 Flash Lite	100	100	92	57	50	79.8%
DeepSeek V3.1	100	100	100	72	26	79.7%
Llama 3.1 70B	100	100	100	89	0	77.8%
Ministral 3B	100	100	100	62	26	77.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	42	33	75.1%
Mistral Small 3.2 24B	100	100	100	67	0	73.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	97	50	18	72.9%
MiniMax M2.7	100	100	67	55	41	72.6%
Ministral 3 8B	100	100	92	71	0	72.6%
Hermes 3 405B	100	100	100	62	0	72.4%
Mistral NeMO	100	100	100	33	26	71.9%
DeepSeek V3 (2025-03-24)	100	100	100	40	0	68.0%
Gemini 2.5 Flash (Reasoning)	100	100	85	52	0	67.3%
Grok 4.20	100	78	75	57	0	61.9%
Z.AI GLM 4.5 Air	100	100	82	21	0	60.8%
Gemini 2.5 Flash	95	75	67	64	0	60.0%
Hermes 3 70B	100	100	97	0	0	59.5%
MiniMax M2.5	93	67	63	62	8	58.5%
DeepSeek V3 (2024-12-26)	100	91	62	22	0	55.0%
Arcee AI: Trinity Mini	100	62	42	33	0	47.5%
GPT-4o Mini (temp=0)	100	80	18	18	10	45.1%
Claude Haiku 4.5	100	64	43	0	0	41.4%
Gemma 3 12B	100	43	21	21	0	37.2%
GPT-4.1 Mini	82	54	43	5	0	36.8%
Cydonia 24B V4.1	100	48	4	0	0	30.5%
GPT-4.1 Nano	100	42	0	0	0	28.4%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	99	99.7%
Grok 4.5 (Reasoning, High)	100	100	100	100	95	98.9%
Claude Opus 4.8 (Reasoning)	100	100	100	100	95	98.9%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	95	98.9%
GPT-5 Mini	100	100	100	100	95	98.9%
GPT-4.1 Mini	100	100	100	97	95	98.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	92	98.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	89	97.8%
Mistral Small 4	100	100	100	100	89	97.8%
Aion 3.0 Mini	100	100	100	100	87	97.4%
Gemini 2.5 Flash Lite	100	100	100	100	82	96.5%
Arcee AI: Trinity Mini	100	100	100	100	82	96.5%
Xiaomi MIMO v2.5	100	100	100	100	80	96.0%
Gemini 2.5 Flash	100	100	100	100	80	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	79	95.8%
Claude Opus 4.5	100	100	100	100	75	95.0%
DeepSeek-V2 Chat	100	100	100	97	75	94.5%
Gemma 3 4B	100	100	100	97	72	94.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	67	93.3%
MiniMax M3	100	100	100	100	67	93.3%
MiniMax M2.5	100	100	100	100	67	93.3%
Aion 3.0	100	100	100	100	64	92.9%
Gemini 2.5 Pro	100	100	100	100	62	92.4%
Claude Sonnet 5	100	100	100	100	62	92.4%
WizardLM 2 8x22b	100	100	100	87	71	91.6%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	57	91.4%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	57	91.4%
Z.AI GLM 4.6	100	100	100	86	62	89.6%
Gemini 3.1 Pro (Preview)	100	100	100	79	67	89.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	40	88.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	40	88.0%
Qwen3.7 Max	100	100	100	86	49	87.0%
Claude Sonnet 4.5	100	100	100	100	21	84.3%
DeepSeek V4 Flash	100	100	100	100	15	83.0%
GPT-4.1 Nano	100	100	89	89	29	81.3%
ByteDance Seed 1.6	100	100	100	100	0	80.0%
MiniMax M2.7	100	100	100	100	0	80.0%
Grok 4.20	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Cydonia 24B V4.1	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	95	67	33	78.9%
GPT-5 Nano	100	100	75	65	52	78.3%
Gemma 3 27B	100	100	95	42	5	68.3%
Ministral 3B	100	100	82	18	0	60.1%
Claude Haiku 4.5	100	100	67	26	0	58.6%
Hermes 3 70B	100	100	0	0	0	40.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	98	99.7%
Grok 4.20	100	100	100	100	97	99.5%
Qwen 3.5 35B	100	100	100	100	97	99.4%
MoonshotAI: Kimi K2.5	100	100	100	100	95	98.9%
Claude Sonnet 4.6	100	100	100	100	95	98.9%
MiniMax M3	100	100	100	100	93	98.6%
Mistral Small 4	100	100	100	100	93	98.6%
DeepSeek V3.1	100	100	100	100	92	98.4%
Mistral Large 2	100	100	100	100	92	98.4%
Z.AI GLM 4.5 Air	100	100	100	100	91	98.2%
Grok 4.5 (Reasoning, High)	100	100	100	100	89	97.8%
Writer: Palmyra X5	100	100	100	100	89	97.8%
Gemma 3 4B	100	100	100	100	89	97.8%
Aion 3.0 Mini	100	100	100	100	87	97.4%
Ministral 8B	100	100	100	100	86	97.1%
Claude Opus 4	100	100	100	100	85	97.0%
GPT-4o Mini (temp=1)	100	100	100	97	85	96.2%
Claude Haiku 4.5	100	100	100	100	80	96.0%
o4 Mini High	100	100	100	100	75	95.0%
GPT-5 Nano	100	100	100	100	73	94.6%
DeepSeek-V2 Chat	100	100	100	100	70	94.0%
o4 Mini	100	100	100	100	54	90.7%
Z.AI GLM 4.7 Flash	100	100	100	81	71	90.3%
Mistral Small 4 (Reasoning)	100	100	100	93	49	88.5%
Ministral 3 3B	100	100	100	100	40	88.0%
Z.AI GLM 4.5	100	100	100	100	31	86.1%
Gemini 2.5 Flash	100	100	100	100	30	86.0%
GPT-5 Mini	100	100	90	70	68	85.7%
Cohere Command R+ (Aug. 2024)	100	100	100	75	52	85.4%
Qwen 3.6 27B	100	100	100	61	60	84.2%
MiniMax M2.7	100	100	82	65	60	81.4%
Gemma 3 27B	100	100	100	87	18	81.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
MiniMax M2.5	100	100	100	57	39	79.2%
Z.AI GLM 5	100	100	100	57	36	78.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	71	18	77.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	46	40	77.2%
GPT-4.1 Mini	100	100	100	52	29	76.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	75	0	75.0%
Claude Opus 4.5	100	100	100	38	25	72.6%
Hermes 3 405B	100	100	100	52	0	70.4%
Gemini 2.5 Flash Lite	100	100	75	57	10	68.3%
Qwen 3 32B	100	100	100	33	0	66.7%
Claude Sonnet 4	100	100	100	18	0	63.6%
Gemma 3 12B	100	100	43	33	0	55.3%
GPT-4.1 Nano	100	79	71	0	0	50.0%
Cydonia 24B V4.1	100	75	68	6	0	49.9%
Arcee AI: Trinity Mini	100	89	40	0	0	45.8%
Hermes 3 70B	100	57	46	0	0	40.7%
Llama 3.1 70B	75	57	18	18	0	33.7%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	97	99.5%
Claude Opus 4.6	100	100	100	100	95	98.9%
DeepSeek V3 (2024-12-26)	100	100	100	100	95	98.9%
Z.AI GLM 4.5 Air	100	100	100	100	95	98.9%
Z.AI GLM 4.5	100	100	100	100	92	98.4%
o4 Mini	100	100	100	100	82	96.5%
Grok 4.20	100	100	100	100	82	96.5%
MiniMax M2.5	100	100	100	100	79	95.8%
GPT-4.1	100	100	100	100	75	95.0%
ByteDance Seed 2.0 Mini	100	100	100	100	75	95.0%
Claude Haiku 4.5	100	100	100	100	75	95.0%
Mistral NeMO	100	100	100	100	75	95.0%
MoonshotAI: Kimi K2.6	100	100	100	100	67	93.3%
Claude Sonnet 5	100	100	100	100	67	93.3%
WizardLM 2 8x22b	100	100	100	89	70	91.7%
Aion 3.0 Mini	100	100	100	100	57	91.4%
Qwen3 235B A22B Instruct 2507	100	100	100	89	67	91.1%
DeepSeek-V2 Chat	100	100	100	100	46	89.2%
Cydonia 24B V4.1	100	100	100	89	54	88.5%
Z.AI GLM 5.1	100	100	100	100	40	88.0%
MoonshotAI: Kimi K2.5	100	100	100	100	33	86.7%
DeepSeek V4 Flash (Reasoning)	100	100	100	82	46	85.7%
Claude Sonnet 5 (Reasoning)	100	100	100	75	46	84.2%
Grok 4.20 (Reasoning)	100	100	100	100	18	83.6%
Gemma 3 27B	100	100	100	95	10	80.9%
Z.AI GLM 4.7	100	100	100	57	46	80.7%
MiniMax M3	100	100	100	100	0	80.0%
Claude Opus 4.7	100	100	100	100	0	80.0%
Claude Opus 4.5	100	100	100	100	0	80.0%
Z.AI GLM 4.6	100	100	100	100	0	80.0%
Claude Sonnet 4	100	100	100	100	0	80.0%
Aion 2.0	100	100	100	100	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
DeepSeek V3.1	100	100	100	100	0	80.0%
DeepSeek V3.2	100	100	100	100	0	80.0%
Z.AI GLM 4.7 Flash	100	100	100	100	0	80.0%
Mistral Medium 3.1	100	100	100	100	0	80.0%
Gemma 3 12B	100	100	100	100	0	80.0%
Mistral Small 4	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	100	89	0	77.8%
Claude Sonnet 4.6 (Reasoning)	100	100	100	67	18	77.0%
GPT-4.1 Mini	100	100	100	67	0	73.3%
GPT-4o Mini (temp=1)	100	100	100	67	0	73.3%
GPT-5 Nano	100	100	79	50	33	72.4%
Hermes 3 70B	100	100	100	38	18	71.2%
DeepSeek V3 (2025-03-24)	100	100	100	33	0	66.7%
GPT-4.1 Nano	100	100	75	57	0	66.4%
Hermes 3 405B	100	100	100	0	0	60.0%

Adverbs in dialogue tags

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets