Narrator intent-glossing

Test: Bad Writing Habits

Avg. Score

70.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Grok 4.1 Fast	97.8%	$0.0018	37.8s	81%
2	o4 Mini	92.2%	$0.015	25.7s	68%
3	Qwen 3.6 Flash	93.1%	$0.010	41.4s	65%
4	Qwen 3.6 35B	93.7%	$0.0083	1.0m	63%
5	Qwen 3.5 Plus (2026-04-20)	95.1%	$0.017	1.8m	71%
6	GPT-5.4 Mini (Reasoning, Low)	87.7%	$0.015	16.8s	56%
7	o4 Mini High	92.9%	$0.025	47.2s	62%
8	Grok 4.3	87.3%	$0.0069	30.5s	55%
9	GPT-5.4 Mini	86.0%	$0.015	16.8s	56%
10	Qwen 3.5 9B	88.7%	$0.0011	1.4m	57%
11	DeepSeek V3 (2025-03-24)	85.8%	$0.0014	39.4s	50%
12	Hermes 3 405B	89.5%	$0.0032	53.2s	50%
13	ByteDance Seed 1.6 Flash	84.2%	$0.0013	27.3s	48%
14	GPT-5.4 (Reasoning, Low)	93.1%	$0.055	1.4m	72%
15	Mistral Small Creative	81.1%	$0.0007	9.1s	45%
16	Qwen 3.5 Flash	85.5%	$0.0025	47.5s	49%
17	Qwen3 235B A22B Instruct 2507	87.0%	$0.0011	59.2s	47%
18	GPT-5.4 Mini (Reasoning)	84.4%	$0.022	28.1s	51%
19	Claude 3 Haiku	83.6%	$0.0025	14.9s	41%
20	GPT-5.4	92.0%	$0.049	1.4m	67%
21	Qwen 3.6 27B	93.5%	$0.025	2.3m	65%
22	Rocinante 12B	85.5%	$0.0014	38.4s	41%
23	Mistral NeMO	81.9%	$0.0005	10.1s	36%
24	Writer: Palmyra X5	84.3%	$0.011	22.0s	41%
25	Mistral Medium 3.1	83.0%	$0.0048	36.5s	42%
26	Mistral Small 4	79.1%	$0.0014	18.2s	38%
27	Qwen3.6 Max Preview	96.4%	$0.050	3.5m	82%
28	Mistral Large	80.7%	$0.014	30.9s	42%
29	Qwen 3 32B	80.7%	$0.0015	54.6s	42%
30	Qwen 3.5 27B	86.5%	$0.020	1.6m	52%
31	Grok 4 Fast	77.9%	$0.0017	24.1s	37%
32	Grok 4.20 (Reasoning)	85.4%	$0.018	1.5m	49%
33	Qwen 3.5 35B	82.4%	$0.018	1.0m	45%
34	GPT-5.4 (Reasoning)	96.0%	$0.089	2.6m	81%
35	Ministral 3 14B	75.1%	$0.0007	11.7s	33%
36	Gemini 3.5 Flash (Reasoning, Minimal)	78.8%	$0.018	12.0s	35%
37	Qwen 2.5 72B	77.4%	$0.0010	36.7s	34%
38	Gemini 3.5 Flash (Reasoning)	88.7%	$0.071	37.6s	51%
39	Qwen3.7 Max	94.0%	$0.068	2.3m	67%
40	GPT-4.1	79.6%	$0.018	44.7s	40%
41	GPT-5.5	98.0%	$0.139	1.7m	84%
42	Qwen 3.5 397B A17B	89.1%	$0.014	3.0m	58%
43	Qwen 3.5 122B	83.1%	$0.025	1.1m	43%
44	LFM2 24B	75.6%	$0.0002	28.4s	32%
45	Gemini 3.1 Pro (Preview)	95.7%	$0.107	1.8m	72%
46	Hermes 3 70B	80.5%	$0.0010	1.2m	36%
47	DeepSeek V3 (2024-12-26)	78.1%	$0.0021	54.6s	35%
48	DeepSeek-V2 Chat	78.1%	$0.0021	53.3s	34%
49	GPT-4o, May 13th (temp=0)	81.6%	$0.035	14.1s	36%
50	DeepSeek V4 Flash (Reasoning)	75.1%	$0.0007	31.1s	30%
51	Mistral Large 3	74.6%	$0.0033	30.3s	31%
52	GPT-5.5 (Reasoning)	96.7%	$0.142	1.8m	82%
53	GPT-4o Mini (temp=1)	74.4%	$0.0012	34.8s	31%
54	Xiaomi MIMO v2.5 Pro	76.6%	$0.0085	53.5s	35%
55	GPT-4o Mini (temp=0)	73.6%	$0.0012	34.8s	30%
56	Grok 4.3 (Reasoning)	86.8%	$0.021	2.3m	48%
57	Stealth: Hunter Alpha	74.0%	$0.0000	55.0s	32%
58	Ministral 3 3B	70.8%	$0.0005	11.1s	24%
59	GPT-5.5 (Reasoning, Low)	96.1%	$0.139	1.8m	76%
60	Ministral 3B	70.2%	$0.0001	8.1s	22%
61	ByteDance Seed 2.0 Lite	83.7%	$0.012	2.2m	40%
62	Mistral Large 2	72.3%	$0.013	29.4s	28%
63	Grok 4.20 (Beta)	69.0%	$0.018	15.8s	30%
64	Ministral 3 8B	70.1%	$0.0008	19.6s	21%
65	DeepSeek V4 Flash	68.3%	$0.0006	31.6s	24%
66	Mistral Small 4 (Reasoning)	68.6%	$0.0022	30.2s	24%
67	DeepSeek V3.2	75.5%	$0.0014	1.9m	34%
68	Gemma 3 12B	68.9%	$0.0004	41.3s	24%
69	Stealth: Healer Alpha	66.8%	$0.0000	23.7s	21%
70	Gemini 3.1 Flash Lite (Preview)	64.5%	$0.0030	8.4s	20%
71	GPT-4o, Aug. 6th (temp=0)	72.1%	$0.023	22.7s	24%
72	Gemini 3.1 Flash Lite	65.9%	$0.0030	12.1s	20%
73	DeepSeek V4 Pro	71.9%	$0.0048	1.3m	29%
74	Qwen 3.5 Plus (2026-02-15)	67.8%	$0.0060	31.5s	23%
75	Grok 4.20	68.1%	$0.0093	45.7s	27%
76	GPT-4o, May 13th (temp=1)	71.3%	$0.033	14.4s	27%
77	Ministral 8B	65.4%	$0.0004	10.4s	18%
78	Xiaomi MIMO v2.5	67.5%	$0.0054	31.8s	22%
79	Z.AI GLM 4.7	72.6%	$0.010	1.4m	31%
80	Arcee AI: Trinity Mini	66.2%	$0.0003	9.2s	16%
81	Gemma 3 27B	68.7%	$0.0006	52.6s	23%
82	MoonshotAI: Kimi K2.5	83.0%	$0.019	3.2m	46%
83	Gemini 2.5 Pro	72.1%	$0.036	36.2s	29%
84	Cohere Command R+ (Aug. 2024)	74.2%	$0.020	52.5s	24%
85	Grok 4.20 (Beta, Reasoning)	72.3%	$0.039	34.0s	29%
86	Gemini 3.1 Flash Lite (Reasoning)	63.2%	$0.0030	11.9s	18%
87	GPT-5.1	79.5%	$0.054	1.8m	41%
88	Gemma 3 4B	63.6%	$0.0002	20.0s	16%
89	Gemini 3 Flash (Preview)	61.1%	$0.0078	19.6s	21%
90	Aion 2.0	69.0%	$0.0064	1.3m	25%
91	GPT-4.1 Mini	63.3%	$0.0027	19.0s	15%
92	Z.AI GLM 4.7 Flash	66.1%	$0.0017	1.2m	23%
93	Gemini 2.5 Flash	58.5%	$0.0052	10.6s	18%
94	Gemini 3 Pro (Preview)	74.2%	$0.055	54.4s	32%
95	Claude Sonnet 4.6	69.8%	$0.031	39.3s	23%
96	ByteDance Seed 1.6	76.7%	$0.013	2.5m	33%
97	Z.AI GLM 5	66.0%	$0.0084	1.2m	22%
98	GPT-4o, Aug. 6th (temp=1)	64.3%	$0.018	24.4s	17%
99	Claude Opus 4.7 (Reasoning)	75.3%	$0.076	32.0s	30%
100	Claude Opus 4.7	72.8%	$0.069	30.4s	28%
101	Z.AI GLM 4.5	61.9%	$0.0051	42.1s	14%
102	Claude Sonnet 4.5	65.3%	$0.035	38.1s	21%
103	Llama 3.1 70B	59.0%	$0.0015	29.4s	12%
104	Z.AI GLM 5 Turbo	58.3%	$0.0081	33.2s	14%
105	GPT-4.1 Nano	53.9%	$0.0007	13.3s	11%
106	Arcee AI: Trinity Large (Preview)	58.1%	$0.0000	43.6s	12%
107	WizardLM 2 8x22b	66.7%	$0.0026	1.8m	19%
108	Z.AI GLM 5.1	65.2%	$0.014	1.5m	20%
109	Z.AI GLM 4.6	58.5%	$0.0065	51.5s	14%
110	DeepSeek V3.1	63.6%	$0.0020	1.8m	19%
111	Z.AI GLM 4.5 Air	59.6%	$0.0029	58.2s	12%
112	Grok 4	71.9%	$0.048	1.7m	26%
113	Gemini 2.5 Flash (Reasoning)	51.1%	$0.011	21.5s	13%
114	Gemini 2.5 Flash Lite	48.0%	$0.0009	9.5s	9%
115	DeepSeek V4 Pro (Reasoning)	72.7%	$0.015	3.1m	28%
116	GPT-5.4 Nano (Reasoning, Low)	45.1%	$0.0055	20.6s	15%
117	Gemini 3 Flash (Preview, Reasoning)	51.7%	$0.012	30.1s	12%
118	Llama 3.1 Nemotron 70B	48.9%	$0.0038	31.7s	10%
119	Claude Opus 4.6	68.8%	$0.078	1.2m	29%
120	MiniMax M2.5	56.4%	$0.0034	1.3m	11%
121	Claude 3.7 Sonnet	61.0%	$0.042	46.7s	16%
122	GPT-5.4 Nano (Reasoning)	44.3%	$0.0061	24.5s	12%
123	MiniMax M2.7	53.9%	$0.0040	1.1m	10%
124	GPT-5.4 Nano	42.2%	$0.0057	26.3s	12%
125	Claude Opus 4.6 (Reasoning)	73.0%	$0.088	1.4m	27%
126	Claude 3.5 Sonnet	61.1%	$0.048	35.5s	13%
127	ByteDance Seed 2.0 Mini	79.3%	$0.0045	4.9m	34%
128	Llama 3.1 8B	53.1%	$0.0003	1.3m	9%
129	Gemma 4 31B (Reasoning)	57.2%	$0.0014	2.2m	16%
130	Inception Mercury	50.1%	$0.011	17.6s	2%
131	Gemma 4 31B	52.1%	$0.0010	1.6m	13%
132	Gemma 4 26B	47.1%	$0.0009	55.1s	8%
133	Claude Haiku 4.5	45.5%	$0.011	21.6s	7%
134	Claude Sonnet 4.6 (Reasoning)	64.8%	$0.060	1.2m	17%
135	Claude Sonnet 4	54.4%	$0.032	43.7s	9%
136	GPT-5	72.2%	$0.065	2.8m	32%
137	Gemini 2.5 Flash Lite (Reasoning)	36.8%	$0.0028	30.8s	7%
138	GPT-5 Mini	39.3%	$0.0100	57.4s	8%
139	Gemma 4 26B (Reasoning)	49.8%	$0.0013	2.0m	8%
140	Inception Mercury 2	32.3%	$0.0032	7.0s	1%
141	Mistral Small 3.2 24B	80.0%	$0.0069	5.7m	27%
142	Stealth: Aurora Alpha	29.3%	$0.0000	9.8s	0%
143	GPT-5.2	54.6%	$0.056	1.5m	15%
144	Claude Opus 4.5	52.8%	$0.070	53.4s	11%
145	MoonshotAI: Kimi K2.6	86.5%	$0.058	6.5m	47%
146	Nemotron 3 Super	32.9%	$0.0000	1.4m	5%
147	GPT-OSS 120B	31.9%	$0.0015	1.8m	5%
148	Nemotron 3 Nano	15.6%	$0.0010	1.1m	0%
149	Claude Opus 4	71.2%	$0.209	1.4m	29%
150	GPT-5 Nano	10.4%	$0.0042	1.4m	0%
70.71%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	97	99.5%
GPT-5.5	100	100	100	100	97	99.4%
Grok 4.1 Fast	100	100	100	100	90	98.0%
Hermes 3 405B	100	100	100	94	93	97.5%
Grok 4.3	100	100	100	100	87	97.3%
Grok 4.3 (Reasoning)	100	100	100	99	83	96.5%
DeepSeek V3.2	100	100	100	100	75	95.1%
MoonshotAI: Kimi K2.6	100	100	100	93	81	94.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	72	94.4%
Claude 3 Haiku	100	100	100	97	73	94.0%
GPT-5.1	100	100	100	100	56	91.1%
Qwen 3.5 Flash	100	100	100	96	60	91.1%
Qwen 3.5 27B	100	100	100	100	54	90.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	53	90.6%
Qwen 3.5 122B	100	100	100	100	53	90.5%
Qwen 3 32B	100	100	100	76	73	89.8%
Grok 4.20 (Reasoning)	100	100	97	85	65	89.5%
Claude Opus 4.6	100	100	85	82	79	89.0%
GPT-5.4	100	100	100	85	57	88.4%
Qwen3 235B A22B Instruct 2507	100	100	100	71	68	87.7%
GPT-5.5 (Reasoning, Low)	100	100	100	99	37	87.3%
Grok 4 Fast	100	100	92	84	60	87.1%
GPT-5.4 (Reasoning, Low)	100	90	88	82	75	86.8%
Qwen 3.5 9B	100	100	98	88	48	86.7%
Gemini 3.1 Pro (Preview)	100	100	100	93	36	85.8%
Qwen3.7 Max	100	100	100	79	50	85.7%
MoonshotAI: Kimi K2.5	100	100	98	64	62	84.8%
Gemini 3.5 Flash (Reasoning)	100	100	100	73	49	84.3%
o4 Mini	100	100	100	78	44	84.3%
Qwen 3.5 397B A17B	100	93	90	79	59	84.3%
Mistral Small 4	100	100	93	82	36	82.4%
GPT-4.1 Mini	100	100	100	71	38	81.7%
Mistral Large	100	100	100	75	28	80.6%
Qwen 3.5 35B	100	100	98	75	29	80.5%
Ministral 3 14B	100	100	93	84	25	80.5%
GPT-5.4 Mini (Reasoning)	100	100	95	85	21	80.3%
GPT-4o Mini (temp=1)	100	100	100	74	27	80.3%
DeepSeek V4 Pro	100	100	78	62	61	80.1%
Claude Sonnet 4.6 (Reasoning)	100	100	100	62	38	80.1%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	93	67	36	79.2%
GPT-4.1	100	90	89	89	25	78.7%
Qwen 3.6 27B	100	100	100	61	28	77.8%
ByteDance Seed 2.0 Mini	100	100	100	81	3	76.7%
Mistral Small Creative	100	100	89	57	29	75.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	54	18	74.5%
GPT-5.4 Mini	100	98	79	47	46	74.0%
Mistral NeMO	100	100	98	68	0	73.2%
Aion 2.0	100	85	82	73	11	70.2%
Claude Opus 4.7 (Reasoning)	100	100	100	50	0	70.0%
Gemini 3 Pro (Preview)	100	83	73	68	25	69.9%
Grok 4.20 (Beta, Reasoning)	100	100	90	46	0	67.3%
ByteDance Seed 1.6	100	89	64	41	36	66.1%
Arcee AI: Trinity Mini	100	100	76	54	0	66.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	75	52	3	66.1%
Stealth: Hunter Alpha	100	78	71	68	13	65.8%
Grok 4.20 (Beta)	100	73	59	59	38	65.6%
Mistral Large 2	100	96	72	50	8	65.2%
ByteDance Seed 2.0 Lite	100	99	67	41	18	65.1%
Qwen 2.5 72B	100	71	67	44	38	64.0%
ByteDance Seed 1.6 Flash	100	100	51	47	22	64.0%
Claude Sonnet 4.5	100	100	90	23	0	62.5%
Gemini 3.1 Flash Lite (Preview)	100	76	69	67	0	62.5%
Writer: Palmyra X5	100	100	100	8	0	61.7%
Claude Opus 4.6 (Reasoning)	100	100	64	43	0	61.3%
Claude Opus 4.7	100	94	64	31	11	60.1%
Ministral 3B	100	100	100	0	0	60.0%
GPT-4o, May 13th (temp=1)	100	79	43	41	36	59.8%
Z.AI GLM 4.6	100	85	64	47	0	59.2%
Claude 3.5 Sonnet	100	93	84	18	0	59.2%
GPT-5	85	84	80	42	0	58.3%
Claude Opus 4.5	100	74	61	53	1	57.7%
Cohere Command R+ (Aug. 2024)	100	93	86	0	0	55.8%
Z.AI GLM 5.1	100	88	67	18	0	54.7%
LFM2 24B	100	73	50	46	0	53.8%
Gemini 3 Flash (Preview)	90	76	54	46	0	53.2%
Gemma 3 27B	76	75	69	36	3	52.1%
Grok 4	100	100	59	0	0	51.8%
Mistral Medium 3.1	100	68	55	27	0	49.8%
Gemini 2.5 Pro	100	70	41	33	0	48.9%
Gemma 4 26B (Reasoning)	100	100	33	11	0	48.8%
Gemini 2.5 Flash	69	69	40	36	27	48.5%
Qwen 3.5 Plus (2026-02-15)	100	93	42	6	0	48.3%
Z.AI GLM 4.7	100	100	36	0	0	47.3%
DeepSeek V4 Pro (Reasoning)	100	50	46	38	0	46.8%
Xiaomi MIMO v2.5 Pro	94	92	47	0	0	46.6%
DeepSeek-V2 Chat	100	100	31	0	0	46.2%
Mistral Large 3	100	77	48	0	0	45.0%
GPT-4o, Aug. 6th (temp=1)	100	71	48	3	0	44.3%
DeepSeek V3.1	90	88	43	0	0	44.0%
MiniMax M2.7	100	100	16	0	0	43.2%
GPT-4o, May 13th (temp=0)	100	100	10	0	0	42.1%
Gemma 4 31B (Reasoning)	100	59	46	0	0	41.0%
Z.AI GLM 5	100	52	50	3	0	41.0%
Ministral 8B	100	100	0	0	0	40.0%
Gemini 3 Flash (Preview, Reasoning)	86	57	55	0	0	39.5%
Gemini 3.1 Flash Lite (Reasoning)	100	61	18	16	0	39.0%
DeepSeek V4 Flash	93	52	50	0	0	39.0%
Gemma 3 12B	100	50	44	0	0	38.9%
Llama 3.1 70B	100	93	0	0	0	38.6%
GPT-OSS 120B	94	73	13	7	0	37.5%
Gemma 3 4B	79	71	38	0	0	37.5%
Z.AI GLM 5 Turbo	100	59	25	0	0	36.8%
Llama 3.1 8B	100	83	0	0	0	36.7%
Xiaomi MIMO v2.5	90	73	10	0	0	34.7%
Claude Opus 4	79	60	17	12	0	33.6%
DeepSeek V4 Flash (Reasoning)	100	52	7	0	0	31.8%
GPT-5 Mini	67	58	20	8	0	30.6%
Claude Sonnet 4.6	59	52	39	0	0	30.0%
Gemma 4 26B	56	53	36	0	0	29.0%
Mistral Small 4 (Reasoning)	100	33	6	0	0	27.7%
Llama 3.1 Nemotron 70B	100	22	15	0	0	27.3%
Grok 4.20	54	42	34	5	0	27.1%
Z.AI GLM 4.5	100	35	0	0	0	26.9%
GPT-4o Mini (temp=0)	68	57	5	0	0	26.1%
Nemotron 3 Super	85	40	0	0	0	25.0%
Arcee AI: Trinity Large (Preview)	100	23	0	0	0	24.7%
GPT-4.1 Nano	100	14	0	0	0	22.7%
Rocinante 12B	100	7	0	0	0	21.4%
Z.AI GLM 4.5 Air	100	0	0	0	0	20.0%
Inception Mercury	100	0	0	0	0	20.0%
Ministral 3 8B	98	0	0	0	0	19.6%
Inception Mercury 2	64	32	0	0	0	19.2%
Gemini 2.5 Flash Lite (Reasoning)	57	20	17	0	0	18.8%
Ministral 3 3B	90	0	0	0	0	18.1%
GPT-5.4 Nano (Reasoning, Low)	80	5	0	0	0	17.0%
Gemini 2.5 Flash Lite	50	35	0	0	0	16.9%
GPT-5.4 Nano (Reasoning)	45	21	9	5	0	16.1%
Claude 3.7 Sonnet	76	0	0	0	0	15.3%
Stealth: Healer Alpha	46	26	0	0	0	14.4%
Gemma 4 31B	72	0	0	0	0	14.4%
WizardLM 2 8x22b	55	10	0	0	0	12.9%
Z.AI GLM 4.7 Flash	40	14	0	0	0	10.8%
Gemini 3.1 Flash Lite	54	0	0	0	0	10.8%
MiniMax M2.5	48	6	0	0	0	10.7%
GPT-5.4 Nano	37	9	7	0	0	10.5%
Stealth: Aurora Alpha	39	0	0	0	0	7.8%
Nemotron 3 Nano	31	0	0	0	0	6.2%
GPT-5.2	17	3	0	0	0	4.1%
Claude Haiku 4.5	7	3	1	0	0	2.3%
Gemini 2.5 Flash (Reasoning)	5	5	0	0	0	1.9%
Claude Sonnet 4	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	96	99.1%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.9%
Qwen3.6 Max Preview	100	100	100	100	93	98.6%
Qwen 3 32B	100	100	100	98	94	98.5%
Claude Opus 4.6 (Reasoning)	100	100	100	100	90	98.0%
GPT-5.4	100	100	100	100	89	97.7%
GPT-5.1	100	100	100	94	93	97.4%
Z.AI GLM 4.7	100	100	100	100	76	95.1%
GPT-4o, May 13th (temp=0)	100	100	100	88	88	95.1%
GPT-5.5 (Reasoning, Low)	100	100	100	100	74	94.8%
ByteDance Seed 2.0 Mini	100	100	100	100	72	94.4%
Qwen3.7 Max	100	100	100	100	71	94.2%
Mistral Small 4	100	100	100	100	65	93.1%
GPT-5.4 Mini (Reasoning)	100	100	100	100	62	92.5%
Claude 3.5 Sonnet	100	100	100	100	62	92.5%
DeepSeek V3 (2025-03-24)	100	100	100	100	61	92.1%
Rocinante 12B	100	100	100	100	57	91.5%
GPT-5.5	100	100	100	100	57	91.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	79	78	91.2%
Qwen 3.5 397B A17B	100	100	98	89	63	90.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	80	65	89.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	44	88.9%
WizardLM 2 8x22b	100	100	100	96	45	88.2%
Grok 4.20 (Reasoning)	100	94	91	86	68	87.9%
MoonshotAI: Kimi K2.6	100	100	100	95	44	87.9%
ByteDance Seed 1.6 Flash	100	100	90	88	61	87.7%
DeepSeek-V2 Chat	100	100	100	81	54	86.9%
Claude Sonnet 4.6 (Reasoning)	100	100	100	79	56	86.8%
Xiaomi MIMO v2.5 Pro	100	98	98	71	65	86.6%
o4 Mini	100	100	100	81	46	85.3%
Qwen 3.5 122B	100	100	100	64	61	84.9%
GPT-4.1	100	88	88	83	65	84.8%
DeepSeek V4 Flash	100	100	100	88	36	84.8%
Mistral Small 4 (Reasoning)	100	94	87	75	67	84.5%
Mistral Large 3	100	100	89	79	54	84.3%
Ministral 3 8B	100	100	100	65	54	83.8%
GPT-4.1 Mini	100	100	82	78	59	83.8%
GPT-5.4 Mini	100	94	90	74	59	83.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	16	83.2%
Z.AI GLM 5.1	100	100	90	80	46	83.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	79	67	67	82.7%
Writer: Palmyra X5	100	100	100	65	48	82.6%
Qwen 3.6 Flash	100	100	100	100	11	82.2%
Grok 4.20	100	92	92	78	49	82.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	9	81.8%
Mistral Small Creative	100	100	87	67	56	81.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	6	81.2%
Z.AI GLM 5	100	100	100	71	35	81.1%
DeepSeek V3.2	100	100	98	82	24	80.7%
MoonshotAI: Kimi K2.5	100	100	100	73	29	80.4%
Grok 4 Fast	100	100	94	82	27	80.4%
ByteDance Seed 2.0 Lite	100	100	100	100	0	80.0%
Mistral Large	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Grok 4.3	100	100	98	84	13	79.2%
Grok 4.20 (Beta, Reasoning)	100	100	79	62	54	79.1%
GPT-5	100	100	84	65	45	78.7%
Qwen 3.5 35B	100	100	96	59	36	78.2%
DeepSeek V3 (2024-12-26)	100	100	100	61	30	78.0%
Claude Opus 4	100	100	100	50	40	77.9%
Aion 2.0	100	100	89	73	27	77.6%
Gemini 3 Pro (Preview)	100	100	81	76	27	76.7%
Grok 4.20 (Beta)	99	92	80	67	45	76.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	79	0	75.7%
GPT-4o, May 13th (temp=1)	100	100	99	46	33	75.5%
DeepSeek V4 Pro	100	100	78	59	40	75.2%
Mistral Large 2	100	100	71	56	48	74.9%
Claude Opus 4.5	100	80	72	72	50	74.7%
Claude Opus 4.7 (Reasoning)	100	100	100	52	21	74.5%
GPT-5.4 Nano (Reasoning)	100	100	89	55	28	74.4%
Claude 3 Haiku	100	100	100	57	11	73.7%
Gemini 2.5 Pro	100	75	74	61	57	73.5%
Qwen 3.5 27B	100	86	79	69	34	73.5%
Arcee AI: Trinity Large (Preview)	100	100	96	55	17	73.5%
GPT-5.2	100	95	69	52	48	72.9%
Qwen 3.5 9B	100	100	84	72	8	72.9%
Claude Sonnet 4.5	100	100	88	76	0	72.8%
Claude Sonnet 4.6	100	100	100	57	3	72.1%
Claude Opus 4.6	97	85	81	76	20	71.9%
Stealth: Healer Alpha	100	81	72	70	35	71.5%
Qwen 3.5 Flash	100	82	79	64	28	70.5%
Claude Opus 4.7	100	100	100	27	25	70.4%
Ministral 3 14B	100	96	96	44	16	70.2%
Qwen 2.5 72B	95	89	82	75	0	68.1%
GPT-4o Mini (temp=0)	100	86	85	53	15	67.7%
Claude Sonnet 4	100	92	67	65	14	67.5%
Gemini 3.1 Flash Lite	100	100	80	57	0	67.4%
Xiaomi MIMO v2.5	100	92	66	60	18	67.2%
DeepSeek V3.1	100	100	100	27	6	66.5%
ByteDance Seed 1.6	100	73	57	54	48	66.5%
Hermes 3 405B	100	100	84	48	0	66.4%
Z.AI GLM 4.5 Air	100	100	67	59	0	65.2%
GPT-5.4 Nano (Reasoning, Low)	94	84	76	71	0	65.0%
LFM2 24B	100	100	55	54	16	65.0%
Z.AI GLM 4.7 Flash	96	93	90	43	0	64.3%
Mistral NeMO	100	100	88	33	0	64.2%
Hermes 3 70B	100	100	48	48	22	63.5%
Stealth: Hunter Alpha	97	94	78	45	1	62.9%
GPT-5.4 Nano	100	64	57	55	29	61.0%
Z.AI GLM 4.6	100	100	100	0	0	60.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	0	0	60.0%
Z.AI GLM 4.5	100	100	100	0	0	60.0%
Gemma 3 4B	88	84	59	39	22	58.3%
Gemini 2.5 Flash	100	85	51	48	0	56.9%
Gemma 3 27B	86	72	60	50	15	56.5%
Gemma 3 12B	100	100	56	25	0	56.3%
MiniMax M2.7	100	96	50	35	0	56.2%
Arcee AI: Trinity Mini	100	100	81	0	0	56.1%
Z.AI GLM 5 Turbo	75	71	71	51	11	55.8%
Ministral 8B	100	92	71	6	0	53.7%
Gemini 2.5 Flash (Reasoning)	90	90	71	14	0	53.0%
Claude Haiku 4.5	100	90	73	0	0	52.8%
Gemini 3 Flash (Preview)	100	100	64	0	0	52.8%
Grok 4	100	81	50	21	11	52.6%
Cohere Command R+ (Aug. 2024)	100	100	36	25	0	52.3%
Ministral 3 3B	100	81	46	25	0	50.3%
Ministral 3B	100	72	57	7	0	47.3%
Claude 3.7 Sonnet	100	73	34	16	3	45.1%
Gemini 3.1 Flash Lite (Preview)	87	74	47	11	0	43.9%
Llama 3.1 70B	100	84	29	3	0	43.2%
GPT-4o Mini (temp=1)	100	50	33	28	0	42.2%
MiniMax M2.5	100	73	15	0	0	37.6%
Gemma 4 31B (Reasoning)	88	43	38	15	0	36.7%
GPT-5 Mini	89	34	23	0	0	29.1%
Gemma 4 26B	50	36	25	20	0	26.2%
Gemini 2.5 Flash Lite (Reasoning)	46	43	41	0	0	26.0%
GPT-4.1 Nano	82	25	11	0	0	23.7%
Gemma 4 31B	85	31	0	0	0	23.2%
Gemma 4 26B (Reasoning)	86	17	7	0	0	22.0%
Llama 3.1 Nemotron 70B	79	18	6	0	0	20.6%
Gemini 2.5 Flash Lite	100	1	0	0	0	20.2%
Nemotron 3 Super	72	20	6	0	0	19.6%
Gemini 3 Flash (Preview, Reasoning)	67	18	0	0	0	17.0%
GPT-OSS 120B	38	23	11	0	0	14.3%
GPT-5 Nano	12	9	5	0	0	5.2%
Inception Mercury 2	17	0	0	0	0	3.3%
Llama 3.1 8B	17	0	0	0	0	3.3%
Inception Mercury	5	0	0	0	0	0.9%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	99	99.9%
Qwen 3.6 27B	100	100	100	100	99	99.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	99	99.8%
Mistral Small Creative	100	100	100	100	99	99.8%
Claude 3 Haiku	100	100	100	100	99	99.8%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99.7%
GPT-5.4 Mini	100	100	100	100	98	99.7%
GPT-5.4 Mini (Reasoning)	100	100	100	100	98	99.6%
Qwen 3.5 27B	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	98	97	98.9%
Grok 4.20 (Reasoning)	100	100	100	96	94	97.9%
Qwen 3.5 122B	100	100	100	100	89	97.8%
Z.AI GLM 4.7	100	100	100	100	87	97.3%
Claude Sonnet 4.6	100	100	99	94	92	97.1%
Grok 4.3 (Reasoning)	100	100	100	94	90	97.0%
Claude Opus 4.7	100	100	100	100	84	96.8%
DeepSeek V3 (2024-12-26)	100	100	100	100	82	96.5%
Writer: Palmyra X5	100	100	100	96	86	96.3%
Xiaomi MIMO v2.5	100	100	100	100	81	96.1%
MoonshotAI: Kimi K2.6	100	100	99	96	86	96.1%
Claude Opus 4.6 (Reasoning)	100	100	100	100	80	95.9%
o4 Mini	100	100	100	100	79	95.7%
Z.AI GLM 4.6	100	100	100	100	78	95.5%
Hermes 3 70B	100	100	100	96	81	95.2%
Qwen 3.5 Flash	100	100	100	99	75	95.0%
ByteDance Seed 2.0 Lite	100	100	100	100	74	94.8%
Grok 4.3	100	100	100	100	74	94.8%
GPT-5.5 (Reasoning)	100	100	100	100	72	94.5%
Grok 4	100	100	100	100	72	94.4%
Ministral 3 3B	100	100	100	100	72	94.4%
Claude Opus 4	100	100	100	90	78	93.6%
MiniMax M2.5	100	100	100	93	72	93.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	64	92.8%
ByteDance Seed 2.0 Mini	100	100	100	100	62	92.5%
Claude Sonnet 4.5	100	100	100	82	80	92.2%
Arcee AI: Trinity Mini	100	100	100	100	59	91.8%
Gemini 3 Pro (Preview)	100	100	100	100	59	91.7%
Grok 4 Fast	100	100	100	100	56	91.3%
GPT-5	100	100	96	88	72	91.1%
GPT-4.1	100	100	100	100	54	90.8%
Mistral NeMO	100	100	100	85	68	90.5%
WizardLM 2 8x22b	100	100	100	100	50	90.0%
Stealth: Healer Alpha	100	100	98	83	68	89.9%
DeepSeek V4 Pro (Reasoning)	100	100	100	96	54	89.9%
GPT-5.4	100	100	100	100	49	89.8%
Claude Sonnet 4	100	100	100	82	65	89.4%
Rocinante 12B	100	100	100	100	46	89.3%
Claude 3.7 Sonnet	100	100	100	100	46	89.2%
GPT-5.5	100	100	100	100	42	88.4%
MoonshotAI: Kimi K2.5	100	100	100	84	56	88.0%
GPT-4o Mini (temp=0)	100	100	100	100	40	87.9%
Z.AI GLM 5 Turbo	100	100	100	100	39	87.8%
Z.AI GLM 5	100	100	92	74	72	87.6%
Qwen 3.5 9B	100	100	100	89	48	87.4%
Qwen3 235B A22B Instruct 2507	100	100	100	100	36	87.3%
Mistral Large	100	100	100	96	38	86.7%
Xiaomi MIMO v2.5 Pro	100	100	100	73	60	86.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	67	64	86.1%
Grok 4.20 (Beta)	100	100	85	82	61	85.5%
Qwen 2.5 72B	100	100	92	74	61	85.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	79	46	84.9%
Nemotron 3 Super	100	100	100	86	31	83.4%
Z.AI GLM 4.5 Air	100	99	90	88	36	82.7%
DeepSeek V3.1	100	91	82	79	62	82.6%
Mistral Small 4 (Reasoning)	100	100	86	66	57	81.8%
GPT-4o, May 13th (temp=1)	100	100	100	69	36	81.1%
Ministral 3 8B	100	100	100	59	44	80.4%
Claude 3.5 Sonnet	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Ministral 8B	100	100	100	100	0	80.0%
DeepSeek-V2 Chat	100	100	72	65	62	79.9%
Arcee AI: Trinity Large (Preview)	100	100	100	99	0	79.8%
Claude Opus 4.5	100	100	96	82	20	79.6%
Claude Opus 4.6	100	100	100	57	40	79.4%
Gemini 3.1 Flash Lite	100	100	96	61	36	78.5%
Gemini 2.5 Pro	100	100	76	67	50	78.5%
Mistral Large 3	100	100	100	77	13	78.0%
Stealth: Aurora Alpha	100	95	94	75	23	77.5%
Ministral 3B	100	100	93	63	31	77.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	85	0	77.0%
DeepSeek V3.2	100	94	85	81	23	76.6%
o4 Mini High	100	100	100	80	0	75.9%
Aion 2.0	100	100	91	82	6	75.7%
Inception Mercury 2	100	100	100	75	0	75.0%
Gemini 2.5 Flash	100	100	82	69	18	73.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	85	82	0	73.5%
Z.AI GLM 5.1	100	72	69	64	59	72.8%
Gemma 4 31B	100	100	93	69	0	72.5%
Gemma 4 31B (Reasoning)	100	100	94	52	11	71.5%
DeepSeek V4 Flash	100	100	98	36	22	71.2%
GPT-4o, May 13th (temp=0)	100	100	100	52	1	70.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	51	0	70.3%
Mistral Small 4	100	100	100	41	10	70.2%
Ministral 3 14B	100	100	99	34	17	69.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	48	0	69.6%
Claude Opus 4.7 (Reasoning)	100	89	79	79	0	69.2%
Cohere Command R+ (Aug. 2024)	100	100	100	46	0	69.2%
Grok 4.20 (Beta, Reasoning)	100	100	95	47	0	68.5%
GPT-5.2	100	79	69	57	30	66.9%
Gemma 3 12B	100	100	61	41	25	65.4%
Gemma 3 27B	100	100	95	29	0	64.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	68	32	17	63.4%
Claude Sonnet 4.6 (Reasoning)	100	100	57	54	0	62.3%
Claude Haiku 4.5	100	76	73	61	0	62.1%
GPT-5.4 Nano (Reasoning, Low)	100	86	49	41	34	62.0%
GPT-5.1	100	67	56	51	30	60.8%
GPT-4.1 Mini	100	100	100	0	0	60.0%
Inception Mercury	100	100	100	0	0	60.0%
Gemma 4 26B (Reasoning)	100	100	97	0	0	59.4%
Stealth: Hunter Alpha	100	100	50	36	10	59.2%
GPT-OSS 120B	91	68	57	44	22	56.6%
GPT-4o Mini (temp=1)	100	76	68	35	0	55.8%
Llama 3.1 70B	100	100	46	25	3	54.8%
Gemma 4 26B	100	100	46	25	0	54.2%
GPT-5.4 Nano	80	70	48	39	29	53.2%
GPT-5 Mini	92	91	36	33	8	52.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	57	0	0	51.5%
Mistral Large 2	100	100	46	8	0	50.8%
GPT-5.4 Nano (Reasoning)	100	87	28	19	17	50.4%
GPT-4.1 Nano	100	65	61	8	0	46.9%
Nemotron 3 Nano	100	100	27	0	0	45.5%
Gemini 3 Flash (Preview)	87	85	46	8	0	45.1%
Llama 3.1 8B	100	100	25	0	0	45.0%
Gemma 3 4B	100	82	16	3	3	40.9%
LFM2 24B	100	61	23	0	0	36.7%
Gemini 2.5 Flash Lite	100	36	20	0	0	31.2%
Llama 3.1 Nemotron 70B	81	28	22	0	0	26.1%
GPT-5 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	99	99.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	98	99.6%
ByteDance Seed 1.6	100	100	100	100	96	99.1%
Rocinante 12B	100	100	100	100	93	98.5%
Qwen 2.5 72B	100	100	100	100	90	98.1%
Xiaomi MIMO v2.5	100	100	100	98	93	98.1%
GPT-5.5	100	100	100	100	90	98.0%
Mistral Large	100	100	100	98	92	98.0%
Qwen 3.6 35B	100	100	100	100	89	97.8%
ByteDance Seed 2.0 Mini	100	100	100	100	88	97.5%
Qwen 3.5 Flash	100	100	100	100	83	96.7%
DeepSeek V3.2	100	100	100	100	82	96.5%
Claude Opus 4.7	100	100	100	92	90	96.5%
o4 Mini	100	100	100	92	90	96.5%
Llama 3.1 8B	100	100	100	99	82	96.1%
Stealth: Hunter Alpha	100	100	100	100	79	95.7%
Hermes 3 405B	100	100	100	100	79	95.7%
Grok 4.20 (Beta)	100	100	100	100	78	95.6%
GPT-4.1	100	100	100	100	76	95.3%
Qwen3 235B A22B Instruct 2507	100	100	100	100	76	95.3%
GPT-5.1	100	100	100	100	76	95.1%
GPT-4.1 Mini	100	100	100	94	81	95.0%
ByteDance Seed 2.0 Lite	100	100	100	100	74	94.8%
GPT-5.2	100	100	97	91	86	94.8%
Claude Sonnet 4.5	100	100	100	100	73	94.6%
Mistral Small 3.2 24B	100	100	100	100	69	93.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	67	93.3%
GPT-5	100	100	100	100	66	93.1%
Gemini 2.5 Pro	100	100	100	100	65	93.1%
Mistral Medium 3.1	100	100	100	100	65	93.0%
Qwen3.6 Max Preview	100	100	100	100	64	92.8%
Grok 4.3	100	100	100	100	64	92.8%
Mistral Small 4 (Reasoning)	100	100	100	100	61	92.1%
Gemma 3 27B	100	100	100	100	59	91.8%
Gemma 3 12B	100	100	100	94	64	91.6%
Gemma 4 31B (Reasoning)	100	100	100	94	62	91.3%
Grok 4.20	100	100	98	94	62	90.8%
Llama 3.1 70B	100	100	100	100	54	90.8%
Ministral 3 3B	100	100	100	100	54	90.8%
Hermes 3 70B	100	100	100	88	64	90.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	50	90.0%
Qwen 3.5 27B	100	100	100	99	50	89.8%
Arcee AI: Trinity Large (Preview)	100	100	100	90	54	88.9%
Xiaomi MIMO v2.5 Pro	100	100	100	81	62	88.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	97	44	88.1%
Qwen 3.5 35B	100	100	100	79	61	88.0%
Claude Sonnet 4.6	100	100	100	92	48	88.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	39	87.8%
Mistral Large 3	100	100	100	100	39	87.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	92	46	87.5%
GPT-4o, May 13th (temp=1)	100	100	100	88	50	87.5%
Claude 3 Haiku	100	100	100	88	50	87.5%
Claude Opus 4	100	100	100	73	62	87.2%
Claude Opus 4.6 (Reasoning)	100	100	100	76	54	86.1%
Claude 3.5 Sonnet	100	100	100	72	57	85.9%
GPT-4o Mini (temp=0)	100	100	100	100	27	85.4%
Gemma 3 4B	100	100	100	76	47	84.7%
Qwen 3.5 Plus (2026-02-15)	100	100	88	73	62	84.7%
Aion 2.0	100	100	100	62	59	84.3%
Claude Sonnet 4.6 (Reasoning)	100	100	100	65	56	84.2%
Llama 3.1 Nemotron 70B	100	100	100	67	54	84.1%
WizardLM 2 8x22b	100	97	90	68	64	83.9%
Grok 4.20 (Reasoning)	100	100	100	90	29	83.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	69	43	82.4%
Z.AI GLM 4.5	100	97	97	89	28	82.1%
Grok 4	100	100	85	78	46	81.7%
Z.AI GLM 4.7	100	100	97	74	35	81.3%
Z.AI GLM 5 Turbo	100	100	93	69	44	81.2%
MiniMax M2.5	100	100	100	57	49	81.2%
DeepSeek V4 Flash	100	100	93	69	41	80.8%
Gemma 4 26B	100	83	81	79	60	80.4%
Writer: Palmyra X5	100	100	81	73	48	80.3%
DeepSeek V4 Pro	100	100	100	100	0	80.0%
GPT-4o Mini (temp=1)	100	100	100	100	0	80.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Ministral 3B	100	100	100	100	0	80.0%
Z.AI GLM 4.5 Air	100	100	86	64	50	79.9%
Mistral Small Creative	100	100	100	98	0	79.6%
GPT-4.1 Nano	100	100	99	56	41	79.2%
Claude Haiku 4.5	100	100	100	83	11	78.9%
Mistral Small 4	100	100	96	94	0	78.0%
DeepSeek V3.1	100	100	100	61	27	77.6%
GPT-5.4 Nano (Reasoning, Low)	100	94	91	83	18	77.2%
Z.AI GLM 5	100	100	72	71	25	73.5%
Z.AI GLM 5.1	100	100	100	67	0	73.3%
MiniMax M2.7	100	100	97	39	31	73.3%
Gemini 2.5 Flash (Reasoning)	100	82	69	62	53	72.9%
Arcee AI: Trinity Mini	100	100	96	67	0	72.5%
Grok 4.3 (Reasoning)	100	100	74	46	41	72.3%
Claude Opus 4.6	100	83	80	72	25	72.0%
Gemini 2.5 Flash	100	100	69	61	17	69.3%
Gemini 3.1 Flash Lite (Reasoning)	100	96	73	62	14	68.9%
Mistral Large 2	100	100	72	44	18	66.8%
Ministral 8B	100	92	72	61	3	65.5%
Gemini 3.1 Flash Lite	100	100	100	25	0	65.0%
DeepSeek V3 (2024-12-26)	100	100	69	54	0	64.6%
GPT-OSS 120B	100	100	50	41	31	64.5%
Gemini 3 Flash (Preview)	100	100	62	46	11	63.7%
Z.AI GLM 4.7 Flash	100	100	97	8	0	61.2%
GPT-4o, Aug. 6th (temp=1)	100	100	89	16	0	61.0%
Nemotron 3 Super	100	99	46	30	28	60.5%
GPT-5.4 Nano (Reasoning)	100	90	68	26	16	60.2%
Claude 3.7 Sonnet	100	100	57	35	0	58.4%
Stealth: Aurora Alpha	100	100	91	0	0	58.2%
Gemini 3.1 Flash Lite (Preview)	100	81	59	46	5	58.1%
Inception Mercury 2	100	86	55	38	0	55.8%
Grok 4 Fast	100	79	67	33	0	55.6%
Gemini 3 Pro (Preview)	100	86	57	23	7	54.8%
GPT-5 Mini	100	72	57	29	16	54.6%
Nemotron 3 Nano	100	86	60	21	0	53.2%
GPT-5.4 Nano	93	51	47	38	23	50.3%
Ministral 3 8B	100	100	50	0	0	50.0%
Stealth: Healer Alpha	89	52	31	31	22	44.9%
Z.AI GLM 4.6	80	74	62	7	0	44.6%
Ministral 3 14B	100	67	36	18	0	44.3%
Gemini 2.5 Flash Lite	100	80	35	7	0	44.3%
Claude Opus 4.5	100	54	46	18	0	43.6%
Gemma 4 31B	100	64	40	11	0	42.9%
Gemini 3 Flash (Preview, Reasoning)	85	61	30	25	7	41.5%
Gemini 2.5 Flash Lite (Reasoning)	97	68	41	0	0	41.2%
Claude Sonnet 4	100	100	0	0	0	40.0%
Inception Mercury	100	100	0	0	0	40.0%
Gemma 4 26B (Reasoning)	100	73	6	0	0	35.8%
GPT-5 Nano	9	0	0	0	0	1.8%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	99	99.9%
Grok 4.20 (Reasoning)	100	100	100	100	98	99.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	98	99.6%
Claude 3 Haiku	100	100	100	100	98	99.6%
o4 Mini	100	100	100	100	97	99.4%
Mistral NeMO	100	100	100	100	97	99.4%
Mistral Large 3	100	100	100	100	94	98.9%
Z.AI GLM 4.5	100	100	100	98	96	98.7%
Qwen 3.5 Flash	100	100	100	100	93	98.6%
o4 Mini High	100	100	100	100	92	98.4%
Grok 4.20 (Beta, Reasoning)	100	100	100	97	94	98.1%
GPT-5.5 (Reasoning, Low)	100	100	100	100	85	97.1%
GPT-5.4 (Reasoning, Low)	100	100	100	100	82	96.5%
Llama 3.1 70B	100	100	100	100	82	96.5%
Qwen 3.5 122B	100	100	100	90	90	96.2%
DeepSeek V3.1	100	100	100	100	81	96.1%
Mistral Small 4	100	100	100	100	81	96.1%
ByteDance Seed 1.6	100	100	100	89	89	95.6%
Ministral 8B	100	100	100	100	77	95.4%
Gemini 3.1 Pro (Preview)	100	100	100	100	76	95.3%
Mistral Small 3.2 24B	100	100	100	100	76	95.3%
GPT-5.4	100	100	100	99	76	95.2%
GPT-5.4 Mini	100	96	94	94	88	94.6%
Claude Opus 4.7 (Reasoning)	100	100	100	90	82	94.6%
Grok 4.3 (Reasoning)	100	100	100	98	74	94.4%
Grok 4.3	100	100	100	100	69	93.9%
Xiaomi MIMO v2.5 Pro	100	100	100	87	81	93.5%
Qwen 3.5 35B	100	100	100	100	67	93.3%
DeepSeek V4 Pro	100	100	100	100	67	93.3%
Aion 2.0	100	100	100	94	69	92.8%
Qwen 3.5 9B	100	100	100	89	74	92.7%
GPT-5.4 (Reasoning)	100	100	100	100	62	92.3%
Grok 4.20 (Beta)	100	100	100	100	59	91.8%
GPT-4o, May 13th (temp=1)	100	100	100	93	65	91.7%
GPT-4o Mini (temp=0)	100	100	100	100	56	91.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	96	59	90.9%
MoonshotAI: Kimi K2.6	100	100	100	100	52	90.4%
Claude Opus 4.7	100	93	90	82	81	89.3%
Ministral 3 14B	100	100	100	100	46	89.2%
GPT-5.1	100	100	100	81	65	89.1%
DeepSeek-V2 Chat	100	100	100	92	54	89.1%
Z.AI GLM 4.5 Air	100	100	100	97	46	88.5%
Claude Opus 4	100	100	100	100	43	88.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	94	48	88.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	40	88.0%
Qwen3.7 Max	100	100	100	100	39	87.8%
GPT-4.1	100	100	100	100	35	86.9%
Cohere Command R+ (Aug. 2024)	100	100	100	92	41	86.6%
Inception Mercury 2	100	100	91	87	54	86.3%
Stealth: Healer Alpha	100	100	100	74	57	86.3%
ByteDance Seed 1.6 Flash	100	100	100	100	29	85.8%
Arcee AI: Trinity Mini	100	100	100	92	34	85.1%
DeepSeek V3 (2025-03-24)	100	100	100	67	57	84.8%
GPT-5	100	100	100	78	46	84.8%
GPT-4.1 Mini	100	100	100	100	23	84.6%
Gemini 3 Pro (Preview)	100	100	100	68	51	84.0%
Grok 4	100	100	100	74	43	83.4%
Z.AI GLM 5.1	100	100	100	100	15	83.0%
Z.AI GLM 5	100	100	96	64	54	82.7%
Gemini 2.5 Flash	100	100	79	73	61	82.6%
Stealth: Hunter Alpha	100	100	100	61	50	82.1%
Gemma 3 12B	100	100	100	56	54	81.9%
Claude Sonnet 4.5	100	96	92	86	35	81.6%
Mistral Small Creative	100	100	97	64	46	81.4%
Inception Mercury	100	100	100	100	6	81.2%
Writer: Palmyra X5	100	100	92	88	25	80.9%
Gemma 4 31B	100	100	89	59	56	80.8%
Claude Sonnet 4	100	100	88	62	52	80.3%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	100	100	0	80.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	99	0	79.8%
LFM2 24B	100	100	100	99	0	79.8%
ByteDance Seed 2.0 Lite	100	100	100	81	18	79.8%
Ministral 3 3B	100	100	100	61	36	79.4%
Claude Sonnet 4.6 (Reasoning)	100	100	99	98	0	79.4%
MiniMax M2.5	100	100	100	93	3	79.1%
Gemini 2.5 Flash (Reasoning)	100	100	90	67	36	78.7%
Grok 4.20	100	100	100	75	18	78.7%
WizardLM 2 8x22b	100	100	100	89	0	77.8%
Mistral Small 4 (Reasoning)	100	100	84	61	39	76.8%
Arcee AI: Trinity Large (Preview)	100	100	100	81	0	76.1%
Gemini 2.5 Pro	100	100	71	56	51	75.5%
Claude Opus 4.6 (Reasoning)	100	100	100	74	0	74.8%
GPT-5.4 Nano (Reasoning)	94	93	89	82	16	74.8%
Claude 3.7 Sonnet	100	100	100	38	35	74.5%
GPT-OSS 120B	100	100	74	65	31	74.0%
Mistral Large 2	100	100	76	56	36	73.7%
Z.AI GLM 5 Turbo	100	100	100	68	0	73.6%
MiniMax M2.7	100	100	100	60	7	73.4%
Gemini 3 Flash (Preview)	100	100	78	53	27	71.4%
Claude Opus 4.5	100	100	100	56	0	71.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	79	75	0	70.8%
GPT-5.4 Nano	96	91	85	40	39	70.2%
Gemma 3 27B	100	100	73	67	11	70.2%
Gemini 3.1 Flash Lite (Reasoning)	100	98	97	56	0	70.1%
GPT-4o Mini (temp=1)	100	100	62	59	27	69.7%
Claude Opus 4.6	100	84	81	56	11	66.3%
Ministral 3B	100	100	64	41	25	66.0%
Claude Sonnet 4.6	92	90	84	62	0	65.8%
Gemini 3.1 Flash Lite (Preview)	100	100	100	22	0	64.4%
Z.AI GLM 4.6	100	100	69	52	0	64.3%
Gemma 3 4B	100	100	100	8	6	62.9%
Grok 4 Fast	100	83	68	46	17	62.8%
GPT-4.1 Nano	100	97	96	21	0	62.6%
Stealth: Aurora Alpha	100	100	75	30	0	61.0%
Ministral 3 8B	100	82	74	44	0	60.1%
DeepSeek V3.2	100	90	74	35	0	59.7%
Gemini 2.5 Flash Lite	100	86	59	32	0	55.5%
DeepSeek V4 Flash	100	100	76	0	0	55.3%
Qwen 3 32B	100	76	50	31	11	53.7%
Gemma 4 26B (Reasoning)	100	100	23	18	0	48.3%
Gemma 4 26B	100	71	44	7	0	44.3%
Llama 3.1 Nemotron 70B	88	64	44	6	0	40.1%
Nemotron 3 Nano	90	55	40	0	0	36.9%
Gemini 2.5 Flash Lite (Reasoning)	100	75	7	1	0	36.7%
GPT-5 Nano	100	47	13	6	0	33.3%
GPT-5 Mini	100	30	20	0	0	29.9%
GPT-5.4 Nano (Reasoning, Low)	76	42	31	0	0	29.8%
Llama 3.1 8B	65	65	11	0	0	28.3%
GPT-5.2	51	39	28	14	4	27.2%
Claude Haiku 4.5	100	29	0	0	0	25.8%
Nemotron 3 Super	44	41	21	1	0	21.5%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	99	99.8%
Grok 4.20 (Reasoning)	100	100	100	100	98	99.6%
Qwen3.7 Max	100	100	100	100	97	99.4%
Claude 3 Haiku	100	100	100	99	97	99.2%
Qwen 3.5 27B	100	100	100	100	93	98.6%
GPT-4.1	100	100	100	100	93	98.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	87	97.3%
Grok 4 Fast	100	100	100	97	89	97.2%
GPT-5.4 Mini	100	100	100	94	91	97.1%
Qwen 3.6 Flash	100	100	100	100	82	96.5%
GPT-5.4 Mini (Reasoning)	100	100	100	93	88	96.0%
Rocinante 12B	100	100	100	100	80	95.9%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	79	95.7%
Claude Opus 4.6	100	99	98	98	82	95.7%
MoonshotAI: Kimi K2.6	100	100	100	89	82	94.3%
Hermes 3 405B	100	100	100	100	71	94.1%
Qwen 3.6 35B	100	100	100	88	81	93.9%
GPT-4o Mini (temp=1)	100	100	100	100	69	93.9%
Qwen 3.5 122B	100	100	100	100	68	93.7%
Qwen3.6 Max Preview	100	100	100	100	67	93.3%
GPT-4o Mini (temp=0)	100	100	100	83	82	93.0%
Z.AI GLM 4.5	100	100	96	88	82	92.9%
DeepSeek-V2 Chat	100	100	100	100	64	92.8%
GPT-4o, May 13th (temp=1)	100	100	100	82	82	92.6%
Qwen 2.5 72B	100	100	100	100	62	92.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	99	59	91.6%
GPT-5.2	100	100	100	84	73	91.4%
LFM2 24B	100	100	100	88	68	91.3%
GPT-4.1 Nano	100	100	100	100	56	91.1%
Gemma 3 4B	100	100	100	76	75	90.4%
Claude Sonnet 4.5	100	100	100	100	49	89.7%
Gemini 3.5 Flash (Reasoning)	100	100	89	79	79	89.2%
GPT-5.1	100	100	100	87	56	88.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	73	68	88.3%
Claude Opus 4.7 (Reasoning)	100	100	100	71	68	87.7%
Ministral 3 8B	100	100	89	74	74	87.5%
Grok 4	100	100	98	77	62	87.4%
MoonshotAI: Kimi K2.5	100	100	100	73	61	86.8%
Qwen 3.5 397B A17B	100	100	100	82	51	86.6%
Z.AI GLM 5	100	100	90	88	51	85.9%
Stealth: Healer Alpha	100	100	93	74	60	85.4%
Claude Opus 4.7	100	100	100	98	27	85.0%
DeepSeek V4 Pro	100	100	86	76	61	84.6%
Z.AI GLM 5.1	100	100	100	97	23	84.0%
GPT-5	100	100	93	75	52	84.0%
Qwen 3 32B	100	100	100	72	47	83.8%
Claude Sonnet 4.6	100	100	100	100	18	83.7%
Mistral Small Creative	100	100	100	68	50	83.6%
Qwen 3.5 Plus (2026-02-15)	100	93	92	67	65	83.3%
Qwen 3.6 27B	100	100	100	97	18	83.2%
Claude Opus 4.6 (Reasoning)	100	100	100	66	50	83.1%
Llama 3.1 70B	100	100	100	100	15	83.0%
ByteDance Seed 1.6 Flash	100	100	100	100	14	82.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	11	82.2%
Mistral Small 4	100	100	100	74	35	81.9%
Ministral 3 14B	100	100	98	73	35	81.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	74	31	81.0%
Z.AI GLM 4.7 Flash	100	100	97	61	46	80.7%
Qwen 3.5 35B	100	99	90	72	41	80.5%
Inception Mercury	100	100	100	84	17	80.1%
Z.AI GLM 5 Turbo	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Llama 3.1 8B	100	100	100	100	0	80.0%
DeepSeek V4 Flash	100	100	89	71	38	79.5%
Claude Opus 4	100	100	90	59	49	79.5%
Stealth: Hunter Alpha	100	100	76	75	42	78.9%
Z.AI GLM 4.7	100	100	89	57	46	78.4%
Xiaomi MIMO v2.5 Pro	100	100	99	80	5	76.8%
Mistral Medium 3.1	98	93	81	73	33	75.6%
Claude Sonnet 4	100	100	78	59	36	74.5%
DeepSeek V3.2	100	98	62	62	50	74.4%
Z.AI GLM 4.6	100	100	86	82	0	73.7%
Gemma 3 12B	100	100	93	72	0	72.9%
Gemma 4 26B (Reasoning)	100	100	89	73	0	72.4%
Llama 3.1 Nemotron 70B	100	100	81	81	0	72.2%
MiniMax M2.7	100	89	59	56	56	72.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	47	12	71.9%
DeepSeek V3.1	100	100	89	70	0	71.8%
Ministral 3 3B	100	100	82	69	7	71.8%
Stealth: Aurora Alpha	100	81	64	57	57	71.7%
Mistral NeMO	100	100	50	33	–	70.7%
Gemini 2.5 Pro	100	100	69	60	22	70.3%
DeepSeek V4 Pro (Reasoning)	100	100	80	65	6	70.2%
Aion 2.0	100	100	98	46	3	69.3%
Claude 3.5 Sonnet	100	100	86	61	0	69.3%
Mistral Large 3	100	100	91	38	15	68.8%
Grok 4.20	100	100	73	58	9	68.1%
Arcee AI: Trinity Large (Preview)	100	100	84	54	0	67.6%
Gemini 3.1 Flash Lite	100	100	71	67	0	67.5%
WizardLM 2 8x22b	83	72	66	56	53	66.1%
Mistral Large	100	100	100	27	0	65.4%
Gemma 4 31B (Reasoning)	100	71	69	54	27	64.2%
GPT-5.4 Nano	100	90	76	44	11	64.2%
Mistral Small 4 (Reasoning)	100	100	72	47	0	63.8%
Mistral Large 2	100	100	98	16	0	62.8%
Claude Haiku 4.5	100	100	88	13	11	62.5%
Grok 4.20 (Beta, Reasoning)	100	100	60	50	0	62.0%
Ministral 8B	100	100	46	41	16	60.6%
Xiaomi MIMO v2.5	92	84	67	59	0	60.3%
Hermes 3 70B	100	100	100	0	0	60.0%
Gemma 4 31B	100	81	55	47	17	59.9%
Grok 4.20 (Beta)	96	60	59	43	38	59.3%
GPT-5.4 Nano (Reasoning, Low)	100	74	53	46	20	58.8%
Gemini 3 Pro (Preview)	100	69	66	32	11	55.7%
Claude Opus 4.5	100	69	49	33	20	54.2%
Gemini 2.5 Flash	93	68	62	46	1	53.9%
GPT-5 Mini	97	67	45	36	15	52.0%
Nemotron 3 Super	100	64	51	36	0	50.3%
Claude 3.7 Sonnet	99	84	66	0	0	49.9%
Gemini 2.5 Flash Lite	100	78	71	0	0	49.6%
GPT-5.4 Nano (Reasoning)	100	63	47	35	0	49.1%
Gemini 2.5 Flash (Reasoning)	100	62	50	20	0	46.5%
MiniMax M2.5	100	100	29	0	0	45.8%
Gemini 3 Flash (Preview)	100	65	64	0	0	45.7%
GPT-OSS 120B	62	59	57	47	0	45.0%
Nemotron 3 Nano	100	100	22	0	0	44.4%
Z.AI GLM 4.5 Air	100	82	32	0	0	43.0%
Inception Mercury 2	100	47	11	10	0	33.6%
Gemma 4 26B	100	27	26	0	0	30.6%
Gemini 2.5 Flash Lite (Reasoning)	100	13	7	0	0	24.0%
GPT-5 Nano	44	29	0	0	0	14.6%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.1 Fast	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	83	96.6%
o4 Mini	100	100	100	91	90	96.2%
GPT-5.5	100	100	100	97	75	94.3%
Gemini 3.1 Pro (Preview)	100	95	94	88	83	92.0%
Mistral Small 3.2 24B	100	100	100	100	54	90.9%
GPT-5.5 (Reasoning)	100	97	97	89	70	90.7%
Qwen3.7 Max	100	100	100	100	30	85.9%
GPT-5.4 (Reasoning)	100	100	99	73	57	85.8%
Mistral NeMO	100	100	100	61	59	83.9%
Claude 3 Haiku	100	100	92	72	48	82.3%
GPT-5.5 (Reasoning, Low)	100	100	88	85	33	81.2%
Qwen 3.6 Flash	100	100	89	68	48	81.0%
Hermes 3 405B	100	100	81	67	52	79.8%
Qwen 3.6 27B	100	100	85	70	38	78.6%
Claude Sonnet 4.6	100	100	97	75	11	76.7%
Grok 4 Fast	100	88	73	66	52	75.7%
Qwen 3.5 Plus (2026-04-20)	100	96	88	60	29	74.5%
Llama 3.1 8B	100	100	96	74	0	74.0%
GPT-5.4	100	98	77	49	43	73.5%
Qwen3 235B A22B Instruct 2507	100	100	100	65	0	73.1%
ByteDance Seed 1.6	100	100	100	41	22	72.6%
Grok 4.20 (Reasoning)	100	100	75	45	41	72.2%
Ministral 3 14B	100	100	90	60	0	69.9%
DeepSeek V3 (2025-03-24)	100	100	62	44	34	67.9%
Qwen 3.6 35B	100	100	81	58	0	67.8%
GPT-4o, May 13th (temp=0)	100	94	69	62	11	67.3%
Qwen 3.5 9B	100	100	68	49	18	67.0%
o4 Mini High	100	92	88	55	0	66.8%
Grok 4.3	90	81	63	54	44	66.2%
GPT-5.4 (Reasoning, Low)	100	81	68	43	37	65.9%
Writer: Palmyra X5	100	100	72	29	18	63.9%
GPT-4o Mini (temp=1)	100	100	68	41	0	61.9%
DeepSeek-V2 Chat	100	100	82	20	5	61.4%
ByteDance Seed 1.6 Flash	78	62	59	57	52	61.4%
Rocinante 12B	100	100	76	18	11	61.2%
GPT-5.4 Mini	100	62	47	45	44	59.6%
MoonshotAI: Kimi K2.5	81	62	56	52	47	59.6%
Gemini 3 Pro (Preview)	100	71	63	60	0	58.7%
Qwen 3.5 397B A17B	76	57	56	50	49	57.4%
Gemini 3.5 Flash (Reasoning)	100	94	90	0	0	56.9%
Mistral Large	100	76	72	18	16	56.6%
LFM2 24B	100	78	64	40	0	56.2%
Claude Opus 4.7	100	100	44	34	0	55.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	49	21	0	54.1%
Qwen 3.5 122B	100	75	69	21	0	53.2%
Grok 4.20	95	57	56	36	22	53.0%
Gemini 2.5 Pro	100	100	53	11	0	52.7%
Stealth: Hunter Alpha	100	94	61	7	0	52.5%
Qwen 3 32B	100	74	56	31	1	52.3%
Gemma 3 27B	100	73	54	35	0	52.3%
Z.AI GLM 5	74	72	68	41	0	51.1%
DeepSeek V3.1	100	100	35	16	0	50.1%
Gemma 3 12B	76	62	56	44	0	47.8%
Claude Opus 4.7 (Reasoning)	100	50	48	36	3	47.5%
GPT-4o Mini (temp=0)	100	69	64	0	0	46.6%
Qwen 3.5 35B	100	96	25	9	0	46.1%
DeepSeek V4 Pro	74	62	50	42	0	45.8%
GPT-5.4 Mini (Reasoning)	100	61	45	22	0	45.5%
GPT-5	100	72	51	4	0	45.3%
Mistral Small Creative	100	67	59	0	0	45.2%
Mistral Medium 3.1	100	91	34	0	0	45.0%
Z.AI GLM 4.7 Flash	94	46	40	28	15	44.6%
Mistral Large 2	100	100	23	0	0	44.6%
Grok 4.20 (Beta, Reasoning)	100	67	29	25	0	44.3%
MoonshotAI: Kimi K2.6	100	64	25	23	9	44.3%
Grok 4.3 (Reasoning)	88	68	56	8	0	44.1%
Grok 4.20 (Beta)	100	53	36	30	0	43.8%
Gemini 2.5 Flash Lite	88	82	34	9	0	42.7%
Claude Opus 4.6	89	82	23	17	0	42.1%
Hermes 3 70B	96	96	16	0	0	41.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	54	28	22	3	41.3%
Gemini 3.1 Flash Lite (Reasoning)	100	100	5	0	0	41.0%
ByteDance Seed 2.0 Lite	100	72	31	0	0	40.6%
Z.AI GLM 4.6	100	86	17	0	0	40.5%
Ministral 3B	100	76	22	3	0	40.2%
Gemini 2.5 Flash	100	94	0	0	0	38.9%
Mistral Small 4 (Reasoning)	100	71	18	0	0	37.9%
Claude Opus 4.6 (Reasoning)	100	85	0	0	0	37.0%
DeepSeek V3 (2024-12-26)	100	50	33	0	0	36.6%
DeepSeek V4 Flash (Reasoning)	73	67	38	0	0	35.6%
Gemini 3.1 Flash Lite (Preview)	89	46	43	0	0	35.5%
Qwen 3.5 Flash	76	56	43	0	0	35.1%
GPT-4.1	75	65	30	1	0	34.2%
DeepSeek V3.2	62	53	47	6	0	33.5%
Xiaomi MIMO v2.5 Pro	94	52	22	0	0	33.5%
Grok 4	81	51	34	0	0	33.1%
Gemini 3.1 Flash Lite	72	36	31	23	3	33.1%
Qwen 3.5 27B	57	57	50	0	0	33.0%
GPT-4.1 Nano	100	64	0	0	0	32.8%
DeepSeek V4 Flash	100	61	0	0	0	32.1%
Mistral Small 4	100	57	0	0	0	31.5%
Llama 3.1 70B	81	76	0	0	0	31.4%
DeepSeek V4 Pro (Reasoning)	57	49	39	11	0	31.3%
Mistral Large 3	64	61	16	16	0	31.2%
ByteDance Seed 2.0 Mini	69	44	41	0	0	30.9%
Claude 3.7 Sonnet	93	38	22	0	0	30.4%
Cohere Command R+ (Aug. 2024)	100	50	0	0	0	30.0%
GPT-4o, Aug. 6th (temp=1)	65	50	16	6	0	27.4%
Aion 2.0	60	57	20	0	0	27.4%
MiniMax M2.5	69	62	5	0	0	27.3%
Qwen 2.5 72B	88	44	0	0	0	26.4%
Z.AI GLM 5 Turbo	69	59	0	0	0	25.7%
Claude Opus 4.5	86	41	0	0	0	25.4%
Llama 3.1 Nemotron 70B	61	61	0	0	0	24.3%
Gemma 4 31B	100	16	0	0	0	23.2%
Gemma 3 4B	100	8	6	0	0	22.9%
Z.AI GLM 4.7	68	29	10	0	0	21.2%
GPT-5.1	90	8	8	0	0	21.0%
Gemini 3 Flash (Preview)	59	43	3	0	0	20.9%
Claude Sonnet 4.6 (Reasoning)	62	38	3	0	0	20.7%
Claude Sonnet 4.5	100	0	0	0	0	20.0%
GPT-4o, Aug. 6th (temp=0)	100	0	0	0	0	20.0%
Gemma 4 31B (Reasoning)	69	29	0	0	0	19.7%
GPT-5 Nano	36	35	26	0	0	19.3%
Z.AI GLM 4.5 Air	67	28	0	0	0	18.9%
WizardLM 2 8x22b	94	0	0	0	0	18.9%
GPT-4.1 Mini	33	29	16	6	6	17.9%
GPT-5 Mini	57	30	0	0	0	17.3%
Ministral 3 8B	55	29	1	0	0	17.2%
Z.AI GLM 5.1	82	3	0	0	0	17.1%
Claude Opus 4	35	30	20	0	0	16.9%
Inception Mercury	76	0	0	0	0	15.2%
Ministral 8B	38	35	0	0	0	14.6%
Qwen 3.5 Plus (2026-02-15)	47	20	0	0	0	13.5%
GPT-4o, May 13th (temp=1)	49	11	6	0	0	13.1%
Stealth: Healer Alpha	55	5	0	0	0	11.9%
Arcee AI: Trinity Large (Preview)	56	0	0	0	0	11.3%
Gemini 2.5 Flash (Reasoning)	56	0	0	0	0	11.1%
Z.AI GLM 4.5	23	13	13	1	0	10.0%
GPT-5.4 Nano (Reasoning, Low)	23	18	9	0	0	10.0%
GPT-5.2	48	0	0	0	0	9.6%
Ministral 3 3B	48	0	0	0	0	9.6%
GPT-5.4 Nano (Reasoning)	41	2	0	0	0	8.6%
Gemma 4 26B	35	3	0	0	0	7.5%
Xiaomi MIMO v2.5	23	9	0	0	0	6.5%
Claude 3.5 Sonnet	28	0	0	0	0	5.6%
Claude Haiku 4.5	23	0	0	0	0	4.6%
GPT-5.4 Nano	18	0	0	0	0	3.5%
Gemma 4 26B (Reasoning)	11	0	0	0	0	2.2%
GPT-OSS 120B	5	0	0	0	0	1.0%
MiniMax M2.7	3	1	0	0	0	0.7%
Gemini 3 Flash (Preview, Reasoning)	1	0	0	0	0	0.2%
Claude Sonnet 4	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	97	99.4%
Writer: Palmyra X5	100	100	100	100	85	97.0%
GPT-5.5 (Reasoning)	100	100	100	100	77	95.4%
Claude 3 Haiku	100	100	100	100	74	94.8%
GPT-5.4 (Reasoning, Low)	100	100	100	97	75	94.2%
Qwen 3.5 Plus (2026-04-20)	100	100	93	88	84	92.8%
Qwen3.6 Max Preview	100	100	98	87	77	92.4%
Qwen 3 32B	100	100	100	89	71	91.9%
GPT-5.4 Mini	100	100	95	86	71	90.5%
GPT-5.5 (Reasoning, Low)	100	100	100	86	65	90.2%
Claude Sonnet 4.6 (Reasoning)	100	100	89	84	78	90.2%
GPT-5.4 (Reasoning)	100	100	100	79	72	90.1%
DeepSeek V4 Flash	100	100	100	97	50	89.4%
Mistral Small Creative	100	100	96	93	57	89.2%
Qwen 3.6 Flash	100	100	95	91	59	88.9%
Claude Sonnet 4.6	100	100	100	84	57	88.3%
Qwen 2.5 72B	100	100	100	76	53	85.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	24	84.8%
ByteDance Seed 2.0 Lite	100	100	99	68	56	84.5%
o4 Mini	100	100	81	79	62	84.3%
Qwen 3.5 35B	96	94	90	75	66	84.1%
Grok 4.20 (Reasoning)	100	100	96	65	57	83.5%
DeepSeek V3.2	100	100	96	83	36	83.0%
Grok 4.3 (Reasoning)	100	100	100	81	31	82.3%
Mistral Large 2	100	100	100	94	16	82.0%
GPT-5.1	100	96	76	75	62	81.9%
Grok 4.1 Fast	100	100	100	88	20	81.5%
Aion 2.0	100	100	100	76	30	81.3%
Rocinante 12B	100	100	100	68	36	81.0%
Hermes 3 70B	100	100	100	100	0	80.0%
MoonshotAI: Kimi K2.5	100	100	100	97	0	79.4%
Qwen 3.6 35B	100	100	92	84	20	79.1%
Z.AI GLM 4.7	100	100	95	56	44	79.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	50	44	78.9%
GPT-5.4	100	100	86	54	49	77.8%
GPT-4.1	100	96	90	65	38	77.6%
Gemini 3.5 Flash (Reasoning)	100	100	94	92	0	77.1%
Mistral Small 4	100	100	97	66	22	77.0%
GPT-5.4 Mini (Reasoning)	100	100	76	59	49	76.9%
Qwen 3.5 27B	100	100	75	65	42	76.4%
Qwen3 235B A22B Instruct 2507	100	100	100	82	0	76.3%
Qwen 3.5 9B	100	100	79	56	44	75.7%
ByteDance Seed 1.6 Flash	100	88	83	83	24	75.6%
MoonshotAI: Kimi K2.6	100	100	88	70	20	75.6%
Xiaomi MIMO v2.5 Pro	100	85	71	61	60	75.4%
Gemini 2.5 Pro	100	100	76	62	39	75.3%
Qwen 3.5 Flash	100	97	85	58	36	75.2%
Qwen3.7 Max	100	100	90	60	23	74.6%
Gemma 3 12B	100	79	79	67	49	74.5%
DeepSeek-V2 Chat	100	100	100	35	34	73.8%
Grok 4.20	100	98	69	52	48	73.4%
Mistral Large 3	100	100	100	43	18	72.3%
Ministral 3 14B	100	81	73	64	43	72.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	32	25	71.5%
Xiaomi MIMO v2.5	92	74	71	62	57	71.2%
Ministral 3 8B	98	83	78	71	20	70.0%
Mistral Small 4 (Reasoning)	100	100	98	48	0	69.2%
Hermes 3 405B	100	98	84	59	0	68.2%
Qwen 3.6 27B	100	100	66	55	20	68.1%
Mistral Small 3.2 24B	100	100	100	39	0	67.8%
DeepSeek V4 Pro (Reasoning)	100	100	90	49	0	67.7%
LFM2 24B	100	100	100	38	0	67.6%
Qwen 3.5 122B	95	83	72	50	38	67.6%
ByteDance Seed 2.0 Mini	100	90	81	68	0	67.6%
Mistral Large	100	100	89	46	0	67.0%
Grok 4.3	100	99	98	36	0	66.9%
Qwen 3.5 397B A17B	93	89	81	67	0	66.0%
GPT-5.4 Nano	100	92	76	57	0	65.1%
Z.AI GLM 5.1	100	97	68	34	22	64.2%
Claude Opus 4.6	97	85	81	50	0	62.5%
Cohere Command R+ (Aug. 2024)	100	100	64	48	0	62.4%
Z.AI GLM 4.7 Flash	100	84	60	39	30	62.3%
Gemini 3 Flash (Preview)	98	73	68	68	0	61.6%
GPT-5.4 Nano (Reasoning, Low)	98	73	55	41	35	60.4%
Gemini 3.1 Pro (Preview)	100	81	70	25	23	59.8%
GPT-5	100	87	79	32	0	59.7%
Gemini 2.5 Flash	100	100	35	31	23	57.8%
Stealth: Healer Alpha	100	100	52	33	0	57.0%
Gemini 3.1 Flash Lite (Reasoning)	100	90	84	5	0	56.0%
Claude Opus 4.7 (Reasoning)	100	100	59	14	6	55.7%
Gemma 4 31B (Reasoning)	87	66	60	47	18	55.6%
Grok 4.20 (Beta)	100	65	49	34	28	55.3%
Gemini 2.5 Flash Lite	100	78	53	45	0	55.0%
Z.AI GLM 5	100	100	74	0	0	54.8%
Claude 3.7 Sonnet	72	55	51	50	42	54.0%
Ministral 8B	100	65	65	28	6	52.9%
Stealth: Hunter Alpha	100	67	42	37	17	52.7%
MiniMax M2.5	100	100	43	13	0	51.2%
GPT-4o, Aug. 6th (temp=1)	100	100	35	18	0	50.6%
Claude Opus 4.5	100	100	53	0	0	50.6%
Arcee AI: Trinity Large (Preview)	86	80	41	35	8	49.9%
Ministral 3 3B	100	70	61	18	0	49.8%
Gemma 4 31B	100	79	66	0	0	48.9%
DeepSeek V4 Pro	100	82	56	0	0	47.6%
Gemma 3 27B	100	85	47	3	0	47.1%
Qwen 3.5 Plus (2026-02-15)	79	79	76	0	0	47.0%
Claude 3.5 Sonnet	99	74	52	8	0	46.7%
Grok 4 Fast	100	98	32	0	0	46.1%
Claude Opus 4	100	82	43	5	0	46.1%
Claude Haiku 4.5	100	82	44	0	0	45.0%
Gemini 3.1 Flash Lite	84	84	47	0	0	43.1%
GPT-4o Mini (temp=1)	100	100	13	0	0	42.6%
Grok 4.20 (Beta, Reasoning)	90	52	39	27	0	41.7%
MiniMax M2.7	92	55	45	17	0	41.7%
Ministral 3B	96	69	22	18	0	41.0%
Z.AI GLM 4.6	81	62	46	17	0	41.0%
Llama 3.1 70B	100	96	6	0	0	40.3%
DeepSeek V3.1	100	57	27	17	0	40.2%
GPT-5.2	62	59	40	35	0	39.3%
Gemini 3 Pro (Preview)	77	71	30	18	0	39.2%
GPT-4o, May 13th (temp=1)	78	56	49	11	0	38.7%
Claude Sonnet 4.5	100	84	9	0	0	38.7%
Z.AI GLM 5 Turbo	79	65	47	0	0	38.1%
DeepSeek V3 (2024-12-26)	83	44	36	22	0	37.2%
Mistral NeMO	78	56	38	3	0	34.8%
GPT-4.1 Nano	74	68	25	0	0	33.5%
Claude Opus 4.6 (Reasoning)	100	55	7	0	0	32.4%
Gemini 3.1 Flash Lite (Preview)	50	50	47	5	0	30.5%
Gemini 2.5 Flash Lite (Reasoning)	76	47	24	0	0	29.3%
Gemini 3 Flash (Preview, Reasoning)	100	30	14	0	0	28.8%
Gemini 2.5 Flash (Reasoning)	83	41	10	5	0	27.9%
Claude Sonnet 4	89	36	0	0	0	25.1%
GPT-4o Mini (temp=0)	53	41	25	0	0	23.8%
Grok 4	100	10	7	0	0	23.4%
Gemma 3 4B	76	33	0	0	0	21.9%
Arcee AI: Trinity Mini	41	38	21	9	0	21.8%
GPT-5 Mini	73	36	0	0	0	21.7%
Z.AI GLM 4.5	88	13	0	0	0	20.1%
Llama 3.1 Nemotron 70B	100	0	0	0	0	20.0%
GPT-4.1 Mini	78	15	0	0	0	18.5%
Gemma 4 26B	46	40	5	0	0	18.1%
GPT-5.4 Nano (Reasoning)	38	32	15	0	0	16.9%
Gemma 4 26B (Reasoning)	56	27	0	0	0	16.6%
GPT-4o, Aug. 6th (temp=0)	68	5	3	1	0	15.4%
ByteDance Seed 1.6	44	31	1	0	0	15.2%
GPT-4o, May 13th (temp=0)	61	7	0	0	0	13.6%
Z.AI GLM 4.5 Air	51	15	0	0	0	13.2%
Llama 3.1 8B	62	1	0	0	0	12.6%
WizardLM 2 8x22b	23	18	14	5	0	11.9%
GPT-5 Nano	33	24	0	0	0	11.3%
GPT-OSS 120B	15	7	0	0	0	4.4%
Inception Mercury	7	0	0	0	0	1.5%
Nemotron 3 Super	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude 3 Haiku	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	98	98	99.2%
Writer: Palmyra X5	100	100	100	100	92	98.4%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	87	97.3%
Claude 3.7 Sonnet	100	100	100	100	85	97.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	84	96.8%
DeepSeek V3 (2024-12-26)	100	100	100	98	84	96.4%
Qwen3.7 Max	100	100	100	100	77	95.4%
Gemini 3.1 Pro (Preview)	100	100	100	100	76	95.3%
Mistral Large 2	100	100	100	100	76	95.3%
MoonshotAI: Kimi K2.6	100	100	100	93	82	95.1%
GPT-5.5	100	100	100	92	82	94.7%
Qwen 3.5 9B	100	100	100	100	72	94.4%
Grok 4.1 Fast	100	100	100	100	71	94.2%
Qwen 3.5 27B	100	100	100	93	78	94.0%
Mistral Medium 3.1	100	100	100	100	68	93.6%
GPT-4o, May 13th (temp=0)	100	100	100	100	65	93.1%
o4 Mini High	100	100	92	90	80	92.2%
Gemini 3.1 Flash Lite	100	100	100	83	73	91.3%
Qwen3.6 Max Preview	100	100	91	91	67	89.9%
Xiaomi MIMO v2.5 Pro	100	100	99	76	73	89.8%
GPT-4o Mini (temp=0)	100	100	100	100	46	89.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	97	47	88.9%
ByteDance Seed 1.6	100	100	100	100	36	87.3%
Qwen 3.6 27B	100	100	84	82	65	86.2%
Claude 3.5 Sonnet	100	100	100	100	31	86.2%
MoonshotAI: Kimi K2.5	100	100	100	100	29	85.8%
GPT-5.5 (Reasoning, Low)	100	100	84	83	61	85.5%
Qwen 3.5 Flash	100	100	100	94	33	85.5%
Mistral Large	100	100	100	81	46	85.3%
DeepSeek V3 (2025-03-24)	100	100	100	89	36	85.1%
Stealth: Healer Alpha	100	100	100	87	38	84.9%
Gemma 3 27B	100	88	86	79	69	84.3%
GPT-5.5 (Reasoning)	100	99	95	84	43	84.3%
GPT-5.4 (Reasoning)	100	100	85	77	59	84.1%
Ministral 8B	100	100	100	64	56	84.0%
Mistral Small 3.2 24B	100	100	100	82	36	83.6%
Rocinante 12B	100	100	100	69	48	83.5%
Gemini 2.5 Pro	100	100	100	91	25	83.2%
GPT-5.4 (Reasoning, Low)	100	100	100	58	57	83.1%
ByteDance Seed 1.6 Flash	100	100	83	82	47	82.6%
Ministral 3 3B	100	96	88	74	54	82.2%
Z.AI GLM 4.5 Air	100	100	100	54	51	81.0%
Grok 4.3 (Reasoning)	100	100	100	65	40	81.0%
Gemini 3 Pro (Preview)	100	92	88	85	36	80.3%
Hermes 3 405B	100	100	100	100	0	80.0%
Hermes 3 70B	100	100	84	67	49	79.9%
Ministral 3 8B	100	100	100	85	14	79.7%
Claude Opus 4.7	100	100	86	67	36	77.8%
Qwen 2.5 72B	100	100	100	79	7	77.1%
MiniMax M2.5	100	100	100	82	3	77.1%
Ministral 3 14B	100	100	92	57	35	76.8%
Xiaomi MIMO v2.5	100	100	100	44	39	76.5%
Qwen 3.6 Flash	100	100	94	87	0	76.1%
Z.AI GLM 4.7 Flash	100	100	100	55	25	76.0%
Mistral Small Creative	100	86	82	57	54	75.9%
Gemma 3 12B	100	100	100	50	30	75.9%
Mistral Small 4	100	100	90	54	35	75.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	79	0	75.7%
GPT-5.4	100	89	78	66	44	75.2%
Grok 4.3	100	100	81	62	32	75.0%
GPT-5.4 Mini	100	95	88	54	37	74.9%
Z.AI GLM 5.1	100	100	100	73	0	74.6%
GPT-5.1	100	87	77	66	40	74.0%
Claude Opus 4	100	100	100	47	18	73.1%
LFM2 24B	100	100	100	64	0	72.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	62	0	72.5%
GPT-4o, May 13th (temp=1)	100	74	67	65	56	72.4%
o4 Mini	100	94	86	49	32	72.3%
Gemini 2.5 Flash Lite	100	100	85	71	0	71.1%
Grok 4.20 (Reasoning)	100	100	69	49	36	70.9%
Llama 3.1 8B	100	100	93	61	0	70.8%
Claude Sonnet 4.6 (Reasoning)	100	100	100	51	0	70.3%
Qwen 3.6 35B	100	100	84	66	0	69.9%
Claude Sonnet 4	100	100	72	67	9	69.5%
DeepSeek-V2 Chat	100	100	100	46	0	69.2%
Grok 4 Fast	100	100	67	48	29	68.7%
Aion 2.0	100	76	71	65	30	68.4%
Mistral Large 3	100	100	100	41	0	68.3%
Z.AI GLM 4.5	100	100	81	39	21	68.0%
DeepSeek V3.2	100	100	94	28	17	67.9%
Z.AI GLM 5	100	100	61	50	27	67.6%
Z.AI GLM 4.7	100	100	89	38	8	67.0%
Claude Sonnet 4.6	100	100	100	35	0	66.9%
WizardLM 2 8x22b	100	100	100	35	0	66.9%
DeepSeek V4 Pro	100	100	83	40	11	66.9%
Claude Opus 4.6	100	100	80	51	0	66.2%
Qwen 3 32B	100	100	94	36	0	66.2%
Llama 3.1 Nemotron 70B	100	97	92	41	0	66.0%
Gemini 3 Flash (Preview)	85	75	74	50	41	65.2%
Qwen 3.5 397B A17B	100	100	80	46	0	65.1%
Arcee AI: Trinity Large (Preview)	100	100	100	17	1	63.5%
Grok 4.20 (Beta)	100	76	71	35	30	62.4%
Claude Opus 4.5	100	100	60	51	0	62.2%
GPT-4o, Aug. 6th (temp=1)	100	100	59	50	0	61.8%
GPT-4.1	100	78	47	43	40	61.5%
Qwen 3.5 Plus (2026-02-15)	100	78	67	61	0	61.0%
Mistral NeMO	100	100	100	0	0	60.0%
Gemini 3.1 Flash Lite (Reasoning)	100	83	51	34	30	59.6%
GPT-5	100	89	79	25	4	59.5%
Grok 4.20	100	94	66	25	11	59.1%
Claude Opus 4.6 (Reasoning)	100	98	50	43	5	59.1%
DeepSeek V4 Flash	100	100	68	27	0	58.9%
Grok 4	89	80	65	60	0	58.6%
Arcee AI: Trinity Mini	100	97	85	0	0	56.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	32	27	22	56.1%
Gemma 3 4B	100	100	56	23	0	55.7%
Ministral 3B	100	100	72	6	0	55.5%
GPT-5.4 Mini (Reasoning, Low)	78	74	55	52	19	55.5%
DeepSeek V4 Pro (Reasoning)	86	72	69	49	0	55.2%
Gemini 2.5 Flash (Reasoning)	99	96	62	18	0	55.2%
Z.AI GLM 4.6	100	68	59	47	0	54.9%
GPT-5.4 Mini (Reasoning)	69	56	54	49	41	53.7%
Grok 4.20 (Beta, Reasoning)	100	70	49	49	0	53.6%
Qwen3 235B A22B Instruct 2507	100	100	64	0	0	52.8%
Gemma 4 26B	100	100	61	1	0	52.3%
MiniMax M2.7	100	92	65	0	0	51.4%
Mistral Small 4 (Reasoning)	66	57	57	53	21	50.8%
Gemma 4 31B	100	72	68	5	0	49.0%
Qwen 3.5 35B	94	88	39	18	0	47.7%
Z.AI GLM 5 Turbo	100	100	25	8	0	46.7%
Gemini 3.1 Flash Lite (Preview)	100	100	25	8	0	46.7%
Stealth: Hunter Alpha	100	97	20	10	0	45.3%
DeepSeek V3.1	68	62	59	27	0	43.2%
ByteDance Seed 2.0 Mini	100	74	36	5	0	43.1%
Llama 3.1 70B	100	100	14	0	0	42.7%
Claude Opus 4.7 (Reasoning)	100	93	15	0	0	41.6%
Qwen 3.5 122B	95	69	38	0	0	40.5%
Gemini 2.5 Flash	58	55	40	36	11	40.2%
GPT-4.1 Nano	100	48	46	0	0	38.8%
Gemma 4 31B (Reasoning)	100	59	29	0	0	37.6%
Claude Sonnet 4.5	69	64	40	8	5	37.3%
Nemotron 3 Super	82	82	14	0	0	35.8%
GPT-4o Mini (temp=1)	100	31	29	0	0	32.0%
Gemini 2.5 Flash Lite (Reasoning)	57	39	30	30	0	31.2%
Gemma 4 26B (Reasoning)	83	38	9	0	0	26.1%
Inception Mercury	100	0	0	0	0	20.0%
GPT-5.4 Nano (Reasoning, Low)	73	12	5	1	0	18.2%
Inception Mercury 2	26	25	22	0	0	14.7%
GPT-OSS 120B	63	0	0	0	0	12.6%
Claude Haiku 4.5	61	0	0	0	0	12.1%
GPT-4.1 Mini	41	18	0	0	0	11.9%
GPT-5.2	31	22	0	0	0	10.6%
GPT-5.4 Nano	25	22	0	0	0	9.5%
GPT-5.4 Nano (Reasoning)	46	0	0	0	0	9.3%
GPT-5 Mini	38	0	0	0	0	7.6%
GPT-5 Nano	11	1	0	0	0	2.4%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	99	99.8%
Qwen3.7 Max	100	100	100	100	96	99.1%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	95	99.0%
Grok 4.20 (Reasoning)	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	99	96	98.9%
Ministral 3 8B	100	100	100	100	93	98.6%
GPT-5.5 (Reasoning)	100	100	100	100	92	98.4%
Qwen 2.5 72B	100	100	100	100	90	98.1%
Hermes 3 405B	100	100	100	100	89	97.8%
Grok 4.3	100	100	100	96	93	97.8%
Claude 3 Haiku	100	100	100	100	86	97.2%
GPT-5.4	100	100	100	92	91	96.7%
Qwen 3.5 35B	100	100	100	100	82	96.3%
GPT-4.1 Mini	100	100	100	92	89	96.2%
o4 Mini	100	100	100	100	80	95.9%
GPT-5.4 (Reasoning)	100	100	100	94	84	95.4%
Qwen 3.5 122B	100	100	100	100	77	95.4%
GPT-5.4 Mini	100	100	100	100	77	95.4%
Mistral Small 4 (Reasoning)	100	100	100	100	73	94.7%
Qwen 3.6 Flash	100	100	100	94	78	94.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	67	93.3%
Ministral 3B	100	100	100	92	74	93.2%
Qwen 3.6 35B	100	100	100	87	79	93.1%
Arcee AI: Trinity Mini	100	100	100	100	64	92.8%
GPT-5.4 (Reasoning, Low)	100	100	100	97	66	92.5%
Mistral NeMO	100	100	98	83	79	92.0%
Qwen3.6 Max Preview	100	100	100	84	75	91.7%
Mistral Small 4	100	100	100	100	57	91.5%
Writer: Palmyra X5	100	100	100	100	54	90.8%
o4 Mini High	100	100	100	76	74	90.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	50	90.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	92	83	79	89.9%
Llama 3.1 70B	100	100	90	82	76	89.9%
Mistral Small 3.2 24B	100	100	100	100	47	89.4%
WizardLM 2 8x22b	100	100	100	82	64	89.2%
GPT-5.1	100	100	94	75	74	88.5%
GPT-5.4 Mini (Reasoning)	100	100	100	86	57	88.5%
Qwen 3.5 27B	100	100	86	85	69	88.1%
Xiaomi MIMO v2.5 Pro	100	100	100	93	47	88.0%
Stealth: Hunter Alpha	100	100	100	87	47	86.7%
Hermes 3 70B	100	100	93	89	50	86.4%
Grok 4	100	100	100	75	55	86.1%
Gemma 3 4B	100	100	100	100	29	85.8%
Gemini 3 Pro (Preview)	100	100	100	73	54	85.3%
DeepSeek V3 (2024-12-26)	100	100	90	71	64	85.0%
Claude Opus 4.7	100	100	100	88	34	84.2%
LFM2 24B	100	100	100	100	20	84.0%
DeepSeek V4 Flash	100	100	100	68	50	83.6%
GPT-5.4 Nano	100	97	86	79	51	82.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	90	18	81.8%
Gemini 3.1 Flash Lite	100	100	100	60	49	81.7%
GPT-4.1	100	100	100	84	20	80.9%
Gemma 3 27B	100	100	72	65	64	80.2%
Rocinante 12B	100	100	100	100	0	80.0%
Qwen3 235B A22B Instruct 2507	100	100	94	61	44	79.8%
DeepSeek V3.1	100	100	100	65	31	79.2%
Qwen 3 32B	100	100	96	56	44	79.0%
ByteDance Seed 1.6	100	100	100	76	18	79.0%
Claude Opus 4	100	100	100	62	29	78.3%
Llama 3.1 Nemotron 70B	100	100	100	67	22	77.7%
Z.AI GLM 5.1	100	100	83	54	50	77.4%
Xiaomi MIMO v2.5	100	89	82	59	57	77.3%
MiniMax M2.5	100	100	65	64	57	77.3%
Stealth: Healer Alpha	100	100	86	57	43	77.2%
Gemini 3.5 Flash (Reasoning)	100	100	100	80	5	76.9%
Z.AI GLM 4.7	88	86	84	68	57	76.5%
MoonshotAI: Kimi K2.6	100	87	86	53	53	75.6%
Gemini 3.1 Flash Lite (Preview)	100	100	87	85	5	75.3%
Mistral Large	100	100	100	41	31	74.5%
Grok 4.20	100	100	89	82	0	74.1%
Gemma 3 12B	100	100	69	68	27	72.9%
Cohere Command R+ (Aug. 2024)	100	100	73	72	18	72.7%
Z.AI GLM 4.7 Flash	100	100	100	62	0	72.4%
GPT-5 Mini	100	90	85	71	14	71.9%
GPT-5	100	100	85	65	9	71.8%
DeepSeek-V2 Chat	100	100	90	36	31	71.6%
Inception Mercury	100	100	100	57	0	71.5%
Grok 4.20 (Beta, Reasoning)	100	84	72	53	44	70.6%
Ministral 3 3B	100	100	100	34	17	70.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	27	23	70.0%
Mistral Large 3	100	100	100	46	0	69.2%
ByteDance Seed 2.0 Mini	100	100	100	38	6	68.8%
Claude Opus 4.7 (Reasoning)	100	100	100	39	3	68.4%
GPT-4.1 Nano	100	98	84	57	0	67.9%
Z.AI GLM 4.5 Air	100	100	75	62	0	67.5%
Nemotron 3 Super	100	100	73	49	14	67.1%
Mistral Large 2	100	94	67	48	25	66.8%
DeepSeek V3.2	100	85	62	57	25	65.8%
Llama 3.1 8B	100	84	74	65	0	64.6%
GPT-4o, May 13th (temp=1)	100	100	100	16	0	63.2%
Claude 3.7 Sonnet	100	100	65	49	0	62.8%
Z.AI GLM 4.6	100	82	76	50	0	61.6%
Ministral 3 14B	100	100	100	5	0	61.0%
Claude Opus 4.6 (Reasoning)	87	80	74	64	0	60.9%
Gemma 4 31B	100	71	69	64	0	60.8%
Qwen 3.5 Plus (2026-02-15)	100	100	47	29	27	60.7%
Gemini 2.5 Flash	100	100	54	47	0	60.2%
Mistral Medium 3.1	100	82	61	51	6	60.0%
Ministral 8B	100	94	89	16	0	59.9%
Gemma 4 26B (Reasoning)	100	100	62	35	0	59.4%
Claude Sonnet 4.6	100	100	57	38	0	59.1%
GPT-5.2	85	83	68	54	0	58.0%
Z.AI GLM 4.5	100	54	52	44	39	57.7%
GPT-5.4 Nano (Reasoning, Low)	87	76	74	48	1	57.0%
Gemini 3 Flash (Preview)	100	83	47	27	17	54.9%
Claude Sonnet 4.6 (Reasoning)	100	100	44	29	0	54.5%
Gemini 2.5 Flash Lite	100	93	76	0	0	53.9%
DeepSeek V4 Pro	100	86	51	17	15	53.7%
Claude Opus 4.6	100	81	41	40	0	52.4%
Claude Haiku 4.5	100	98	57	0	0	51.1%
Gemini 2.5 Pro	89	72	53	39	0	50.5%
Claude Opus 4.5	100	100	51	0	0	50.3%
GPT-5.4 Nano (Reasoning)	98	82	68	0	0	49.6%
Claude Sonnet 4.5	83	57	43	43	18	49.0%
Arcee AI: Trinity Large (Preview)	100	56	35	31	18	47.9%
Grok 4.20 (Beta)	94	64	39	31	0	45.7%
MoonshotAI: Kimi K2.5	93	73	61	0	0	45.4%
Gemma 4 26B	100	43	36	35	5	43.8%
Gemini 3.1 Flash Lite (Reasoning)	100	98	17	0	0	42.9%
Gemini 2.5 Flash Lite (Reasoning)	93	83	34	1	0	42.3%
MiniMax M2.7	100	100	0	0	0	40.0%
Claude Sonnet 4	100	100	0	0	0	40.0%
Grok 4 Fast	100	40	29	25	0	38.7%
Z.AI GLM 5 Turbo	100	40	36	0	0	35.2%
Z.AI GLM 5	94	41	33	5	0	34.6%
Gemini 2.5 Flash (Reasoning)	68	68	31	0	0	33.6%
Aion 2.0	90	41	31	5	0	33.4%
Claude 3.5 Sonnet	100	36	28	0	0	32.9%
Gemma 4 31B (Reasoning)	69	38	31	8	0	29.4%
GPT-OSS 120B	83	47	15	0	0	29.0%
Stealth: Aurora Alpha	100	40	0	0	0	27.9%
Gemini 3 Flash (Preview, Reasoning)	100	27	0	0	0	25.3%
Inception Mercury 2	54	51	16	0	0	24.1%
GPT-4o, Aug. 6th (temp=1)	98	0	0	0	0	19.6%
Nemotron 3 Nano	80	3	0	0	0	16.5%
GPT-5 Nano	43	10	0	0	0	10.6%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	97	99.4%
Hermes 3 405B	100	100	100	100	96	99.1%
Ministral 3 8B	100	100	100	100	93	98.6%
Ministral 8B	100	100	100	100	93	98.5%
GPT-5.5	100	100	100	98	94	98.4%
Stealth: Hunter Alpha	100	100	100	100	90	98.1%
Z.AI GLM 4.5 Air	100	100	100	100	88	97.5%
Qwen3 235B A22B Instruct 2507	100	100	100	98	89	97.4%
DeepSeek V3 (2025-03-24)	100	100	100	93	90	96.7%
Claude Opus 4	100	100	100	100	82	96.5%
GPT-4o Mini (temp=1)	100	100	100	100	81	96.1%
Ministral 3 3B	100	100	100	88	88	95.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	73	94.7%
Claude Opus 4.7 (Reasoning)	100	100	99	92	81	94.3%
ByteDance Seed 2.0 Mini	100	100	100	100	71	94.1%
Claude 3.7 Sonnet	100	100	93	90	85	93.6%
Qwen 3.6 35B	100	100	100	97	70	93.4%
Qwen 3.6 27B	100	100	100	88	76	92.8%
DeepSeek V3.2	100	100	100	93	69	92.4%
GPT-5.5 (Reasoning)	100	100	100	82	79	92.1%
Qwen 3.5 9B	100	100	100	85	74	91.9%
Grok 4.1 Fast	100	100	96	89	73	91.6%
GPT-5.4 (Reasoning)	100	100	93	87	75	91.0%
Claude 3.5 Sonnet	100	92	89	88	86	90.9%
Grok 4 Fast	100	100	100	92	62	90.7%
GPT-5.4 (Reasoning, Low)	100	100	100	81	71	90.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	88	64	90.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	50	90.0%
Mistral Small Creative	100	100	100	88	54	88.3%
Gemma 4 26B (Reasoning)	100	100	100	75	62	87.5%
GPT-5.4	100	100	100	100	37	87.4%
Hermes 3 70B	100	100	100	100	34	86.7%
Gemini 2.5 Flash	100	100	98	97	35	86.2%
Qwen 3.6 Flash	100	100	96	68	53	83.4%
Qwen 3.5 122B	100	100	100	65	51	83.3%
Qwen3.6 Max Preview	100	100	81	74	58	82.6%
Claude Sonnet 4	100	100	100	80	33	82.5%
Mistral Small 4	100	100	93	80	40	82.4%
DeepSeek V3 (2024-12-26)	100	100	92	71	49	82.2%
Mistral Large	100	100	88	65	57	82.0%
Claude 3 Haiku	100	100	100	99	11	82.0%
Gemma 3 12B	100	100	74	68	62	80.9%
Grok 4	100	100	100	60	44	80.7%
Writer: Palmyra X5	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	96	76	25	79.4%
Ministral 3 14B	100	100	100	93	0	78.6%
Qwen 3.5 35B	100	91	90	57	54	78.6%
Qwen 3.5 27B	100	89	86	65	51	78.2%
Llama 3.1 8B	100	100	100	72	18	78.1%
Gemini 2.5 Pro	100	100	98	90	0	77.8%
Qwen 3.5 397B A17B	100	100	76	75	35	77.4%
Llama 3.1 70B	100	100	94	88	0	76.4%
Z.AI GLM 5 Turbo	100	100	64	62	56	76.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	50	31	76.2%
Cohere Command R+ (Aug. 2024)	100	100	100	50	31	76.2%
o4 Mini	100	100	87	59	31	75.2%
GPT-4o, Aug. 6th (temp=0)	100	100	93	69	11	74.7%
ByteDance Seed 1.6 Flash	100	100	79	77	13	73.7%
Gemini 3.1 Flash Lite	100	100	84	81	0	73.0%
Z.AI GLM 4.5	100	100	80	65	18	72.7%
Gemini 3 Flash (Preview, Reasoning)	100	100	74	62	25	72.3%
Xiaomi MIMO v2.5 Pro	100	88	71	70	31	72.1%
Claude Sonnet 4.5	100	100	100	52	8	72.1%
Gemma 3 27B	100	100	100	52	7	71.8%
DeepSeek-V2 Chat	100	100	79	71	7	71.3%
Qwen 2.5 72B	100	100	78	56	23	71.2%
Grok 4.3 (Reasoning)	100	100	64	54	38	71.1%
ByteDance Seed 2.0 Lite	100	86	74	74	18	70.6%
Gemini 2.5 Flash Lite (Reasoning)	100	94	61	50	48	70.5%
Qwen 3.5 Flash	100	95	81	53	23	70.3%
Grok 4.3	100	100	61	53	38	70.3%
Gemini 3.1 Flash Lite (Reasoning)	100	86	85	62	18	70.2%
o4 Mini High	100	90	82	49	28	69.6%
Grok 4.20 (Beta)	100	92	69	68	18	69.5%
GPT-5.4 Mini	100	93	72	41	41	69.3%
Gemini 3 Flash (Preview)	100	86	80	47	33	69.1%
DeepSeek V4 Flash	100	100	100	44	0	68.9%
GPT-5.4 Mini (Reasoning, Low)	96	86	66	58	38	68.7%
Mistral Large 2	100	94	56	54	39	68.6%
Z.AI GLM 4.6	100	92	90	60	0	68.3%
Mistral Small 4 (Reasoning)	100	79	73	57	24	66.8%
Z.AI GLM 4.7	95	93	72	68	4	66.5%
Gemini 2.5 Flash (Reasoning)	100	98	61	38	35	66.3%
Gemini 3.1 Flash Lite (Preview)	82	79	59	59	50	65.7%
Claude Sonnet 4.6	100	97	88	44	0	65.6%
Aion 2.0	100	86	69	69	3	65.4%
Stealth: Healer Alpha	97	92	68	68	0	64.8%
Claude Opus 4.6	100	90	56	40	36	64.6%
LFM2 24B	93	67	61	61	41	64.5%
Ministral 3B	90	84	79	46	22	64.2%
Gemini 2.5 Flash Lite	90	79	76	50	25	64.1%
GPT-5.4 Mini (Reasoning)	95	79	61	48	38	64.0%
Gemma 3 4B	100	98	97	25	0	63.9%
Gemma 4 31B	100	100	61	56	0	63.3%
GPT-5.1	100	85	44	41	37	61.6%
WizardLM 2 8x22b	100	92	69	44	0	61.0%
MoonshotAI: Kimi K2.6	100	100	97	0	0	59.4%
GPT-4.1 Nano	100	100	97	0	0	59.4%
GPT-4.1	100	92	49	29	18	57.6%
GPT-4o, May 13th (temp=0)	100	57	54	38	35	56.8%
Grok 4.20 (Reasoning)	100	96	64	17	6	56.7%
Claude Haiku 4.5	100	68	61	50	0	55.7%
Z.AI GLM 4.7 Flash	79	65	53	51	30	55.6%
MiniMax M2.5	100	98	35	25	18	55.2%
Qwen 3.5 Plus (2026-02-15)	100	73	64	38	0	55.0%
DeepSeek V4 Pro	97	93	38	28	18	54.9%
MiniMax M2.7	100	84	53	36	0	54.6%
Gemma 4 31B (Reasoning)	100	100	36	35	1	54.3%
Claude Opus 4.5	100	100	71	0	0	54.1%
MoonshotAI: Kimi K2.5	100	100	69	0	0	53.9%
Qwen 3 32B	100	100	36	25	0	52.3%
ByteDance Seed 1.6	100	52	44	31	27	50.7%
Grok 4.20	100	100	27	25	0	50.5%
DeepSeek V3.1	100	90	49	3	0	48.4%
Claude Opus 4.6 (Reasoning)	80	78	59	22	1	47.6%
Claude Sonnet 4.6 (Reasoning)	100	57	52	18	0	45.6%
Claude Opus 4.7	100	88	25	11	0	44.7%
Z.AI GLM 5.1	100	72	39	9	3	44.6%
Gemma 4 26B	100	71	27	23	0	44.1%
Xiaomi MIMO v2.5	89	79	32	17	0	43.3%
DeepSeek V4 Pro (Reasoning)	100	84	27	3	0	42.7%
Mistral Large 3	100	67	36	0	0	40.6%
Inception Mercury	100	100	0	0	0	40.0%
Grok 4.20 (Beta, Reasoning)	74	72	41	0	0	37.5%
GPT-5	66	51	42	22	0	36.1%
GPT-5.2	60	33	30	24	16	32.5%
Z.AI GLM 5	83	76	1	0	0	32.1%
Llama 3.1 Nemotron 70B	82	74	0	0	0	31.3%
GPT-4.1 Mini	59	46	41	0	0	29.2%
GPT-5.4 Nano (Reasoning, Low)	77	26	17	0	0	24.1%
GPT-5.4 Nano	71	45	0	0	0	23.1%
GPT-5.4 Nano (Reasoning)	67	12	0	0	0	15.8%
GPT-OSS 120B	25	12	0	0	0	7.5%
Nemotron 3 Super	20	16	0	0	0	7.1%
GPT-5 Mini	16	0	0	0	0	3.2%
Stealth: Aurora Alpha	1	0	0	0	0	0.3%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	98	99.7%
Mistral NeMO	100	100	100	100	98	99.6%
Claude 3 Haiku	100	100	100	100	97	99.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	96	99.1%
Qwen 3.6 27B	100	100	100	100	94	98.9%
Grok 4.1 Fast	100	100	100	98	95	98.6%
Qwen 2.5 72B	100	100	100	97	95	98.5%
Qwen3.7 Max	100	100	100	96	93	97.9%
Qwen3.6 Max Preview	100	100	100	98	90	97.8%
GPT-4o, May 13th (temp=0)	100	100	100	100	88	97.7%
GPT-5.4 Mini (Reasoning)	100	100	100	98	87	97.0%
Rocinante 12B	100	100	100	100	82	96.5%
Cohere Command R+ (Aug. 2024)	100	100	100	96	85	96.1%
GPT-5.4 (Reasoning, Low)	100	100	100	97	84	96.1%
GPT-4.1 Mini	100	100	100	100	81	96.1%
Qwen 3.5 397B A17B	100	100	100	100	80	95.9%
Gemini 3.1 Pro (Preview)	100	100	100	100	76	95.3%
Hermes 3 70B	100	100	100	97	80	95.3%
Arcee AI: Trinity Mini	100	100	100	92	84	95.2%
ByteDance Seed 1.6	100	100	100	100	75	95.1%
ByteDance Seed 1.6 Flash	100	100	100	100	75	95.0%
Stealth: Hunter Alpha	100	100	100	91	84	95.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	86	85	94.4%
Aion 2.0	100	100	100	100	72	94.4%
Llama 3.1 Nemotron 70B	100	100	100	86	84	94.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	68	93.7%
WizardLM 2 8x22b	100	100	100	100	67	93.3%
GPT-5.4 (Reasoning)	100	100	100	90	76	93.2%
Ministral 3 14B	100	100	100	91	69	92.1%
Claude Opus 4.7 (Reasoning)	100	100	100	100	59	91.8%
Claude Sonnet 4.5	100	100	100	82	78	91.8%
GPT-5.4 Mini	100	100	100	98	59	91.5%
Qwen 3 32B	100	100	100	81	76	91.5%
Qwen 3.6 35B	100	100	100	94	63	91.3%
Z.AI GLM 4.7	100	100	100	93	62	91.0%
Qwen3 235B A22B Instruct 2507	100	100	100	82	72	90.9%
Qwen 3.5 122B	100	100	100	87	68	90.9%
GPT-5	100	100	92	89	65	89.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	93	54	89.3%
GPT-4o, May 13th (temp=1)	100	100	100	90	50	88.0%
GPT-4.1	100	94	90	86	68	87.9%
DeepSeek V3.2	100	100	94	82	62	87.5%
Mistral Large 3	100	99	98	92	47	87.2%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	35	86.9%
Claude Opus 4.6 (Reasoning)	100	100	100	85	48	86.7%
GPT-4o Mini (temp=1)	100	100	100	100	29	85.8%
Grok 4.3	100	97	95	82	55	85.7%
DeepSeek-V2 Chat	100	100	84	81	59	84.8%
Grok 4.3 (Reasoning)	100	100	100	65	53	83.6%
DeepSeek V4 Flash	100	100	84	71	60	82.9%
Qwen 3.6 Flash	100	100	80	76	55	82.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	62	49	82.2%
Qwen 3.5 9B	100	100	100	100	10	81.9%
Mistral Large	100	100	73	68	67	81.6%
Gemini 2.5 Pro	100	100	86	72	50	81.6%
Gemma 3 4B	100	100	98	73	36	81.5%
Mistral Small 4	100	100	100	81	25	81.1%
DeepSeek V3.1	100	100	73	67	61	80.0%
MoonshotAI: Kimi K2.6	100	100	88	81	29	79.4%
Gemma 3 12B	100	100	88	71	38	79.4%
MoonshotAI: Kimi K2.5	92	84	81	74	61	78.3%
LFM2 24B	100	100	100	57	27	76.9%
Inception Mercury	100	100	100	83	0	76.7%
Grok 4.20	100	88	82	59	54	76.7%
Qwen 3.5 27B	100	100	100	79	0	75.7%
Ministral 3 8B	100	100	100	79	0	75.7%
Qwen 3.5 35B	100	100	100	78	0	75.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	56	16	74.3%
Mistral Small 3.2 24B	100	100	97	72	0	73.8%
Xiaomi MIMO v2.5 Pro	100	91	87	69	21	73.7%
Mistral Small 4 (Reasoning)	100	100	100	66	0	73.1%
Mistral Medium 3.1	100	100	100	42	23	73.1%
Grok 4 Fast	100	100	93	65	0	71.7%
Mistral Large 2	100	100	83	73	0	71.4%
Claude Opus 4.7	100	100	100	52	0	70.4%
DeepSeek V3 (2024-12-26)	100	100	89	61	0	69.9%
Mistral Small Creative	100	100	75	56	18	69.8%
ByteDance Seed 2.0 Mini	100	100	78	52	16	69.1%
Claude Haiku 4.5	100	100	86	59	0	69.0%
ByteDance Seed 2.0 Lite	100	100	90	50	0	68.1%
Grok 4	100	100	88	45	6	67.6%
Gemini 3 Pro (Preview)	100	100	81	34	17	66.4%
GPT-4.1 Nano	100	100	62	35	35	66.3%
DeepSeek V3 (2025-03-24)	100	67	61	56	48	66.2%
Qwen 3.5 Flash	100	100	82	40	0	64.6%
Claude 3.7 Sonnet	100	100	52	41	30	64.6%
Z.AI GLM 5 Turbo	91	76	75	57	22	64.4%
Gemini 3.1 Flash Lite	100	100	71	25	25	64.1%
Gemma 4 31B	89	87	65	49	31	64.1%
Z.AI GLM 4.5	100	100	98	20	0	63.6%
Claude Opus 4	100	89	88	25	14	63.2%
DeepSeek V4 Pro	100	89	73	42	6	62.3%
Xiaomi MIMO v2.5	100	94	90	21	0	61.2%
Gemini 3 Flash (Preview, Reasoning)	100	90	84	31	0	61.1%
Z.AI GLM 4.7 Flash	86	74	70	46	27	60.7%
Gemma 4 26B (Reasoning)	100	100	40	36	23	59.8%
Qwen 3.5 Plus (2026-02-15)	86	83	73	56	0	59.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	72	25	0	59.4%
Stealth: Healer Alpha	100	99	90	5	0	58.8%
DeepSeek V4 Pro (Reasoning)	100	91	90	8	0	57.8%
GPT-5 Mini	74	70	61	57	25	57.5%
GPT-4o Mini (temp=0)	100	84	53	29	21	57.3%
Llama 3.1 70B	100	100	39	36	11	57.3%
Gemma 3 27B	100	100	61	20	0	56.2%
Gemma 4 31B (Reasoning)	100	100	47	31	0	55.6%
Ministral 8B	100	91	67	17	0	54.9%
GPT-5.1	100	82	44	40	2	53.7%
Z.AI GLM 5	100	68	62	35	0	53.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	29	29	0	51.6%
Gemini 2.5 Flash Lite	100	71	64	7	0	48.4%
Claude Sonnet 4	100	75	52	14	0	48.2%
Claude Sonnet 4.6	100	65	59	11	0	47.1%
DeepSeek V4 Flash (Reasoning)	100	60	44	11	10	44.9%
Claude Opus 4.6	93	57	56	18	0	44.9%
Arcee AI: Trinity Large (Preview)	82	74	42	17	3	43.8%
Llama 3.1 8B	100	57	34	25	0	43.2%
GPT-5.2	100	76	21	18	0	43.0%
Z.AI GLM 5.1	88	80	44	0	0	42.2%
Z.AI GLM 4.5 Air	100	96	9	0	0	41.1%
MiniMax M2.5	100	73	28	0	0	40.2%
Gemini 3.1 Flash Lite (Preview)	75	67	27	21	5	39.0%
GPT-5.4 Nano (Reasoning)	74	64	30	18	0	37.4%
Claude Opus 4.5	100	69	13	1	0	36.6%
Grok 4.20 (Beta)	74	55	54	0	0	36.4%
Gemini 3 Flash (Preview)	97	59	24	0	0	35.8%
Z.AI GLM 4.6	86	46	17	16	3	33.4%
MiniMax M2.7	76	35	25	14	7	31.4%
Gemini 2.5 Flash	83	36	25	0	0	28.9%
Claude 3.5 Sonnet	100	41	0	0	0	28.3%
Grok 4.20 (Reasoning)	81	38	18	0	0	27.7%
Grok 4.20 (Beta, Reasoning)	65	46	24	0	0	27.0%
GPT-OSS 120B	93	24	16	0	0	26.8%
GPT-5.4 Nano	46	46	19	0	0	22.3%
GPT-5.4 Nano (Reasoning, Low)	41	36	32	0	0	22.0%
Gemini 2.5 Flash (Reasoning)	76	24	7	0	0	21.5%
Gemma 4 26B	84	15	0	0	0	19.8%
Nemotron 3 Super	39	17	5	0	0	12.1%
GPT-5 Nano	47	0	0	0	0	9.3%
Stealth: Aurora Alpha	45	0	0	0	0	8.9%
Inception Mercury 2	6	0	0	0	0	1.2%
Nemotron 3 Nano	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	96	99.3%
GPT-5.5	100	100	100	100	96	99.2%
Grok 4.1 Fast	100	100	100	100	84	96.8%
MoonshotAI: Kimi K2.5	100	100	100	100	81	96.1%
Qwen3.7 Max	100	100	98	90	90	95.6%
GPT-4o, May 13th (temp=0)	100	100	100	88	82	94.0%
GPT-5.5 (Reasoning)	100	100	99	75	74	89.6%
GPT-5.4 (Reasoning, Low)	100	100	98	88	60	89.0%
o4 Mini	100	100	90	82	66	87.7%
Qwen 3.5 397B A17B	100	100	100	100	37	87.5%
Qwen 3 32B	100	100	98	75	61	86.8%
Grok 4.3	100	100	100	80	52	86.4%
GPT-4o Mini (temp=1)	100	100	100	69	62	86.3%
Grok 4.20 (Reasoning)	100	100	84	78	67	85.7%
GPT-5.4 Mini	100	98	92	74	60	85.0%
o4 Mini High	100	100	100	89	32	84.2%
Qwen 3.5 Flash	100	88	86	81	65	83.9%
GPT-5.4	100	100	100	60	56	83.2%
Qwen 3.5 27B	100	100	100	80	36	83.1%
GPT-5.4 Mini (Reasoning)	100	100	100	65	49	82.7%
DeepSeek V4 Flash (Reasoning)	100	100	100	75	27	80.5%
DeepSeek V3 (2025-03-24)	100	100	99	97	3	79.7%
GPT-5.4 Mini (Reasoning, Low)	100	87	73	70	62	78.5%
Claude Opus 4.6 (Reasoning)	100	100	100	51	40	78.2%
Mistral Medium 3.1	100	100	100	55	23	75.6%
Grok 4 Fast	100	100	68	67	41	75.3%
DeepSeek V4 Pro (Reasoning)	100	100	72	71	27	73.8%
Llama 3.1 70B	100	98	82	67	22	73.8%
DeepSeek-V2 Chat	100	99	94	47	23	72.9%
Qwen 3.5 35B	100	100	82	43	38	72.7%
ByteDance Seed 2.0 Mini	100	94	88	53	25	71.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	57	55	46	71.7%
GPT-4.1	100	100	86	47	23	71.3%
Qwen 3.5 9B	93	76	73	62	50	70.9%
DeepSeek V4 Pro	100	100	100	50	0	70.0%
Mistral Large	100	83	80	65	22	70.0%
GPT-4o, Aug. 6th (temp=1)	100	100	62	52	33	69.4%
Qwen 3.5 122B	100	88	66	61	32	69.3%
Hermes 3 405B	100	100	100	39	0	67.8%
Gemini 3.5 Flash (Reasoning)	99	84	70	65	20	67.7%
Z.AI GLM 5	100	100	78	53	0	66.0%
GPT-5.1	100	98	76	56	0	65.9%
Grok 4.20 (Beta, Reasoning)	100	100	53	40	34	65.5%
Gemini 3 Flash (Preview)	100	89	81	44	0	62.6%
GPT-5	100	86	57	36	32	62.1%
Grok 4.20	100	91	73	45	0	61.8%
Mistral Small Creative	100	93	62	52	0	61.5%
Xiaomi MIMO v2.5 Pro	100	73	66	66	0	60.9%
Gemini 3.1 Flash Lite	100	88	80	36	0	60.8%
GPT-4o, Aug. 6th (temp=0)	100	100	65	29	8	60.6%
Ministral 3 14B	100	88	59	36	18	60.4%
Qwen 2.5 72B	100	76	69	54	0	59.9%
Mistral Large 3	98	84	61	56	0	59.8%
Claude Opus 4	100	90	72	35	0	59.2%
Mistral NeMO	100	100	96	0	0	59.1%
Gemma 4 26B (Reasoning)	100	100	56	23	15	58.8%
LFM2 24B	100	100	42	25	21	57.6%
Grok 4.3 (Reasoning)	100	95	90	0	0	57.1%
Gemini 2.5 Pro	100	100	82	3	0	57.1%
Hermes 3 70B	100	69	57	57	0	56.8%
ByteDance Seed 1.6 Flash	100	100	59	25	0	56.8%
WizardLM 2 8x22b	100	100	79	0	0	55.8%
Gemini 3.1 Flash Lite (Preview)	100	100	74	1	0	55.0%
Mistral Small 4	100	79	64	32	0	54.9%
Stealth: Healer Alpha	100	100	40	33	0	54.5%
Claude Sonnet 4.6 (Reasoning)	100	94	76	0	0	54.2%
ByteDance Seed 1.6	100	100	61	0	0	52.1%
Stealth: Hunter Alpha	100	76	57	27	0	52.1%
Claude Sonnet 4.6	100	98	56	6	0	51.9%
ByteDance Seed 2.0 Lite	100	94	64	0	0	51.5%
Claude Opus 4.6	91	65	55	42	0	50.7%
Grok 4	95	91	32	30	0	49.6%
GPT-4.1 Mini	100	100	41	6	0	49.4%
Writer: Palmyra X5	100	100	31	15	0	49.2%
DeepSeek V3 (2024-12-26)	100	56	52	36	0	48.9%
Arcee AI: Trinity Mini	100	100	44	0	0	48.7%
Mistral Large 2	100	94	49	0	0	48.5%
Xiaomi MIMO v2.5	100	81	53	7	0	48.1%
Gemini 3 Pro (Preview)	100	72	35	32	0	47.9%
Claude Opus 4.5	100	100	35	3	0	47.5%
GPT-4o Mini (temp=0)	100	79	47	11	0	47.4%
Qwen3 235B A22B Instruct 2507	83	71	65	8	8	47.2%
Cohere Command R+ (Aug. 2024)	100	100	31	0	0	46.2%
Gemma 3 12B	100	80	47	0	0	45.4%
Gemini 2.5 Flash	72	66	64	21	0	44.4%
Z.AI GLM 4.6	100	59	41	16	0	43.3%
Gemma 3 4B	100	64	49	3	0	43.1%
Mistral Small 3.2 24B	100	77	28	0	0	41.1%
Qwen 3.5 Plus (2026-02-15)	86	86	30	1	0	40.4%
Claude Opus 4.7	100	54	25	22	0	40.1%
Z.AI GLM 4.5 Air	100	100	0	0	0	40.0%
GPT-4o, May 13th (temp=1)	81	71	46	0	0	39.4%
Z.AI GLM 4.7	87	36	31	26	17	39.4%
Claude Opus 4.7 (Reasoning)	99	97	0	0	0	39.2%
GPT-4.1 Nano	71	68	56	0	0	38.9%
Gemini 2.5 Flash Lite	100	72	16	0	0	37.6%
Ministral 3B	100	86	0	0	0	37.2%
DeepSeek V4 Flash	100	50	33	0	0	36.6%
Grok 4.20 (Beta)	78	44	34	25	0	36.1%
Gemini 3.5 Flash (Reasoning, Minimal)	71	67	23	16	0	35.3%
GPT-5.4 Nano (Reasoning)	74	42	40	15	4	35.0%
Arcee AI: Trinity Large (Preview)	100	74	0	0	0	34.8%
Z.AI GLM 5.1	92	43	21	16	0	34.3%
Z.AI GLM 4.7 Flash	81	54	36	0	0	34.2%
Claude Haiku 4.5	100	35	21	8	3	33.3%
Claude Sonnet 4.5	100	36	25	1	0	32.4%
Ministral 3 3B	72	64	18	7	0	32.2%
Llama 3.1 8B	76	74	0	0	0	30.1%
Gemma 3 27B	73	59	18	0	0	30.1%
Ministral 3 8B	81	54	16	0	0	30.1%
Gemini 3 Flash (Preview, Reasoning)	85	61	0	0	0	29.3%
Claude 3 Haiku	100	43	3	0	0	29.2%
Llama 3.1 Nemotron 70B	67	64	11	0	0	28.3%
GPT-5.2	51	49	39	0	0	27.8%
GPT-5.4 Nano (Reasoning, Low)	55	46	18	17	0	27.1%
Gemma 4 26B	100	22	11	0	0	26.6%
GPT-5.4 Nano	58	30	26	19	0	26.5%
Gemma 4 31B (Reasoning)	73	36	22	0	0	26.2%
Aion 2.0	53	50	11	8	0	24.3%
Gemma 4 31B	56	35	29	0	0	24.0%
Z.AI GLM 5 Turbo	99	6	1	0	0	21.1%
Nemotron 3 Super	62	43	0	0	0	21.0%
MiniMax M2.7	100	0	0	0	0	20.0%
Claude Sonnet 4	100	0	0	0	0	20.0%
Mistral Small 4 (Reasoning)	33	21	18	17	5	18.9%
Ministral 8B	36	31	7	0	0	14.9%
MiniMax M2.5	73	0	0	0	0	14.6%
Gemini 2.5 Flash (Reasoning)	56	17	0	0	0	14.6%
DeepSeek V3.2	54	13	5	0	0	14.4%
Claude 3.7 Sonnet	64	1	0	0	0	12.9%
Inception Mercury	40	4	0	0	0	8.8%
GPT-5 Mini	29	0	0	0	0	5.8%
DeepSeek V3.1	25	0	0	0	0	5.0%
Nemotron 3 Nano	18	0	0	0	0	3.7%
Inception Mercury 2	15	0	0	0	0	3.0%
Stealth: Aurora Alpha	15	0	0	0	0	3.0%
GPT-5 Nano	12	0	0	0	0	2.5%
Claude 3.5 Sonnet	7	0	0	0	0	1.4%
Gemini 2.5 Flash Lite (Reasoning)	3	0	0	0	0	0.6%
GPT-OSS 120B	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99.9%
GPT-5.4	100	100	100	100	95	99.1%
Grok 4 Fast	100	100	100	100	94	98.9%
Qwen 3.5 397B A17B	100	100	100	100	92	98.4%
Claude Sonnet 4.6	100	100	100	98	90	97.7%
GPT-5.5 (Reasoning)	100	100	100	100	87	97.4%
Qwen3 235B A22B Instruct 2507	100	100	100	100	83	96.7%
GPT-5.1	100	100	100	100	80	96.0%
Qwen 3.5 9B	100	100	100	98	80	95.6%
Claude Opus 4.6	100	100	100	100	76	95.3%
Qwen 3.5 35B	100	100	100	90	86	95.3%
GPT-5.4 Mini (Reasoning)	100	100	100	92	83	95.1%
o4 Mini	100	100	100	100	71	94.3%
Mistral Medium 3.1	100	100	100	100	68	93.6%
Grok 4.3	100	100	100	90	78	93.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	62	92.5%
Mistral Large 3	100	100	100	100	62	92.5%
Hermes 3 405B	100	100	100	100	62	92.5%
MoonshotAI: Kimi K2.5	100	100	100	87	74	92.2%
DeepSeek V3.2	100	100	100	92	68	91.9%
Grok 4.20 (Beta, Reasoning)	100	100	93	85	79	91.4%
Ministral 3 14B	100	100	96	90	68	90.8%
Mistral Small Creative	100	100	100	100	54	90.8%
Stealth: Healer Alpha	100	100	97	97	60	90.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	90	62	90.5%
Qwen 3 32B	100	100	100	100	41	88.3%
Qwen 3.5 27B	100	100	100	75	65	88.0%
Aion 2.0	100	100	100	73	62	87.0%
MoonshotAI: Kimi K2.6	100	100	100	100	33	86.6%
Gemini 3.1 Flash Lite (Preview)	100	100	90	85	56	86.2%
GPT-5	100	100	100	74	55	85.8%
Claude Opus 4.7 (Reasoning)	100	100	100	67	62	85.8%
Qwen 3.5 Flash	100	100	100	96	31	85.4%
Claude Opus 4.6 (Reasoning)	100	100	100	81	45	85.2%
Grok 4	100	100	100	76	49	85.1%
DeepSeek V3 (2024-12-26)	100	100	100	68	56	84.8%
WizardLM 2 8x22b	100	100	97	76	50	84.6%
Claude Opus 4	100	100	100	74	49	84.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	71	38	81.7%
Mistral Small 4	100	100	73	72	61	81.1%
ByteDance Seed 2.0 Mini	100	100	100	53	50	80.5%
Xiaomi MIMO v2.5	100	97	97	95	10	79.9%
ByteDance Seed 1.6 Flash	100	100	100	78	18	79.2%
GPT-5.4 Nano (Reasoning)	96	92	89	68	49	79.0%
Hermes 3 70B	100	100	100	94	0	78.9%
Llama 3.1 8B	100	100	86	74	31	78.2%
Xiaomi MIMO v2.5 Pro	100	100	81	59	47	77.4%
Mistral Large 2	100	100	92	76	16	76.9%
Gemini 3 Flash (Preview)	100	100	85	71	28	76.7%
Qwen3.7 Max	100	100	100	41	41	76.5%
Qwen 2.5 72B	100	100	82	57	38	75.4%
LFM2 24B	100	88	82	65	41	75.3%
GPT-4o Mini (temp=0)	100	100	100	46	30	75.1%
Ministral 3 3B	100	100	67	54	54	74.9%
Claude 3 Haiku	100	100	100	69	0	73.9%
GPT-5.4 Mini	100	100	88	40	40	73.5%
Stealth: Hunter Alpha	100	100	60	55	50	73.0%
Mistral Small 4 (Reasoning)	100	100	91	72	0	72.6%
GPT-4.1	88	78	74	65	56	72.2%
Qwen 3.5 122B	100	100	85	72	3	72.0%
Grok 4.20 (Beta)	100	100	76	50	33	71.8%
Gemini 2.5 Flash Lite	100	100	82	73	0	70.9%
Ministral 8B	100	100	81	59	15	70.9%
Z.AI GLM 5.1	100	100	81	54	18	70.6%
Gemini 2.5 Pro	100	100	100	47	0	69.5%
GPT-5.2	100	98	62	49	38	69.4%
Mistral Large	100	82	69	64	31	69.3%
Gemini 2.5 Flash (Reasoning)	100	79	69	54	43	68.9%
Z.AI GLM 5	100	100	73	63	3	67.8%
Cohere Command R+ (Aug. 2024)	100	100	82	56	0	67.6%
Claude Opus 4.7	100	100	62	48	25	67.0%
Claude 3.7 Sonnet	100	92	76	66	0	66.7%
Z.AI GLM 4.7	100	100	71	60	0	66.1%
Qwen 3.5 Plus (2026-02-15)	100	84	61	46	39	66.0%
Inception Mercury	100	100	96	31	0	65.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	84	65	39	36	64.8%
GPT-4o, May 13th (temp=1)	90	89	75	58	11	64.7%
Gemini 3.1 Flash Lite	100	100	61	59	0	63.9%
DeepSeek V4 Pro	100	100	68	41	9	63.7%
Gemma 3 4B	100	100	94	23	0	63.6%
Mistral NeMO	100	85	72	59	0	63.2%
DeepSeek V3 (2025-03-24)	100	100	86	22	0	61.5%
Gemma 3 27B	100	100	92	15	0	61.3%
Grok 4.20	100	73	72	57	0	60.4%
Gemini 3 Pro (Preview)	100	81	61	34	27	60.4%
Gemini 2.5 Flash	100	100	59	41	0	60.1%
GPT-4o, May 13th (temp=0)	100	98	73	18	11	60.0%
Mistral Small 3.2 24B	100	100	100	0	0	60.0%
MiniMax M2.5	100	90	57	47	0	58.8%
Ministral 3B	82	72	69	67	0	58.1%
DeepSeek-V2 Chat	100	97	86	0	0	56.5%
Z.AI GLM 5 Turbo	100	100	43	25	7	55.0%
DeepSeek V4 Pro (Reasoning)	100	100	39	35	0	54.8%
DeepSeek V4 Flash	100	95	47	27	0	53.8%
Claude Sonnet 4.5	96	88	36	23	22	53.1%
Gemini 3.1 Flash Lite (Reasoning)	100	86	63	7	3	51.8%
GPT-5.4 Nano	91	88	47	15	10	50.2%
Z.AI GLM 4.5	100	81	56	14	0	50.2%
Claude Opus 4.5	99	99	46	3	0	49.6%
Gemma 3 12B	100	88	57	0	0	49.0%
Z.AI GLM 4.7 Flash	99	54	48	43	0	48.8%
GPT-4o Mini (temp=1)	84	60	40	38	18	48.0%
Ministral 3 8B	100	100	39	0	0	47.8%
MiniMax M2.7	100	76	51	11	0	47.6%
DeepSeek V3.1	100	100	38	0	0	47.5%
ByteDance Seed 1.6	100	56	41	38	0	47.1%
GPT-5 Mini	84	81	69	0	0	46.8%
GPT-5.4 Nano (Reasoning, Low)	79	63	46	43	0	46.4%
Gemini 3 Flash (Preview, Reasoning)	100	51	47	15	15	45.6%
Claude Sonnet 4	100	100	27	0	0	45.4%
Gemma 4 31B (Reasoning)	100	59	39	28	1	45.3%
Gemma 4 31B	91	62	56	11	0	44.1%
Z.AI GLM 4.5 Air	100	45	35	32	0	42.4%
GPT-4.1 Mini	100	61	40	11	0	42.3%
Z.AI GLM 4.6	56	55	36	31	28	41.3%
GPT-4o, Aug. 6th (temp=1)	76	72	29	23	0	40.1%
Claude Haiku 4.5	100	68	17	15	0	40.0%
Arcee AI: Trinity Large (Preview)	100	86	9	0	0	39.0%
Claude Sonnet 4.6 (Reasoning)	100	69	14	8	0	38.3%
Gemma 4 26B	93	32	30	0	0	30.8%
Claude 3.5 Sonnet	100	31	0	0	0	26.2%
Llama 3.1 70B	48	44	34	0	0	25.1%
Nemotron 3 Super	100	3	1	0	0	20.7%
Gemma 4 26B (Reasoning)	63	30	7	0	0	19.9%
GPT-4.1 Nano	41	33	17	5	0	19.2%
GPT-4o, Aug. 6th (temp=0)	35	30	17	0	0	16.2%
Llama 3.1 Nemotron 70B	36	0	0	0	0	7.3%
Arcee AI: Trinity Mini	33	0	0	0	0	6.6%
GPT-OSS 120B	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite (Reasoning)	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	99	99.8%
MoonshotAI: Kimi K2.6	100	100	100	100	98	99.6%
Grok 4 Fast	100	100	100	100	98	99.6%
Writer: Palmyra X5	100	100	100	99	97	99.2%
Xiaomi MIMO v2.5 Pro	100	100	100	100	95	99.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	93	98.6%
Qwen3 235B A22B Instruct 2507	100	100	100	99	90	97.9%
Mistral NeMO	100	100	100	93	93	97.1%
Qwen 3.6 27B	100	100	100	97	88	97.0%
GPT-5.4 (Reasoning)	100	100	100	100	82	96.5%
Gemini 3 Pro (Preview)	100	100	100	100	82	96.3%
o4 Mini High	100	100	100	94	87	96.2%
DeepSeek V3 (2025-03-24)	100	100	100	93	88	96.1%
Ministral 3B	100	100	100	100	76	95.3%
Ministral 3 8B	100	100	100	99	76	95.1%
GPT-4o, May 13th (temp=0)	100	100	100	100	73	94.6%
Ministral 8B	100	100	100	98	74	94.5%
Qwen 3.5 Flash	100	100	100	100	73	94.5%
GPT-5.4	100	100	100	100	72	94.5%
MoonshotAI: Kimi K2.5	100	100	100	91	76	93.5%
Claude Opus 4	100	100	100	100	64	92.8%
Qwen 3.6 Flash	100	100	100	96	65	92.2%
Ministral 3 14B	100	100	100	100	61	92.1%
MiniMax M2.5	100	100	100	100	59	91.8%
Hermes 3 405B	100	100	100	82	76	91.8%
o4 Mini	100	100	100	100	59	91.7%
Qwen 3.5 9B	100	100	100	100	50	90.0%
Z.AI GLM 4.6	100	100	100	89	57	89.3%
GPT-5.4 (Reasoning, Low)	100	100	100	81	65	89.2%
Qwen 3.5 27B	100	100	100	100	46	89.2%
Mistral Large 3	100	100	100	86	56	88.3%
Gemma 4 26B	100	100	100	97	44	88.1%
DeepSeek V4 Pro	100	100	100	73	67	87.9%
Claude Opus 4.7 (Reasoning)	100	100	89	88	61	87.4%
ByteDance Seed 2.0 Lite	100	100	100	100	34	86.7%
Gemma 4 31B (Reasoning)	100	100	100	67	67	86.7%
Gemini 3.1 Flash Lite	100	100	97	79	57	86.6%
Mistral Small 3.2 24B	100	100	100	100	32	86.5%
Hermes 3 70B	100	100	100	96	36	86.4%
DeepSeek-V2 Chat	100	100	100	100	31	86.2%
Z.AI GLM 4.7	100	100	100	80	51	86.2%
ByteDance Seed 1.6	100	100	100	100	22	84.4%
Mistral Medium 3.1	100	100	100	59	57	83.3%
Qwen 3.5 35B	100	100	100	64	51	83.0%
Gemini 3 Flash (Preview)	100	100	87	86	41	82.8%
GPT-5.4 Mini	100	100	99	79	34	82.6%
Mistral Small 4	100	100	100	100	11	82.2%
GPT-5.2	100	100	89	61	59	81.9%
Claude 3.7 Sonnet	100	100	100	57	52	81.9%
GPT-5.4 Mini (Reasoning, Low)	100	100	83	68	55	81.3%
Gemini 2.5 Flash (Reasoning)	100	100	93	92	21	81.0%
Inception Mercury	100	100	100	100	5	80.9%
Mistral Small 4 (Reasoning)	100	100	82	61	59	80.2%
Qwen 3.5 122B	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Mini	100	100	100	100	0	80.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Gemma 3 4B	100	100	100	100	0	80.0%
LFM2 24B	100	100	100	100	0	80.0%
Qwen 2.5 72B	100	100	99	94	0	78.7%
DeepSeek V3.2	100	88	88	85	33	78.6%
Claude Sonnet 4	100	100	100	92	0	78.4%
Z.AI GLM 4.5	100	100	98	67	27	78.3%
Stealth: Healer Alpha	100	100	73	64	53	78.0%
GPT-4o Mini (temp=0)	100	100	99	64	25	77.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	56	31	77.3%
DeepSeek V3.1	100	100	82	82	18	76.3%
DeepSeek V3 (2024-12-26)	100	100	100	81	0	76.1%
GPT-5.1	100	100	100	67	8	75.0%
Z.AI GLM 4.5 Air	100	100	100	74	0	74.8%
Stealth: Hunter Alpha	96	88	73	59	51	73.6%
Qwen 3 32B	98	80	72	68	50	73.5%
Gemini 3.5 Flash (Reasoning)	100	100	65	51	49	73.0%
Claude Sonnet 4.5	100	100	100	41	21	72.4%
GPT-4o Mini (temp=1)	100	100	79	43	39	72.1%
Claude Opus 4.6	100	100	72	48	36	71.2%
Gemini 3 Flash (Preview, Reasoning)	100	85	64	60	46	70.9%
Gemini 2.5 Pro	100	100	81	60	11	70.3%
GPT-5.4 Nano (Reasoning, Low)	95	83	68	62	43	70.2%
Z.AI GLM 5.1	100	100	79	67	3	69.6%
Arcee AI: Trinity Large (Preview)	100	100	89	39	18	69.3%
Mistral Large	100	100	71	64	11	69.1%
GPT-5	99	96	61	55	32	68.8%
Claude Opus 4.6 (Reasoning)	100	90	79	75	0	68.7%
Z.AI GLM 4.7 Flash	100	82	75	46	40	68.5%
Z.AI GLM 5	100	100	100	38	0	67.6%
Grok 4.20	100	95	69	54	17	67.0%
Arcee AI: Trinity Mini	100	100	100	34	0	66.7%
DeepSeek V4 Flash	100	100	76	56	0	66.4%
Grok 4.20 (Beta)	100	100	58	45	25	65.6%
Z.AI GLM 5 Turbo	100	100	100	27	0	65.4%
Gemma 4 26B (Reasoning)	100	100	59	36	23	63.7%
Gemma 3 27B	100	100	62	48	0	62.0%
GPT-4o, May 13th (temp=1)	100	100	100	8	0	61.7%
Gemini 2.5 Flash Lite (Reasoning)	100	94	51	47	13	61.1%
Claude Opus 4.5	100	86	62	47	1	59.2%
Claude 3 Haiku	100	71	46	41	27	57.0%
Gemma 4 31B	100	71	61	52	0	56.7%
Gemma 3 12B	100	79	68	36	0	56.6%
GPT-4o, Aug. 6th (temp=0)	100	90	62	16	14	56.3%
GPT-5.4 Nano (Reasoning)	82	60	52	44	43	56.2%
GPT-4.1	100	100	74	0	0	54.8%
Aion 2.0	100	94	57	20	0	54.2%
Inception Mercury 2	100	70	70	27	1	53.7%
GPT-4.1 Nano	100	96	44	28	0	53.5%
Llama 3.1 8B	100	98	31	28	0	51.4%
Claude Sonnet 4.6	90	89	41	34	0	50.9%
WizardLM 2 8x22b	90	85	80	0	0	50.9%
MiniMax M2.7	100	61	38	36	17	50.4%
GPT-5 Nano	100	94	55	0	0	49.8%
Claude Sonnet 4.6 (Reasoning)	100	100	48	0	0	49.6%
Xiaomi MIMO v2.5	100	100	21	17	3	48.1%
Nemotron 3 Super	100	61	57	22	0	48.0%
GPT-4.1 Mini	100	100	34	0	0	46.7%
Claude 3.5 Sonnet	100	67	64	0	0	46.1%
Llama 3.1 Nemotron 70B	100	92	18	18	0	45.7%
Stealth: Aurora Alpha	100	78	41	0	0	43.8%
Claude Opus 4.7	100	100	15	0	0	43.0%
GPT-4o, Aug. 6th (temp=1)	96	71	21	14	0	40.1%
GPT-OSS 120B	100	39	36	8	0	36.6%
Claude Haiku 4.5	100	29	18	15	0	32.5%
Llama 3.1 70B	100	22	11	8	0	28.3%
Gemini 2.5 Flash	62	54	15	0	0	26.2%
GPT-5 Mini	44	27	25	10	5	22.1%
Gemini 2.5 Flash Lite	88	8	0	0	0	19.2%
GPT-5.4 Nano	39	29	20	0	0	17.5%
Nemotron 3 Nano	35	0	0	0	0	6.9%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	97	99.4%
Stealth: Hunter Alpha	100	100	100	100	94	98.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	93	98.6%
Qwen 3.5 35B	100	100	100	100	88	97.7%
Qwen3 235B A22B Instruct 2507	100	100	100	100	86	97.2%
MoonshotAI: Kimi K2.6	100	100	100	100	84	96.8%
Mistral Small 4 (Reasoning)	100	100	100	100	84	96.8%
Grok 4	100	100	100	100	82	96.5%
Gemini 3 Pro (Preview)	100	100	100	94	88	96.4%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	82	96.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	81	96.1%
Mistral NeMO	100	100	100	100	81	96.1%
Claude Opus 4.7 (Reasoning)	100	100	98	92	90	96.1%
Qwen 3.5 397B A17B	100	100	94	93	92	95.9%
Grok 4.3	100	100	100	100	80	95.9%
ByteDance Seed 2.0 Lite	100	100	100	100	74	94.8%
GPT-5 Mini	100	100	100	98	75	94.5%
Ministral 3 3B	100	100	100	100	72	94.4%
Gemini 3 Flash (Preview)	100	100	94	92	86	94.3%
Gemma 4 26B	100	100	100	100	68	93.6%
Grok 4.20 (Beta)	100	100	99	92	76	93.6%
Gemma 3 27B	100	100	100	100	67	93.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	97	69	93.2%
Claude Sonnet 4.6	100	100	100	100	62	92.5%
Arcee AI: Trinity Mini	100	100	100	100	61	92.1%
Cohere Command R+ (Aug. 2024)	100	100	100	100	57	91.5%
Claude 3.5 Sonnet	100	100	100	90	67	91.4%
Claude Sonnet 4	100	100	99	98	59	91.2%
GPT-4.1 Mini	100	100	100	100	52	90.4%
ByteDance Seed 1.6 Flash	100	100	100	95	55	90.0%
Claude Opus 4.6	100	100	94	78	73	89.0%
Claude Opus 4.6 (Reasoning)	100	98	96	80	67	88.1%
Mistral Large	100	100	100	92	48	88.0%
Z.AI GLM 4.7 Flash	100	100	100	100	40	87.9%
Gemini 3.1 Flash Lite	100	100	100	91	48	87.8%
Claude 3 Haiku	100	100	100	97	41	87.6%
DeepSeek V3 (2024-12-26)	100	100	100	90	46	87.1%
Stealth: Healer Alpha	100	100	100	94	41	87.0%
Z.AI GLM 5.1	100	100	100	73	62	87.0%
GPT-5.2	100	100	100	82	52	87.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	34	86.7%
Llama 3.1 Nemotron 70B	100	100	100	69	64	86.6%
Gemma 3 4B	100	100	100	100	27	85.4%
DeepSeek V3.2	100	100	79	78	62	83.7%
MoonshotAI: Kimi K2.5	100	100	89	86	41	83.2%
Mistral Medium 3.1	100	100	100	68	46	82.8%
DeepSeek V4 Flash	100	100	100	64	50	82.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	87	27	82.8%
Gemini 2.5 Flash	100	100	93	84	36	82.8%
Claude Sonnet 4.6 (Reasoning)	100	100	100	59	52	82.2%
Gemma 4 26B (Reasoning)	100	100	100	61	48	81.7%
Z.AI GLM 5 Turbo	100	100	93	67	48	81.6%
Xiaomi MIMO v2.5	100	100	92	76	39	81.4%
DeepSeek-V2 Chat	100	100	100	100	0	80.0%
Inception Mercury	100	100	100	100	0	80.0%
Gemma 3 12B	100	100	100	100	0	80.0%
Llama 3.1 70B	100	100	100	100	0	80.0%
Mistral Small Creative	100	100	100	61	39	79.9%
DeepSeek V4 Flash (Reasoning)	100	100	71	69	59	79.8%
MiniMax M2.7	100	100	100	99	0	79.8%
GPT-4.1 Nano	100	100	100	59	39	79.6%
DeepSeek V3 (2025-03-24)	100	100	82	61	54	79.4%
DeepSeek V4 Pro	100	100	76	72	48	79.3%
Xiaomi MIMO v2.5 Pro	100	100	100	67	29	79.1%
Z.AI GLM 4.6	100	100	100	96	0	79.1%
WizardLM 2 8x22b	100	100	100	88	5	78.4%
Mistral Large 3	100	100	100	52	39	78.2%
Inception Mercury 2	100	99	76	71	44	78.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	48	41	77.9%
Z.AI GLM 5	100	94	76	76	41	77.7%
DeepSeek V3.1	100	100	99	89	0	77.6%
Claude Sonnet 4.5	100	100	69	65	52	77.3%
Claude Opus 4.7	100	100	97	89	0	77.2%
GPT-5.4 Nano (Reasoning)	100	78	78	65	54	75.1%
GPT-5.4 Nano	100	95	87	56	36	75.1%
Hermes 3 70B	100	100	100	57	11	73.7%
Nemotron 3 Super	100	100	100	67	0	73.3%
Claude 3.7 Sonnet	100	100	100	54	11	73.0%
Rocinante 12B	100	100	100	64	0	72.8%
Grok 4.20	100	90	88	41	38	71.6%
GPT-OSS 120B	100	100	100	39	17	71.1%
Qwen 3.5 Plus (2026-02-15)	100	81	75	53	46	70.9%
Claude Haiku 4.5	100	100	100	50	0	70.0%
Gemini 2.5 Flash (Reasoning)	100	88	71	56	34	69.8%
Ministral 3 14B	100	100	89	34	25	69.5%
Mistral Small 4	100	100	59	52	36	69.5%
Mistral Large 2	100	100	100	46	0	69.2%
Gemini 3 Flash (Preview, Reasoning)	100	97	57	49	38	68.2%
GPT-4o Mini (temp=0)	100	100	82	52	6	68.0%
Gemini 2.5 Flash Lite	100	100	100	38	0	67.6%
Gemini 2.5 Pro	100	100	73	41	23	67.6%
Grok 4 Fast	100	100	100	35	0	66.9%
Qwen 2.5 72B	100	93	76	36	28	66.8%
Aion 2.0	100	80	68	61	18	65.3%
Gemma 4 31B (Reasoning)	100	75	59	56	29	63.8%
Z.AI GLM 4.7	100	82	57	35	33	61.5%
Claude Opus 4.5	100	68	60	56	18	60.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	87	0	0	57.3%
Ministral 3B	100	100	67	16	3	57.1%
Z.AI GLM 4.5	100	96	89	0	0	56.9%
GPT-5.4 Nano (Reasoning, Low)	100	82	57	43	2	56.8%
Arcee AI: Trinity Large (Preview)	100	97	74	0	0	54.2%
Ministral 8B	100	100	64	0	0	52.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	62	0	0	52.5%
Writer: Palmyra X5	100	100	31	28	0	51.8%
Llama 3.1 8B	100	100	54	0	0	50.8%
Qwen 3 32B	100	88	54	6	0	49.5%
Gemma 4 31B	100	100	18	14	11	48.6%
MiniMax M2.5	100	52	50	39	0	48.2%
Stealth: Aurora Alpha	100	84	44	10	0	47.5%
Z.AI GLM 4.5 Air	100	57	54	0	0	42.3%
Claude Opus 4	59	40	39	36	5	35.8%
Nemotron 3 Nano	51	30	29	0	0	21.8%
GPT-5 Nano	48	0	0	0	0	9.5%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	99	99.8%
Grok 4.20 (Beta)	100	100	100	100	98	99.5%
Mistral Medium 3.1	100	100	100	100	97	99.4%
Qwen3.7 Max	100	100	100	100	96	99.2%
o4 Mini High	100	100	100	100	96	99.2%
DeepSeek V3 (2025-03-24)	100	100	100	99	97	99.2%
GPT-5.4 (Reasoning, Low)	100	100	100	100	96	99.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	98	96	98.9%
Qwen3 235B A22B Instruct 2507	100	100	100	100	92	98.4%
Mistral NeMO	100	100	100	100	92	98.4%
GPT-5.4	100	100	100	100	91	98.2%
Mistral Small 3.2 24B	100	100	100	100	90	98.0%
ByteDance Seed 2.0 Lite	100	100	100	100	82	96.3%
Ministral 3B	100	100	100	99	82	96.2%
Grok 4 Fast	100	100	100	100	80	95.9%
Qwen 3.5 Flash	100	100	100	100	75	95.1%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	74	94.8%
Hermes 3 70B	100	100	100	100	74	94.8%
Qwen 3 32B	100	100	100	88	86	94.7%
Claude Opus 4	100	100	100	96	76	94.4%
Mistral Small 4	100	100	100	99	73	94.4%
Writer: Palmyra X5	100	100	100	100	72	94.4%
DeepSeek V3.2	100	100	100	100	68	93.6%
Stealth: Healer Alpha	100	100	100	100	68	93.5%
Grok 4.3	100	100	100	100	67	93.3%
ByteDance Seed 1.6 Flash	100	100	100	99	67	93.2%
Gemma 3 4B	100	100	100	100	65	93.1%
Mistral Large 2	100	100	100	93	72	93.0%
MoonshotAI: Kimi K2.5	100	100	100	100	64	92.8%
Mistral Large 3	100	100	100	100	64	92.8%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	61	92.1%
Xiaomi MIMO v2.5	100	100	100	88	69	91.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	98	59	91.4%
DeepSeek V4 Pro (Reasoning)	100	100	86	86	84	91.2%
GPT-5.1	100	100	100	100	54	90.8%
Grok 4.20 (Reasoning)	100	100	100	94	58	90.5%
Claude 3.5 Sonnet	100	100	100	100	50	90.0%
ByteDance Seed 2.0 Mini	100	100	100	100	48	89.6%
Qwen 3.5 35B	100	100	100	90	53	88.5%
DeepSeek V3.1	100	94	90	90	68	88.4%
Ministral 3 8B	100	100	100	94	46	88.1%
Claude Opus 4.6 (Reasoning)	100	100	100	73	61	86.8%
Mistral Small Creative	100	100	100	69	62	86.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	31	86.2%
Gemma 3 12B	100	100	100	100	29	85.8%
DeepSeek V4 Pro	100	100	100	72	54	85.1%
Gemma 4 31B	100	100	100	100	25	85.0%
Gemini 2.5 Pro	100	100	100	100	23	84.6%
GPT-4o, May 13th (temp=0)	100	100	100	65	57	84.5%
Claude Sonnet 4.5	100	100	89	84	48	84.2%
DeepSeek V3 (2024-12-26)	100	100	96	90	25	82.2%
MoonshotAI: Kimi K2.6	100	100	100	100	9	81.8%
Inception Mercury 2	100	100	81	79	49	81.6%
Grok 4.20	96	92	84	84	51	81.4%
GPT-5.4 Mini	100	100	100	100	6	81.2%
Llama 3.1 Nemotron 70B	100	100	82	79	44	80.9%
Aion 2.0	100	100	100	80	25	80.9%
Gemini 2.5 Flash	100	100	100	76	27	80.6%
DeepSeek V4 Flash	100	100	93	59	50	80.5%
MiniMax M2.7	100	100	82	73	47	80.4%
Ministral 3 14B	100	100	100	98	3	80.2%
Qwen 3.5 122B	100	100	100	100	0	80.0%
ByteDance Seed 1.6	100	100	100	100	0	80.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	0	80.0%
Inception Mercury	100	100	100	100	0	80.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Z.AI GLM 5	100	100	87	73	38	79.6%
Claude 3.7 Sonnet	100	100	100	78	16	78.7%
WizardLM 2 8x22b	100	100	100	76	13	77.9%
Gemma 4 31B (Reasoning)	100	100	100	75	14	77.8%
Ministral 3 3B	100	100	100	46	29	75.0%
Stealth: Hunter Alpha	100	100	88	87	0	74.8%
Gemma 4 26B	100	90	82	75	23	74.1%
Gemini 3 Flash (Preview, Reasoning)	100	100	85	76	10	74.1%
Claude Opus 4.7 (Reasoning)	100	100	100	69	0	73.9%
Rocinante 12B	100	100	75	54	33	72.3%
GPT-5.2	100	100	87	73	0	72.0%
Stealth: Aurora Alpha	100	98	87	42	32	71.9%
Claude Opus 4.7	100	100	82	69	7	71.8%
Z.AI GLM 4.7	100	100	82	43	31	71.2%
Mistral Small 4 (Reasoning)	100	100	65	46	45	71.1%
Gemini 3 Flash (Preview)	100	88	75	56	34	70.5%
Gemma 3 27B	100	100	72	54	21	69.3%
GPT-4o, Aug. 6th (temp=1)	100	100	100	46	0	69.2%
GPT-4.1 Nano	100	100	82	34	25	68.2%
Qwen 2.5 72B	100	100	96	39	0	66.9%
Z.AI GLM 4.7 Flash	100	76	72	40	40	65.4%
Z.AI GLM 5.1	100	100	69	41	0	62.1%
GPT-5.4 Mini (Reasoning)	100	82	72	27	24	61.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	3	0	60.6%
Gemma 4 26B (Reasoning)	100	100	64	39	0	60.5%
Claude Sonnet 4.6	100	100	88	15	0	60.5%
Arcee AI: Trinity Mini	100	100	54	39	6	59.7%
Claude 3 Haiku	100	96	54	48	0	59.5%
Gemini 2.5 Flash (Reasoning)	100	68	54	50	18	58.1%
MiniMax M2.5	100	89	71	18	8	57.3%
Gemini 2.5 Flash Lite (Reasoning)	74	63	61	50	36	56.8%
Xiaomi MIMO v2.5 Pro	100	79	75	16	7	55.4%
GPT-5	83	76	62	41	14	55.3%
Z.AI GLM 5 Turbo	100	100	46	23	6	54.9%
Z.AI GLM 4.6	100	100	47	9	0	51.2%
Gemini 3.1 Flash Lite	100	100	44	3	0	49.3%
Gemini 2.5 Flash Lite	100	95	44	5	0	48.9%
GPT-4o, Aug. 6th (temp=0)	100	59	57	18	0	47.0%
GPT-5.4 Nano (Reasoning, Low)	93	51	39	28	23	46.8%
Claude Opus 4.6	100	75	40	15	0	46.0%
Claude Sonnet 4.6 (Reasoning)	100	98	31	0	0	45.8%
GPT-OSS 120B	73	59	52	20	18	44.3%
Claude Opus 4.5	100	82	25	5	0	42.5%
Llama 3.1 8B	100	100	11	0	0	42.2%
GPT-5.4 Nano	100	43	32	24	5	40.8%
Claude Haiku 4.5	100	59	36	0	0	39.1%
GPT-5 Mini	100	54	30	0	0	36.7%
GPT-4.1 Mini	100	28	28	22	0	35.6%
Llama 3.1 70B	100	64	3	0	0	33.3%
GPT-5.4 Nano (Reasoning)	38	29	15	13	2	19.5%
Nemotron 3 Super	36	27	0	0	0	12.6%
Nemotron 3 Nano	45	8	0	0	0	10.6%
GPT-5 Nano	9	0	0	0	0	1.8%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	98	99.7%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	98	99.6%
Mistral Large 3	100	100	100	100	98	99.6%
Mistral Large	100	100	100	100	96	99.1%
GPT-5.4 Mini (Reasoning)	100	100	100	98	96	98.8%
GPT-5.4	100	100	100	100	94	98.8%
Qwen 3.6 Flash	100	100	100	96	96	98.3%
Qwen 3.5 Flash	100	100	100	100	91	98.2%
Qwen 3.5 35B	100	100	100	100	90	98.0%
Z.AI GLM 4.7 Flash	100	100	100	96	91	97.4%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	81	96.2%
Rocinante 12B	100	100	100	100	79	95.7%
Xiaomi MIMO v2.5 Pro	100	100	100	89	88	95.5%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	76	95.3%
Ministral 3B	100	100	100	100	76	95.3%
GPT-5.2	100	100	100	99	75	94.8%
GPT-5.4 Mini	100	100	100	96	77	94.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	73	94.5%
GPT-4o Mini (temp=1)	100	100	100	100	71	94.1%
MoonshotAI: Kimi K2.5	100	100	100	94	75	94.0%
Xiaomi MIMO v2.5	100	100	100	99	65	92.9%
WizardLM 2 8x22b	100	100	100	88	75	92.7%
Gemma 3 27B	100	100	100	82	81	92.6%
Grok 4.20 (Reasoning)	100	100	99	98	66	92.5%
Writer: Palmyra X5	100	100	100	100	57	91.5%
Mistral Large 2	100	100	100	96	61	91.3%
Aion 2.0	100	100	100	100	53	90.5%
ByteDance Seed 1.6	100	100	100	100	50	90.0%
Qwen 3.5 9B	100	100	100	100	50	90.0%
Mistral NeMO	100	100	100	100	49	89.7%
Cohere Command R+ (Aug. 2024)	100	100	100	93	56	89.6%
Claude Opus 4.7 (Reasoning)	100	100	100	74	72	89.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	46	89.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	46	89.2%
Claude 3 Haiku	100	100	100	100	44	88.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	73	69	88.6%
ByteDance Seed 1.6 Flash	100	100	100	100	41	88.3%
GPT-4o Mini (temp=0)	100	100	100	72	69	88.2%
Grok 4.20 (Beta)	100	98	90	76	75	87.7%
GPT-4o, May 13th (temp=1)	100	88	88	88	72	87.3%
Gemini 2.5 Pro	100	100	100	90	46	87.3%
Ministral 3 3B	100	100	92	89	54	86.9%
Gemma 3 12B	100	100	97	88	44	85.9%
GPT-4.1 Nano	100	100	100	100	29	85.8%
Ministral 8B	100	100	100	81	44	85.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	62	61	84.6%
DeepSeek V3.2	100	100	100	63	59	84.3%
Gemma 4 26B	100	100	100	82	38	84.0%
Stealth: Hunter Alpha	100	100	89	74	56	83.9%
DeepSeek-V2 Chat	100	100	100	62	57	83.8%
Claude Opus 4.6 (Reasoning)	100	100	100	72	47	83.8%
Z.AI GLM 5	100	100	94	66	59	83.7%
Grok 4.3 (Reasoning)	100	100	100	100	18	83.7%
DeepSeek V4 Flash	100	100	100	73	40	82.6%
Grok 4.3	100	100	100	100	13	82.5%
Claude Haiku 4.5	100	88	86	73	61	81.4%
Z.AI GLM 4.7	100	100	84	65	57	81.3%
Claude Opus 4.7	100	100	100	54	52	81.2%
Inception Mercury	100	100	100	100	0	80.0%
Ministral 3 8B	100	100	100	100	0	80.0%
Claude Opus 4	100	100	100	59	40	79.8%
Claude Opus 4.6	100	100	85	65	47	79.3%
Z.AI GLM 5.1	100	100	93	55	43	78.1%
Llama 3.1 70B	100	94	93	82	15	77.0%
Qwen 3.5 Plus (2026-02-15)	100	100	93	50	41	76.8%
Gemma 4 31B	100	100	100	64	18	76.4%
Z.AI GLM 4.5	100	100	100	59	23	76.4%
GPT-5	100	100	100	50	30	76.0%
DeepSeek V3 (2025-03-24)	100	100	86	64	28	75.5%
Mistral Small 4 (Reasoning)	100	100	100	78	0	75.5%
Z.AI GLM 4.5 Air	100	100	71	62	39	74.4%
Gemini 3 Flash (Preview)	100	100	65	59	48	74.3%
GPT-5 Mini	100	100	95	55	22	74.3%
Gemma 3 4B	100	100	90	49	31	73.9%
Ministral 3 14B	100	96	94	44	34	73.5%
Gemma 4 31B (Reasoning)	100	100	82	43	41	73.1%
Gemma 4 26B (Reasoning)	100	100	71	51	43	73.0%
Gemini 3 Pro (Preview)	100	100	84	73	7	72.9%
Mistral Small Creative	100	100	69	64	29	72.4%
Llama 3.1 8B	100	98	97	61	0	71.1%
DeepSeek V3.1	100	100	79	41	34	70.7%
GPT-5.4 Nano (Reasoning)	100	84	70	58	38	70.2%
ByteDance Seed 2.0 Mini	100	100	100	50	0	70.0%
Z.AI GLM 5 Turbo	100	100	57	48	44	69.9%
Mistral Medium 3.1	100	100	100	46	0	69.2%
Gemini 3.1 Flash Lite (Preview)	100	100	100	27	18	69.1%
MiniMax M2.5	100	100	100	44	0	68.9%
Gemini 3 Flash (Preview, Reasoning)	100	90	59	57	38	68.7%
Claude 3.5 Sonnet	100	100	89	39	7	67.0%
Gemini 2.5 Flash Lite	100	100	61	43	28	66.3%
DeepSeek V4 Pro	100	100	83	36	0	63.9%
Claude Sonnet 4.6	100	100	64	50	0	62.8%
Grok 4	81	78	77	76	0	62.5%
Gemini 3.1 Flash Lite	100	88	71	52	1	62.3%
GPT-5.4 Nano (Reasoning, Low)	79	76	63	62	31	62.3%
Gemini 2.5 Flash	100	91	74	25	17	61.4%
Gemini 3.1 Flash Lite (Reasoning)	100	93	41	36	23	58.7%
DeepSeek V4 Flash (Reasoning)	100	100	54	40	0	58.7%
MiniMax M2.7	100	69	59	43	0	54.3%
Claude Sonnet 4.5	79	73	57	41	18	53.8%
Inception Mercury 2	100	91	67	0	0	51.7%
Z.AI GLM 4.6	100	100	55	3	0	51.6%
Stealth: Healer Alpha	100	88	67	0	0	51.0%
Grok 4.20	100	79	54	19	0	50.5%
Claude 3.7 Sonnet	100	74	43	33	0	50.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	33	11	0	48.8%
GPT-OSS 120B	94	85	41	15	8	48.6%
Stealth: Aurora Alpha	83	81	69	7	0	47.9%
Llama 3.1 Nemotron 70B	100	100	22	15	0	47.3%
Claude Sonnet 4.6 (Reasoning)	88	57	39	18	0	40.4%
Nemotron 3 Super	100	48	25	0	0	34.6%
Nemotron 3 Nano	76	53	43	0	0	34.4%
GPT-5.4 Nano	65	37	34	17	13	33.3%
Claude Opus 4.5	93	64	0	0	0	31.4%
Claude Sonnet 4	67	31	21	18	0	27.3%
Arcee AI: Trinity Large (Preview)	52	36	20	0	0	21.7%
GPT-5 Nano	52	28	0	0	0	16.1%

Narrator intent-glossing

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets