Technical jargon density

Test: Bad Writing Habits

Avg. Score

65.1%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	o4 Mini High	92.7%	$0.025	47.2s	69%
2	o4 Mini	89.3%	$0.015	25.7s	63%
3	Qwen 2.5 72B	89.9%	$0.0010	36.7s	59%
4	GPT-4.1	86.5%	$0.018	44.7s	61%
5	Qwen 3.5 Flash	84.9%	$0.0025	47.5s	53%
6	DeepSeek V3 (2025-03-24)	86.4%	$0.0014	39.4s	49%
7	Hermes 3 405B	88.8%	$0.0032	53.2s	49%
8	GPT-4o, May 13th (temp=0)	86.3%	$0.035	14.1s	54%
9	Rocinante 12B	83.1%	$0.0014	38.4s	49%
10	Qwen 3.5 35B	88.1%	$0.018	1.0m	55%
11	GPT-4o, May 13th (temp=1)	84.7%	$0.033	14.4s	54%
12	GPT-5.4 Mini	82.3%	$0.015	16.8s	49%
13	GPT-5.4 Mini (Reasoning, Low)	80.7%	$0.015	16.8s	50%
14	GPT-5.4 (Reasoning, Low)	90.8%	$0.055	1.4m	71%
15	GPT-5.4	90.4%	$0.049	1.4m	69%
16	Gemma 3 27B	82.9%	$0.0006	52.6s	49%
17	Claude 3 Haiku	79.8%	$0.0025	14.9s	43%
18	Qwen3 235B A22B Instruct 2507	82.0%	$0.0011	59.2s	49%
19	Qwen 3.5 9B	86.9%	$0.0011	1.4m	49%
20	Mistral Small 4	77.8%	$0.0014	18.2s	44%
21	GPT-5.4 Mini (Reasoning)	81.8%	$0.022	28.1s	50%
22	Gemma 3 12B	80.6%	$0.0004	41.3s	45%
23	Aion 2.0	82.3%	$0.0064	1.3m	51%
24	Writer: Palmyra X5	80.3%	$0.011	22.0s	43%
25	Qwen 3.6 Flash	80.1%	$0.010	41.4s	46%
26	GPT-5.4 Nano	77.0%	$0.0057	26.3s	44%
27	DeepSeek-V2 Chat	80.2%	$0.0021	53.3s	45%
28	Gemini 2.5 Flash (Reasoning)	79.3%	$0.011	21.5s	42%
29	GPT-5.4 Nano (Reasoning, Low)	74.5%	$0.0055	20.6s	43%
30	Gemini 2.5 Flash	76.7%	$0.0052	10.6s	38%
31	GPT-5.4 Nano (Reasoning)	73.7%	$0.0061	24.5s	42%
32	Qwen 3.6 35B	81.3%	$0.0083	1.0m	42%
33	Qwen 3 32B	77.7%	$0.0015	54.6s	37%
34	Mistral Large 3	75.0%	$0.0033	30.3s	35%
35	Mistral Large 2	76.0%	$0.013	29.4s	37%
36	Mistral NeMO	72.4%	$0.0005	10.1s	31%
37	Qwen 3.5 122B	80.4%	$0.025	1.1m	44%
38	Arcee AI: Trinity Mini	72.5%	$0.0003	9.2s	29%
39	Qwen 3.5 27B	81.1%	$0.020	1.6m	47%
40	Qwen 3.5 397B A17B	88.7%	$0.014	3.0m	55%
41	Qwen3.7 Max	91.4%	$0.068	2.3m	65%
42	DeepSeek V3 (2024-12-26)	76.3%	$0.0021	54.6s	35%
43	GPT-5.4 (Reasoning)	92.8%	$0.089	2.6m	75%
44	GPT-4.1 Mini	71.3%	$0.0027	19.0s	31%
45	GPT-5.5	94.6%	$0.139	1.7m	80%
46	GPT-5.5 (Reasoning, Low)	93.5%	$0.139	1.8m	81%
47	GPT-5.1	84.8%	$0.054	1.8m	55%
48	GPT-5	88.9%	$0.065	2.8m	69%
49	ByteDance Seed 1.6 Flash	69.9%	$0.0013	27.3s	30%
50	Qwen 3.5 Plus (2026-04-20)	79.9%	$0.017	1.8m	44%
51	Gemini 3.1 Pro (Preview)	92.4%	$0.107	1.8m	67%
52	GPT-5.5 (Reasoning)	94.1%	$0.142	1.8m	79%
53	Ministral 3 14B	68.7%	$0.0007	11.7s	26%
54	Gemini 2.5 Pro	76.3%	$0.036	36.2s	37%
55	Mistral Small 4 (Reasoning)	69.9%	$0.0022	30.2s	28%
56	DeepSeek V3.2	73.9%	$0.0014	1.9m	40%
57	Mistral Large	71.8%	$0.014	30.9s	30%
58	Ministral 3 8B	66.4%	$0.0008	19.6s	27%
59	Mistral Medium 3.1	69.4%	$0.0048	36.5s	29%
60	Gemini 2.5 Flash Lite	63.2%	$0.0009	9.5s	27%
61	Mistral Small Creative	65.4%	$0.0007	9.1s	25%
62	LFM2 24B	69.2%	$0.0002	28.4s	24%
63	Grok 4.3	69.5%	$0.0069	30.5s	26%
64	Ministral 3 3B	66.4%	$0.0005	11.1s	21%
65	Grok 4.20	66.3%	$0.0093	45.7s	32%
66	Z.AI GLM 4.6	67.9%	$0.0065	51.5s	30%
67	Arcee AI: Trinity Large (Preview)	67.7%	$0.0000	43.6s	25%
68	Grok 4.20 (Beta, Reasoning)	70.9%	$0.039	34.0s	33%
69	Llama 3.1 70B	67.2%	$0.0015	29.4s	21%
70	Grok 4.1 Fast	66.5%	$0.0018	37.8s	22%
71	Grok 4.20 (Beta)	64.5%	$0.018	15.8s	25%
72	Stealth: Hunter Alpha	64.3%	$0.0000	55.0s	26%
73	Hermes 3 70B	70.1%	$0.0010	1.2m	24%
74	Qwen3.6 Max Preview	87.2%	$0.050	3.5m	57%
75	Z.AI GLM 4.7 Flash	67.3%	$0.0017	1.2m	26%
76	Gemma 3 4B	60.1%	$0.0002	20.0s	21%
77	DeepSeek V4 Flash (Reasoning)	62.0%	$0.0007	31.1s	21%
78	Grok 4.20 (Reasoning)	69.1%	$0.018	1.5m	33%
79	Gemini 3 Flash (Preview)	57.5%	$0.0078	19.6s	24%
80	GPT-4o, Aug. 6th (temp=1)	63.5%	$0.018	24.4s	23%
81	GPT-5 Mini	63.4%	$0.0100	57.4s	27%
82	Z.AI GLM 4.5	64.1%	$0.0051	42.1s	21%
83	Cohere Command R+ (Aug. 2024)	67.9%	$0.020	52.5s	25%
84	Claude 3.7 Sonnet	69.2%	$0.042	46.7s	31%
85	Z.AI GLM 4.7	67.1%	$0.010	1.4m	28%
86	Stealth: Healer Alpha	58.2%	$0.0000	23.7s	19%
87	Gemini 3 Pro (Preview)	71.5%	$0.055	54.4s	35%
88	Llama 3.1 8B	65.3%	$0.0003	1.3m	22%
89	GPT-4.1 Nano	57.0%	$0.0007	13.3s	16%
90	DeepSeek V3.1	65.6%	$0.0020	1.8m	28%
91	WizardLM 2 8x22b	69.4%	$0.0026	1.8m	25%
92	Gemini 3 Flash (Preview, Reasoning)	57.3%	$0.012	30.1s	23%
93	Ministral 8B	56.1%	$0.0004	10.4s	14%
94	Llama 3.1 Nemotron 70B	58.5%	$0.0038	31.7s	18%
95	GPT-5.2	72.1%	$0.056	1.5m	37%
96	Xiaomi MIMO v2.5 Pro	60.8%	$0.0085	53.5s	21%
97	GPT-4o Mini (temp=0)	57.6%	$0.0012	34.8s	16%
98	Ministral 3B	55.1%	$0.0001	8.1s	11%
99	Xiaomi MIMO v2.5	55.3%	$0.0054	31.8s	17%
100	DeepSeek V4 Flash	54.1%	$0.0006	31.6s	14%
101	Gemini 3.5 Flash (Reasoning, Minimal)	51.3%	$0.018	12.0s	16%
102	GPT-4o, Aug. 6th (temp=0)	55.0%	$0.023	22.7s	17%
103	Claude 3.5 Sonnet	64.5%	$0.048	35.5s	20%
104	Claude Sonnet 4.5	58.5%	$0.035	38.1s	20%
105	Gemini 3.5 Flash (Reasoning)	64.7%	$0.071	37.6s	28%
106	Gemini 3.1 Flash Lite (Preview)	42.5%	$0.0030	8.4s	15%
107	Z.AI GLM 4.5 Air	54.4%	$0.0029	58.2s	14%
108	Qwen 3.5 Plus (2026-02-15)	47.3%	$0.0060	31.5s	16%
109	Z.AI GLM 5 Turbo	50.3%	$0.0081	33.2s	14%
110	Grok 4.3 (Reasoning)	68.8%	$0.021	2.3m	23%
111	Grok 4 Fast	44.6%	$0.0017	24.1s	13%
112	Claude Haiku 4.5	44.1%	$0.011	21.6s	16%
113	Gemini 3.1 Flash Lite	40.2%	$0.0030	12.1s	14%
114	Qwen 3.6 27B	68.6%	$0.025	2.3m	24%
115	Gemini 3.1 Flash Lite (Reasoning)	38.5%	$0.0030	11.9s	15%
116	DeepSeek V4 Pro	54.1%	$0.0048	1.3m	16%
117	Gemma 4 26B	49.2%	$0.0009	55.1s	14%
118	GPT-4o Mini (temp=1)	46.5%	$0.0012	34.8s	11%
119	Inception Mercury	48.3%	$0.011	17.6s	9%
120	Z.AI GLM 5	50.8%	$0.0084	1.2m	14%
121	Gemini 2.5 Flash Lite (Reasoning)	40.4%	$0.0028	30.8s	13%
122	Claude Opus 4.7 (Reasoning)	60.6%	$0.076	32.0s	20%
123	Inception Mercury 2	38.9%	$0.0032	7.0s	5%
124	Claude Opus 4.7	56.1%	$0.069	30.4s	19%
125	Claude Sonnet 4.6	44.3%	$0.031	39.3s	16%
126	Gemma 4 31B (Reasoning)	50.1%	$0.0014	2.2m	18%
127	Gemma 4 31B	45.6%	$0.0010	1.6m	13%
128	MiniMax M2.7	42.0%	$0.0040	1.1m	10%
129	Stealth: Aurora Alpha	32.7%	$0.0000	9.8s	4%
130	Z.AI GLM 5.1	45.5%	$0.014	1.5m	13%
131	MiniMax M2.5	40.4%	$0.0034	1.3m	10%
132	Gemma 4 26B (Reasoning)	45.8%	$0.0013	2.0m	13%
133	Claude Sonnet 4	43.1%	$0.032	43.7s	10%
134	DeepSeek V4 Pro (Reasoning)	57.0%	$0.015	3.1m	17%
135	Grok 4	51.0%	$0.048	1.7m	14%
136	Claude Opus 4.5	41.9%	$0.070	53.4s	17%
137	Claude Sonnet 4.6 (Reasoning)	44.1%	$0.060	1.2m	10%
138	Nemotron 3 Super	28.2%	$0.0000	1.4m	2%
139	Mistral Small 3.2 24B	69.0%	$0.0069	5.7m	20%
140	GPT-OSS 120B	28.5%	$0.0015	1.8m	3%
141	Nemotron 3 Nano	17.3%	$0.0010	1.1m	0%
142	Claude Opus 4.6 (Reasoning)	39.1%	$0.088	1.4m	15%
143	ByteDance Seed 1.6	33.1%	$0.013	2.5m	4%
144	Claude Opus 4	71.3%	$0.209	1.4m	33%
145	Claude Opus 4.6	32.3%	$0.078	1.2m	11%
146	MoonshotAI: Kimi K2.5	37.5%	$0.019	3.2m	7%
147	ByteDance Seed 2.0 Mini	44.0%	$0.0045	4.9m	11%
148	ByteDance Seed 2.0 Lite	20.6%	$0.012	2.2m	0%
149	GPT-5 Nano	4.6%	$0.0042	1.4m	0%
150	MoonshotAI: Kimi K2.6	55.1%	$0.058	6.5m	16%
65.10%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	95	99.0%
Hermes 3 405B	100	100	100	100	95	99.0%
Qwen 3.5 397B A17B	100	100	100	100	93	98.6%
Qwen 3.5 Flash	100	100	100	97	95	98.4%
Qwen3.7 Max	100	100	100	100	90	97.9%
GPT-5.5 (Reasoning, Low)	100	100	100	97	91	97.7%
GPT-5.5 (Reasoning)	100	100	98	96	91	96.8%
GPT-5.4 (Reasoning)	100	100	100	93	91	96.6%
GPT-5.5	100	100	100	89	88	95.4%
Qwen3.6 Max Preview	100	100	100	89	85	94.8%
GPT-5	98	96	94	92	92	94.5%
GPT-4o, May 13th (temp=1)	100	100	100	100	70	93.9%
Qwen 3.5 9B	100	100	100	100	63	92.7%
Qwen 3.5 122B	100	100	94	81	78	90.5%
Grok 4.20 (Beta, Reasoning)	100	100	100	80	54	86.7%
Gemini 3 Pro (Preview)	100	100	79	74	71	84.9%
GPT-5.4	100	100	98	70	54	84.3%
Qwen 2.5 72B	100	100	94	75	50	84.0%
DeepSeek V3.2	94	92	88	80	63	83.3%
GPT-4.1	98	94	83	71	68	83.0%
Qwen 3.5 27B	100	79	79	76	75	82.0%
Writer: Palmyra X5	100	100	100	63	44	81.5%
Qwen 3.6 Flash	100	100	100	56	48	80.8%
Hermes 3 70B	100	100	100	61	43	80.8%
GPT-5.1	100	100	97	71	34	80.3%
DeepSeek V3 (2025-03-24)	100	100	100	98	0	79.6%
o4 Mini	100	100	100	57	39	79.2%
Mistral Large	100	89	83	59	59	78.0%
Gemini 2.5 Flash	100	82	71	71	63	77.7%
GPT-5.4 Mini (Reasoning, Low)	94	90	82	77	44	77.4%
Mistral NeMO	100	90	77	66	54	77.2%
GPT-5.4 (Reasoning, Low)	100	96	81	73	33	76.7%
o4 Mini High	100	96	86	55	39	75.3%
WizardLM 2 8x22b	100	100	86	72	17	74.9%
Qwen 3.5 Plus (2026-04-20)	100	90	85	51	43	73.9%
GPT-5.4 Mini	89	82	73	70	51	72.9%
Grok 4.20	83	82	77	74	46	72.5%
Aion 2.0	100	85	78	54	45	72.3%
DeepSeek-V2 Chat	100	100	75	54	31	71.9%
Claude Opus 4.7 (Reasoning)	100	100	76	44	33	70.6%
DeepSeek V4 Pro (Reasoning)	83	80	76	61	46	69.3%
DeepSeek V3.1	94	78	78	58	38	69.1%
Grok 4.20 (Reasoning)	100	87	69	63	24	68.7%
Z.AI GLM 4.5	100	100	80	62	0	68.3%
Inception Mercury	100	100	100	41	0	68.2%
Qwen 3.6 27B	100	92	78	59	6	66.9%
Gemini 2.5 Flash (Reasoning)	100	85	55	54	39	66.4%
GPT-4o, May 13th (temp=0)	81	80	77	77	10	64.9%
Z.AI GLM 4.7	100	78	65	45	35	64.6%
Z.AI GLM 5 Turbo	100	91	88	44	0	64.6%
Qwen 3.6 35B	100	100	73	44	4	64.2%
Qwen3 235B A22B Instruct 2507	100	69	69	50	33	64.1%
Rocinante 12B	100	86	54	41	38	63.8%
Gemini 3 Flash (Preview, Reasoning)	84	74	70	66	24	63.8%
MoonshotAI: Kimi K2.6	100	65	63	61	13	60.5%
GPT-4o, Aug. 6th (temp=0)	100	100	65	36	0	60.2%
GPT-5 Mini	83	79	60	60	18	60.1%
Llama 3.1 70B	100	100	97	0	0	59.4%
Ministral 3 14B	100	71	68	44	12	58.9%
Claude Opus 4.7	100	60	54	51	28	58.5%
Mistral Large 3	91	87	46	36	29	57.8%
Z.AI GLM 4.7 Flash	100	92	56	41	0	57.7%
GPT-5.4 Nano (Reasoning, Low)	67	67	60	60	33	57.5%
Mistral Small 3.2 24B	100	73	65	46	0	56.8%
GPT-5.4 Mini (Reasoning)	72	72	61	48	31	56.8%
GPT-4.1 Mini	100	76	60	41	6	56.6%
Claude Sonnet 4.5	100	74	54	45	10	56.5%
Z.AI GLM 4.6	80	75	60	33	33	56.2%
Claude Opus 4	100	77	58	41	4	56.0%
DeepSeek V4 Pro	100	86	71	9	4	54.2%
GPT-5.4 Nano	73	56	56	56	26	53.5%
Xiaomi MIMO v2.5	100	58	49	41	18	53.1%
Gemini 2.5 Pro	96	75	56	21	13	52.3%
ByteDance Seed 1.6 Flash	76	68	59	57	0	52.0%
Gemma 3 12B	100	79	44	36	0	51.9%
Claude 3 Haiku	100	69	50	39	0	51.5%
Mistral Medium 3.1	73	71	68	27	14	50.6%
Gemma 3 27B	94	63	41	29	24	50.3%
GPT-5.4 Nano (Reasoning)	67	58	49	41	37	50.3%
Mistral Small Creative	100	100	35	16	0	50.2%
Mistral Small 4	99	71	51	27	0	49.5%
Gemini 3 Flash (Preview)	88	58	46	37	16	49.0%
DeepSeek V3 (2024-12-26)	100	100	32	9	0	48.1%
Claude Sonnet 4.6 (Reasoning)	70	60	38	36	36	48.0%
Qwen 3 32B	100	74	63	0	0	47.6%
GPT-5.2	78	57	54	27	17	46.6%
Cohere Command R+ (Aug. 2024)	83	58	44	41	0	45.3%
Mistral Small 4 (Reasoning)	91	75	58	0	0	44.8%
Arcee AI: Trinity Mini	94	73	51	5	0	44.5%
Gemini 3.5 Flash (Reasoning)	65	62	43	31	16	43.3%
Llama 3.1 8B	100	75	41	0	0	43.1%
Qwen 3.5 Plus (2026-02-15)	94	61	52	7	0	42.9%
Stealth: Healer Alpha	93	56	34	26	0	41.7%
Claude Sonnet 4.6	93	51	36	27	0	41.4%
Grok 4.3 (Reasoning)	76	45	44	41	0	41.3%
Ministral 3 8B	71	54	38	38	0	40.2%
Gemma 4 31B (Reasoning)	89	63	24	18	3	39.5%
ByteDance Seed 2.0 Mini	86	71	33	0	0	38.0%
Claude Opus 4.6 (Reasoning)	57	55	39	39	0	37.9%
Claude 3.5 Sonnet	100	71	17	0	0	37.6%
Mistral Large 2	92	33	27	19	13	36.6%
Nemotron 3 Nano	89	54	36	0	0	35.7%
Arcee AI: Trinity Large (Preview)	70	55	33	16	0	34.9%
DeepSeek V4 Flash (Reasoning)	59	54	54	0	0	33.2%
Claude Opus 4.5	68	66	20	9	0	32.5%
Z.AI GLM 4.5 Air	71	48	36	0	0	31.1%
Gemini 3.5 Flash (Reasoning, Minimal)	60	51	24	13	8	31.0%
Claude 3.7 Sonnet	78	71	0	0	0	29.9%
Grok 4.20 (Beta)	79	32	24	12	0	29.3%
Gemma 3 4B	68	57	18	3	0	29.3%
Gemma 4 26B (Reasoning)	75	39	24	0	0	27.5%
LFM2 24B	74	32	32	0	0	27.4%
Z.AI GLM 5	63	41	17	16	0	27.4%
GPT-4o, Aug. 6th (temp=1)	73	29	20	13	0	27.0%
Gemini 3.1 Flash Lite	75	57	0	0	0	26.3%
Grok 4.3	70	36	24	0	0	25.8%
Claude Haiku 4.5	65	48	13	0	0	25.2%
MoonshotAI: Kimi K2.5	69	56	0	0	0	25.0%
Stealth: Hunter Alpha	41	39	39	0	0	23.8%
Inception Mercury 2	83	35	0	0	0	23.6%
Llama 3.1 Nemotron 70B	75	37	0	0	0	22.4%
GPT-4o Mini (temp=1)	82	13	10	0	0	20.9%
Claude Opus 4.6	65	36	0	0	0	20.2%
Gemma 4 26B	62	19	12	8	0	20.1%
Xiaomi MIMO v2.5 Pro	60	26	11	2	0	19.9%
GPT-4o Mini (temp=0)	51	27	17	0	0	19.0%
Nemotron 3 Super	37	37	20	0	0	18.8%
Gemini 3.1 Flash Lite (Preview)	43	32	19	0	0	18.7%
DeepSeek V4 Flash	81	0	0	0	0	16.1%
MiniMax M2.7	60	15	5	0	0	15.9%
Claude Sonnet 4	71	7	0	0	0	15.6%
ByteDance Seed 1.6	74	3	0	0	0	15.4%
Gemini 2.5 Flash Lite (Reasoning)	43	33	0	0	0	15.1%
Gemini 2.5 Flash Lite	45	30	0	0	0	15.1%
Z.AI GLM 5.1	45	21	0	0	0	13.3%
Grok 4.1 Fast	29	22	12	0	0	12.4%
MiniMax M2.5	60	0	0	0	0	12.1%
Ministral 8B	27	20	9	4	0	12.0%
GPT-4.1 Nano	39	13	0	0	0	10.3%
GPT-OSS 120B	41	0	0	0	0	8.2%
Gemini 3.1 Flash Lite (Reasoning)	41	0	0	0	0	8.2%
Gemma 4 31B	36	0	0	0	0	7.1%
Ministral 3 3B	24	8	0	0	0	6.4%
ByteDance Seed 2.0 Lite	24	0	0	0	0	4.8%
Grok 4	10	0	0	0	0	2.0%
Grok 4 Fast	5	0	0	0	0	1.0%
Stealth: Aurora Alpha	2	0	0	0	0	0.3%
GPT-5 Nano	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	92	98.4%
o4 Mini High	100	100	100	95	92	97.4%
Ministral 3 3B	100	100	100	95	88	96.6%
GPT-5.5 (Reasoning)	100	100	100	100	77	95.4%
GPT-5.1	100	100	100	91	82	94.6%
DeepSeek V3 (2025-03-24)	100	100	100	98	71	93.9%
Claude Sonnet 4.6 (Reasoning)	100	100	96	89	82	93.4%
GPT-4o, May 13th (temp=1)	100	100	96	93	76	93.0%
Z.AI GLM 5.1	100	100	100	99	65	92.9%
GPT-5.4 (Reasoning)	100	100	93	88	81	92.2%
GPT-5	100	100	100	93	60	90.6%
Qwen 3.5 122B	100	100	98	92	60	90.0%
GPT-5.4	100	100	95	87	67	89.7%
GPT-5.4 (Reasoning, Low)	100	100	100	78	70	89.7%
o4 Mini	100	100	84	83	78	89.1%
GPT-5.4 Mini	100	96	87	86	76	89.0%
DeepSeek V3.2	100	100	89	79	75	88.6%
Gemma 3 27B	100	100	100	92	51	88.6%
GPT-5.4 Mini (Reasoning)	100	98	83	83	76	88.2%
GPT-5.5	100	100	100	91	49	88.1%
Hermes 3 405B	100	100	100	100	37	87.4%
Qwen 3.6 35B	100	98	83	82	71	86.9%
Claude 3.5 Sonnet	100	100	92	82	59	86.5%
Qwen 3.5 397B A17B	100	100	100	77	54	86.1%
GPT-5.5 (Reasoning, Low)	97	89	87	79	78	85.8%
Qwen3 235B A22B Instruct 2507	100	100	92	75	60	85.3%
Xiaomi MIMO v2.5 Pro	98	94	91	70	69	84.5%
Claude Opus 4.7 (Reasoning)	100	100	100	76	44	83.9%
Z.AI GLM 4.7 Flash	100	100	100	90	29	83.8%
Cohere Command R+ (Aug. 2024)	100	100	79	73	65	83.6%
Writer: Palmyra X5	100	100	92	63	60	83.2%
WizardLM 2 8x22b	100	100	73	70	70	82.4%
Qwen 2.5 72B	100	100	78	76	57	82.2%
DeepSeek V3 (2024-12-26)	100	100	100	68	43	82.1%
GPT-5.4 Nano (Reasoning, Low)	100	85	84	74	63	81.3%
Grok 4.3 (Reasoning)	100	84	79	71	71	81.3%
Mistral Small 4	100	100	94	74	37	80.9%
Grok 4.3	100	89	76	71	63	80.1%
Arcee AI: Trinity Large (Preview)	100	100	100	59	36	79.1%
Claude Opus 4	100	98	89	71	36	78.9%
MoonshotAI: Kimi K2.6	100	81	80	75	57	78.6%
Qwen 3.5 Plus (2026-04-20)	100	100	100	63	29	78.4%
Z.AI GLM 4.7	100	96	86	70	38	78.1%
GPT-4o, Aug. 6th (temp=1)	100	100	79	74	34	77.4%
Grok 4.20 (Beta)	99	91	83	77	36	77.3%
Mistral Large	100	100	100	86	0	77.1%
GPT-4o, May 13th (temp=0)	100	98	96	75	15	76.8%
GPT-5.4 Nano	94	76	73	72	69	76.8%
Grok 4.20 (Reasoning)	100	80	78	74	50	76.3%
Claude 3.7 Sonnet	94	85	83	70	49	76.2%
Gemini 3 Pro (Preview)	100	100	70	62	49	76.2%
GPT-4.1 Mini	100	76	71	70	61	75.8%
GPT-4.1	100	98	76	58	41	74.7%
Gemini 3 Flash (Preview, Reasoning)	100	83	80	70	39	74.7%
Gemini 2.5 Flash	88	88	85	60	52	74.6%
Aion 2.0	100	76	73	65	58	74.4%
Z.AI GLM 4.5	100	98	86	54	32	73.8%
Qwen 3.6 27B	100	100	91	44	34	73.8%
GPT-5.4 Mini (Reasoning, Low)	98	91	81	67	31	73.6%
Arcee AI: Trinity Mini	100	90	86	81	5	72.2%
Z.AI GLM 4.5 Air	100	88	83	66	24	72.1%
Qwen 3.5 27B	100	97	78	44	41	72.0%
Xiaomi MIMO v2.5	94	94	81	51	37	71.5%
DeepSeek V4 Pro	100	92	83	82	0	71.4%
GPT-5.2	100	97	85	74	0	71.2%
Z.AI GLM 5	94	76	71	55	52	69.9%
LFM2 24B	100	100	71	48	27	69.2%
Gemini 3.5 Flash (Reasoning)	94	79	62	54	54	68.5%
Claude Opus 4.7	89	82	63	56	46	67.4%
Mistral Large 2	98	74	63	54	45	66.8%
GPT-5.4 Nano (Reasoning)	99	86	74	39	36	66.7%
Qwen 3 32B	100	90	88	52	0	66.0%
Gemma 3 12B	96	82	62	46	41	65.4%
Gemini 2.5 Pro	100	100	73	49	5	65.4%
Ministral 3 8B	100	93	83	49	0	65.0%
DeepSeek-V2 Chat	100	98	92	24	11	65.0%
Grok 4.20	86	85	84	66	3	64.9%
ByteDance Seed 1.6 Flash	100	83	65	62	0	62.2%
Gemma 4 26B	92	74	56	46	41	61.7%
GPT-4o, Aug. 6th (temp=0)	100	92	73	39	0	60.7%
Qwen 3.5 Plus (2026-02-15)	85	83	63	42	24	59.6%
Z.AI GLM 4.6	100	86	50	48	13	59.4%
DeepSeek V4 Pro (Reasoning)	97	85	71	26	17	59.3%
Mistral Medium 3.1	89	76	66	63	0	59.0%
Claude Sonnet 4	93	88	69	35	9	58.7%
DeepSeek V3.1	95	82	75	41	0	58.6%
Grok 4.20 (Beta, Reasoning)	76	66	60	56	32	58.3%
MoonshotAI: Kimi K2.5	100	71	61	43	13	57.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	76	63	46	0	57.2%
DeepSeek V4 Flash (Reasoning)	100	100	54	21	11	56.9%
Mistral NeMO	100	94	83	3	0	56.1%
Gemini 2.5 Flash (Reasoning)	89	88	60	43	0	56.0%
Claude Sonnet 4.5	100	95	43	38	0	55.2%
Mistral Small 4 (Reasoning)	78	74	73	41	10	55.2%
MiniMax M2.7	100	78	59	38	0	55.0%
Ministral 3B	98	63	59	41	11	54.4%
Stealth: Hunter Alpha	100	76	63	32	0	54.3%
ByteDance Seed 2.0 Mini	87	71	52	45	12	53.5%
Gemma 4 31B (Reasoning)	100	65	48	41	13	53.3%
GPT-5 Mini	100	55	47	42	22	53.2%
Claude 3 Haiku	92	70	65	34	3	52.7%
Gemma 4 31B	100	91	35	29	8	52.5%
Llama 3.1 Nemotron 70B	86	69	66	36	0	51.5%
ByteDance Seed 1.6	100	89	63	0	0	50.6%
Claude Sonnet 4.6	86	63	59	36	0	48.9%
Mistral Large 3	100	67	50	17	9	48.5%
Gemma 3 4B	100	100	22	5	0	45.4%
Gemini 3 Flash (Preview)	100	49	43	26	7	44.7%
Gemini 2.5 Flash Lite	100	84	34	3	0	44.3%
Grok 4	74	62	39	29	0	40.8%
Mistral Small Creative	85	54	34	20	8	40.1%
Hermes 3 70B	100	98	0	0	0	39.6%
GPT-4o Mini (temp=1)	100	65	31	0	0	39.1%
Claude Opus 4.6	97	38	30	27	0	38.4%
Inception Mercury	71	65	39	16	0	38.2%
Llama 3.1 8B	100	41	34	9	0	36.7%
Gemini 3.1 Flash Lite (Preview)	73	48	35	28	0	36.6%
Claude Opus 4.5	66	56	41	11	0	34.7%
Ministral 3 14B	54	51	44	24	0	34.5%
Gemini 3.1 Flash Lite (Reasoning)	68	62	22	14	0	33.3%
Gemma 4 26B (Reasoning)	49	49	34	29	5	33.1%
Stealth: Healer Alpha	100	36	20	2	0	31.7%
Claude Opus 4.6 (Reasoning)	55	49	27	18	2	30.3%
Z.AI GLM 5 Turbo	73	56	9	0	0	27.6%
Grok 4 Fast	75	41	15	4	0	27.0%
Llama 3.1 70B	54	43	38	0	0	27.0%
Nemotron 3 Super	83	51	0	0	0	26.9%
Grok 4.1 Fast	63	37	32	0	0	26.5%
GPT-4.1 Nano	41	33	16	15	0	21.0%
MiniMax M2.5	48	24	15	14	0	20.1%
Mistral Small 3.2 24B	100	0	0	0	0	20.0%
Claude Haiku 4.5	54	35	7	0	0	19.0%
DeepSeek V4 Flash	56	32	0	0	0	17.5%
Ministral 8B	61	20	0	0	0	16.2%
ByteDance Seed 2.0 Lite	41	16	0	0	0	11.3%
Stealth: Aurora Alpha	54	0	0	0	0	10.7%
Gemini 3.1 Flash Lite	39	9	0	0	0	9.6%
Inception Mercury 2	25	5	0	0	0	6.1%
GPT-OSS 120B	15	9	7	0	0	6.1%
GPT-4o Mini (temp=0)	18	0	0	0	0	3.5%
Gemini 2.5 Flash Lite (Reasoning)	11	0	0	0	0	2.2%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	98	99.6%
GPT-5.5 (Reasoning)	100	100	100	100	95	99.0%
DeepSeek-V2 Chat	100	100	100	100	95	99.0%
Qwen 3 32B	100	100	100	100	95	99.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	97	97	98.7%
Grok 4.20	100	100	100	100	93	98.5%
GPT-5.4	100	100	100	100	91	98.2%
GPT-4.1 Mini	100	100	100	100	90	98.0%
Aion 2.0	100	100	100	97	90	97.3%
Grok 4.1 Fast	100	100	100	100	86	97.1%
Gemini 3.5 Flash (Reasoning)	100	100	100	94	92	97.1%
Qwen 3.5 Flash	100	100	98	95	92	97.1%
Qwen 3.5 397B A17B	100	100	100	92	92	96.7%
GPT-5.4 Mini	100	100	100	98	85	96.7%
Ministral 3 3B	100	100	100	100	83	96.7%
o4 Mini	100	100	100	98	83	96.3%
Qwen 3.5 27B	100	100	100	95	86	96.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	79	95.8%
Grok 4	100	100	100	94	78	94.4%
GPT-5.4 (Reasoning)	100	100	100	98	73	94.2%
GPT-5.5	100	100	100	100	71	94.1%
Nemotron 3 Super	100	100	100	88	82	93.9%
WizardLM 2 8x22b	100	100	100	88	82	93.9%
Qwen 2.5 72B	100	100	100	100	66	93.1%
Grok 4.3 (Reasoning)	100	100	97	83	82	92.3%
Qwen3.6 Max Preview	100	100	90	90	81	92.1%
Mistral Large 2	100	100	100	100	60	92.1%
MoonshotAI: Kimi K2.6	100	100	100	92	68	91.9%
Gemma 3 27B	100	100	100	82	78	91.8%
Mistral Medium 3.1	100	100	100	98	60	91.7%
Ministral 3 14B	100	100	100	100	58	91.6%
Qwen 3.6 35B	100	100	100	92	63	91.1%
Mistral Small Creative	100	100	93	88	71	90.5%
Z.AI GLM 4.5	100	100	100	86	63	89.8%
Arcee AI: Trinity Mini	100	100	100	95	54	89.8%
Gemini 2.5 Flash	100	100	100	88	60	89.7%
Z.AI GLM 4.6	100	100	100	94	54	89.5%
Z.AI GLM 4.7 Flash	100	100	100	100	48	89.5%
GPT-5.4 Nano	100	100	100	77	67	88.9%
Grok 4.20 (Reasoning)	100	100	88	83	73	88.8%
GPT-4o, May 13th (temp=1)	100	100	100	98	45	88.7%
DeepSeek V3.2	100	100	92	88	63	88.6%
Rocinante 12B	100	100	100	75	68	88.6%
Gemini 2.5 Pro	100	100	100	100	41	88.2%
Claude Opus 4	100	100	83	78	77	87.6%
GPT-5.4 Nano (Reasoning)	100	100	81	80	74	86.9%
Gemini 3 Flash (Preview)	100	99	84	82	63	85.8%
Qwen 3.6 Flash	100	100	100	71	56	85.5%
GPT-5	100	92	85	79	69	85.0%
Arcee AI: Trinity Large (Preview)	100	100	92	78	54	84.7%
Z.AI GLM 4.7	100	100	100	63	58	84.3%
DeepSeek V4 Pro	100	100	92	83	45	84.1%
Xiaomi MIMO v2.5	100	93	89	70	66	83.6%
ByteDance Seed 1.6 Flash	100	96	92	78	50	83.1%
Mistral NeMO	100	100	98	81	36	83.1%
Gemma 4 26B	100	100	95	73	46	82.9%
GPT-5.4 (Reasoning, Low)	100	100	78	75	60	82.8%
Llama 3.1 70B	100	100	94	92	27	82.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	63	49	82.4%
Grok 4.20 (Beta)	100	100	100	98	12	82.0%
Qwen 3.5 Plus (2026-02-15)	100	100	91	69	50	81.8%
Gemini 2.5 Flash (Reasoning)	100	100	94	61	54	81.7%
Mistral Large 3	100	100	94	80	34	81.6%
Grok 4 Fast	100	100	86	69	51	81.2%
o4 Mini High	100	100	80	71	54	81.0%
GPT-4o Mini (temp=0)	100	100	88	71	45	81.0%
Ministral 3B	100	100	100	68	37	80.9%
Cohere Command R+ (Aug. 2024)	100	100	100	71	33	80.9%
GPT-5.1	100	100	85	78	41	80.7%
Mistral Small 4 (Reasoning)	100	100	100	54	48	80.2%
Z.AI GLM 4.5 Air	100	100	88	81	30	79.7%
GPT-5.4 Mini (Reasoning, Low)	96	88	85	76	52	79.3%
GPT-5.2	100	76	75	73	71	79.1%
Claude 3.7 Sonnet	100	94	80	71	51	79.1%
Mistral Large	100	100	100	61	33	78.8%
Mistral Small 4	100	100	97	56	40	78.6%
GPT-5.4 Nano (Reasoning, Low)	98	86	82	61	59	77.2%
GPT-4o, Aug. 6th (temp=1)	98	98	88	57	44	77.2%
Ministral 3 8B	100	80	75	70	60	77.0%
Z.AI GLM 5.1	100	100	100	54	29	76.4%
DeepSeek V4 Flash (Reasoning)	100	100	95	54	33	76.4%
DeepSeek V3.1	100	83	78	61	55	75.6%
Inception Mercury	100	100	100	72	2	74.8%
Stealth: Aurora Alpha	89	74	72	71	68	74.8%
MiniMax M2.5	100	100	63	60	48	74.3%
GPT-4o, Aug. 6th (temp=0)	100	100	71	57	43	74.2%
DeepSeek V4 Flash	100	100	100	45	24	73.9%
ByteDance Seed 1.6	100	100	94	50	24	73.4%
DeepSeek V4 Pro (Reasoning)	100	78	71	60	57	73.4%
LFM2 24B	100	100	100	54	13	73.3%
Gemma 4 26B (Reasoning)	98	96	71	54	44	72.6%
Qwen 3.5 122B	100	100	92	41	30	72.5%
GPT-5 Mini	92	86	83	58	44	72.5%
ByteDance Seed 2.0 Mini	100	98	59	54	52	72.5%
GPT-4.1 Nano	100	100	81	74	8	72.4%
DeepSeek V3 (2024-12-26)	100	100	78	54	28	71.8%
Claude Opus 4.7	100	90	63	63	41	71.5%
Gemma 4 31B (Reasoning)	100	94	56	54	54	71.3%
Gemini 3 Pro (Preview)	100	93	88	74	0	70.9%
Gemma 4 31B	100	94	78	48	27	69.3%
Stealth: Hunter Alpha	100	100	66	56	19	68.1%
Inception Mercury 2	100	93	92	55	0	67.9%
Gemma 3 12B	97	94	88	37	24	67.8%
Grok 4.3	100	100	78	33	24	66.9%
Claude Sonnet 4	100	100	81	29	20	65.8%
GPT-5.4 Mini (Reasoning)	100	82	57	45	43	65.3%
Llama 3.1 8B	100	78	68	45	36	65.3%
Xiaomi MIMO v2.5 Pro	100	100	63	59	0	64.5%
Claude Opus 4.6 (Reasoning)	100	75	71	56	16	63.6%
Stealth: Healer Alpha	100	79	61	51	20	62.3%
Ministral 8B	100	99	91	17	4	62.0%
Claude Opus 4.5	100	60	60	54	36	61.9%
Gemini 2.5 Flash Lite	100	100	100	9	0	61.8%
Z.AI GLM 5	100	86	68	31	24	61.7%
Grok 4.20 (Beta, Reasoning)	86	80	69	65	7	61.4%
Qwen 3.6 27B	100	98	78	30	0	61.2%
Gemini 3.1 Flash Lite (Preview)	100	97	76	32	0	60.9%
GPT-OSS 120B	100	79	75	46	0	60.2%
Claude Sonnet 4.5	100	100	74	10	0	56.7%
Claude Haiku 4.5	81	58	56	46	43	56.7%
Hermes 3 70B	100	100	57	24	0	56.2%
Gemini 3.5 Flash (Reasoning, Minimal)	71	66	48	41	41	53.4%
Z.AI GLM 5 Turbo	100	78	44	41	0	52.6%
Nemotron 3 Nano	100	60	44	42	10	51.1%
Claude 3.5 Sonnet	59	54	54	48	41	50.9%
Claude Sonnet 4.6 (Reasoning)	100	94	33	20	0	49.3%
Llama 3.1 Nemotron 70B	100	78	30	29	5	48.4%
Claude Opus 4.7 (Reasoning)	100	71	30	19	13	46.6%
Claude Opus 4.6	95	80	56	0	0	46.2%
MoonshotAI: Kimi K2.5	100	60	45	0	0	41.2%
Gemini 2.5 Flash Lite (Reasoning)	68	45	44	27	17	40.2%
MiniMax M2.7	88	81	20	8	0	39.2%
ByteDance Seed 2.0 Lite	78	71	31	0	0	36.1%
Gemini 3.1 Flash Lite	86	44	24	7	0	32.0%
Claude Sonnet 4.6	83	35	28	9	0	30.9%
GPT-4o Mini (temp=1)	100	46	5	0	0	30.2%
Gemma 3 4B	54	35	33	24	4	29.8%
Gemini 3.1 Flash Lite (Reasoning)	41	38	36	27	0	28.4%
GPT-5 Nano	33	8	0	0	0	8.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	98	99.6%
Qwen 3.5 122B	100	100	100	100	98	99.6%
GPT-5.4 Mini	100	100	100	100	98	99.6%
Llama 3.1 70B	100	100	100	100	98	99.6%
GPT-5.5 (Reasoning)	100	100	100	100	96	99.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	95	99.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	95	99.0%
o4 Mini High	100	100	100	100	88	97.6%
o4 Mini	100	100	100	100	88	97.6%
Qwen 3.5 35B	100	100	100	100	88	97.6%
GPT-5.4	100	100	98	98	89	97.0%
GPT-5.4 Mini (Reasoning)	100	100	100	93	92	97.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	83	96.7%
Qwen 3.5 Flash	100	100	100	95	88	96.6%
Gemini 3 Pro (Preview)	100	100	100	100	82	96.3%
GPT-4.1	100	100	100	100	78	95.5%
Z.AI GLM 5 Turbo	100	100	100	89	88	95.4%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	76	95.2%
GPT-5	100	100	100	89	83	94.6%
Mistral NeMO	100	100	100	95	76	94.3%
Qwen 3 32B	100	100	100	100	71	94.3%
DeepSeek V4 Flash	100	100	100	100	71	94.3%
Claude 3 Haiku	100	100	100	100	71	94.3%
LFM2 24B	100	100	100	100	69	93.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	88	81	93.7%
Llama 3.1 Nemotron 70B	100	100	100	98	63	92.3%
DeepSeek V4 Flash (Reasoning)	100	100	92	90	78	91.9%
ByteDance Seed 1.6 Flash	100	100	100	100	59	91.8%
GPT-4o, May 13th (temp=1)	100	100	100	97	60	91.4%
Inception Mercury 2	100	100	92	89	76	91.3%
Grok 4.3	100	100	98	78	78	90.8%
Writer: Palmyra X5	100	100	100	90	63	90.7%
GPT-4.1 Mini	100	100	100	86	60	89.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	89	83	73	89.1%
Claude Opus 4	100	95	91	86	71	88.6%
Z.AI GLM 4.7	100	100	97	74	71	88.5%
Qwen 3.6 Flash	100	100	100	100	41	88.2%
GPT-5.1	100	100	88	82	70	88.1%
Gemma 3 12B	100	100	100	86	54	87.9%
GPT-4o, May 13th (temp=0)	100	100	100	81	57	87.6%
Grok 4.1 Fast	100	100	100	92	45	87.5%
GPT-4.1 Nano	100	100	90	80	66	87.2%
DeepSeek-V2 Chat	100	100	95	92	49	87.2%
Grok 4.20 (Reasoning)	100	100	94	92	49	87.0%
Aion 2.0	100	100	88	80	66	86.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	33	86.6%
Z.AI GLM 4.7 Flash	100	100	98	97	38	86.6%
Claude Opus 4.7 (Reasoning)	100	100	86	86	61	86.5%
Grok 4.3 (Reasoning)	100	100	100	95	37	86.5%
Mistral Small 4	100	100	91	81	59	86.1%
DeepSeek V3 (2025-03-24)	100	100	95	78	48	84.2%
Gemini 2.5 Pro	100	100	100	79	38	83.4%
Gemini 3.5 Flash (Reasoning)	100	100	97	88	31	83.3%
Hermes 3 70B	100	100	100	90	24	82.8%
MiniMax M2.5	100	100	90	78	44	82.4%
MoonshotAI: Kimi K2.6	100	100	100	92	20	82.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	78	31	81.8%
Ministral 3 14B	100	88	86	71	63	81.7%
Claude Haiku 4.5	94	94	91	63	63	81.1%
Gemini 2.5 Flash Lite	100	85	83	71	65	80.9%
WizardLM 2 8x22b	100	100	70	66	65	80.2%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Stealth: Healer Alpha	96	93	78	68	62	79.5%
Qwen 3.5 397B A17B	100	100	100	97	0	79.4%
DeepSeek V3.2	100	97	83	75	41	79.2%
Qwen3 235B A22B Instruct 2507	100	100	100	95	0	79.0%
GPT-4o Mini (temp=0)	100	81	76	73	60	78.0%
GPT-5.4 Nano	100	83	76	66	64	77.9%
MoonshotAI: Kimi K2.5	100	78	78	71	61	77.7%
Gemma 4 26B	100	91	88	62	45	77.3%
Mistral Large 3	92	90	85	76	41	76.7%
GPT-5.2	100	79	78	71	55	76.4%
Grok 4.20 (Beta)	100	97	81	58	44	75.8%
Claude 3.7 Sonnet	96	94	88	86	15	75.8%
GPT-5.4 Nano (Reasoning, Low)	100	80	76	71	51	75.7%
ByteDance Seed 2.0 Mini	100	100	95	80	0	75.0%
Claude Sonnet 4.5	100	100	60	57	57	74.8%
Grok 4.20	100	89	88	63	29	74.0%
Nemotron 3 Super	100	93	66	61	48	73.5%
Arcee AI: Trinity Mini	100	100	95	71	0	73.3%
Mistral Large	100	95	86	83	0	72.8%
Qwen 3.6 27B	100	100	100	59	0	71.8%
Gemini 2.5 Flash	100	100	95	63	0	71.7%
Arcee AI: Trinity Large (Preview)	100	100	81	75	0	71.1%
DeepSeek V3 (2024-12-26)	100	86	78	78	13	70.9%
Z.AI GLM 4.5	100	100	78	41	36	70.9%
Qwen 3.5 27B	100	88	75	48	41	70.1%
GPT-5 Mini	100	94	61	54	42	70.1%
Claude 3.5 Sonnet	100	100	100	41	0	68.2%
Qwen 3.5 Plus (2026-02-15)	100	83	66	49	39	67.5%
GPT-5.4 Nano (Reasoning)	90	75	71	70	30	67.1%
Gemini 3.1 Flash Lite (Preview)	88	79	66	62	39	66.7%
Xiaomi MIMO v2.5 Pro	100	100	71	31	30	66.5%
Z.AI GLM 4.6	100	82	73	69	3	65.4%
Claude Sonnet 4	100	100	92	35	0	65.3%
Grok 4	100	80	78	54	13	64.9%
Mistral Small Creative	100	100	63	50	11	64.8%
Gemini 3 Flash (Preview, Reasoning)	100	92	61	52	16	64.1%
Claude Sonnet 4.6 (Reasoning)	100	86	70	44	20	64.0%
Gemma 4 26B (Reasoning)	100	79	58	56	24	63.3%
Ministral 3 3B	100	100	71	41	0	62.4%
Cohere Command R+ (Aug. 2024)	100	83	45	41	41	62.1%
DeepSeek V4 Pro	100	100	78	31	0	61.8%
Llama 3.1 8B	94	82	78	32	24	61.8%
Stealth: Hunter Alpha	86	79	74	33	31	60.7%
GPT-OSS 120B	90	81	73	54	0	59.6%
DeepSeek V3.1	100	83	66	24	24	59.5%
Claude Sonnet 4.6	100	100	76	20	0	59.1%
Ministral 3B	100	100	95	0	0	59.0%
Ministral 3 8B	88	78	75	54	0	58.8%
Claude Opus 4.5	100	83	51	45	4	56.7%
Mistral Large 2	100	78	65	28	9	55.9%
Z.AI GLM 5	75	71	63	44	24	55.6%
Xiaomi MIMO v2.5	100	97	45	28	0	54.0%
Stealth: Aurora Alpha	98	91	75	6	0	54.0%
Z.AI GLM 4.5 Air	100	100	41	24	0	52.9%
GPT-4o Mini (temp=1)	100	88	60	15	0	52.7%
Inception Mercury	100	100	41	22	0	52.6%
Gemma 3 4B	76	66	49	36	31	51.7%
Z.AI GLM 5.1	100	63	56	32	5	51.4%
Mistral Small 4 (Reasoning)	100	52	43	38	24	51.4%
Nemotron 3 Nano	100	68	60	24	0	50.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	68	56	27	0	50.1%
Gemma 4 31B (Reasoning)	94	76	58	18	0	49.0%
Gemini 3 Flash (Preview)	94	79	55	13	0	48.3%
ByteDance Seed 2.0 Lite	100	100	28	13	0	48.1%
Gemini 3.1 Flash Lite	100	59	54	27	0	47.9%
Gemma 4 31B	78	59	50	34	18	47.7%
Claude Opus 4.6 (Reasoning)	73	70	54	29	10	47.2%
Gemini 3.1 Flash Lite (Reasoning)	76	71	41	20	0	41.8%
Claude Opus 4.6	100	54	27	18	0	39.6%
Claude Opus 4.7	100	30	28	19	0	35.3%
ByteDance Seed 1.6	100	70	0	0	0	33.9%
Grok 4 Fast	60	60	29	15	0	32.7%
Ministral 8B	75	44	24	13	0	31.2%
Mistral Medium 3.1	68	51	19	15	0	30.4%
MiniMax M2.7	60	41	19	4	0	24.8%
Gemini 2.5 Flash Lite (Reasoning)	45	13	0	0	0	11.7%
GPT-5 Nano	6	0	0	0	0	1.2%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	98	99.6%
GPT-5.4	100	100	100	100	98	99.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	98	99.6%
Qwen 3 32B	100	100	100	100	97	99.4%
Stealth: Healer Alpha	100	100	100	100	94	98.7%
Z.AI GLM 4.7	100	100	100	100	92	98.4%
Qwen 3.5 35B	100	100	100	100	92	98.4%
Qwen 3.5 Flash	100	100	100	100	92	98.4%
GPT-5.1	100	100	100	100	88	97.6%
Hermes 3 70B	100	100	100	100	86	97.1%
GPT-5.5 (Reasoning)	100	100	100	96	89	97.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	82	96.3%
GPT-4o, May 13th (temp=1)	100	100	100	100	82	96.3%
Gemini 2.5 Flash	100	100	100	92	88	95.9%
Writer: Palmyra X5	100	100	100	100	78	95.6%
GPT-5.5 (Reasoning, Low)	100	100	100	96	82	95.5%
Grok 4.3 (Reasoning)	100	100	100	100	76	95.2%
Mistral Large	100	100	98	89	88	95.1%
Qwen 3.5 122B	100	100	100	100	75	95.0%
Qwen 3.6 35B	100	100	100	100	75	95.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	75	95.0%
Ministral 3 14B	100	100	100	100	75	95.0%
GPT-5.4 (Reasoning)	100	95	95	92	92	94.8%
Mistral Large 3	100	100	100	92	82	94.8%
Stealth: Hunter Alpha	100	100	94	92	86	94.4%
GPT-5.4 Mini (Reasoning)	100	100	100	87	83	94.0%
Claude 3.5 Sonnet	100	100	98	88	83	93.9%
Qwen 3.5 27B	100	100	100	86	83	93.8%
Aion 2.0	100	100	100	86	83	93.8%
GPT-5.5	100	100	100	100	68	93.5%
GPT-5.4 Nano	100	100	100	93	72	93.1%
Arcee AI: Trinity Mini	100	100	100	92	74	93.0%
DeepSeek V4 Flash	100	100	98	88	78	92.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	63	92.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	61	92.2%
Grok 4.3	100	100	100	100	61	92.2%
Qwen 3.6 Flash	100	100	100	100	60	92.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	60	91.9%
Grok 4.20 (Reasoning)	100	100	100	79	78	91.4%
Z.AI GLM 5	100	100	94	92	68	90.6%
GPT-5	100	100	100	81	71	90.5%
Claude 3 Haiku	100	100	86	83	82	90.2%
GPT-4o, May 13th (temp=0)	100	98	95	86	71	90.1%
GPT-4.1	100	100	97	97	54	89.4%
GPT-5.4 Mini	100	100	92	81	74	89.4%
Claude Sonnet 4.5	100	100	98	75	74	89.4%
DeepSeek V3 (2025-03-24)	100	100	100	92	54	89.1%
Qwen 3.6 27B	100	100	100	83	60	88.8%
Arcee AI: Trinity Large (Preview)	100	100	100	86	58	88.7%
Grok 4.1 Fast	100	100	100	78	63	88.3%
DeepSeek-V2 Chat	100	100	100	100	41	88.2%
WizardLM 2 8x22b	100	100	100	75	66	88.1%
DeepSeek V3.2	100	97	93	88	60	87.5%
Claude 3.7 Sonnet	100	100	100	80	56	87.2%
DeepSeek V4 Pro	100	100	100	94	41	86.9%
DeepSeek V3.1	100	100	100	96	37	86.7%
Mistral Small 4	100	100	100	100	33	86.6%
Gemini 2.5 Pro	100	100	100	100	33	86.5%
Mistral Medium 3.1	100	100	92	91	50	86.4%
Qwen 3.5 Plus (2026-02-15)	100	100	89	88	52	85.8%
ByteDance Seed 1.6 Flash	100	100	94	94	41	85.7%
Grok 4.20 (Beta)	100	100	100	80	46	85.2%
Claude Opus 4	100	100	100	80	45	85.1%
Hermes 3 405B	100	100	100	100	24	84.8%
Gemini 3 Pro (Preview)	100	100	100	63	59	84.5%
Gemini 3 Flash (Preview)	100	100	99	75	48	84.3%
ByteDance Seed 1.6	100	100	100	66	54	83.8%
Grok 4.20	100	92	83	71	71	83.6%
GPT-4.1 Mini	100	100	95	75	48	83.5%
GPT-4o, Aug. 6th (temp=1)	100	100	94	85	38	83.3%
Z.AI GLM 4.6	100	100	94	92	28	82.6%
Qwen 2.5 72B	100	100	100	100	13	82.6%
Grok 4	100	100	94	79	33	81.2%
Mistral Small 4 (Reasoning)	100	100	92	75	36	80.6%
Claude Opus 4.7 (Reasoning)	100	100	98	86	19	80.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	86	17	80.5%
Ministral 3 3B	100	100	100	63	38	80.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Inception Mercury 2	100	79	78	76	63	79.1%
Llama 3.1 8B	100	100	78	71	45	79.0%
Claude Sonnet 4	100	100	92	61	41	78.8%
MiniMax M2.7	100	100	92	88	13	78.5%
Stealth: Aurora Alpha	100	99	85	72	33	77.7%
Mistral Large 2	100	100	100	63	24	77.5%
GPT-5.2	100	92	85	77	31	77.0%
Claude Opus 4.7	100	86	75	60	60	76.3%
Gemini 2.5 Flash Lite	100	83	81	65	52	76.2%
Z.AI GLM 4.7 Flash	94	76	74	71	63	75.6%
LFM2 24B	100	100	100	41	37	75.6%
Gemma 4 26B	100	100	100	54	24	75.5%
GPT-5.4 Nano (Reasoning, Low)	82	78	74	72	70	75.1%
Mistral Small 3.2 24B	100	100	89	83	0	74.5%
Gemma 3 27B	100	94	82	66	28	73.8%
Z.AI GLM 4.5	100	98	86	71	13	73.7%
MiniMax M2.5	100	100	88	54	17	71.7%
Gemma 3 12B	100	100	88	48	20	71.0%
Mistral NeMO	100	88	63	60	41	70.5%
Z.AI GLM 4.5 Air	100	83	78	45	45	70.4%
GPT-5.4 Nano (Reasoning)	87	78	66	61	55	69.3%
Gemma 4 31B (Reasoning)	91	86	78	63	24	68.5%
ByteDance Seed 2.0 Mini	100	100	83	30	28	68.2%
Gemma 4 31B	94	71	66	56	52	67.7%
Xiaomi MIMO v2.5	100	95	89	54	0	67.6%
MoonshotAI: Kimi K2.6	100	100	56	54	28	67.4%
DeepSeek V4 Pro (Reasoning)	100	69	68	63	33	66.8%
Grok 4.20 (Beta, Reasoning)	100	74	65	55	39	66.7%
Grok 4 Fast	100	81	65	50	36	66.4%
Inception Mercury	100	100	60	48	24	66.3%
Claude Sonnet 4.6 (Reasoning)	100	100	100	24	7	66.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	97	90	33	9	65.7%
Llama 3.1 70B	100	100	71	51	0	64.4%
MoonshotAI: Kimi K2.5	100	94	81	48	0	64.4%
Gemini 3.1 Flash Lite (Preview)	100	80	68	38	21	61.4%
Qwen 3.5 9B	100	100	100	0	0	60.0%
Gemini 3 Flash (Preview, Reasoning)	88	78	77	35	22	59.8%
GPT-4o Mini (temp=0)	100	71	59	54	0	56.8%
Llama 3.1 Nemotron 70B	100	81	69	33	0	56.5%
Z.AI GLM 5 Turbo	97	90	78	17	0	56.3%
Z.AI GLM 5.1	100	97	41	33	11	56.2%
GPT-OSS 120B	96	71	67	41	2	55.5%
Ministral 3 8B	100	97	42	38	0	55.5%
Xiaomi MIMO v2.5 Pro	100	56	51	48	19	54.5%
Gemini 2.5 Flash Lite (Reasoning)	100	90	55	18	0	52.6%
Gemini 3.1 Flash Lite	70	69	61	37	24	52.1%
Gemma 4 26B (Reasoning)	100	60	54	27	19	51.7%
Claude Opus 4.5	92	85	57	24	0	51.5%
GPT-5 Mini	80	63	55	51	7	51.2%
Claude Opus 4.6 (Reasoning)	83	60	54	50	3	50.1%
Ministral 8B	100	66	65	0	0	46.1%
GPT-4.1 Nano	95	61	41	33	0	46.0%
Gemma 3 4B	86	54	48	29	0	43.1%
Claude Sonnet 4.6	63	63	60	13	0	40.1%
GPT-4o, Aug. 6th (temp=0)	85	61	34	16	0	39.2%
Nemotron 3 Nano	75	66	53	0	0	38.6%
Nemotron 3 Super	100	36	32	24	0	38.3%
Gemini 3.1 Flash Lite (Reasoning)	63	48	44	30	0	37.0%
Claude Opus 4.6	59	45	24	5	0	26.6%
Claude Haiku 4.5	45	41	24	20	0	26.1%
GPT-5 Nano	35	10	4	0	0	10.0%
ByteDance Seed 2.0 Lite	37	0	0	0	0	7.4%
Ministral 3B	12	0	0	0	0	2.3%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	98	99.6%
Gemini 2.5 Flash	100	100	100	100	97	99.4%
GPT-5.4 Mini (Reasoning)	100	100	100	100	96	99.3%
GPT-5.4 (Reasoning)	100	100	100	100	95	99.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	94	98.9%
GPT-4.1	100	100	99	98	94	98.4%
Qwen 2.5 72B	100	100	100	97	94	98.2%
GPT-5.4	100	100	100	95	95	98.0%
GPT-5.5	100	100	100	100	89	97.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	96	92	97.7%
Qwen 3.5 397B A17B	100	100	100	100	88	97.6%
WizardLM 2 8x22b	100	100	100	93	92	96.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	85	96.9%
Grok 4.1 Fast	100	100	100	92	92	96.7%
Qwen 3.5 122B	100	100	100	100	83	96.7%
Aion 2.0	100	100	100	100	82	96.3%
Arcee AI: Trinity Large (Preview)	100	100	100	100	80	96.0%
DeepSeek V3.1	100	100	100	100	80	95.9%
GPT-5.5 (Reasoning)	100	100	100	98	80	95.6%
Cohere Command R+ (Aug. 2024)	100	100	100	88	86	94.9%
ByteDance Seed 1.6 Flash	100	100	99	92	83	94.9%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	73	94.6%
Gemma 3 12B	100	100	98	94	79	94.2%
GPT-5	100	100	100	88	81	93.9%
GPT-5.1	100	100	100	100	68	93.6%
Qwen 3.5 Flash	100	100	100	92	75	93.3%
Qwen3.6 Max Preview	100	100	92	88	86	93.2%
Xiaomi MIMO v2.5	100	100	94	90	81	93.1%
GPT-5.5 (Reasoning, Low)	100	100	100	100	63	92.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	98	65	92.7%
GPT-4o Mini (temp=0)	100	100	92	86	85	92.4%
Writer: Palmyra X5	100	100	98	94	69	92.2%
DeepSeek V3 (2024-12-26)	100	100	100	83	76	91.9%
Z.AI GLM 4.5	100	99	96	91	70	91.2%
GPT-4o, May 13th (temp=1)	100	100	100	86	70	91.1%
Qwen 3 32B	100	100	100	88	68	91.1%
GPT-5 Mini	100	100	97	84	71	90.5%
Claude 3 Haiku	100	100	100	83	68	90.4%
GPT-5.4 Mini	100	99	87	83	80	89.9%
Qwen3 235B A22B Instruct 2507	100	100	100	97	48	88.9%
Mistral Small 4	100	100	100	85	59	88.8%
Mistral NeMO	100	100	94	91	59	88.7%
DeepSeek-V2 Chat	100	100	100	92	51	88.5%
Gemini 3 Pro (Preview)	100	99	94	90	57	88.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	89	50	87.7%
Grok 4.20 (Reasoning)	100	100	88	79	70	87.5%
LFM2 24B	100	100	97	76	62	86.9%
Mistral Large 3	100	92	83	79	78	86.4%
Grok 4.3	100	97	95	95	41	85.6%
Z.AI GLM 4.6	100	95	79	78	74	85.3%
Claude Opus 4.6 (Reasoning)	100	100	96	75	54	85.1%
Z.AI GLM 4.7 Flash	100	100	89	81	54	84.7%
Claude Sonnet 4.5	100	100	86	71	63	84.3%
GPT-4.1 Nano	100	99	93	75	52	83.7%
Mistral Large	100	100	100	100	17	83.3%
Z.AI GLM 4.7	100	100	89	75	52	83.2%
Gemini 2.5 Pro	100	100	94	75	41	82.0%
Rocinante 12B	100	100	100	84	26	82.0%
Stealth: Healer Alpha	100	100	100	85	24	81.8%
Stealth: Hunter Alpha	100	100	96	79	33	81.6%
Grok 4.20 (Beta)	98	89	81	72	67	81.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	71	31	80.5%
DeepSeek V3.2	100	100	100	58	45	80.5%
Claude 3.5 Sonnet	100	100	100	100	0	80.0%
Ministral 3B	100	100	100	100	0	80.0%
GPT-4o Mini (temp=1)	100	100	100	52	48	79.9%
Claude 3.7 Sonnet	100	86	76	70	67	79.8%
Mistral Small 4 (Reasoning)	100	100	83	67	49	79.7%
GPT-5.2	100	92	92	88	26	79.7%
Qwen 3.6 27B	100	100	100	98	0	79.6%
Claude Opus 4.7	100	100	86	59	49	78.8%
Llama 3.1 Nemotron 70B	100	100	88	81	24	78.5%
Gemma 3 4B	96	85	85	73	52	78.1%
Qwen 3.5 35B	100	100	100	88	0	77.6%
DeepSeek V4 Flash (Reasoning)	100	100	86	69	33	77.4%
Grok 4.20 (Beta, Reasoning)	94	90	89	69	44	77.3%
Mistral Small 3.2 24B	100	100	100	46	30	75.4%
Gemma 4 31B (Reasoning)	100	100	92	52	26	73.9%
Grok 4.3 (Reasoning)	100	100	94	74	0	73.7%
Gemma 4 26B (Reasoning)	97	95	79	61	32	73.0%
Z.AI GLM 5 Turbo	93	85	80	54	51	72.5%
Mistral Large 2	100	92	91	79	0	72.4%
MiniMax M2.7	100	92	76	75	13	71.1%
Claude Opus 4.7 (Reasoning)	100	100	83	71	0	71.0%
Gemini 2.5 Flash Lite	100	89	77	71	18	70.9%
Llama 3.1 8B	100	100	80	71	0	70.3%
Xiaomi MIMO v2.5 Pro	100	81	71	65	31	69.7%
Mistral Medium 3.1	100	74	68	56	49	69.2%
MoonshotAI: Kimi K2.6	100	100	90	55	0	69.1%
Claude Opus 4	100	77	60	58	49	68.8%
Z.AI GLM 5.1	100	100	63	43	36	68.6%
GPT-5.4 Nano	87	79	71	56	42	66.8%
Claude Sonnet 4	100	86	75	71	0	66.4%
Ministral 3 3B	100	100	92	33	7	66.3%
GPT-5.4 Nano (Reasoning)	85	77	59	57	50	65.8%
MoonshotAI: Kimi K2.5	100	100	93	30	0	64.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	84	27	8	63.8%
Z.AI GLM 5	100	88	76	35	18	63.4%
GPT-4o, Aug. 6th (temp=0)	93	75	66	52	26	62.6%
Grok 4.20	100	76	56	52	26	62.1%
Z.AI GLM 4.5 Air	100	86	70	50	0	61.2%
Stealth: Aurora Alpha	95	76	50	41	39	60.3%
Qwen 3.5 27B	100	100	54	48	0	60.2%
Nemotron 3 Super	83	67	57	49	44	60.0%
Claude Sonnet 4.6 (Reasoning)	100	70	68	62	0	59.8%
Gemma 3 27B	100	59	55	43	41	59.5%
Gemini 3.1 Flash Lite	100	76	67	43	10	59.3%
Gemini 3 Flash (Preview)	88	83	52	48	24	58.9%
GPT-5.4 Nano (Reasoning, Low)	72	71	63	45	43	58.9%
Ministral 3 8B	100	61	57	37	36	58.3%
DeepSeek V4 Pro	100	85	54	52	0	58.0%
Gemini 2.5 Flash Lite (Reasoning)	88	75	71	26	18	55.6%
Gemma 4 31B	93	75	70	30	0	53.7%
ByteDance Seed 1.6	100	90	59	18	0	53.3%
Gemini 3 Flash (Preview, Reasoning)	100	74	63	29	0	53.2%
Claude Sonnet 4.6	93	76	75	18	0	52.4%
Gemini 3.1 Flash Lite (Reasoning)	67	65	47	41	37	51.3%
Ministral 8B	100	82	41	31	0	50.8%
Gemma 4 26B	100	49	39	35	7	46.0%
DeepSeek V4 Flash	71	71	54	24	9	45.8%
Qwen 3.5 Plus (2026-02-15)	78	54	50	47	0	45.7%
Grok 4 Fast	73	71	38	33	11	45.2%
Gemini 3.1 Flash Lite (Preview)	78	49	49	48	0	44.7%
Inception Mercury 2	80	79	29	20	15	44.3%
ByteDance Seed 2.0 Mini	92	56	41	24	0	42.5%
Grok 4	70	49	45	27	17	41.7%
Ministral 3 14B	100	54	41	9	0	40.7%
GPT-OSS 120B	63	62	36	34	0	39.1%
MiniMax M2.5	92	90	13	0	0	39.0%
Claude Opus 4.5	65	45	27	21	7	33.1%
Nemotron 3 Nano	100	56	0	0	0	31.3%
Claude Opus 4.6	66	39	31	12	3	30.2%
Mistral Small Creative	45	44	29	13	0	26.3%
Inception Mercury	100	0	0	0	0	20.0%
ByteDance Seed 2.0 Lite	78	15	5	0	0	19.4%
Claude Haiku 4.5	48	9	3	0	0	11.9%
GPT-5 Nano	42	0	0	0	0	8.5%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning)	100	100	100	84	80	92.8%
GPT-5.4 (Reasoning)	100	98	94	83	76	90.2%
GPT-5.5 (Reasoning, Low)	100	98	95	83	71	89.4%
GPT-5.5	100	92	88	87	78	89.0%
Hermes 3 405B	100	100	95	78	58	86.2%
Qwen3.7 Max	100	100	98	75	51	84.8%
Gemma 3 12B	100	91	90	86	55	84.4%
Gemini 3.1 Pro (Preview)	100	84	80	79	71	83.0%
GPT-5.4 (Reasoning, Low)	100	100	99	72	43	82.8%
o4 Mini	100	82	81	73	57	78.5%
GPT-4.1	90	89	79	70	58	77.2%
DeepSeek-V2 Chat	100	78	69	67	41	71.0%
Llama 3.1 8B	100	97	86	36	33	70.2%
Mistral Large 2	100	88	87	73	0	69.5%
Qwen 3.5 9B	100	70	68	60	45	68.5%
GPT-5	92	81	70	62	30	67.0%
GPT-5.4	100	81	71	51	29	66.5%
Qwen3.6 Max Preview	100	78	60	44	41	64.5%
Grok 4.20	84	74	57	51	46	62.2%
Qwen 3.5 35B	98	74	70	68	0	62.1%
Mistral NeMO	100	92	60	36	22	61.9%
Rocinante 12B	100	90	87	32	0	61.6%
Gemini 2.5 Flash Lite	79	73	63	48	43	61.2%
Qwen 3.5 122B	100	100	45	38	21	60.8%
Z.AI GLM 4.6	78	60	57	54	52	60.2%
GPT-5.4 Nano (Reasoning, Low)	74	70	68	53	36	60.1%
o4 Mini High	86	74	69	33	28	58.0%
GPT-5.4 Mini (Reasoning)	78	67	67	42	34	57.3%
Qwen 2.5 72B	98	89	74	20	0	56.3%
Grok 4.20 (Reasoning)	82	53	52	50	45	56.3%
Mistral Small 4 (Reasoning)	100	74	62	34	0	54.0%
Qwen 3.5 397B A17B	100	69	69	24	0	52.4%
Qwen 3.5 27B	86	85	55	22	13	52.1%
GPT-5.4 Mini	82	79	39	35	25	51.9%
GPT-5.2	66	50	49	48	44	51.3%
Mistral Small 4	78	54	49	41	35	51.2%
GPT-5.4 Nano	64	61	56	44	30	50.9%
GPT-4o, Aug. 6th (temp=1)	81	73	58	36	7	50.8%
Mistral Small 3.2 24B	100	100	49	2	0	50.4%
Gemini 2.5 Pro	100	52	52	41	5	50.2%
Aion 2.0	70	65	65	27	20	49.2%
GPT-5.1	91	63	48	35	6	48.7%
Writer: Palmyra X5	92	88	30	18	13	48.1%
GPT-5.4 Nano (Reasoning)	79	55	40	38	26	47.7%
DeepSeek V3.2	74	60	43	36	26	47.6%
Hermes 3 70B	100	100	38	0	0	47.6%
Ministral 3 14B	100	71	58	8	0	47.5%
GPT-4o, May 13th (temp=0)	79	62	56	18	13	45.6%
Stealth: Hunter Alpha	86	81	31	18	11	45.3%
Claude 3 Haiku	88	41	41	37	20	45.3%
GPT-5.4 Mini (Reasoning, Low)	55	55	54	40	21	45.2%
Qwen3 235B A22B Instruct 2507	76	73	30	24	20	44.8%
DeepSeek V4 Flash (Reasoning)	70	68	48	34	0	43.9%
Qwen 3.5 Plus (2026-04-20)	58	55	50	46	9	43.8%
Claude 3.7 Sonnet	96	65	33	15	0	41.9%
Mistral Small Creative	82	80	38	6	0	41.1%
Ministral 8B	100	65	40	0	0	41.0%
Gemini 2.5 Flash (Reasoning)	78	51	41	17	16	40.7%
Gemma 3 27B	75	73	32	15	0	38.9%
Gemini 3.1 Flash Lite (Reasoning)	65	49	36	26	18	38.7%
Gemini 2.5 Flash	69	56	48	14	2	38.0%
Z.AI GLM 4.5	100	33	26	20	11	38.0%
Grok 4.20 (Beta, Reasoning)	87	47	36	14	5	38.0%
Ministral 3 8B	79	59	51	0	0	37.8%
Mistral Medium 3.1	71	57	50	11	0	37.7%
Mistral Large	75	49	46	16	0	37.2%
DeepSeek V3 (2025-03-24)	100	35	24	20	8	37.2%
Gemini 3 Pro (Preview)	59	49	41	31	0	36.0%
GPT-4o Mini (temp=1)	100	74	0	0	0	34.8%
Claude Opus 4.7 (Reasoning)	71	41	30	28	0	34.0%
Qwen 3.6 Flash	77	37	22	20	14	34.0%
GPT-4o, May 13th (temp=1)	78	44	26	21	0	33.9%
Grok 4.20 (Beta)	74	46	33	13	2	33.8%
GPT-4.1 Mini	73	66	16	13	0	33.5%
DeepSeek V3.1	79	78	10	0	0	33.5%
Claude Sonnet 4.6	94	58	14	0	0	33.1%
Grok 4.3	93	53	20	0	0	33.0%
GPT-5 Mini	53	43	40	29	0	32.9%
MoonshotAI: Kimi K2.6	45	43	39	30	0	31.3%
Qwen 3.5 Flash	60	49	26	22	0	31.3%
Claude Opus 4	47	43	32	17	15	30.6%
Mistral Large 3	83	44	24	0	0	30.3%
ByteDance Seed 1.6 Flash	50	45	39	14	0	29.8%
DeepSeek V4 Pro (Reasoning)	60	55	29	3	1	29.7%
Gemma 3 4B	68	46	24	8	0	29.1%
Gemini 3.1 Flash Lite (Preview)	66	37	22	20	0	29.1%
Qwen 3.6 27B	48	45	32	20	0	28.9%
Claude Opus 4.7	80	44	9	5	0	27.4%
Claude Haiku 4.5	67	58	11	0	0	27.2%
Z.AI GLM 5 Turbo	70	65	0	0	0	27.0%
Ministral 3 3B	61	32	30	8	0	26.2%
Qwen 3 32B	54	33	30	10	0	25.3%
Cohere Command R+ (Aug. 2024)	100	27	0	0	0	25.3%
DeepSeek V3 (2024-12-26)	68	33	24	0	0	25.0%
Llama 3.1 Nemotron 70B	75	45	5	0	0	25.0%
Arcee AI: Trinity Large (Preview)	55	54	7	5	0	24.2%
Z.AI GLM 4.7	48	42	30	0	0	24.0%
Qwen 3.6 35B	69	39	9	0	0	23.5%
Gemini 3.1 Flash Lite	50	45	22	0	0	23.4%
Gemini 3 Flash (Preview)	41	32	24	9	7	22.5%
Llama 3.1 70B	48	41	24	0	0	22.4%
Claude Sonnet 4.5	73	29	7	0	0	21.8%
Grok 4.3 (Reasoning)	37	25	24	17	0	20.8%
Grok 4.1 Fast	61	42	0	0	0	20.7%
Claude Opus 4.6 (Reasoning)	36	30	20	16	0	20.4%
Claude Opus 4.5	100	0	0	0	0	20.0%
Xiaomi MIMO v2.5 Pro	37	26	16	15	0	18.9%
Z.AI GLM 4.5 Air	44	38	9	0	0	18.2%
Gemini 3.5 Flash (Reasoning)	44	39	7	0	0	18.1%
Arcee AI: Trinity Mini	50	33	8	0	0	18.1%
GPT-4o, Aug. 6th (temp=0)	73	16	0	0	0	17.8%
GPT-4.1 Nano	56	29	0	0	0	16.9%
Z.AI GLM 4.7 Flash	63	19	0	0	0	16.5%
Gemma 4 31B	43	24	11	0	0	15.7%
Ministral 3B	48	30	0	0	0	15.5%
Gemma 4 26B	54	17	5	0	0	15.2%
Gemini 2.5 Flash Lite (Reasoning)	37	27	0	0	0	12.9%
LFM2 24B	31	21	11	0	0	12.7%
Gemini 3.5 Flash (Reasoning, Minimal)	18	17	11	10	0	11.2%
Claude Opus 4.6	43	10	0	0	0	10.5%
Claude Sonnet 4.6 (Reasoning)	52	0	0	0	0	10.4%
Z.AI GLM 5	38	12	0	0	0	10.0%
Claude 3.5 Sonnet	48	0	0	0	0	9.5%
Xiaomi MIMO v2.5	33	9	0	0	0	8.4%
GPT-4o Mini (temp=0)	29	12	0	0	0	8.2%
Gemma 4 26B (Reasoning)	41	0	0	0	0	8.2%
Qwen 3.5 Plus (2026-02-15)	39	0	0	0	0	7.8%
DeepSeek V4 Pro	35	0	0	0	0	7.0%
Grok 4 Fast	34	0	0	0	0	6.9%
MoonshotAI: Kimi K2.5	26	0	0	0	0	5.2%
ByteDance Seed 1.6	24	0	0	0	0	4.8%
DeepSeek V4 Flash	21	0	0	0	0	4.2%
Stealth: Healer Alpha	15	4	0	0	0	3.8%
WizardLM 2 8x22b	19	0	0	0	0	3.7%
ByteDance Seed 2.0 Mini	14	0	0	0	0	2.8%
Claude Sonnet 4	8	3	0	0	0	2.2%
Inception Mercury 2	7	1	0	0	0	1.7%
Gemini 3 Flash (Preview, Reasoning)	4	0	0	0	0	0.9%
Z.AI GLM 5.1	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0.0%
MiniMax M2.7	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
Grok 4	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Inception Mercury	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen 2.5 72B	100	100	100	100	93	98.5%
GPT-5.5 (Reasoning, Low)	100	100	100	100	87	97.4%
GPT-5.5	100	100	100	96	91	97.3%
DeepSeek V3 (2025-03-24)	100	100	100	98	74	94.4%
Qwen 3.5 397B A17B	100	100	100	90	80	94.0%
GPT-5.5 (Reasoning)	100	100	100	99	68	93.4%
GPT-5.4	100	100	100	100	65	92.9%
Gemma 3 12B	100	100	100	100	62	92.3%
Qwen3.7 Max	100	100	100	89	71	92.1%
Claude 3 Haiku	100	100	93	90	75	91.5%
o4 Mini High	100	100	91	86	72	90.0%
GPT-5.4 (Reasoning, Low)	100	100	92	85	66	88.6%
GPT-5.4 Nano (Reasoning)	100	88	88	86	77	87.9%
Gemini 3.1 Pro (Preview)	100	100	100	82	56	87.5%
Claude 3.7 Sonnet	100	98	98	78	63	87.4%
GPT-5.1	100	99	86	83	67	86.9%
DeepSeek V3 (2024-12-26)	100	96	82	79	76	86.5%
GPT-5.4 (Reasoning)	97	97	91	76	70	86.2%
GPT-5	100	100	75	74	74	84.5%
GPT-5.4 Mini (Reasoning)	97	94	89	64	59	80.7%
Mistral Medium 3.1	100	89	83	72	55	80.0%
Qwen 3.5 Flash	100	100	78	77	41	79.1%
Qwen 3.6 Flash	100	100	79	72	43	78.9%
DeepSeek V3.2	100	86	79	76	46	77.5%
Qwen 3 32B	100	100	100	68	18	77.3%
DeepSeek-V2 Chat	100	100	83	66	36	76.9%
Qwen3 235B A22B Instruct 2507	100	100	96	50	36	76.3%
Gemma 3 27B	100	85	68	65	63	76.2%
Mistral Small 4	100	91	79	70	35	74.9%
GPT-5.4 Mini (Reasoning, Low)	100	97	63	62	50	74.6%
Mistral Large 2	100	93	86	76	17	74.5%
Aion 2.0	92	90	87	61	41	74.2%
GPT-4o, May 13th (temp=1)	100	91	79	61	39	74.0%
Xiaomi MIMO v2.5 Pro	100	76	63	62	60	72.2%
Qwen 3.5 9B	100	100	96	52	12	72.0%
GPT-5.4 Mini	100	99	89	54	15	71.5%
Mistral Small 3.2 24B	100	100	96	61	0	71.4%
GPT-4o, May 13th (temp=0)	92	85	78	55	48	71.4%
o4 Mini	100	100	55	51	50	71.1%
GPT-4.1	100	67	66	62	58	70.7%
GPT-5.4 Nano (Reasoning, Low)	74	74	72	71	58	69.8%
Writer: Palmyra X5	100	82	80	73	9	68.7%
Qwen 3.5 35B	100	70	66	65	41	68.4%
Claude 3.5 Sonnet	89	88	83	57	14	66.4%
Gemini 3 Pro (Preview)	89	74	67	55	47	66.4%
Gemini 3.5 Flash (Reasoning)	90	85	71	51	33	66.2%
Qwen 3.5 27B	100	79	74	44	34	66.1%
Hermes 3 405B	100	100	100	29	0	65.8%
Grok 4.3 (Reasoning)	100	88	61	42	33	64.8%
Mistral NeMO	100	81	71	66	0	63.6%
Rocinante 12B	100	100	75	41	0	63.3%
GPT-5.4 Nano	98	79	66	48	20	62.1%
Claude Sonnet 4.5	100	73	68	48	21	62.0%
Claude Opus 4.5	93	81	71	65	0	62.0%
DeepSeek V4 Pro (Reasoning)	100	90	60	56	0	61.1%
Mistral Small 4 (Reasoning)	80	71	66	57	31	61.1%
Stealth: Hunter Alpha	77	73	58	52	43	60.8%
Gemini 3.5 Flash (Reasoning, Minimal)	75	74	59	54	41	60.6%
Z.AI GLM 5	100	90	80	32	0	60.5%
Gemini 2.5 Flash	87	74	71	57	12	60.3%
Gemini 2.5 Flash Lite	100	59	58	41	41	59.7%
LFM2 24B	100	100	65	31	0	59.2%
Mistral Large 3	95	71	65	51	11	58.8%
Llama 3.1 8B	100	100	41	39	13	58.5%
Llama 3.1 70B	100	83	49	29	29	58.1%
Grok 4.1 Fast	100	90	63	33	3	57.9%
Qwen3.6 Max Preview	100	90	62	24	12	57.4%
Grok 4.20	80	69	57	49	32	57.3%
Grok 4.20 (Beta)	79	60	57	55	34	57.0%
Gemini 3 Flash (Preview, Reasoning)	85	62	54	41	41	56.5%
GPT-5.2	83	72	58	43	25	56.4%
Z.AI GLM 4.7 Flash	65	59	56	54	48	56.2%
Grok 4.20 (Reasoning)	85	66	63	54	12	55.8%
Gemini 2.5 Flash (Reasoning)	92	79	79	27	0	55.6%
Gemini 2.5 Pro	75	61	59	56	19	54.0%
DeepSeek V3.1	100	81	81	6	0	53.8%
Grok 4.20 (Beta, Reasoning)	94	54	44	41	30	52.7%
MoonshotAI: Kimi K2.6	89	63	44	43	22	52.2%
Hermes 3 70B	100	86	41	32	0	51.9%
Ministral 3B	100	100	32	27	0	51.7%
GPT-4.1 Mini	73	63	55	48	19	51.6%
Llama 3.1 Nemotron 70B	100	85	63	9	0	51.5%
Z.AI GLM 5 Turbo	70	66	45	44	32	51.4%
Mistral Small Creative	100	66	55	34	0	51.1%
Qwen 3.6 35B	94	76	32	30	20	50.5%
Qwen 3.5 122B	69	62	60	58	0	49.7%
GPT-4o, Aug. 6th (temp=1)	85	60	56	45	0	49.2%
Cohere Command R+ (Aug. 2024)	88	70	62	19	5	49.1%
Mistral Large	70	69	38	36	31	48.7%
GPT-5 Mini	80	66	54	22	19	48.4%
Gemini 3 Flash (Preview)	65	63	45	39	29	48.4%
Qwen 3.5 Plus (2026-04-20)	100	75	33	28	0	47.2%
Z.AI GLM 4.5	83	75	56	13	5	46.6%
Claude Opus 4	97	68	29	24	15	46.4%
DeepSeek V4 Flash	95	65	52	19	0	46.2%
GPT-4.1 Nano	100	62	47	21	0	46.0%
Z.AI GLM 5.1	100	52	41	36	0	45.7%
Qwen 3.5 Plus (2026-02-15)	85	62	32	24	22	45.1%
Stealth: Healer Alpha	86	69	42	22	4	44.5%
Gemma 3 4B	83	62	52	22	0	43.7%
Z.AI GLM 4.5 Air	99	53	45	20	0	43.2%
Ministral 3 8B	80	45	38	24	24	42.3%
Ministral 3 14B	70	56	41	36	0	40.6%
Claude Sonnet 4.6	76	43	41	37	0	39.5%
Grok 4.3	81	69	42	0	0	38.5%
Ministral 8B	98	60	33	0	0	38.2%
Xiaomi MIMO v2.5	67	66	57	0	0	38.1%
Claude Opus 4.6 (Reasoning)	85	57	41	5	0	37.5%
Gemini 3.1 Flash Lite (Preview)	71	70	34	10	0	37.0%
Claude Sonnet 4.6 (Reasoning)	68	59	31	24	0	36.4%
WizardLM 2 8x22b	75	51	50	0	0	35.4%
Gemini 2.5 Flash Lite (Reasoning)	69	38	36	16	16	34.9%
DeepSeek V4 Flash (Reasoning)	82	48	31	14	0	34.9%
Claude Sonnet 4	66	50	28	17	8	33.9%
Grok 4 Fast	71	38	27	27	0	32.4%
Claude Haiku 4.5	81	50	18	8	0	31.4%
DeepSeek V4 Pro	62	52	43	0	0	31.3%
Inception Mercury	65	47	22	22	0	31.1%
Claude Opus 4.7 (Reasoning)	70	60	15	9	0	30.6%
Arcee AI: Trinity Large (Preview)	71	44	24	5	0	28.9%
Qwen 3.6 27B	100	44	0	0	0	28.7%
MiniMax M2.5	71	65	7	0	0	28.6%
Gemma 4 31B	70	29	22	12	10	28.6%
Z.AI GLM 4.6	61	24	22	19	4	26.0%
ByteDance Seed 1.6 Flash	47	42	39	0	0	25.6%
Gemma 4 26B	44	29	24	22	9	25.5%
ByteDance Seed 2.0 Lite	79	24	18	0	0	24.1%
Claude Opus 4.7	46	36	20	17	0	23.9%
Ministral 3 3B	59	41	15	4	0	23.8%
Z.AI GLM 4.7	52	39	14	2	0	21.4%
MiniMax M2.7	49	42	4	0	0	19.2%
Gemma 4 31B (Reasoning)	44	24	13	4	3	17.5%
Gemini 3.1 Flash Lite (Reasoning)	28	24	16	10	0	15.5%
Arcee AI: Trinity Mini	36	16	13	8	0	14.5%
Grok 4	41	25	0	0	0	13.3%
Claude Opus 4.6	60	5	0	0	0	13.0%
MoonshotAI: Kimi K2.5	29	27	6	0	0	12.5%
ByteDance Seed 1.6	35	24	0	0	0	11.7%
Gemma 4 26B (Reasoning)	35	22	0	0	0	11.3%
ByteDance Seed 2.0 Mini	41	15	0	0	0	11.1%
GPT-4o Mini (temp=1)	52	0	0	0	0	10.4%
Gemini 3.1 Flash Lite	41	2	0	0	0	8.6%
GPT-4o, Aug. 6th (temp=0)	36	0	0	0	0	7.1%
Nemotron 3 Super	9	0	0	0	0	1.7%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen 2.5 72B	100	100	100	100	100	100.0%
Mistral Large	100	100	100	99	96	99.1%
o4 Mini High	100	100	100	100	93	98.5%
Grok 4	100	100	100	100	92	98.4%
Ministral 3 14B	100	100	100	99	85	96.7%
GPT-4.1	100	100	100	100	78	95.6%
Gemma 3 27B	100	100	100	97	80	95.4%
Gemma 3 12B	100	100	100	95	76	94.3%
GPT-5.5	100	100	96	88	73	91.3%
Mistral Small 3.2 24B	100	100	100	100	41	88.2%
Qwen3 235B A22B Instruct 2507	100	100	100	80	60	88.1%
GPT-5.5 (Reasoning)	100	100	92	87	58	87.4%
o4 Mini	100	97	93	83	60	86.6%
Qwen 3.5 9B	100	94	91	88	60	86.5%
GPT-5.5 (Reasoning, Low)	100	95	87	79	71	86.2%
DeepSeek V3 (2024-12-26)	100	100	82	78	71	86.2%
Mistral Large 3	100	100	100	76	54	86.0%
GPT-4o, May 13th (temp=0)	100	100	100	66	63	86.0%
GPT-5.4	96	90	88	83	72	85.9%
Mistral Small Creative	100	100	98	91	38	85.4%
GPT-4o, May 13th (temp=1)	100	100	100	89	35	84.8%
Arcee AI: Trinity Large (Preview)	100	100	95	66	62	84.6%
Gemini 2.5 Flash	94	92	90	82	65	84.5%
Ministral 3 3B	100	100	94	91	37	84.2%
Claude 3.5 Sonnet	100	100	86	71	63	84.1%
DeepSeek V4 Flash (Reasoning)	100	100	95	69	56	84.0%
GPT-5.4 (Reasoning)	100	100	97	78	44	83.8%
Gemini 2.5 Pro	100	100	100	82	35	83.3%
Hermes 3 405B	100	100	100	86	29	82.9%
GPT-5	100	97	86	68	59	82.1%
Qwen3.6 Max Preview	98	84	82	73	72	82.0%
GPT-5.4 (Reasoning, Low)	100	96	93	73	47	81.8%
GPT-5.1	100	100	87	71	50	81.5%
Hermes 3 70B	100	100	90	82	36	81.5%
DeepSeek-V2 Chat	100	100	100	100	6	81.2%
Mistral Small 4	100	100	76	65	60	80.3%
Mistral Large 2	100	100	73	73	54	80.0%
Ministral 8B	100	100	91	71	35	79.3%
Gemini 2.5 Flash (Reasoning)	100	92	71	70	62	79.1%
Claude Opus 4	100	93	92	59	45	77.8%
Mistral NeMO	100	97	78	60	54	77.7%
Qwen 3.5 Flash	100	100	82	68	36	77.4%
Gemini 3.1 Pro (Preview)	100	100	76	67	44	77.4%
Qwen 3.5 122B	100	79	76	70	59	76.8%
Aion 2.0	100	100	90	70	19	75.8%
Qwen 3.5 397B A17B	100	95	93	57	34	75.8%
Qwen3.7 Max	100	80	71	65	62	75.6%
Z.AI GLM 4.5 Air	100	97	94	57	29	75.3%
Mistral Medium 3.1	100	89	81	57	46	74.7%
Inception Mercury	100	100	100	73	0	74.5%
GPT-4o, Aug. 6th (temp=0)	100	97	94	63	12	73.2%
Arcee AI: Trinity Mini	98	74	71	67	54	72.8%
Gemini 2.5 Flash Lite	100	85	63	58	54	71.9%
Ministral 3B	100	100	60	58	41	71.8%
Qwen 3.5 27B	100	99	70	63	26	71.6%
Ministral 3 8B	100	100	91	39	27	71.3%
Claude Sonnet 4.5	100	95	93	65	0	70.7%
Claude Haiku 4.5	100	100	89	63	0	70.6%
Writer: Palmyra X5	100	100	97	54	0	70.1%
ByteDance Seed 1.6	100	100	56	49	45	70.0%
Claude 3 Haiku	100	81	78	71	19	69.7%
Qwen 3 32B	97	88	63	54	45	69.4%
GPT-5.4 Nano (Reasoning)	74	71	68	66	66	69.2%
Grok 4.20 (Beta)	93	93	81	59	15	68.1%
GPT-5.4 Mini (Reasoning, Low)	100	83	73	54	29	67.9%
Stealth: Healer Alpha	93	84	65	49	48	67.7%
DeepSeek V3 (2025-03-24)	100	100	100	37	0	67.4%
GPT-5.4 Nano (Reasoning, Low)	86	84	62	54	51	67.4%
GPT-5.4 Mini	86	80	61	56	54	67.3%
Qwen 3.5 Plus (2026-04-20)	100	89	75	49	24	67.3%
Z.AI GLM 4.6	100	100	54	49	34	67.3%
DeepSeek V3.2	75	73	73	58	57	67.2%
Gemma 3 4B	100	90	74	63	8	67.0%
Rocinante 12B	100	100	54	51	29	66.8%
Qwen 3.6 35B	100	86	83	48	13	66.2%
Gemini 3 Flash (Preview, Reasoning)	100	82	78	51	17	65.6%
WizardLM 2 8x22b	87	83	80	48	24	64.3%
Z.AI GLM 4.7	99	81	70	57	12	63.7%
Gemma 4 26B	100	88	59	39	32	63.4%
GPT-4o Mini (temp=0)	100	78	71	68	0	63.4%
ByteDance Seed 1.6 Flash	100	96	51	48	21	63.2%
Xiaomi MIMO v2.5 Pro	100	100	54	52	9	63.0%
Mistral Small 4 (Reasoning)	100	83	74	29	28	62.8%
DeepSeek V4 Pro	100	100	60	41	13	62.7%
DeepSeek V3.1	100	100	66	26	17	61.9%
Grok 4.1 Fast	100	87	83	39	0	61.8%
Llama 3.1 8B	100	100	98	9	0	61.4%
Grok 4.3	92	74	57	54	30	61.4%
GPT-5.2	96	64	54	48	44	61.0%
Grok 4 Fast	82	66	62	50	44	60.9%
Qwen 3.6 Flash	100	76	65	60	0	60.3%
Qwen 3.5 35B	100	63	61	56	21	60.2%
GPT-4.1 Mini	100	56	56	41	29	56.4%
Gemini 3 Flash (Preview)	93	88	69	16	13	55.8%
Gemini 3 Pro (Preview)	100	66	39	39	33	55.4%
GPT-5.4 Mini (Reasoning)	77	75	68	44	10	54.9%
GPT-5.4 Nano	100	65	56	52	0	54.7%
GPT-4o, Aug. 6th (temp=1)	86	74	73	32	0	53.0%
Cohere Command R+ (Aug. 2024)	100	56	41	38	30	53.0%
Z.AI GLM 4.7 Flash	100	62	41	37	13	50.6%
Grok 4.20 (Beta, Reasoning)	100	60	50	39	0	50.0%
Z.AI GLM 4.5	100	100	49	0	0	49.8%
Gemini 3.1 Flash Lite	82	65	54	45	0	49.1%
DeepSeek V4 Flash	100	75	24	24	20	48.4%
Claude 3.7 Sonnet	95	46	46	30	24	48.4%
Gemini 3.1 Flash Lite (Reasoning)	85	54	50	37	15	48.3%
GPT-4o Mini (temp=1)	80	50	49	31	29	47.6%
ByteDance Seed 2.0 Mini	100	54	44	38	0	47.2%
Gemini 3.5 Flash (Reasoning)	100	57	41	35	0	46.5%
Qwen 3.6 27B	81	67	45	16	11	43.9%
Llama 3.1 Nemotron 70B	96	48	38	38	0	43.9%
Stealth: Hunter Alpha	65	46	44	31	30	43.4%
GPT-4.1 Nano	69	59	56	33	0	43.4%
Llama 3.1 70B	100	100	13	4	0	43.4%
Gemini 2.5 Flash Lite (Reasoning)	83	60	39	27	8	43.3%
Grok 4.20 (Reasoning)	63	43	42	33	30	42.3%
LFM2 24B	100	100	11	0	0	42.3%
DeepSeek V4 Pro (Reasoning)	100	41	38	18	6	40.6%
GPT-5 Mini	54	51	50	36	12	40.4%
Gemini 3.5 Flash (Reasoning, Minimal)	91	79	26	0	0	39.2%
Qwen 3.5 Plus (2026-02-15)	78	55	48	10	0	38.2%
MiniMax M2.5	95	51	29	15	0	38.1%
Gemini 3.1 Flash Lite (Preview)	77	71	32	10	0	38.0%
Z.AI GLM 5 Turbo	78	48	31	17	0	34.7%
Claude Sonnet 4.6	88	62	20	0	0	34.0%
MiniMax M2.7	100	68	0	0	0	33.5%
Grok 4.3 (Reasoning)	100	49	16	0	0	32.8%
Claude Opus 4.7 (Reasoning)	97	63	0	0	0	32.1%
Grok 4.20	65	63	31	0	0	32.0%
Gemma 4 26B (Reasoning)	54	49	33	19	0	30.9%
MoonshotAI: Kimi K2.5	48	48	41	3	0	27.7%
ByteDance Seed 2.0 Lite	92	46	0	0	0	27.6%
Claude Opus 4.7	86	29	19	0	0	26.6%
Claude Opus 4.6	65	28	22	17	0	26.3%
GPT-OSS 120B	89	39	0	0	0	25.6%
Claude Sonnet 4.6 (Reasoning)	100	24	3	0	0	25.4%
Stealth: Aurora Alpha	87	21	15	2	0	25.0%
Claude Sonnet 4	33	33	32	27	0	24.9%
Z.AI GLM 5	100	0	0	0	0	20.0%
Claude Opus 4.5	36	26	16	11	0	17.6%
Gemma 4 31B (Reasoning)	36	36	9	3	0	16.8%
Z.AI GLM 5.1	41	35	7	0	0	16.5%
Xiaomi MIMO v2.5	34	18	14	13	0	15.8%
Gemma 4 31B	35	29	7	0	0	14.2%
Claude Opus 4.6 (Reasoning)	31	13	11	8	0	12.5%
MoonshotAI: Kimi K2.6	18	13	5	0	0	7.2%
Inception Mercury 2	28	4	0	0	0	6.4%
Nemotron 3 Super	19	0	0	0	0	3.8%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	98	99.6%
Mistral NeMO	100	100	100	98	93	98.2%
DeepSeek V3 (2024-12-26)	100	100	100	100	90	98.0%
Arcee AI: Trinity Mini	100	100	100	100	83	96.7%
Llama 3.1 70B	100	100	100	97	81	95.5%
GPT-5.4 (Reasoning)	100	100	100	90	85	95.1%
Hermes 3 405B	100	100	100	88	78	93.2%
GPT-5.5 (Reasoning)	100	100	96	92	77	93.1%
GPT-5.4 (Reasoning, Low)	100	100	99	84	80	92.6%
Claude 3.7 Sonnet	100	98	97	86	82	92.6%
Gemini 3.1 Pro (Preview)	100	100	100	95	62	91.4%
GPT-5.5	100	100	100	95	60	91.1%
Gemma 3 12B	100	100	100	95	57	90.5%
Qwen 3.5 397B A17B	100	100	100	93	58	90.2%
Gemini 2.5 Flash	100	100	95	83	70	89.6%
Gemma 3 27B	100	100	100	100	48	89.5%
Arcee AI: Trinity Large (Preview)	100	100	91	82	70	88.4%
Mistral Small 4	100	89	88	81	80	87.6%
Gemini 2.5 Pro	100	100	92	89	55	87.2%
Writer: Palmyra X5	100	97	86	82	69	86.6%
Hermes 3 70B	100	100	92	69	67	85.5%
GPT-5.4 Mini (Reasoning)	100	93	90	88	49	84.1%
Claude 3 Haiku	100	100	100	66	54	83.8%
o4 Mini	100	91	78	76	71	83.2%
GPT-5.4 Nano (Reasoning, Low)	100	88	84	82	60	82.9%
Mistral Large 2	100	97	95	68	51	82.1%
GPT-5.4	100	100	90	67	53	81.8%
Qwen3.7 Max	100	100	88	76	44	81.7%
GPT-5	100	100	70	68	68	81.2%
Qwen 3.6 Flash	100	88	76	73	68	80.8%
Qwen 3.5 9B	100	100	81	70	51	80.2%
Ministral 3 8B	100	100	100	59	41	79.8%
WizardLM 2 8x22b	100	88	78	71	60	79.4%
Z.AI GLM 4.7	100	99	79	65	51	79.0%
GPT-5.4 Mini	100	100	80	59	55	78.8%
Claude Opus 4	100	100	98	88	7	78.6%
Qwen 3.6 35B	100	100	96	89	7	78.4%
Ministral 3 3B	100	90	76	71	54	78.2%
Gemini 3 Pro (Preview)	100	76	76	68	63	76.8%
Gemini 2.5 Flash Lite	89	83	78	75	57	76.4%
GPT-4.1 Mini	100	100	80	60	41	76.2%
Qwen3 235B A22B Instruct 2507	100	100	69	63	48	76.0%
Llama 3.1 Nemotron 70B	100	100	92	68	19	75.6%
Mistral Small 4 (Reasoning)	100	100	82	54	41	75.3%
Qwen 3 32B	100	97	71	58	48	74.8%
GPT-5.4 Nano	100	83	73	60	56	74.6%
Grok 4.20 (Beta, Reasoning)	100	100	89	83	0	74.4%
Grok 4.1 Fast	100	92	85	58	37	74.3%
Qwen3.6 Max Preview	97	95	78	66	36	74.2%
Claude Opus 4.7 (Reasoning)	100	81	71	56	54	72.4%
GPT-4o, May 13th (temp=1)	100	98	63	62	38	72.3%
Stealth: Healer Alpha	100	100	85	44	32	72.1%
GPT-4o, Aug. 6th (temp=0)	92	91	63	58	54	71.5%
GPT-4o Mini (temp=0)	92	92	71	68	33	71.1%
Aion 2.0	91	87	68	60	49	70.8%
Z.AI GLM 4.7 Flash	100	88	79	68	17	70.5%
Stealth: Hunter Alpha	100	100	70	45	32	69.4%
Llama 3.1 8B	100	90	81	75	0	69.2%
Grok 4.20	100	90	58	54	42	68.9%
GPT-5.4 Nano (Reasoning)	94	78	68	67	37	68.8%
Gemini 3.1 Flash Lite	97	86	69	54	39	68.8%
Claude Opus 4.7	100	85	63	56	37	68.2%
Gemini 2.5 Flash (Reasoning)	100	100	87	54	0	68.1%
Gemini 3.1 Flash Lite (Reasoning)	93	85	78	71	9	67.2%
ByteDance Seed 1.6 Flash	90	86	62	57	39	67.0%
Qwen 3.5 27B	100	100	71	49	15	67.0%
GPT-5.1	86	85	71	58	33	66.8%
GPT-4.1	100	94	59	57	24	66.7%
Gemini 3.1 Flash Lite (Preview)	97	94	78	32	31	66.3%
Gemma 3 4B	100	100	59	51	20	66.0%
Qwen 3.5 35B	100	87	60	43	39	65.7%
Qwen 3.6 27B	100	100	83	45	0	65.6%
LFM2 24B	100	100	95	29	3	65.3%
Mistral Large 3	92	90	89	36	19	65.1%
Qwen 3.5 Plus (2026-04-20)	100	100	57	44	24	64.9%
GPT-5.2	85	71	68	63	37	64.6%
Qwen 3.5 Flash	100	90	71	51	9	64.4%
Ministral 3 14B	100	85	65	49	21	64.0%
Gemini 3.5 Flash (Reasoning)	93	81	60	59	24	63.2%
Ministral 3B	100	86	60	37	31	62.9%
MoonshotAI: Kimi K2.6	95	75	63	46	31	62.3%
DeepSeek-V2 Chat	100	90	67	29	24	61.8%
GPT-4.1 Nano	100	90	56	35	27	61.5%
Claude 3.5 Sonnet	100	86	71	50	0	61.4%
Cohere Command R+ (Aug. 2024)	100	100	82	24	0	61.2%
DeepSeek V4 Flash	100	83	66	29	24	60.5%
Mistral Small Creative	100	94	55	28	24	60.2%
GPT-5.4 Mini (Reasoning, Low)	100	82	45	42	31	60.0%
GPT-5 Mini	96	90	61	34	18	59.9%
Xiaomi MIMO v2.5 Pro	100	100	70	29	0	59.6%
DeepSeek V4 Flash (Reasoning)	100	83	59	41	5	57.5%
DeepSeek V3.1	98	73	58	38	18	57.1%
Mistral Small 3.2 24B	100	100	62	18	0	56.0%
Claude Haiku 4.5	85	71	70	51	0	55.3%
Z.AI GLM 4.5	95	59	56	54	9	54.6%
Claude Sonnet 4.5	98	94	73	4	0	53.8%
Grok 4.3 (Reasoning)	69	65	57	54	19	52.8%
Gemini 3 Flash (Preview, Reasoning)	93	89	80	0	0	52.5%
Z.AI GLM 4.5 Air	100	76	44	41	0	52.2%
Qwen 3.5 122B	100	70	70	18	0	51.5%
Grok 4.3	100	81	57	15	0	50.5%
Mistral Medium 3.1	73	68	52	48	0	48.2%
DeepSeek V3.2	78	43	41	41	38	48.2%
Claude Opus 4.6 (Reasoning)	78	54	51	34	24	48.1%
Gemini 2.5 Flash Lite (Reasoning)	92	71	45	27	0	46.9%
Z.AI GLM 4.6	78	59	48	36	10	46.0%
Gemini 3.5 Flash (Reasoning, Minimal)	89	81	27	26	0	44.6%
Grok 4	63	63	45	39	8	43.7%
GPT-4o, Aug. 6th (temp=1)	63	61	61	24	0	42.0%
Gemma 4 31B (Reasoning)	63	54	54	38	0	41.7%
Mistral Large	97	56	49	0	0	40.4%
Ministral 8B	48	48	48	31	24	39.6%
MoonshotAI: Kimi K2.5	98	46	43	0	0	37.5%
Z.AI GLM 5	75	45	45	21	0	37.3%
Grok 4.20 (Beta)	66	58	50	10	0	36.8%
Z.AI GLM 5.1	65	57	34	17	10	36.7%
Grok 4.20 (Reasoning)	77	48	46	7	2	36.0%
Claude Sonnet 4.6	70	56	43	0	0	33.8%
Gemini 3 Flash (Preview)	71	52	39	7	0	33.8%
MiniMax M2.5	66	41	29	28	0	32.7%
Z.AI GLM 5 Turbo	98	33	27	3	0	32.2%
DeepSeek V4 Pro (Reasoning)	100	37	19	3	0	32.0%
MiniMax M2.7	100	59	0	0	0	31.8%
Claude Sonnet 4	52	38	36	24	5	30.9%
Inception Mercury 2	72	42	21	9	0	29.0%
ByteDance Seed 2.0 Mini	51	31	27	22	15	29.0%
Xiaomi MIMO v2.5	61	55	26	0	0	28.6%
DeepSeek V4 Pro	60	48	34	0	0	28.3%
Grok 4 Fast	58	54	29	0	0	28.2%
Gemma 4 31B	51	39	32	0	0	24.3%
GPT-4o Mini (temp=1)	90	24	5	0	0	23.7%
Inception Mercury	64	24	23	7	0	23.6%
ByteDance Seed 1.6	75	24	0	0	0	19.7%
Gemma 4 26B	45	29	19	0	0	18.7%
Stealth: Aurora Alpha	66	14	10	3	0	18.6%
Claude Sonnet 4.6 (Reasoning)	50	43	0	0	0	18.6%
Claude Opus 4.5	47	33	3	0	0	16.6%
Claude Opus 4.6	52	14	3	0	0	13.8%
GPT-OSS 120B	32	29	3	0	0	12.8%
Gemma 4 26B (Reasoning)	24	21	0	0	0	9.0%
Qwen 3.5 Plus (2026-02-15)	9	4	3	0	0	3.2%
Nemotron 3 Super	4	2	0	0	0	1.3%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	82	96.5%
Mistral Large	100	100	100	100	80	96.0%
Qwen 2.5 72B	100	100	100	100	76	95.3%
GPT-4o, May 13th (temp=0)	100	100	100	100	76	95.2%
Claude 3 Haiku	100	100	100	100	70	93.9%
GPT-5.5	100	100	99	93	77	93.8%
Arcee AI: Trinity Mini	100	100	100	100	60	92.1%
Grok 4.3	100	100	100	97	60	91.4%
o4 Mini High	100	100	100	90	67	91.4%
GPT-5.4	100	100	98	82	76	91.2%
Aion 2.0	100	100	93	91	71	91.1%
GPT-5	100	100	90	85	77	90.5%
Gemma 3 12B	100	95	91	86	80	90.4%
Qwen3.6 Max Preview	100	100	95	90	63	89.7%
Gemini 2.5 Flash	100	100	100	79	67	89.2%
GPT-5.5 (Reasoning, Low)	93	93	90	85	82	88.5%
Mistral Large 3	100	100	100	83	59	88.4%
Ministral 3 8B	100	100	100	94	45	87.8%
GPT-4o, May 13th (temp=1)	100	100	100	88	49	87.4%
o4 Mini	100	100	92	77	68	87.2%
Mistral Large 2	100	97	88	80	71	87.2%
GPT-4.1	91	89	88	86	81	86.9%
GPT-5.4 Nano	100	99	81	79	75	86.9%
GPT-5.4 (Reasoning, Low)	100	99	93	82	60	86.7%
Gemini 2.5 Pro	100	100	85	80	68	86.5%
Qwen3 235B A22B Instruct 2507	100	100	100	71	60	86.4%
ByteDance Seed 1.6 Flash	100	100	89	78	58	84.9%
Qwen 3.5 397B A17B	100	94	85	75	68	84.3%
Qwen 3.5 35B	100	100	100	74	37	82.2%
Mistral NeMO	100	92	88	68	62	81.9%
GPT-5.5 (Reasoning)	100	87	80	72	68	81.5%
Rocinante 12B	100	100	89	76	41	81.2%
Gemini 2.5 Flash (Reasoning)	100	100	100	89	16	81.0%
Qwen 3.5 9B	100	93	88	78	45	80.9%
Z.AI GLM 5	100	100	98	74	32	80.8%
Gemma 3 4B	100	90	82	68	60	79.9%
DeepSeek-V2 Chat	100	95	93	63	48	79.9%
Claude Opus 4	100	100	82	75	38	79.0%
Mistral Medium 3.1	93	83	77	73	65	78.1%
DeepSeek V3.1	100	100	88	65	36	77.9%
LFM2 24B	100	94	86	66	41	77.4%
Hermes 3 405B	100	100	100	61	24	77.0%
Stealth: Healer Alpha	98	86	79	60	58	76.1%
Qwen 3.6 35B	100	100	93	50	37	75.9%
Mistral Small 3.2 24B	100	100	100	78	0	75.6%
GPT-5.4 Mini (Reasoning)	100	85	85	67	41	75.3%
Qwen 3.5 27B	100	100	92	45	37	74.8%
Claude 3.5 Sonnet	100	100	100	50	19	73.7%
Stealth: Hunter Alpha	100	100	90	74	0	72.8%
Mistral Small 4	100	88	74	54	49	72.8%
Qwen3.7 Max	90	79	79	68	45	72.5%
Ministral 3 14B	100	75	74	69	44	72.4%
Mistral Small 4 (Reasoning)	100	100	90	63	7	72.2%
Claude 3.7 Sonnet	100	78	76	69	36	71.9%
Hermes 3 70B	100	90	78	45	44	71.4%
Grok 4.20 (Beta, Reasoning)	100	89	65	57	37	69.5%
GPT-4o, Aug. 6th (temp=1)	100	100	56	54	35	68.8%
Qwen 3.5 Flash	86	81	75	55	46	68.7%
Z.AI GLM 4.7 Flash	98	82	82	43	36	68.1%
Grok 4.20 (Beta)	99	88	65	54	34	67.9%
DeepSeek V4 Flash (Reasoning)	100	86	78	46	29	67.9%
Qwen 3 32B	100	100	63	45	28	67.4%
Qwen 3.6 Flash	83	73	70	57	50	66.8%
Z.AI GLM 4.7	100	89	69	42	34	66.8%
DeepSeek V3.2	100	81	69	58	26	66.7%
GPT-4o, Aug. 6th (temp=0)	83	76	63	56	54	66.5%
Gemini 3 Pro (Preview)	89	89	76	51	28	66.4%
Grok 4.1 Fast	100	85	63	45	37	66.1%
Mistral Small Creative	100	86	79	63	0	65.8%
GPT-5.4 Mini	100	93	69	43	24	65.6%
Z.AI GLM 5.1	94	74	71	56	30	65.1%
GPT-4.1 Mini	81	75	71	57	41	65.0%
Ministral 3 3B	100	86	71	59	5	64.3%
Cohere Command R+ (Aug. 2024)	100	94	69	56	0	63.9%
Z.AI GLM 4.6	100	100	86	18	13	63.2%
Gemma 3 27B	100	100	68	41	7	63.1%
Claude Sonnet 4.6	100	81	68	45	20	62.7%
Arcee AI: Trinity Large (Preview)	100	100	76	37	0	62.6%
Writer: Palmyra X5	95	95	66	51	0	61.5%
Llama 3.1 70B	100	100	66	41	0	61.4%
Ministral 8B	98	85	82	28	13	61.1%
DeepSeek V4 Flash	100	79	51	44	32	61.1%
Qwen 3.5 122B	95	93	86	29	0	60.8%
GPT-5.4 Mini (Reasoning, Low)	76	63	60	51	50	60.1%
Grok 4.20	100	63	54	42	41	59.9%
Gemini 2.5 Flash Lite (Reasoning)	79	77	69	43	26	58.7%
DeepSeek V3 (2024-12-26)	100	81	69	37	7	58.7%
Gemini 3 Flash (Preview, Reasoning)	100	82	54	46	5	57.5%
GPT-4o Mini (temp=0)	100	73	59	41	9	56.3%
Llama 3.1 8B	100	100	54	28	0	56.3%
Ministral 3B	100	90	60	29	0	55.8%
Grok 4.3 (Reasoning)	100	83	41	30	24	55.6%
GPT-5.2	90	87	39	34	27	55.3%
Z.AI GLM 5 Turbo	86	68	65	49	0	53.6%
Claude Opus 4.7 (Reasoning)	100	100	63	0	0	52.6%
Gemini 3.1 Pro (Preview)	75	59	54	52	18	51.6%
Grok 4	97	68	63	29	0	51.4%
GPT-5.4 Nano (Reasoning)	81	77	49	46	0	50.5%
Grok 4.20 (Reasoning)	94	88	47	12	11	50.3%
Claude Sonnet 4.5	80	69	57	28	13	49.3%
GPT-5.4 Nano (Reasoning, Low)	71	62	60	42	8	48.6%
Gemini 3.5 Flash (Reasoning, Minimal)	96	76	43	24	3	48.5%
DeepSeek V4 Pro (Reasoning)	96	86	58	2	0	48.4%
Qwen 3.5 Plus (2026-04-20)	76	70	67	22	0	47.0%
Claude Opus 4.5	68	56	46	44	20	46.8%
Claude Sonnet 4	95	86	41	9	0	46.3%
Gemini 3 Flash (Preview)	87	54	34	28	18	44.1%
DeepSeek V4 Pro	68	58	44	35	13	43.6%
MiniMax M2.7	94	92	14	9	7	43.1%
Gemini 3.5 Flash (Reasoning)	89	57	51	15	0	42.5%
Inception Mercury	100	60	25	18	0	40.6%
Llama 3.1 Nemotron 70B	78	60	28	19	17	40.3%
Claude Opus 4.7	100	45	33	19	0	39.4%
Gemini 3.1 Flash Lite	60	55	47	22	3	37.2%
Claude Opus 4.6	63	49	28	26	19	37.1%
MiniMax M2.5	68	46	44	24	0	36.4%
Qwen 3.6 27B	67	63	24	21	0	35.0%
Claude Haiku 4.5	63	54	27	24	0	33.6%
Gemma 4 31B	96	32	21	18	0	33.4%
Xiaomi MIMO v2.5 Pro	55	47	39	24	0	32.9%
GPT-4o Mini (temp=1)	78	44	24	4	0	29.9%
MoonshotAI: Kimi K2.6	76	42	30	0	0	29.7%
Gemma 4 31B (Reasoning)	54	48	29	17	0	29.3%
Claude Sonnet 4.6 (Reasoning)	88	54	5	0	0	29.2%
ByteDance Seed 1.6	73	56	17	0	0	29.1%
GPT-5 Mini	78	27	19	18	0	28.3%
Z.AI GLM 4.5 Air	94	27	20	0	0	28.1%
Grok 4 Fast	63	52	18	8	0	28.1%
Z.AI GLM 4.5	86	46	0	0	0	26.6%
Gemini 2.5 Flash Lite	62	52	13	0	0	25.3%
Gemma 4 26B	65	27	16	16	0	24.8%
Gemma 4 26B (Reasoning)	62	32	18	0	0	22.3%
Xiaomi MIMO v2.5	81	14	12	0	0	21.3%
GPT-OSS 120B	41	40	12	0	0	18.5%
GPT-4.1 Nano	43	24	20	0	0	17.5%
Claude Opus 4.6 (Reasoning)	39	24	12	11	0	16.9%
ByteDance Seed 2.0 Mini	31	21	17	0	0	13.8%
MoonshotAI: Kimi K2.5	37	24	3	0	0	12.9%
Gemini 3.1 Flash Lite (Preview)	39	17	7	0	0	12.6%
Qwen 3.5 Plus (2026-02-15)	27	24	0	0	0	10.2%
Stealth: Aurora Alpha	50	0	0	0	0	10.0%
ByteDance Seed 2.0 Lite	48	0	0	0	0	9.5%
Gemini 3.1 Flash Lite (Reasoning)	28	0	0	0	0	5.5%
WizardLM 2 8x22b	5	4	0	0	0	1.7%
Nemotron 3 Super	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Aion 2.0	100	100	100	100	99	99.8%
GPT-5.5	100	100	100	100	98	99.5%
GPT-4o Mini (temp=0)	100	100	100	99	91	98.0%
DeepSeek-V2 Chat	100	100	100	100	82	96.5%
GPT-4o, May 13th (temp=1)	100	100	100	94	87	96.3%
Claude 3 Haiku	100	100	100	98	81	95.8%
Qwen 2.5 72B	100	100	100	95	83	95.7%
o4 Mini	100	100	100	90	87	95.3%
Gemma 3 12B	100	100	98	92	82	94.4%
Gemini 2.5 Pro	100	100	100	93	78	94.1%
GPT-4.1 Mini	100	100	100	92	77	93.7%
GPT-4.1	100	100	100	100	67	93.4%
GPT-5.4 (Reasoning, Low)	100	100	100	90	75	93.1%
o4 Mini High	100	100	100	100	65	93.0%
GPT-5.5 (Reasoning)	100	100	92	87	84	92.7%
Hermes 3 405B	100	100	100	93	68	92.1%
Llama 3.1 Nemotron 70B	100	100	100	80	66	89.1%
Rocinante 12B	100	99	95	78	73	89.0%
Mistral Small 3.2 24B	100	100	100	88	51	87.7%
Qwen 3.5 35B	100	100	100	71	63	87.0%
GPT-5.5 (Reasoning, Low)	97	96	84	84	74	87.0%
Gemma 3 27B	100	100	90	83	60	86.6%
GPT-5.4 Mini (Reasoning, Low)	100	97	86	79	68	86.2%
Llama 3.1 70B	100	88	86	83	71	85.8%
GPT-5.4 Mini	100	94	91	86	54	85.2%
DeepSeek V3.2	100	100	100	80	42	84.5%
GPT-5.4 (Reasoning)	100	100	90	84	43	83.4%
Gemini 2.5 Flash (Reasoning)	100	94	87	82	48	82.3%
GPT-5.1	100	91	89	68	61	81.8%
Claude 3.7 Sonnet	87	86	85	78	69	81.1%
Mistral Small 4 (Reasoning)	100	100	100	93	11	80.6%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	71	67	60	79.6%
Mistral NeMO	100	100	100	65	29	79.0%
GPT-5.4 Mini (Reasoning)	100	100	98	96	0	78.8%
GPT-5.4	100	96	76	72	49	78.5%
Arcee AI: Trinity Mini	95	90	76	74	55	78.0%
Gemini 2.5 Flash	100	100	100	86	0	77.1%
GPT-4.1 Nano	100	100	88	50	47	76.9%
Writer: Palmyra X5	100	100	63	62	57	76.5%
Hermes 3 70B	100	100	98	81	0	75.8%
GPT-4o, May 13th (temp=0)	100	99	85	63	30	75.6%
Qwen3 235B A22B Instruct 2507	100	100	79	65	32	75.3%
Gemini 3.1 Pro (Preview)	100	84	82	79	29	74.9%
Mistral Large 2	100	100	87	85	3	74.9%
Mistral Large	100	96	94	82	0	74.4%
Ministral 3 14B	100	100	82	66	19	73.4%
Claude Opus 4.7	100	95	76	63	31	73.2%
GPT-4o, Aug. 6th (temp=1)	100	93	69	52	51	73.0%
Qwen 3.5 27B	100	93	83	65	24	73.0%
Mistral Medium 3.1	100	92	74	50	48	72.9%
GPT-5.2	100	85	73	63	43	72.9%
Qwen 3.5 Flash	100	90	82	65	26	72.8%
Claude 3.5 Sonnet	100	100	79	44	41	72.8%
Z.AI GLM 4.7	87	86	75	73	38	71.7%
Ministral 3 8B	100	100	83	57	17	71.5%
Stealth: Hunter Alpha	100	100	70	54	32	71.2%
GPT-5	86	73	67	67	62	71.0%
ByteDance Seed 1.6 Flash	100	100	78	72	0	70.1%
Mistral Large 3	100	100	71	48	30	69.8%
Gemini 2.5 Flash Lite	95	90	75	55	31	69.3%
Qwen 3.5 9B	100	86	86	69	0	68.4%
Claude Opus 4	85	82	74	49	49	67.9%
Gemma 3 4B	100	100	94	44	0	67.6%
GPT-5 Mini	98	88	78	50	23	67.3%
Llama 3.1 8B	98	94	65	39	33	65.9%
Claude Sonnet 4.5	83	76	74	51	45	65.8%
DeepSeek V3.1	76	75	74	58	45	65.7%
Gemini 3.5 Flash (Reasoning)	86	75	62	58	44	64.9%
Ministral 3 3B	100	91	69	60	0	63.9%
Qwen 3 32B	100	73	58	45	41	63.2%
Qwen 3.5 Plus (2026-04-20)	98	80	58	44	29	61.8%
Ministral 8B	100	81	60	39	29	61.6%
Cohere Command R+ (Aug. 2024)	100	80	61	49	17	61.4%
Mistral Small 4	100	93	68	44	0	60.9%
Ministral 3B	100	88	66	48	0	60.2%
Mistral Small Creative	85	73	65	52	26	60.1%
WizardLM 2 8x22b	100	100	100	0	0	60.0%
Arcee AI: Trinity Large (Preview)	72	65	59	56	48	59.9%
Qwen3.6 Max Preview	78	66	63	62	28	59.3%
Qwen 3.6 Flash	91	91	59	31	24	59.2%
Qwen 3.6 35B	94	79	67	33	20	58.4%
Inception Mercury	100	96	56	37	0	57.7%
Grok 4	100	63	51	37	31	56.7%
Xiaomi MIMO v2.5	93	90	52	48	0	56.5%
Claude Opus 4.7 (Reasoning)	100	86	68	24	0	55.7%
Qwen3.7 Max	90	72	72	38	4	55.3%
Qwen 3.5 397B A17B	92	80	59	35	8	54.8%
Qwen 3.6 27B	88	73	69	42	0	54.5%
GPT-5.4 Nano (Reasoning)	92	53	47	39	37	53.5%
Z.AI GLM 4.6	90	81	49	35	12	53.2%
GPT-5.4 Nano (Reasoning, Low)	73	68	63	60	0	53.0%
Gemma 4 31B (Reasoning)	71	70	65	43	12	52.2%
GPT-5.4 Nano	83	52	46	41	32	50.7%
GPT-4o Mini (temp=1)	87	86	47	32	0	50.4%
Gemini 3 Pro (Preview)	82	71	65	28	2	49.6%
Grok 4.3	100	62	59	26	0	49.4%
Gemini 3 Flash (Preview)	59	58	54	36	34	48.0%
Grok 4.20 (Beta)	83	58	57	35	6	47.9%
LFM2 24B	89	80	38	30	0	47.5%
Claude Opus 4.5	100	85	52	0	0	47.5%
Z.AI GLM 4.7 Flash	75	71	55	32	0	46.5%
Claude Haiku 4.5	100	70	32	30	0	46.4%
Z.AI GLM 4.5	89	54	49	41	0	46.3%
Grok 4.20 (Beta, Reasoning)	68	53	51	37	18	45.3%
Z.AI GLM 5 Turbo	100	87	18	13	0	43.6%
Gemini 2.5 Flash Lite (Reasoning)	89	59	24	24	19	43.1%
DeepSeek V4 Flash	73	57	47	36	0	42.4%
Gemma 4 26B (Reasoning)	94	70	43	0	0	41.3%
Grok 4.20	63	60	38	26	19	41.3%
Gemini 3.5 Flash (Reasoning, Minimal)	52	49	45	31	28	41.2%
Qwen 3.5 122B	68	48	39	28	19	40.5%
Gemma 4 31B	100	52	29	17	3	40.1%
DeepSeek V4 Flash (Reasoning)	55	55	50	39	0	39.7%
Stealth: Healer Alpha	77	55	31	31	0	38.8%
MoonshotAI: Kimi K2.6	71	52	46	24	0	38.7%
Claude Sonnet 4.6	93	55	33	4	0	37.1%
GPT-4o, Aug. 6th (temp=0)	79	57	47	0	0	36.6%
Grok 4.20 (Reasoning)	94	50	15	15	0	34.9%
Z.AI GLM 5	100	58	8	0	0	33.2%
Z.AI GLM 4.5 Air	88	54	20	0	0	32.3%
DeepSeek V4 Pro (Reasoning)	75	41	39	0	0	30.9%
Qwen 3.5 Plus (2026-02-15)	69	66	16	3	0	30.7%
DeepSeek V4 Pro	48	41	29	29	7	30.6%
Grok 4.1 Fast	90	61	0	0	0	30.2%
Grok 4 Fast	56	45	43	0	0	28.8%
Xiaomi MIMO v2.5 Pro	59	57	20	0	0	27.3%
Gemini 3 Flash (Preview, Reasoning)	78	52	0	0	0	26.0%
Grok 4.3 (Reasoning)	65	49	0	0	0	22.7%
Gemini 3.1 Flash Lite (Preview)	68	35	11	0	0	22.7%
Z.AI GLM 5.1	62	26	11	9	0	21.6%
Claude Opus 4.6	63	35	8	0	0	21.1%
Gemini 3.1 Flash Lite (Reasoning)	50	43	5	0	0	19.6%
MiniMax M2.7	51	36	9	0	0	19.1%
Gemini 3.1 Flash Lite	31	26	17	13	0	17.4%
Claude Opus 4.6 (Reasoning)	40	28	8	0	0	15.2%
Claude Sonnet 4.6 (Reasoning)	45	26	3	0	0	15.0%
Stealth: Aurora Alpha	45	24	0	0	0	13.8%
Claude Sonnet 4	31	24	0	0	0	10.9%
Inception Mercury 2	41	8	0	0	0	9.7%
Gemma 4 26B	34	10	0	0	0	8.7%
GPT-OSS 120B	34	0	0	0	0	6.8%
ByteDance Seed 2.0 Mini	22	0	0	0	0	4.4%
ByteDance Seed 1.6	9	0	0	0	0	1.8%
Nemotron 3 Nano	7	0	0	0	0	1.4%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0.0%
MiniMax M2.5	0	0	0	0	0	0.0%
ByteDance Seed 2.0 Lite	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	83	96.7%
GPT-5.5 (Reasoning, Low)	100	100	100	93	87	96.2%
Qwen 3.5 397B A17B	100	100	100	100	76	95.2%
Qwen 3.5 35B	100	100	100	100	70	94.0%
GPT-5.5	100	100	100	91	77	93.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	82	78	92.0%
GPT-5.4	100	100	93	90	76	91.8%
GPT-5.4 Nano	100	98	92	89	75	90.7%
o4 Mini High	100	100	97	77	75	89.8%
Qwen 3.6 35B	100	100	100	84	63	89.5%
Qwen 3.5 27B	100	100	100	78	68	89.3%
GPT-5.4 (Reasoning, Low)	100	100	98	90	54	88.5%
Qwen3.7 Max	100	98	98	96	50	88.5%
GPT-4o, May 13th (temp=0)	100	100	100	93	49	88.4%
Qwen 3.5 Plus (2026-04-20)	100	98	97	94	50	87.7%
Gemma 3 27B	100	93	92	80	70	86.9%
GPT-5	99	86	84	83	79	86.3%
Rocinante 12B	100	100	98	88	42	85.6%
Qwen 3.6 Flash	100	93	92	80	61	85.3%
GPT-5.4 (Reasoning)	100	99	82	80	51	82.4%
Qwen 3.6 27B	100	98	88	83	40	81.8%
GPT-5.4 Mini (Reasoning, Low)	97	88	86	69	61	80.1%
GPT-4.1	100	91	83	81	41	79.2%
Mistral Large 2	100	91	78	76	45	78.1%
GPT-4o, May 13th (temp=1)	94	92	85	83	35	77.8%
Hermes 3 405B	100	100	100	70	19	77.6%
Mistral Small 4	100	95	68	66	58	77.5%
DeepSeek-V2 Chat	100	98	73	67	47	77.0%
GPT-5.4 Mini	100	98	89	79	15	76.1%
GPT-5.4 Nano (Reasoning)	95	92	68	63	60	75.6%
Qwen3 235B A22B Instruct 2507	100	92	76	63	45	75.3%
DeepSeek V3 (2025-03-24)	100	83	71	63	54	74.4%
GPT-5.4 Mini (Reasoning)	98	92	91	47	41	73.6%
Qwen 3.5 Flash	100	82	81	73	29	73.0%
GPT-5 Mini	95	94	94	82	0	73.0%
Writer: Palmyra X5	100	100	86	76	0	72.3%
Gemma 3 4B	100	100	63	52	38	70.7%
Aion 2.0	96	89	79	69	18	70.3%
GPT-5.4 Nano (Reasoning, Low)	93	71	70	63	54	70.3%
Qwen3.6 Max Preview	100	100	78	68	0	69.2%
LFM2 24B	100	78	66	63	30	67.6%
Qwen 2.5 72B	93	85	67	54	39	67.5%
Qwen 3 32B	100	94	76	44	20	66.9%
Gemini 2.5 Flash Lite	87	75	71	62	34	65.8%
WizardLM 2 8x22b	82	79	73	57	31	64.5%
GPT-5.1	91	86	74	40	31	64.4%
Llama 3.1 8B	94	86	78	57	0	63.0%
DeepSeek V3.1	100	78	68	52	13	62.2%
Llama 3.1 70B	100	100	78	33	0	62.2%
Mistral Medium 3.1	100	98	60	51	0	62.0%
Grok 4.20 (Reasoning)	100	75	51	42	41	62.0%
Gemini 3.5 Flash (Reasoning)	80	77	75	43	32	61.5%
Grok 4.3 (Reasoning)	100	100	100	3	0	60.5%
Grok 4.3	100	85	77	27	12	60.3%
Z.AI GLM 4.6	100	66	65	54	12	59.2%
o4 Mini	95	88	68	24	11	57.2%
Mistral Large 3	100	100	60	24	0	56.8%
ByteDance Seed 2.0 Mini	100	83	59	31	4	55.4%
Xiaomi MIMO v2.5 Pro	100	92	45	37	0	54.9%
Grok 4.20 (Beta, Reasoning)	100	60	45	36	32	54.6%
Gemma 3 12B	100	100	56	16	0	54.3%
Z.AI GLM 4.5	98	61	56	49	5	54.0%
Ministral 8B	83	66	58	54	0	52.2%
Gemini 3 Flash (Preview)	70	57	45	44	41	51.4%
Gemma 4 31B	85	68	37	33	33	51.2%
ByteDance Seed 1.6 Flash	82	79	59	35	0	51.0%
GPT-5.2	98	68	49	21	13	49.8%
GPT-4o, Aug. 6th (temp=1)	100	73	46	29	0	49.7%
Stealth: Healer Alpha	83	71	50	34	9	49.5%
Claude Opus 4.7	69	69	54	54	0	49.0%
Stealth: Hunter Alpha	99	93	45	0	0	47.5%
Claude Sonnet 4.6	82	78	59	13	0	46.3%
Mistral Large	82	63	50	29	7	46.3%
Z.AI GLM 4.7	100	77	27	26	0	45.9%
Mistral Small 4 (Reasoning)	100	73	36	20	0	45.8%
Arcee AI: Trinity Mini	86	60	56	13	9	44.7%
Grok 4.20	74	63	54	29	0	44.1%
Mistral Small Creative	71	56	54	30	6	43.5%
Gemini 3 Flash (Preview, Reasoning)	75	74	46	20	0	43.1%
Claude Opus 4	92	65	45	13	0	43.0%
Claude Opus 4.5	92	46	38	24	13	42.7%
Claude Haiku 4.5	100	57	54	0	0	42.1%
Ministral 3 14B	81	71	41	7	6	41.3%
Gemini 3 Pro (Preview)	84	80	36	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	44	24	19	13	40.0%
DeepSeek V4 Pro	71	60	54	14	0	39.8%
Gemma 4 31B (Reasoning)	74	63	33	26	0	39.4%
GPT-4o Mini (temp=0)	94	43	32	28	0	39.3%
Ministral 3 3B	100	75	20	0	0	39.0%
Xiaomi MIMO v2.5	80	45	35	29	3	38.3%
Claude Opus 4.7 (Reasoning)	100	44	41	0	0	36.9%
Ministral 3 8B	86	44	39	13	0	36.3%
GPT-4o, Aug. 6th (temp=0)	60	56	38	26	0	36.0%
DeepSeek V3 (2024-12-26)	63	39	33	30	14	36.0%
Z.AI GLM 4.7 Flash	90	50	36	0	0	35.2%
GPT-4.1 Nano	73	36	30	17	17	34.6%
Gemini 3.1 Flash Lite (Reasoning)	49	43	36	29	16	34.5%
Claude 3 Haiku	51	50	41	30	0	34.3%
Mistral Small 3.2 24B	86	77	6	0	0	33.7%
MoonshotAI: Kimi K2.6	75	41	41	12	0	33.7%
Hermes 3 70B	100	55	13	0	0	33.6%
DeepSeek V4 Flash	100	68	0	0	0	33.5%
Qwen 3.5 Plus (2026-02-15)	59	49	43	12	0	32.4%
DeepSeek V3.2	62	47	41	11	0	32.1%
Gemini 2.5 Flash	67	46	26	18	0	31.4%
Gemma 4 26B (Reasoning)	63	49	24	13	7	31.2%
Gemini 3.1 Flash Lite	95	56	4	0	0	31.2%
GPT-4o Mini (temp=1)	70	51	33	0	0	30.8%
Gemini 2.5 Pro	75	29	29	14	0	29.5%
DeepSeek V4 Flash (Reasoning)	56	33	31	15	5	28.0%
Mistral NeMO	94	33	13	0	0	27.9%
Claude Sonnet 4.6 (Reasoning)	76	38	24	0	0	27.6%
Z.AI GLM 4.5 Air	77	45	14	0	0	27.1%
Claude 3.7 Sonnet	67	52	16	0	0	27.0%
Claude 3.5 Sonnet	100	19	11	0	0	25.8%
Nemotron 3 Super	52	42	28	0	0	24.4%
Ministral 3B	100	13	7	0	0	24.0%
Llama 3.1 Nemotron 70B	78	33	0	0	0	22.2%
Grok 4.1 Fast	61	32	16	0	0	21.8%
Claude Opus 4.6 (Reasoning)	50	29	18	0	0	19.5%
Inception Mercury	45	40	9	0	0	18.9%
Gemini 2.5 Flash Lite (Reasoning)	75	14	2	0	0	18.2%
Grok 4.20 (Beta)	38	27	19	3	0	17.3%
Grok 4 Fast	57	14	8	0	0	15.8%
Z.AI GLM 5	41	37	0	0	0	15.6%
Claude Opus 4.6	41	33	0	0	0	14.8%
MiniMax M2.5	73	0	0	0	0	14.6%
Z.AI GLM 5.1	38	20	10	0	0	13.6%
Arcee AI: Trinity Large (Preview)	46	14	0	0	0	12.1%
Z.AI GLM 5 Turbo	41	11	0	0	0	10.4%
Gemini 3.1 Flash Lite (Preview)	35	15	0	0	0	10.0%
Gemma 4 26B	46	3	0	0	0	9.7%
Claude Sonnet 4	27	13	8	0	0	9.5%
GPT-4.1 Mini	36	0	0	0	0	7.1%
Nemotron 3 Nano	36	0	0	0	0	7.1%
Claude Sonnet 4.5	35	0	0	0	0	6.9%
MoonshotAI: Kimi K2.5	17	13	0	0	0	6.0%
ByteDance Seed 2.0 Lite	26	0	0	0	0	5.2%
DeepSeek V4 Pro (Reasoning)	21	0	0	0	0	4.3%
MiniMax M2.7	10	0	0	0	0	2.0%
ByteDance Seed 1.6	0	0	0	0	0	0.0%
Grok 4	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	96	99.3%
GPT-5.4	100	100	100	98	97	98.9%
Gemma 3 27B	100	100	100	100	93	98.6%
Qwen3.7 Max	100	100	100	100	92	98.4%
Qwen 3 32B	100	100	100	100	92	98.4%
Qwen3.6 Max Preview	100	100	100	100	90	98.0%
Qwen 3.5 27B	100	100	100	98	88	97.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	97	88	97.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	83	96.7%
GPT-5.2	100	100	100	91	91	96.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	82	96.3%
GPT-5	100	100	100	91	90	96.3%
Qwen 3.5 9B	100	100	100	100	71	94.3%
GPT-5.4 Nano	100	100	100	90	81	94.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	99	98	72	93.8%
Hermes 3 405B	100	100	100	100	63	92.7%
GPT-5.4 Mini (Reasoning)	100	100	100	82	79	92.1%
o4 Mini	100	100	100	100	57	91.4%
GPT-5.4 Nano (Reasoning)	100	100	98	80	79	91.4%
Aion 2.0	100	100	90	83	81	90.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	50	89.9%
Writer: Palmyra X5	100	100	100	71	71	88.6%
Qwen 3.6 35B	100	100	92	75	75	88.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	89	83	69	88.4%
GPT-5.1	100	100	100	71	68	87.9%
GPT-5.5	100	100	88	85	66	87.6%
Grok 4.3	100	100	99	70	69	87.6%
WizardLM 2 8x22b	100	100	87	81	69	87.4%
Qwen 3.6 27B	100	100	95	94	48	87.4%
Grok 4.3 (Reasoning)	100	100	100	100	36	87.1%
Grok 4.20	100	94	87	84	69	86.7%
Grok 4.1 Fast	100	100	88	78	66	86.4%
GPT-5.4 (Reasoning)	100	100	100	77	52	85.8%
GPT-5.5 (Reasoning)	100	100	100	76	50	85.2%
Rocinante 12B	100	100	78	76	68	84.5%
Qwen 3.5 Flash	100	85	83	80	68	83.2%
Qwen3 235B A22B Instruct 2507	100	94	90	80	49	82.4%
Gemini 3 Pro (Preview)	97	92	80	73	69	82.2%
Claude 3 Haiku	100	100	100	67	43	81.9%
Mistral Medium 3.1	100	100	100	100	7	81.4%
LFM2 24B	100	100	95	83	24	80.5%
Gemma 3 12B	100	100	83	67	51	80.3%
Mistral Large 3	100	100	100	97	5	80.3%
Ministral 8B	100	100	100	86	15	80.2%
GPT-4o, May 13th (temp=1)	100	93	80	75	49	79.5%
ByteDance Seed 1.6 Flash	100	100	91	65	41	79.4%
Z.AI GLM 4.5	100	100	90	81	26	79.3%
DeepSeek V3 (2025-03-24)	100	100	71	68	57	79.2%
DeepSeek V3.2	100	96	80	73	44	78.7%
Gemini 3.5 Flash (Reasoning)	100	88	86	76	42	78.4%
GPT-4o, May 13th (temp=0)	100	98	97	71	26	78.4%
Gemini 2.5 Flash Lite	99	96	83	57	54	77.8%
GPT-5.4 Mini	100	100	90	63	31	76.8%
Cohere Command R+ (Aug. 2024)	100	100	95	82	0	75.5%
Llama 3.1 8B	100	100	88	86	0	74.7%
Claude Opus 4	94	76	75	71	57	74.7%
GPT-4.1	100	100	88	55	26	73.9%
Grok 4.20 (Beta, Reasoning)	100	100	99	69	0	73.6%
Grok 4.20 (Beta)	100	93	81	50	41	73.0%
Qwen 3.6 Flash	100	100	95	59	11	72.9%
DeepSeek V3 (2024-12-26)	100	100	86	68	11	72.9%
Qwen 3.5 122B	100	86	81	54	41	72.3%
Xiaomi MIMO v2.5 Pro	100	100	71	63	22	71.4%
Gemini 3 Flash (Preview, Reasoning)	100	86	65	63	41	70.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	88	61	0	69.8%
Claude Opus 4.7 (Reasoning)	100	100	71	44	33	69.6%
Mistral Small 4	94	91	70	61	31	69.4%
Z.AI GLM 4.7 Flash	100	100	66	62	14	68.4%
Hermes 3 70B	100	100	82	56	0	67.6%
Xiaomi MIMO v2.5	75	73	65	65	55	66.6%
Gemini 2.5 Pro	80	79	74	62	34	66.0%
Gemma 4 31B (Reasoning)	100	82	75	39	30	65.2%
Mistral Large 2	100	100	78	41	7	65.1%
Z.AI GLM 4.5 Air	91	82	63	48	41	65.0%
Arcee AI: Trinity Large (Preview)	100	82	78	44	16	64.0%
Grok 4.20 (Reasoning)	100	74	50	49	47	63.9%
ByteDance Seed 2.0 Mini	89	87	79	65	0	63.9%
GPT-4.1 Nano	93	83	54	52	34	63.2%
Stealth: Hunter Alpha	100	91	75	38	8	62.4%
Claude Sonnet 4.6 (Reasoning)	100	100	70	41	0	62.1%
Z.AI GLM 5.1	98	86	50	46	27	61.5%
Arcee AI: Trinity Mini	100	66	52	48	41	61.3%
Claude Sonnet 4.5	68	68	63	56	51	61.2%
GPT-5 Mini	99	69	57	41	37	60.5%
Gemma 3 4B	100	94	54	34	15	59.4%
Gemini 2.5 Flash	100	91	61	28	17	59.3%
Claude 3.7 Sonnet	100	100	62	22	12	59.1%
GPT-4o Mini (temp=1)	100	74	63	41	16	58.9%
MiniMax M2.7	99	63	60	56	11	58.1%
Gemma 4 26B (Reasoning)	100	78	74	26	11	57.8%
Claude Haiku 4.5	75	63	58	55	35	57.5%
Claude Sonnet 4.6	80	80	51	49	28	57.4%
Ministral 3 3B	100	84	68	24	7	56.5%
Mistral Small Creative	81	59	58	54	31	56.4%
DeepSeek V4 Flash	100	83	54	34	9	55.9%
GPT-4o, Aug. 6th (temp=1)	100	68	39	36	35	55.8%
Ministral 3 8B	100	68	63	48	0	55.8%
Gemini 3 Flash (Preview)	100	84	60	31	0	55.0%
DeepSeek-V2 Chat	100	80	66	28	0	54.9%
Ministral 3 14B	76	68	57	54	20	54.8%
Mistral Large	71	70	54	50	28	54.4%
GPT-4.1 Mini	76	67	63	38	21	53.1%
MiniMax M2.5	97	87	45	30	0	51.9%
Z.AI GLM 4.7	100	50	38	36	35	51.7%
Grok 4 Fast	89	79	70	19	0	51.3%
DeepSeek V4 Pro	85	57	47	45	21	51.2%
Grok 4	79	68	55	27	24	50.6%
Claude Opus 4.7	100	100	44	8	0	50.3%
Z.AI GLM 4.6	100	65	39	36	8	49.6%
Llama 3.1 Nemotron 70B	100	71	70	0	0	48.2%
Claude Opus 4.6	61	56	48	37	36	47.6%
Claude 3.5 Sonnet	94	45	37	31	20	45.5%
Z.AI GLM 5	77	63	45	22	9	43.2%
DeepSeek V3.1	87	81	24	24	0	43.1%
Llama 3.1 70B	100	76	38	0	0	42.7%
Gemma 4 26B	82	55	46	28	0	42.4%
ByteDance Seed 2.0 Lite	93	75	44	0	0	42.3%
Mistral Small 3.2 24B	100	86	24	0	0	42.1%
Mistral Small 4 (Reasoning)	92	74	36	9	0	42.0%
Gemma 4 31B	95	66	24	13	8	41.3%
Ministral 3B	81	63	41	17	0	40.4%
Inception Mercury	100	46	43	0	0	37.7%
DeepSeek V4 Flash (Reasoning)	71	66	24	21	5	37.5%
Gemini 2.5 Flash Lite (Reasoning)	82	52	44	7	3	37.5%
Qwen 3.5 Plus (2026-02-15)	59	46	41	39	0	37.1%
Z.AI GLM 5 Turbo	99	73	13	0	0	37.0%
MoonshotAI: Kimi K2.5	100	43	32	0	0	35.0%
Claude Opus 4.5	60	58	56	0	0	34.8%
Claude Opus 4.6 (Reasoning)	72	46	42	13	0	34.8%
Gemini 3.1 Flash Lite (Reasoning)	50	44	42	22	0	31.9%
GPT-4o, Aug. 6th (temp=0)	47	46	29	28	9	31.7%
Claude Sonnet 4	50	34	26	24	18	30.5%
DeepSeek V4 Pro (Reasoning)	46	34	33	27	0	28.2%
Stealth: Healer Alpha	65	41	15	9	7	27.4%
GPT-4o Mini (temp=0)	74	32	20	10	0	27.3%
Gemini 3.1 Flash Lite (Preview)	42	41	35	15	0	26.6%
ByteDance Seed 1.6	62	41	27	0	0	26.0%
Inception Mercury 2	93	18	3	0	0	22.8%
Nemotron 3 Super	45	39	26	0	0	21.9%
Mistral NeMO	38	31	3	0	0	14.4%
Gemini 3.1 Flash Lite	39	24	0	0	0	12.6%
GPT-OSS 120B	29	28	0	0	0	11.4%
MoonshotAI: Kimi K2.6	32	15	0	0	0	9.2%
Stealth: Aurora Alpha	34	0	0	0	0	6.9%
GPT-5 Nano	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	96	99.3%
Qwen 2.5 72B	100	100	100	100	95	99.0%
Qwen 3.5 35B	100	100	100	100	94	98.8%
Qwen3.6 Max Preview	100	100	100	100	93	98.5%
o4 Mini	100	100	100	100	92	98.4%
LFM2 24B	100	100	100	100	92	98.4%
Qwen 3.5 Flash	100	100	100	100	91	98.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	89	97.7%
Grok 4.1 Fast	100	100	100	100	88	97.6%
Mistral Large 2	100	100	100	100	88	97.6%
o4 Mini High	100	100	100	98	88	97.2%
GPT-5	100	100	100	100	85	97.1%
GPT-4o, May 13th (temp=0)	100	100	100	100	85	96.9%
GPT-5.4 (Reasoning)	100	100	100	100	84	96.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	84	96.8%
Grok 4.3	100	100	100	100	83	96.7%
Qwen 3.5 122B	100	100	100	100	83	96.6%
GPT-5.5	100	100	99	99	84	96.3%
Grok 4.20 (Beta, Reasoning)	100	100	100	96	85	96.2%
Grok 4.20 (Reasoning)	100	100	100	100	80	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	79	95.7%
Mistral Small Creative	100	100	100	100	78	95.6%
GPT-4.1 Mini	100	100	100	90	88	95.6%
Mistral Large 3	100	100	100	100	75	95.0%
Mistral Small 3.2 24B	100	100	100	100	71	94.3%
Arcee AI: Trinity Large (Preview)	100	100	100	100	71	94.3%
Ministral 3B	100	100	100	100	70	93.9%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	68	93.4%
Grok 4	100	100	100	100	66	93.1%
GPT-5.4 Mini	100	100	98	89	77	92.8%
Gemini 2.5 Flash	100	100	100	88	73	92.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	81	80	92.0%
Grok 4 Fast	100	100	100	82	76	91.6%
Z.AI GLM 4.6	100	100	100	86	71	91.4%
Mistral Small 4 (Reasoning)	100	100	100	82	75	91.4%
Gemini 2.5 Pro	100	100	100	86	70	91.3%
Qwen 3.6 27B	100	100	100	100	55	91.0%
GPT-5 Mini	100	100	95	80	79	90.9%
Z.AI GLM 4.5	100	100	100	100	54	90.7%
Mistral Small 4	100	100	100	100	54	90.7%
Ministral 3 14B	100	100	100	95	56	90.3%
GPT-5.5 (Reasoning)	100	100	100	79	70	89.7%
GPT-4.1	100	100	100	78	69	89.4%
DeepSeek-V2 Chat	100	100	100	82	63	89.1%
GPT-5.4 Nano	100	100	100	81	63	88.8%
GPT-5.1	100	100	100	100	44	88.8%
Gemma 3 12B	100	100	92	92	59	88.5%
GPT-4o Mini (temp=0)	100	100	100	100	41	88.2%
Hermes 3 70B	100	100	100	71	69	88.1%
GPT-5.4 Nano (Reasoning, Low)	100	98	88	84	70	87.9%
Gemini 3.1 Flash Lite (Reasoning)	100	93	91	82	70	87.2%
GPT-5.5 (Reasoning, Low)	100	100	94	73	65	86.5%
Rocinante 12B	100	100	100	69	63	86.5%
Mistral Medium 3.1	100	100	100	97	35	86.2%
GPT-5.2	100	100	100	92	38	85.9%
Claude 3 Haiku	100	100	92	82	56	85.8%
Xiaomi MIMO v2.5 Pro	100	100	97	74	58	85.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	29	85.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	67	61	85.6%
DeepSeek V3.1	100	100	81	74	65	83.9%
GPT-4.1 Nano	100	100	90	66	63	83.8%
Grok 4.20 (Beta)	100	100	85	69	65	83.8%
GPT-5.4	100	91	88	87	52	83.6%
Inception Mercury 2	100	100	95	81	41	83.4%
Gemma 3 4B	100	98	95	95	28	83.3%
Gemini 3.1 Flash Lite	100	100	90	70	56	83.2%
Qwen 3 32B	100	100	100	100	15	83.1%
Ministral 3 8B	100	100	86	82	48	83.0%
Qwen3 235B A22B Instruct 2507	100	100	90	88	37	83.0%
Gemma 4 26B	100	100	100	70	43	82.6%
DeepSeek V3 (2025-03-24)	100	100	100	100	13	82.6%
Qwen 3.6 Flash	100	100	100	100	8	81.6%
DeepSeek V3.2	100	97	76	68	66	81.4%
Writer: Palmyra X5	100	100	100	83	20	80.6%
GPT-4o, May 13th (temp=1)	100	100	76	75	52	80.4%
Gemini 2.5 Flash (Reasoning)	100	100	89	62	51	80.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
WizardLM 2 8x22b	100	92	78	71	57	79.7%
Hermes 3 405B	100	100	100	97	0	79.4%
Stealth: Healer Alpha	100	100	100	59	36	78.8%
Claude Opus 4	100	95	83	74	41	78.6%
GPT-4o Mini (temp=1)	100	100	98	69	24	78.2%
Llama 3.1 8B	100	100	100	91	0	78.1%
Gemma 4 31B	100	92	73	70	54	77.6%
MiniMax M2.7	100	100	81	68	33	76.3%
Claude 3.7 Sonnet	100	100	83	57	41	76.3%
DeepSeek V4 Flash (Reasoning)	100	86	73	69	46	75.0%
Gemini 3 Flash (Preview)	89	75	73	70	65	74.4%
Stealth: Hunter Alpha	100	91	86	70	24	74.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	91	80	54	44	73.7%
ByteDance Seed 1.6 Flash	100	82	81	54	51	73.5%
Xiaomi MIMO v2.5	100	100	79	62	26	73.5%
Z.AI GLM 4.5 Air	100	97	75	63	32	73.4%
Gemma 4 31B (Reasoning)	100	85	78	61	41	73.0%
Mistral NeMO	100	100	100	61	0	72.2%
Arcee AI: Trinity Mini	100	100	88	54	17	71.7%
Gemma 4 26B (Reasoning)	100	100	85	60	7	70.3%
DeepSeek V4 Flash	100	86	74	74	13	69.4%
DeepSeek V4 Pro	100	96	94	51	0	68.2%
Gemini 2.5 Flash Lite	100	100	69	69	0	67.6%
Z.AI GLM 4.7 Flash	100	100	75	57	0	66.4%
Z.AI GLM 4.7	100	100	99	21	12	66.3%
Inception Mercury	100	100	66	63	0	65.6%
Aion 2.0	100	77	62	45	41	64.9%
Claude 3.5 Sonnet	100	100	63	59	0	64.5%
Mistral Large	100	88	74	37	19	63.5%
GPT-OSS 120B	92	77	57	54	37	63.3%
Z.AI GLM 5	100	91	56	44	24	62.9%
GPT-4o, Aug. 6th (temp=1)	100	95	70	48	0	62.5%
Gemini 3.1 Flash Lite (Preview)	78	76	68	52	36	61.8%
MoonshotAI: Kimi K2.6	100	95	43	41	29	61.7%
Claude Opus 4.7 (Reasoning)	100	94	83	30	0	61.4%
Llama 3.1 70B	89	69	59	59	30	61.2%
Llama 3.1 Nemotron 70B	100	74	69	45	15	60.7%
Gemini 3 Pro (Preview)	87	65	62	51	36	60.2%
GPT-4o, Aug. 6th (temp=0)	100	97	54	37	13	60.1%
Stealth: Aurora Alpha	100	74	62	32	27	58.9%
Grok 4.20	100	83	56	39	10	57.7%
ByteDance Seed 2.0 Mini	89	70	54	52	20	57.0%
Claude Sonnet 4.5	100	95	48	36	0	55.7%
Claude Opus 4.5	100	74	47	36	21	55.6%
MiniMax M2.5	100	66	51	38	24	55.6%
Nemotron 3 Super	86	75	59	57	0	55.3%
Gemini 3.5 Flash (Reasoning)	81	65	63	57	7	54.7%
Gemini 3 Flash (Preview, Reasoning)	87	76	60	41	4	53.6%
Gemini 2.5 Flash Lite (Reasoning)	100	85	36	24	19	52.8%
MoonshotAI: Kimi K2.5	91	73	62	17	0	48.5%
Claude Sonnet 4.6	100	66	54	11	5	47.2%
ByteDance Seed 2.0 Lite	89	56	55	28	0	45.6%
Z.AI GLM 5 Turbo	97	61	41	29	0	45.5%
Claude Sonnet 4	94	76	57	0	0	45.3%
Claude Opus 4.7	100	50	48	19	0	43.2%
Claude Sonnet 4.6 (Reasoning)	76	76	33	24	0	41.7%
GPT-5 Nano	84	69	55	0	0	41.5%
Claude Haiku 4.5	66	38	38	24	17	36.4%
Claude Opus 4.6 (Reasoning)	75	45	43	5	0	33.7%
Z.AI GLM 5.1	98	48	13	0	0	31.8%
Nemotron 3 Nano	74	51	7	0	0	26.6%
Claude Opus 4.6	67	41	5	0	0	22.5%
ByteDance Seed 1.6	36	33	18	0	0	17.3%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	99.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	99	99	99.7%
GPT-5.1	100	100	100	100	98	99.6%
MoonshotAI: Kimi K2.6	100	100	100	100	98	99.6%
GPT-5.5	100	100	100	100	95	99.0%
Arcee AI: Trinity Mini	100	100	100	100	95	99.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	94	98.8%
Qwen3.7 Max	100	100	100	100	94	98.7%
GPT-5.4 Mini (Reasoning)	100	100	100	100	92	98.4%
Qwen 3 32B	100	100	100	100	92	98.4%
GPT-5.4 Mini	100	100	100	100	90	98.1%
GPT-5.2	100	100	100	100	89	97.9%
Qwen 3.5 35B	100	100	100	100	89	97.9%
Grok 4.20 (Beta)	100	100	99	98	92	97.8%
Llama 3.1 70B	100	100	100	100	86	97.1%
DeepSeek V3 (2025-03-24)	100	100	100	100	83	96.7%
GPT-4.1 Nano	100	100	100	98	83	96.3%
Qwen 3.5 Flash	100	100	100	100	78	95.6%
Gemini 2.5 Flash (Reasoning)	100	100	98	97	78	94.7%
Inception Mercury 2	100	100	97	88	88	94.6%
Grok 4.20 (Beta, Reasoning)	100	100	96	89	88	94.5%
GPT-5.4 (Reasoning, Low)	100	100	100	97	76	94.5%
Z.AI GLM 4.6	100	100	100	97	71	93.5%
Mistral Small 4	100	100	100	92	71	92.7%
GPT-4o, May 13th (temp=1)	100	100	100	86	73	91.9%
Aion 2.0	100	100	92	92	76	91.9%
GPT-5.5 (Reasoning, Low)	100	100	98	87	74	91.9%
Gemini 2.5 Pro	100	100	91	89	79	91.8%
Qwen 3.5 397B A17B	100	100	89	88	82	91.8%
Qwen 3.5 9B	100	100	100	100	59	91.8%
GPT-5.4	100	100	100	85	71	91.3%
Stealth: Hunter Alpha	100	100	95	83	74	90.5%
Grok 4.3	100	100	100	86	67	90.5%
DeepSeek-V2 Chat	100	100	98	91	63	90.5%
Z.AI GLM 4.7 Flash	100	100	100	91	60	90.1%
Gemma 3 12B	100	100	100	100	48	89.5%
GPT-5.4 Nano	100	100	100	75	72	89.4%
Mistral Small 4 (Reasoning)	100	100	100	94	54	89.4%
Xiaomi MIMO v2.5 Pro	100	100	100	86	60	89.4%
Cohere Command R+ (Aug. 2024)	100	97	89	86	75	89.3%
GPT-4o Mini (temp=1)	100	100	100	74	71	88.9%
GPT-5 Mini	100	100	90	82	72	88.9%
Arcee AI: Trinity Large (Preview)	100	100	95	81	66	88.5%
Mistral NeMO	100	100	92	83	66	88.3%
Gemini 2.5 Flash	100	100	96	80	65	88.3%
Ministral 3 8B	100	100	98	83	59	88.1%
Grok 4.20	100	100	96	76	68	88.0%
Grok 4.1 Fast	100	100	100	76	63	87.9%
Claude 3 Haiku	100	100	100	100	37	87.4%
GPT-4.1	100	100	93	92	51	87.1%
Qwen 2.5 72B	100	100	100	71	63	87.0%
Qwen3 235B A22B Instruct 2507	100	100	95	75	63	86.7%
Hermes 3 70B	100	100	100	78	54	86.3%
Gemma 4 31B	100	100	100	70	59	85.7%
GPT-4.1 Mini	100	100	88	82	54	84.6%
ByteDance Seed 1.6 Flash	100	100	97	86	39	84.3%
Llama 3.1 8B	100	100	100	75	45	84.1%
WizardLM 2 8x22b	100	100	95	68	56	84.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	61	58	83.8%
Grok 4.20 (Reasoning)	100	98	93	67	57	83.0%
GPT-4o, Aug. 6th (temp=1)	100	100	97	93	24	82.7%
Claude Sonnet 4.5	100	100	80	68	60	81.6%
Gemma 3 4B	98	88	83	82	56	81.5%
Qwen 3.6 Flash	100	100	100	62	44	81.2%
Gemini 3 Pro (Preview)	100	95	93	65	51	80.8%
DeepSeek V4 Flash	100	98	97	69	38	80.5%
LFM2 24B	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite	94	88	83	71	62	79.7%
Ministral 3 3B	100	100	88	75	36	79.7%
Rocinante 12B	100	100	100	71	24	79.0%
Gemma 4 31B (Reasoning)	100	100	100	63	30	78.6%
Mistral Small Creative	100	99	83	82	29	78.4%
DeepSeek V3.2	100	100	88	56	44	77.7%
Mistral Small 3.2 24B	100	100	100	88	0	77.6%
Z.AI GLM 5 Turbo	100	100	88	54	44	77.2%
GPT-4o Mini (temp=0)	100	100	81	66	37	76.8%
Llama 3.1 Nemotron 70B	100	100	100	59	19	75.5%
Claude 3.5 Sonnet	100	100	100	68	0	73.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	88	78	8	73.3%
Gemini 3.5 Flash (Reasoning)	95	75	71	70	54	73.2%
Z.AI GLM 5.1	100	100	58	56	51	72.9%
Stealth: Healer Alpha	100	83	80	54	43	72.0%
Gemini 3 Flash (Preview)	88	73	71	65	60	71.6%
Mistral Large 2	95	83	78	59	41	71.2%
Grok 4 Fast	100	92	89	75	0	71.1%
Claude Haiku 4.5	100	100	80	61	13	70.8%
Inception Mercury	100	100	93	59	0	70.3%
Z.AI GLM 4.7	100	80	78	63	30	70.3%
MiniMax M2.7	100	83	63	58	44	69.8%
ByteDance Seed 2.0 Mini	100	98	91	60	0	69.7%
Gemma 4 26B (Reasoning)	100	89	59	54	46	69.6%
Stealth: Aurora Alpha	100	94	81	50	19	68.9%
Ministral 3B	100	88	83	48	24	68.5%
Grok 4	100	79	60	57	45	68.4%
Z.AI GLM 4.5	100	100	100	41	0	68.2%
Claude Opus 4.7	100	94	88	57	0	67.7%
Gemini 2.5 Flash Lite (Reasoning)	100	91	82	61	3	67.4%
Writer: Palmyra X5	100	100	75	41	19	66.9%
MoonshotAI: Kimi K2.5	100	100	78	56	0	66.8%
Mistral Medium 3.1	100	99	63	41	24	65.4%
Ministral 3 14B	100	95	57	50	17	63.8%
Gemini 3.1 Flash Lite (Preview)	100	65	58	55	41	63.7%
Claude 3.7 Sonnet	92	90	59	54	24	63.6%
Gemma 4 26B	88	74	70	56	29	63.4%
Gemini 3 Flash (Preview, Reasoning)	89	63	62	56	34	61.0%
Claude Sonnet 4	80	78	61	44	41	60.8%
DeepSeek V4 Pro	100	85	83	26	10	60.8%
Claude Opus 4.6	90	90	62	39	24	60.8%
Claude Opus 4.7 (Reasoning)	86	71	71	38	28	58.8%
Claude Opus 4	100	100	59	29	5	58.6%
Qwen 3.5 Plus (2026-02-15)	88	68	63	49	24	58.4%
Z.AI GLM 4.5 Air	100	100	51	41	0	58.3%
Gemini 2.5 Flash Lite	100	60	46	44	41	58.2%
DeepSeek V3.1	98	71	68	54	0	58.2%
Ministral 8B	100	95	66	19	0	56.0%
MiniMax M2.5	92	71	60	50	0	54.8%
GPT-OSS 120B	88	80	50	32	14	52.8%
DeepSeek V4 Pro (Reasoning)	88	88	66	13	9	52.7%
Claude Opus 4.6 (Reasoning)	100	86	36	28	0	50.1%
ByteDance Seed 1.6	100	82	37	30	0	49.9%
Claude Sonnet 4.6	63	61	61	60	0	49.3%
Xiaomi MIMO v2.5	74	73	65	18	4	46.7%
Gemini 3.1 Flash Lite (Reasoning)	77	71	50	9	0	41.4%
Nemotron 3 Super	100	93	5	3	0	40.2%
Claude Sonnet 4.6 (Reasoning)	95	30	28	17	13	36.6%
ByteDance Seed 2.0 Lite	71	62	27	6	0	33.5%
Z.AI GLM 5	73	41	38	10	0	32.4%
Claude Opus 4.5	66	44	17	0	0	25.5%
Nemotron 3 Nano	38	27	0	0	0	13.1%
GPT-5 Nano	0	0	0	0	0	0.0%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	99.9%
GPT-5	100	100	100	100	96	99.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	95	99.0%
Ministral 3 14B	100	100	100	100	95	99.0%
Ministral 3B	100	100	100	100	95	99.0%
GPT-5.4	100	100	100	100	91	98.2%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	93	97.8%
GPT-4o, May 13th (temp=0)	100	100	100	100	88	97.5%
Mistral Medium 3.1	100	100	100	100	86	97.3%
DeepSeek V4 Pro (Reasoning)	100	100	98	96	92	97.3%
Gemma 3 27B	100	100	100	100	86	97.1%
GPT-5.5	100	100	100	99	85	96.7%
GPT-5.4 Mini	100	100	100	100	80	96.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	95	85	95.9%
Ministral 3 8B	100	100	100	94	85	95.6%
GPT-5.4 Nano (Reasoning)	100	100	96	93	89	95.6%
GPT-5 Mini	100	100	100	100	78	95.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	77	95.3%
GPT-4.1	100	100	100	100	76	95.3%
Mistral Small 4 (Reasoning)	100	100	95	94	86	95.1%
Writer: Palmyra X5	100	100	100	100	75	95.0%
Ministral 8B	100	100	97	90	86	94.5%
Inception Mercury	100	100	100	100	72	94.3%
GPT-5.4 Nano	100	100	100	100	71	94.2%
Qwen 3.5 122B	100	100	100	95	71	93.3%
Gemini 2.5 Pro	100	100	100	85	82	93.2%
Grok 4.3 (Reasoning)	100	100	100	100	66	93.1%
Claude 3.5 Sonnet	100	100	100	100	63	92.7%
GPT-4o Mini (temp=0)	100	100	100	88	75	92.5%
Claude Opus 4	100	100	100	95	66	92.3%
ByteDance Seed 1.6 Flash	100	100	98	92	71	92.3%
Qwen 2.5 72B	100	100	100	86	75	92.1%
Gemma 4 26B	100	100	91	87	82	92.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	82	78	92.0%
Mistral Small Creative	100	100	98	88	73	91.9%
Xiaomi MIMO v2.5	100	100	100	100	54	90.7%
Grok 4.20 (Reasoning)	100	100	100	93	60	90.7%
DeepSeek V3 (2024-12-26)	100	100	100	95	57	90.5%
GPT-5.4 (Reasoning)	100	100	98	77	75	89.9%
Mistral Large 2	100	100	98	90	60	89.7%
Grok 4.1 Fast	100	100	100	78	69	89.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	96	76	75	89.3%
Ministral 3 3B	100	100	100	78	68	89.1%
Cohere Command R+ (Aug. 2024)	100	100	100	92	54	89.1%
GPT-5.1	100	100	84	82	78	88.9%
GPT-5.4 (Reasoning, Low)	100	100	89	78	77	88.7%
DeepSeek V4 Flash	100	100	100	95	44	87.9%
GPT-5.2	100	100	100	78	61	87.8%
GPT-4.1 Mini	100	100	83	81	75	87.8%
Arcee AI: Trinity Mini	100	100	90	82	66	87.6%
Mistral NeMO	100	100	100	69	66	86.9%
Grok 4.3	100	100	100	94	41	86.9%
Z.AI GLM 4.6	100	94	92	86	61	86.7%
Qwen3 235B A22B Instruct 2507	100	100	100	92	36	85.5%
Llama 3.1 Nemotron 70B	100	100	100	86	41	85.3%
DeepSeek V3.2	100	100	100	75	50	84.9%
Grok 4.20	100	100	95	77	52	84.8%
Gemini 3 Pro (Preview)	100	100	96	67	56	83.7%
Mistral Small 4	100	100	80	74	63	83.4%
Gemini 2.5 Flash	100	100	100	80	36	83.3%
Grok 4	100	100	79	75	62	83.2%
Aion 2.0	100	99	97	78	37	82.3%
Mistral Large	100	100	88	81	41	81.9%
Claude 3.7 Sonnet	100	100	94	80	35	81.6%
Xiaomi MIMO v2.5 Pro	100	100	90	66	51	81.4%
Claude Sonnet 4	100	100	83	75	48	81.2%
Claude Opus 4.7	100	100	83	81	41	81.0%
Arcee AI: Trinity Large (Preview)	100	92	79	67	63	80.3%
Z.AI GLM 4.5	100	100	85	59	57	80.2%
DeepSeek-V2 Chat	100	100	100	51	50	80.1%
Qwen 3.5 9B	100	100	100	100	0	80.0%
Hermes 3 405B	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
GPT-5.4 Mini (Reasoning)	100	83	75	71	69	79.7%
Grok 4.20 (Beta)	100	100	91	60	48	79.7%
Z.AI GLM 5 Turbo	100	100	76	61	57	78.9%
MoonshotAI: Kimi K2.6	100	100	95	92	0	77.4%
Grok 4 Fast	100	99	94	91	0	76.8%
Claude Sonnet 4.5	100	100	95	88	0	76.6%
Claude Sonnet 4.6 (Reasoning)	100	100	94	88	0	76.3%
Qwen 3.6 27B	100	100	67	63	48	75.6%
WizardLM 2 8x22b	100	100	90	59	27	75.1%
Rocinante 12B	100	100	78	63	33	74.9%
GPT-4o Mini (temp=1)	100	88	69	63	50	74.0%
Hermes 3 70B	100	100	88	54	29	74.0%
Mistral Large 3	100	90	71	54	54	73.7%
Llama 3.1 8B	100	100	86	81	0	73.3%
Gemini 3 Flash (Preview, Reasoning)	80	80	78	68	60	73.0%
Z.AI GLM 4.7 Flash	95	92	91	73	14	73.0%
MiniMax M2.7	100	83	75	52	51	72.2%
Gemma 3 12B	100	78	78	54	48	71.4%
Inception Mercury 2	100	86	60	60	49	71.0%
Stealth: Healer Alpha	98	93	70	49	44	70.8%
Claude Opus 4.6	100	83	81	60	29	70.6%
Mistral Small 3.2 24B	100	100	86	56	10	70.3%
Z.AI GLM 5	100	79	73	56	30	67.8%
ByteDance Seed 2.0 Mini	100	100	85	31	17	66.4%
Claude Opus 4.7 (Reasoning)	100	100	81	50	0	66.1%
Z.AI GLM 4.5 Air	100	100	92	38	0	65.9%
Gemini 2.5 Flash Lite	100	83	74	46	26	65.8%
Z.AI GLM 4.7	90	85	79	54	19	65.3%
Gemini 3 Flash (Preview)	100	100	63	59	5	65.2%
Claude Opus 4.6 (Reasoning)	94	79	78	74	0	65.1%
Gemma 3 4B	100	90	90	45	0	65.1%
DeepSeek V4 Pro	100	95	56	35	35	64.1%
DeepSeek V3.1	100	91	50	41	33	62.8%
Stealth: Aurora Alpha	100	94	60	54	5	62.5%
Gemini 2.5 Flash Lite (Reasoning)	75	68	59	55	45	60.6%
MoonshotAI: Kimi K2.5	100	83	61	30	27	60.3%
Gemma 4 26B (Reasoning)	100	86	63	43	0	58.6%
MiniMax M2.5	100	100	52	36	0	57.5%
GPT-4o, Aug. 6th (temp=1)	100	100	78	8	0	57.1%
Stealth: Hunter Alpha	100	68	54	36	24	56.2%
Gemini 3.5 Flash (Reasoning, Minimal)	83	75	54	33	31	55.2%
Gemini 3.1 Flash Lite (Preview)	86	67	60	41	15	53.8%
Gemma 4 31B	79	65	50	41	29	52.9%
Claude Opus 4.5	76	51	49	49	38	52.5%
Llama 3.1 70B	100	88	71	0	0	51.9%
Gemma 4 31B (Reasoning)	96	55	49	34	21	51.1%
Gemini 3.1 Flash Lite (Reasoning)	83	73	54	35	0	49.1%
GPT-OSS 120B	100	94	45	0	0	47.9%
Gemini 3.5 Flash (Reasoning)	99	71	57	0	0	45.6%
Gemini 3.1 Flash Lite	100	62	52	11	0	44.9%
Qwen 3.5 Plus (2026-02-15)	71	71	60	13	0	43.1%
GPT-4o, Aug. 6th (temp=0)	80	70	29	24	0	40.5%
ByteDance Seed 1.6	100	58	44	0	0	40.4%
Claude Haiku 4.5	68	41	33	31	24	39.3%
ByteDance Seed 2.0 Lite	70	66	35	17	0	37.6%
Z.AI GLM 5.1	73	63	49	0	0	37.1%
Nemotron 3 Super	74	36	18	9	0	27.5%
Nemotron 3 Nano	41	40	32	21	0	26.8%
Claude Sonnet 4.6	36	29	24	19	0	21.3%
GPT-5 Nano	34	8	0	0	0	8.3%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.7%
Aion 2.0	100	100	100	100	97	99.5%
Qwen3.7 Max	100	100	100	100	94	98.9%
GPT-5.1	100	100	100	100	94	98.9%
Qwen3 235B A22B Instruct 2507	100	100	100	100	93	98.6%
GPT-5.5	100	100	100	97	96	98.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	91	98.1%
Qwen 3 32B	100	100	100	100	89	97.8%
Qwen 3.5 35B	100	100	100	98	88	97.2%
Mistral Large 2	100	100	100	100	86	97.1%
WizardLM 2 8x22b	100	100	100	100	84	96.9%
Qwen3.6 Max Preview	100	100	100	100	83	96.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	83	96.7%
Gemma 3 27B	100	100	100	98	85	96.6%
Mistral Small 4 (Reasoning)	100	100	100	100	83	96.6%
GPT-5	100	100	100	100	82	96.3%
Qwen 3.6 35B	100	100	100	100	82	96.3%
Arcee AI: Trinity Mini	100	100	100	100	81	96.1%
o4 Mini	100	100	100	100	80	96.0%
GPT-5.5 (Reasoning)	100	100	100	100	77	95.5%
Grok 4.1 Fast	100	100	100	95	81	95.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	76	95.1%
Llama 3.1 70B	100	100	100	90	83	94.7%
DeepSeek V3 (2024-12-26)	100	100	100	86	84	94.2%
Qwen 3.6 Flash	100	100	100	89	80	93.9%
Qwen 3.5 27B	100	100	100	100	69	93.8%
Gemini 3 Flash (Preview)	100	100	90	89	87	93.1%
Gemma 4 26B (Reasoning)	100	100	100	100	63	92.7%
Qwen 3.5 9B	100	100	100	100	60	92.1%
Z.AI GLM 4.7 Flash	100	100	100	84	74	91.6%
GPT-4o, May 13th (temp=1)	100	100	100	100	58	91.6%
Ministral 3 8B	100	100	97	86	75	91.5%
GPT-5.4 Nano	100	95	93	87	82	91.4%
Gemma 3 4B	100	100	89	88	78	91.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	98	56	90.9%
Claude Opus 4	100	100	100	81	71	90.4%
Rocinante 12B	100	100	100	97	54	90.1%
Ministral 3 14B	100	100	100	83	66	89.9%
Grok 4.20 (Beta, Reasoning)	100	100	97	82	70	89.8%
Gemini 2.5 Flash Lite	100	100	99	75	71	89.1%
Mistral Small 4	100	100	92	83	70	89.0%
Ministral 8B	100	100	98	87	58	88.6%
Gemini 2.5 Pro	100	100	89	86	67	88.3%
Z.AI GLM 4.6	100	100	88	82	71	88.3%
Xiaomi MIMO v2.5	100	100	96	78	67	88.2%
Writer: Palmyra X5	100	100	100	73	68	88.1%
Gemini 3 Pro (Preview)	100	100	92	78	71	88.1%
Mistral Small 3.2 24B	100	100	100	74	66	88.0%
LFM2 24B	100	100	94	75	71	88.0%
GPT-5.2	100	100	93	87	58	87.8%
Claude 3.7 Sonnet	100	98	89	79	71	87.6%
Cohere Command R+ (Aug. 2024)	96	95	94	90	62	87.4%
GPT-4o Mini (temp=1)	100	100	81	78	78	87.3%
Claude 3 Haiku	100	93	92	82	70	87.2%
Qwen 2.5 72B	100	100	100	100	32	86.3%
Llama 3.1 Nemotron 70B	100	97	94	86	54	85.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	86	75	68	85.6%
Gemini 2.5 Flash (Reasoning)	100	100	97	78	52	85.4%
GPT-4o Mini (temp=0)	100	100	92	89	45	85.3%
DeepSeek-V2 Chat	100	100	81	77	68	85.0%
Z.AI GLM 4.7	100	92	86	74	68	84.0%
GPT-5.4 Nano (Reasoning)	100	96	96	70	57	83.9%
GPT-5.4 Nano (Reasoning, Low)	100	95	86	72	65	83.7%
GPT-5.4 Mini	100	100	91	90	35	83.1%
Z.AI GLM 5	100	93	91	81	47	82.3%
Ministral 3 3B	100	100	97	74	41	82.3%
Gemma 3 12B	100	100	99	68	41	81.5%
Claude Opus 4.7 (Reasoning)	100	98	94	73	41	81.3%
Mistral NeMO	100	100	100	56	50	81.1%
Gemma 4 31B (Reasoning)	100	100	83	65	57	81.0%
Stealth: Hunter Alpha	100	100	88	87	28	80.6%
Gemini 3.5 Flash (Reasoning)	100	94	82	81	45	80.5%
Grok 4.3 (Reasoning)	100	100	100	93	0	78.5%
Gemini 2.5 Flash	100	90	83	63	54	78.1%
Xiaomi MIMO v2.5 Pro	100	88	83	66	51	77.7%
Mistral Medium 3.1	100	100	87	51	50	77.4%
Arcee AI: Trinity Large (Preview)	100	100	94	50	41	76.8%
GPT-4.1 Mini	92	83	74	67	63	75.9%
Mistral Small Creative	100	92	85	58	44	75.7%
DeepSeek V3.1	89	88	83	63	54	75.5%
Gemma 4 26B	100	78	73	71	55	75.5%
DeepSeek V3.2	95	79	75	65	60	75.0%
Claude 3.5 Sonnet	100	100	80	54	33	73.2%
Z.AI GLM 4.5 Air	100	100	78	56	32	73.1%
Gemini 2.5 Flash Lite (Reasoning)	100	91	88	87	0	73.1%
Grok 4.20 (Reasoning)	94	79	77	71	39	72.2%
Gemini 3 Flash (Preview, Reasoning)	100	100	71	50	39	72.1%
DeepSeek V4 Pro (Reasoning)	100	83	78	67	31	71.9%
Ministral 3B	100	95	83	63	17	71.8%
Claude Opus 4.7	100	91	63	52	51	71.4%
DeepSeek V4 Pro	93	85	79	75	18	70.1%
Inception Mercury 2	81	80	77	69	41	69.6%
Qwen 3.5 Plus (2026-02-15)	100	77	73	66	24	67.8%
Grok 4.20 (Beta)	100	91	90	55	0	67.3%
ByteDance Seed 1.6 Flash	100	88	77	62	9	67.1%
Mistral Large	100	95	92	41	5	66.5%
GPT-4.1 Nano	100	97	68	50	15	65.9%
Llama 3.1 8B	100	80	76	68	0	64.7%
Grok 4.3	85	79	66	54	35	63.8%
Claude Sonnet 4.6	94	85	82	56	0	63.3%
Claude Haiku 4.5	100	94	63	55	0	62.5%
Claude Opus 4.5	100	62	59	45	41	61.3%
GPT-4o, Aug. 6th (temp=0)	100	100	49	33	12	58.6%
Gemma 4 31B	95	91	41	34	30	58.2%
GPT-5 Mini	86	80	47	38	37	57.6%
Z.AI GLM 5.1	86	70	60	50	21	57.5%
MiniMax M2.5	100	74	66	32	14	57.2%
Grok 4 Fast	81	70	48	44	40	56.5%
Grok 4.20	64	63	58	55	36	55.2%
Gemini 3.1 Flash Lite (Reasoning)	100	93	52	30	0	55.0%
GPT-4o, Aug. 6th (temp=1)	96	86	60	30	0	54.3%
Gemini 3.1 Flash Lite (Preview)	86	60	55	33	33	53.5%
Z.AI GLM 4.5	66	63	63	54	18	52.8%
Stealth: Healer Alpha	100	60	47	45	0	50.4%
Claude Sonnet 4	100	79	50	19	0	49.5%
MiniMax M2.7	99	50	41	41	0	46.1%
GPT-OSS 120B	100	73	50	7	0	45.8%
Stealth: Aurora Alpha	70	62	60	37	0	45.7%
Z.AI GLM 5 Turbo	100	68	49	8	3	45.6%
Hermes 3 70B	100	66	26	24	0	43.2%
DeepSeek V4 Flash	81	44	41	31	17	42.6%
Claude Opus 4.6	80	49	40	29	10	41.7%
Gemini 3.1 Flash Lite	70	49	45	24	13	40.2%
MoonshotAI: Kimi K2.6	66	51	31	30	19	39.2%
DeepSeek V4 Flash (Reasoning)	100	44	41	8	0	38.4%
Claude Opus 4.6 (Reasoning)	63	55	37	27	0	36.5%
Inception Mercury	100	54	25	0	0	35.7%
Grok 4	59	42	39	34	0	34.9%
Claude Sonnet 4.6 (Reasoning)	71	56	44	0	0	34.4%
MoonshotAI: Kimi K2.5	100	24	13	12	10	31.7%
Claude Sonnet 4.5	59	57	21	15	0	30.4%
Nemotron 3 Nano	93	47	6	0	0	29.2%
ByteDance Seed 2.0 Mini	62	24	19	0	0	20.9%
Nemotron 3 Super	50	43	3	0	0	19.2%
ByteDance Seed 2.0 Lite	55	35	0	0	0	18.0%
ByteDance Seed 1.6	71	5	0	0	0	15.4%
GPT-5 Nano	19	9	0	0	0	5.6%

Technical jargon density

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets