Filter word density

Test: Bad Writing Habits

Avg. Score

87.5%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Mistral Small Creative	99.8%	$0.0007	9.1s	97%
2	Ministral 3 14B	99.8%	$0.0007	11.7s	97%
3	Mistral Small 4	99.8%	$0.0014	18.2s	98%
4	Writer: Palmyra X5	100.0%	$0.011	22.0s	99%
5	Mistral Medium 3.1	99.6%	$0.0048	36.5s	97%
6	Mistral Large 3	98.8%	$0.0033	30.3s	92%
7	Mistral Small 4 (Reasoning)	98.9%	$0.0022	30.2s	91%
8	Qwen3 235B A22B Instruct 2507	99.8%	$0.0011	59.2s	96%
9	o4 Mini	99.1%	$0.015	25.7s	91%
10	GPT-5.4 Nano (Reasoning, Low)	97.5%	$0.0055	20.6s	88%
11	Mistral Large 2	98.7%	$0.013	29.4s	90%
12	Mistral Large	98.6%	$0.014	30.9s	90%
13	GPT-5.4 Mini	97.8%	$0.015	16.8s	88%
14	GPT-5.4 Mini (Reasoning, Low)	98.3%	$0.015	16.8s	87%
15	DeepSeek V3 (2025-03-24)	98.2%	$0.0014	39.4s	86%
16	Qwen 3.5 9B	99.5%	$0.0011	1.4m	95%
17	Ministral 3 8B	97.2%	$0.0008	19.6s	81%
18	GPT-5.4 Nano (Reasoning)	97.1%	$0.0061	24.5s	85%
19	GPT-5.4 Nano	97.3%	$0.0057	26.3s	84%
20	ByteDance Seed 1.6 Flash	97.1%	$0.0013	27.3s	81%
21	o4 Mini High	99.2%	$0.025	47.2s	94%
22	Grok 4.3	97.1%	$0.0069	30.5s	83%
23	Stealth: Hunter Alpha	97.4%	$0.0000	55.0s	85%
24	Grok 4.20	97.8%	$0.0093	45.7s	86%
25	GPT-4o Mini (temp=1)	95.9%	$0.0012	34.8s	82%
26	DeepSeek V4 Flash	96.2%	$0.0006	31.6s	80%
27	Grok 4.20 (Beta)	96.0%	$0.018	15.8s	83%
28	GPT-4.1	98.2%	$0.018	44.7s	88%
29	Xiaomi MIMO v2.5 Pro	97.3%	$0.0085	53.5s	87%
30	DeepSeek V4 Pro	98.2%	$0.0048	1.3m	89%
31	DeepSeek V4 Flash (Reasoning)	95.9%	$0.0007	31.1s	78%
32	Z.AI GLM 5 Turbo	95.1%	$0.0081	33.2s	80%
33	GPT-5.4 Mini (Reasoning)	96.9%	$0.022	28.1s	83%
34	GPT-4.1 Mini	95.5%	$0.0027	19.0s	73%
35	Ministral 8B	96.1%	$0.0004	10.4s	69%
36	Qwen 3 32B	96.5%	$0.0015	54.6s	79%
37	GPT-5 Mini	95.6%	$0.0100	57.4s	84%
38	Qwen 3.6 Flash	96.3%	$0.010	41.4s	79%
39	Z.AI GLM 4.7 Flash	96.1%	$0.0017	1.2m	80%
40	Z.AI GLM 4.7	97.0%	$0.010	1.4m	85%
41	Grok 4 Fast	94.9%	$0.0017	24.1s	68%
42	Ministral 3B	93.1%	$0.0001	8.1s	64%
43	Qwen 3.5 Flash	95.0%	$0.0025	47.5s	73%
44	Qwen 3.6 35B	95.6%	$0.0083	1.0m	78%
45	Grok 4.1 Fast	96.6%	$0.0018	37.8s	67%
46	Claude Sonnet 4.5	96.4%	$0.035	38.1s	83%
47	Qwen 3.5 122B	96.3%	$0.025	1.1m	85%
48	GPT-5.4	99.8%	$0.049	1.4m	97%
49	Qwen 3.5 Plus (2026-04-20)	98.4%	$0.017	1.8m	88%
50	Claude Sonnet 4.6	96.6%	$0.031	39.3s	79%
51	GPT-5.4 (Reasoning, Low)	99.7%	$0.055	1.4m	97%
52	Grok 4.20 (Beta, Reasoning)	94.4%	$0.039	34.0s	82%
53	Gemma 3 27B	93.1%	$0.0006	52.6s	70%
54	LFM2 24B	92.2%	$0.0002	28.4s	65%
55	Aion 2.0	93.8%	$0.0064	1.3m	77%
56	GPT-4o, Aug. 6th (temp=1)	92.3%	$0.018	24.4s	70%
57	Ministral 3 3B	92.0%	$0.0005	11.1s	59%
58	Xiaomi MIMO v2.5	91.5%	$0.0054	31.8s	66%
59	Stealth: Healer Alpha	90.7%	$0.0000	23.7s	63%
60	GPT-5.1	99.7%	$0.054	1.8m	96%
61	Claude Opus 4.7 (Reasoning)	98.6%	$0.076	32.0s	89%
62	GPT-5.2	98.8%	$0.056	1.5m	93%
63	Z.AI GLM 5.1	95.7%	$0.014	1.5m	77%
64	GPT-4o Mini (temp=0)	89.2%	$0.0012	34.8s	65%
65	Gemini 3 Pro (Preview)	97.1%	$0.055	54.4s	84%
66	GPT-4.1 Nano	89.6%	$0.0007	13.3s	57%
67	Qwen 3.5 35B	93.9%	$0.018	1.0m	70%
68	DeepSeek-V2 Chat	92.2%	$0.0021	53.3s	63%
69	Gemini 2.5 Pro	93.3%	$0.036	36.2s	72%
70	DeepSeek V3 (2024-12-26)	91.6%	$0.0021	54.6s	63%
71	Grok 4.20 (Reasoning)	95.3%	$0.018	1.5m	72%
72	Gemini 2.5 Flash (Reasoning)	87.6%	$0.011	21.5s	60%
73	Z.AI GLM 5	90.7%	$0.0084	1.2m	66%
74	Gemini 3.5 Flash (Reasoning, Minimal)	87.3%	$0.018	12.0s	60%
75	Claude Opus 4.7	96.0%	$0.069	30.4s	76%
76	Claude Opus 4.6	98.2%	$0.078	1.2m	88%
77	Claude Sonnet 4.6 (Reasoning)	97.5%	$0.060	1.2m	79%
78	DeepSeek V3.2	91.9%	$0.0014	1.9m	69%
79	Qwen 3.5 27B	94.3%	$0.020	1.6m	70%
80	Mistral NeMO	86.4%	$0.0005	10.1s	48%
81	Qwen 3.5 Plus (2026-02-15)	85.2%	$0.0060	31.5s	58%
82	Rocinante 12B	88.9%	$0.0014	38.4s	52%
83	Qwen 3.6 27B	97.4%	$0.025	2.3m	77%
84	Gemma 3 12B	85.3%	$0.0004	41.3s	55%
85	Hermes 3 405B	90.1%	$0.0032	53.2s	52%
86	Claude Haiku 4.5	86.4%	$0.011	21.6s	53%
87	DeepSeek V4 Pro (Reasoning)	96.8%	$0.015	3.1m	82%
88	Claude Opus 4.6 (Reasoning)	97.7%	$0.088	1.4m	85%
89	Gemini 2.5 Flash	83.7%	$0.0052	10.6s	46%
90	Gemma 4 31B	85.5%	$0.0010	1.6m	61%
91	GPT-5.4 (Reasoning)	99.8%	$0.089	2.6m	98%
92	DeepSeek V3.1	87.8%	$0.0020	1.8m	60%
93	MiniMax M2.5	86.4%	$0.0034	1.3m	54%
94	Gemini 3 Flash (Preview)	81.3%	$0.0078	19.6s	48%
95	Gemma 3 4B	79.9%	$0.0002	20.0s	46%
96	Arcee AI: Trinity Mini	80.8%	$0.0003	9.2s	42%
97	Z.AI GLM 4.6	84.1%	$0.0065	51.5s	51%
98	Gemini 3.5 Flash (Reasoning)	90.4%	$0.071	37.6s	69%
99	GPT-5	98.3%	$0.065	2.8m	90%
100	Grok 4	95.0%	$0.048	1.7m	68%
101	MiniMax M2.7	84.4%	$0.0040	1.1m	52%
102	Claude 3 Haiku	81.4%	$0.0025	14.9s	41%
103	Qwen3.6 Max Preview	99.0%	$0.050	3.5m	90%
104	Gemma 4 31B (Reasoning)	88.1%	$0.0014	2.2m	60%
105	GPT-5.5	100.0%	$0.139	1.7m	100%
106	Qwen 3.5 397B A17B	92.6%	$0.014	3.0m	70%
107	GPT-4o, May 13th (temp=1)	84.3%	$0.033	14.4s	47%
108	GPT-5.5 (Reasoning)	100.0%	$0.142	1.8m	100%
109	GPT-5.5 (Reasoning, Low)	99.9%	$0.139	1.8m	98%
110	Qwen3.7 Max	95.5%	$0.068	2.3m	78%
111	Gemini 2.5 Flash Lite	75.4%	$0.0009	9.5s	39%
112	Gemini 3.1 Pro (Preview)	97.7%	$0.107	1.8m	83%
113	Grok 4.3 (Reasoning)	90.8%	$0.021	2.3m	55%
114	MoonshotAI: Kimi K2.5	91.0%	$0.019	3.2m	63%
115	Cohere Command R+ (Aug. 2024)	81.8%	$0.020	52.5s	38%
116	Gemini 3.1 Flash Lite	70.8%	$0.0030	12.1s	33%
117	GPT-4o, May 13th (temp=0)	79.2%	$0.035	14.1s	37%
118	Claude Opus 4.5	85.4%	$0.070	53.4s	55%
119	Gemini 3.1 Flash Lite (Preview)	70.4%	$0.0030	8.4s	32%
120	Gemini 3 Flash (Preview, Reasoning)	74.2%	$0.012	30.1s	37%
121	GPT-4o, Aug. 6th (temp=0)	77.8%	$0.023	22.7s	34%
122	ByteDance Seed 2.0 Lite	83.2%	$0.012	2.2m	46%
123	Gemini 3.1 Flash Lite (Reasoning)	67.0%	$0.0030	11.9s	29%
124	Arcee AI: Trinity Large (Preview)	73.3%	$0.0000	43.6s	25%
125	Hermes 3 70B	73.8%	$0.0010	1.2m	31%
126	Gemma 4 26B	71.4%	$0.0009	55.1s	28%
127	WizardLM 2 8x22b	79.3%	$0.0026	1.8m	31%
128	Z.AI GLM 4.5	70.5%	$0.0051	42.1s	26%
129	Z.AI GLM 4.5 Air	71.2%	$0.0029	58.2s	26%
130	Qwen 2.5 72B	66.2%	$0.0010	36.7s	24%
131	Claude 3.7 Sonnet	73.0%	$0.042	46.7s	34%
132	Gemini 2.5 Flash Lite (Reasoning)	62.8%	$0.0028	30.8s	21%
133	MoonshotAI: Kimi K2.6	98.0%	$0.058	6.5m	88%
134	Claude 3.5 Sonnet	71.2%	$0.048	35.5s	27%
135	ByteDance Seed 1.6	74.2%	$0.013	2.5m	33%
136	Gemma 4 26B (Reasoning)	69.5%	$0.0013	2.0m	25%
137	GPT-5 Nano	61.0%	$0.0042	1.4m	25%
138	Claude Sonnet 4	64.0%	$0.032	43.7s	18%
139	Claude Opus 4	93.7%	$0.209	1.4m	72%
140	Llama 3.1 70B	44.9%	$0.0015	29.4s	10%
141	Inception Mercury 2	40.8%	$0.0032	7.0s	10%
142	Nemotron 3 Super	51.5%	$0.0000	1.4m	15%
143	ByteDance Seed 2.0 Mini	75.4%	$0.0045	4.9m	36%
144	Inception Mercury	47.2%	$0.011	17.6s	2%
145	GPT-OSS 120B	49.5%	$0.0015	1.8m	12%
146	Stealth: Aurora Alpha	33.9%	$0.0000	9.8s	4%
147	Llama 3.1 Nemotron 70B	37.5%	$0.0038	31.7s	6%
148	Llama 3.1 8B	40.0%	$0.0003	1.3m	9%
149	Mistral Small 3.2 24B	77.6%	$0.0068	5.6m	26%
150	Nemotron 3 Nano	25.6%	$0.0010	1.1m	2%
87.48%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	99	99.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	99	99.7%
Qwen 3 32B	100	100	100	100	98	99.6%
Ministral 3 8B	100	100	100	100	97	99.4%
Qwen 3.5 35B	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	91	98.2%
LFM2 24B	100	100	100	98	92	97.9%
WizardLM 2 8x22b	100	100	100	99	90	97.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	89	97.7%
Aion 2.0	100	100	100	100	84	96.8%
MoonshotAI: Kimi K2.6	100	100	100	100	83	96.7%
Ministral 8B	100	100	100	94	88	96.5%
DeepSeek V3 (2024-12-26)	100	100	100	100	82	96.5%
MoonshotAI: Kimi K2.5	100	100	100	96	86	96.5%
DeepSeek V4 Pro	100	100	100	100	81	96.1%
Grok 4.20 (Beta, Reasoning)	100	99	96	92	91	95.7%
Arcee AI: Trinity Mini	100	100	100	95	83	95.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	94	84	95.5%
Z.AI GLM 5	100	100	100	92	84	95.3%
GPT-5 Mini	100	100	100	98	78	95.1%
Grok 4.20 (Beta)	100	100	100	88	87	95.1%
Grok 4	100	100	100	100	73	94.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	71	94.1%
Z.AI GLM 4.7	100	100	93	91	84	93.7%
MiniMax M2.7	96	95	95	92	90	93.7%
ByteDance Seed 1.6	100	100	100	94	71	93.0%
Claude Sonnet 4.5	100	100	100	87	76	92.6%
Xiaomi MIMO v2.5 Pro	100	100	99	89	73	92.3%
Z.AI GLM 5 Turbo	100	98	97	92	75	92.3%
GPT-4.1 Nano	100	98	95	91	76	92.1%
Claude Opus 4.6 (Reasoning)	100	100	100	91	69	92.0%
Gemma 3 27B	100	100	100	93	63	91.3%
Claude Opus 4	100	100	100	100	55	91.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	95	90	66	90.3%
DeepSeek V3.2	100	100	100	77	73	89.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	95	52	89.5%
Claude 3 Haiku	100	100	100	85	62	89.4%
DeepSeek V4 Flash	100	100	100	82	60	88.4%
Gemini 2.5 Pro	100	100	100	100	42	88.4%
GPT-4.1 Mini	100	100	100	87	52	87.9%
Gemma 4 31B (Reasoning)	100	100	98	85	54	87.1%
ByteDance Seed 2.0 Lite	100	100	100	98	37	87.1%
Stealth: Healer Alpha	100	100	100	100	34	86.8%
Claude Opus 4.5	100	100	90	78	66	86.8%
Stealth: Hunter Alpha	100	100	89	75	55	83.8%
Ministral 3B	100	100	100	100	9	81.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	73	34	81.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	84	74	49	81.4%
Rocinante 12B	100	96	95	88	24	80.6%
Gemini 3.1 Flash Lite	100	98	72	63	55	77.9%
Hermes 3 70B	100	100	100	86	0	77.1%
Gemini 2.5 Flash (Reasoning)	100	99	76	66	40	76.3%
DeepSeek-V2 Chat	100	100	100	70	11	76.1%
Ministral 3 3B	100	100	100	52	27	75.7%
Mistral NeMO	100	91	88	88	11	75.6%
GPT-4o Mini (temp=0)	87	82	75	73	61	75.5%
Claude 3.5 Sonnet	100	86	75	68	49	75.5%
Gemini 3.1 Flash Lite (Preview)	100	74	69	67	62	74.3%
Gemini 3 Flash (Preview)	96	88	80	63	27	70.8%
Gemma 3 4B	88	79	71	71	44	70.3%
Gemma 4 26B	83	79	75	65	48	69.9%
Xiaomi MIMO v2.5	100	100	84	51	13	69.6%
Z.AI GLM 4.6	100	79	74	63	32	69.4%
GPT-4o, May 13th (temp=1)	100	100	100	46	0	69.2%
GPT-4o, Aug. 6th (temp=0)	100	94	88	62	0	68.9%
GPT-OSS 120B	100	71	66	63	35	67.0%
Gemma 4 31B	100	87	65	48	33	66.5%
Hermes 3 405B	100	100	56	46	26	65.7%
Nemotron 3 Super	100	86	54	45	38	64.8%
Z.AI GLM 4.5	100	83	73	65	0	64.2%
DeepSeek V3.1	94	88	69	60	10	64.1%
Claude Haiku 4.5	91	83	77	66	0	63.4%
Inception Mercury 2	100	73	63	40	35	62.3%
Gemini 3.1 Flash Lite (Reasoning)	100	72	56	54	15	59.4%
Claude Sonnet 4	100	77	52	33	19	56.2%
GPT-4o, May 13th (temp=0)	94	59	58	39	23	54.5%
ByteDance Seed 2.0 Mini	100	100	54	11	0	53.0%
GPT-5 Nano	71	68	56	40	28	52.7%
MiniMax M2.5	100	86	41	36	0	52.6%
Gemini 2.5 Flash	100	89	38	25	4	51.2%
Z.AI GLM 4.5 Air	100	67	37	29	22	51.0%
Claude 3.7 Sonnet	100	81	48	24	0	50.4%
Arcee AI: Trinity Large (Preview)	95	89	60	2	0	49.2%
Gemma 4 26B (Reasoning)	85	79	44	9	0	43.4%
Gemma 3 12B	85	55	33	27	0	39.9%
Nemotron 3 Nano	81	66	33	0	0	35.9%
Llama 3.1 70B	100	75	0	0	0	35.0%
Gemini 2.5 Flash Lite	63	46	42	18	0	33.8%
Stealth: Aurora Alpha	100	34	16	9	0	31.8%
Llama 3.1 8B	61	51	37	0	0	29.9%
Qwen 2.5 72B	60	50	15	5	0	26.1%
Gemini 2.5 Flash Lite (Reasoning)	61	29	15	0	0	20.9%
Mistral Small 3.2 24B	38	32	21	0	0	18.3%
Cohere Command R+ (Aug. 2024)	71	0	0	0	0	14.3%
Inception Mercury	0	0	0	0	0	0.0%
Llama 3.1 Nemotron 70B	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	99	99.7%
GPT-5	100	100	100	100	97	99.4%
WizardLM 2 8x22b	100	100	100	100	96	99.2%
Z.AI GLM 4.7	100	100	100	100	95	98.9%
Z.AI GLM 5	100	100	100	100	94	98.9%
Stealth: Hunter Alpha	100	100	100	98	94	98.4%
DeepSeek V4 Flash	100	100	100	100	92	98.4%
Ministral 3 3B	100	100	100	100	92	98.4%
GPT-4.1 Mini	100	100	100	100	90	98.0%
DeepSeek V4 Pro	100	100	100	100	89	97.7%
Qwen 3.5 122B	100	100	100	100	87	97.5%
Grok 4.20 (Beta, Reasoning)	100	100	100	99	89	97.5%
ByteDance Seed 2.0 Lite	100	100	100	100	87	97.4%
Z.AI GLM 5 Turbo	100	100	100	100	86	97.2%
Gemma 4 31B	100	100	100	97	89	97.1%
DeepSeek V3.1	100	100	100	100	85	97.1%
Ministral 3B	100	100	100	100	83	96.6%
Z.AI GLM 4.6	100	100	100	91	91	96.5%
GPT-5.4 Nano (Reasoning)	100	100	100	100	81	96.2%
GPT-4o Mini (temp=1)	100	100	100	92	88	95.9%
DeepSeek-V2 Chat	100	100	100	94	85	95.8%
Gemini 3.5 Flash (Reasoning)	100	100	100	91	87	95.6%
Qwen 3.5 35B	100	100	100	100	75	95.1%
DeepSeek V3 (2024-12-26)	100	100	100	100	75	95.0%
DeepSeek V3.2	100	100	100	89	85	94.7%
Grok 4.3 (Reasoning)	100	100	100	100	73	94.6%
MiniMax M2.5	100	100	100	87	85	94.3%
Claude Opus 4.5	100	100	98	87	86	94.3%
Claude Sonnet 4	100	100	100	100	71	94.1%
GPT-5.4 Nano	100	100	100	89	80	93.8%
Mistral Large 2	100	100	100	82	69	90.2%
GPT-4o, May 13th (temp=1)	100	100	94	79	72	89.0%
Stealth: Healer Alpha	100	100	99	93	54	88.9%
Z.AI GLM 4.5	100	95	88	88	71	88.6%
GPT-4o Mini (temp=0)	100	91	89	89	71	88.0%
Gemma 4 26B	100	100	99	75	64	87.7%
Hermes 3 405B	100	100	100	100	36	87.1%
GPT-4.1 Nano	100	100	100	86	48	86.8%
Gemma 4 26B (Reasoning)	100	98	97	88	49	86.3%
Gemini 2.5 Pro	100	100	81	77	74	86.3%
Arcee AI: Trinity Large (Preview)	100	100	100	96	31	85.5%
MiniMax M2.7	100	100	100	72	55	85.4%
Gemini 3 Flash (Preview)	100	100	98	83	43	84.8%
GPT-4o, Aug. 6th (temp=1)	100	100	82	76	60	83.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	83	74	58	83.0%
Ministral 8B	100	100	100	100	13	82.6%
Gemma 3 27B	100	93	82	81	53	81.7%
Gemini 2.5 Flash (Reasoning)	100	88	81	70	67	81.3%
Gemini 2.5 Flash	100	99	80	63	63	80.9%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Arcee AI: Trinity Mini	100	100	100	79	20	80.0%
Gemini 3.1 Flash Lite (Preview)	100	100	73	64	61	79.7%
Xiaomi MIMO v2.5	100	100	82	77	37	79.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	59	39	78.3%
Gemma 3 12B	95	93	79	64	58	78.0%
ByteDance Seed 2.0 Mini	100	100	100	71	18	77.8%
Claude 3.5 Sonnet	100	93	88	62	38	76.3%
Gemini 3.1 Flash Lite	100	98	78	74	30	76.1%
GPT-4o, Aug. 6th (temp=0)	97	89	83	62	30	72.3%
Hermes 3 70B	100	91	90	73	0	70.8%
Gemini 3.1 Flash Lite (Reasoning)	86	83	82	60	36	69.5%
Z.AI GLM 4.5 Air	100	91	74	56	18	67.7%
ByteDance Seed 1.6	100	100	70	38	26	66.9%
GPT-4o, May 13th (temp=0)	100	92	64	45	25	65.4%
Gemma 3 4B	75	71	66	61	51	64.8%
Mistral NeMO	100	76	70	59	0	60.9%
Nemotron 3 Super	90	83	44	36	18	54.3%
Claude 3.7 Sonnet	100	94	58	12	7	54.2%
Cohere Command R+ (Aug. 2024)	100	68	44	36	0	49.5%
GPT-5 Nano	100	63	44	39	0	49.2%
Gemini 2.5 Flash Lite	89	45	42	24	11	42.2%
Claude 3 Haiku	79	46	46	21	5	39.5%
Qwen 2.5 72B	92	51	39	1	0	36.9%
GPT-OSS 120B	52	48	38	32	2	34.2%
Llama 3.1 70B	100	22	0	0	0	24.4%
Stealth: Aurora Alpha	80	17	0	0	0	19.4%
Nemotron 3 Nano	36	33	17	0	0	17.3%
Inception Mercury 2	37	33	3	0	0	14.5%
Gemini 2.5 Flash Lite (Reasoning)	42	9	6	0	0	11.4%
Llama 3.1 8B	54	0	0	0	0	10.7%
Llama 3.1 Nemotron 70B	11	0	0	0	0	2.1%
Inception Mercury	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	99.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	99.9%
Mistral Medium 3.1	100	100	100	100	99	99.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	98	99.7%
Gemma 3 27B	100	100	100	100	97	99.4%
Ministral 3B	100	100	100	100	97	99.4%
Claude Haiku 4.5	100	100	100	100	96	99.3%
Qwen 3.5 397B A17B	100	100	100	100	96	99.2%
Inception Mercury	100	100	100	100	96	99.1%
GPT-4.1 Nano	100	100	100	100	95	99.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	94	98.7%
o4 Mini High	100	100	100	100	94	98.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	93	98.6%
Qwen 3.5 122B	100	100	100	100	93	98.5%
MoonshotAI: Kimi K2.5	100	100	100	100	91	98.2%
GPT-5 Mini	100	100	100	100	91	98.1%
Stealth: Aurora Alpha	100	100	100	100	90	98.1%
LFM2 24B	100	100	100	100	89	97.9%
GPT-5.4 Nano	100	100	100	100	88	97.7%
Z.AI GLM 4.5	100	100	100	98	91	97.6%
ByteDance Seed 1.6	100	100	100	100	88	97.6%
Gemini 2.5 Pro	100	100	100	100	88	97.6%
Hermes 3 405B	100	100	100	100	88	97.6%
Mistral Large	100	100	100	100	87	97.4%
DeepSeek-V2 Chat	100	100	100	100	85	96.9%
Qwen3.6 Max Preview	100	100	100	100	83	96.7%
Z.AI GLM 4.6	100	100	100	100	83	96.7%
Qwen 3.6 35B	100	100	100	100	81	96.3%
GPT-5.4 Nano (Reasoning)	100	100	100	100	80	96.1%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	80	96.0%
Qwen 2.5 72B	100	100	100	100	80	96.0%
GPT-OSS 120B	100	100	100	93	86	95.9%
GPT-5	100	100	100	100	76	95.3%
Qwen 3.6 27B	100	100	100	100	76	95.3%
Gemini 3 Flash (Preview)	100	100	100	99	77	95.2%
GPT-4o, May 13th (temp=0)	100	100	100	90	85	95.0%
Rocinante 12B	100	100	100	87	86	94.7%
Nemotron 3 Super	100	100	100	100	71	94.3%
Claude Opus 4.5	100	100	100	88	79	93.5%
MiniMax M2.5	100	100	100	96	69	93.1%
ByteDance Seed 2.0 Mini	100	100	100	100	62	92.4%
GPT-4o, May 13th (temp=1)	100	100	100	100	61	92.2%
GPT-4o Mini (temp=1)	100	100	100	84	75	91.8%
Qwen 3.5 27B	100	100	100	100	56	91.3%
Inception Mercury 2	100	100	100	99	53	90.3%
DeepSeek V3.1	100	100	100	91	51	88.5%
Hermes 3 70B	100	100	91	85	66	88.2%
Claude Opus 4.7	100	100	100	100	41	88.2%
Gemini 3.1 Flash Lite	100	100	100	88	52	87.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	99	36	87.0%
Gemini 2.5 Flash Lite	100	100	89	87	43	83.9%
Gemini 3.1 Flash Lite (Preview)	100	98	95	91	26	81.9%
Mistral NeMO	100	100	100	98	11	81.8%
GPT-5 Nano	100	90	73	70	69	80.4%
Cohere Command R+ (Aug. 2024)	100	100	100	100	0	80.0%
Llama 3.1 Nemotron 70B	100	75	75	66	63	75.8%
Llama 3.1 70B	100	85	71	43	38	67.5%
Nemotron 3 Nano	100	100	86	35	0	64.2%
Llama 3.1 8B	99	78	75	38	28	63.5%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	99.9%
Gemini 3 Pro (Preview)	100	100	100	100	99	99.7%
GPT-4o, May 13th (temp=0)	100	100	100	100	98	99.6%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	98	99.5%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	97	99.4%
Qwen 3.5 397B A17B	100	100	100	100	97	99.3%
ByteDance Seed 1.6 Flash	100	100	100	100	96	99.3%
GPT-4o Mini (temp=0)	100	100	100	100	96	99.2%
Claude Opus 4	100	100	100	100	96	99.1%
DeepSeek V4 Flash	100	100	100	100	95	99.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	95	99.0%
MiniMax M2.5	100	100	100	100	95	99.0%
Ministral 3 3B	100	100	100	100	95	98.9%
Claude Opus 4.5	100	100	100	100	94	98.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	94	98.7%
GPT-4o, May 13th (temp=1)	100	100	100	100	94	98.7%
Mistral Small 4	100	100	100	100	94	98.7%
Gemini 2.5 Flash (Reasoning)	100	100	100	98	93	98.2%
Grok 4.3	100	100	100	99	91	98.1%
Grok 4.20 (Beta)	100	100	100	100	90	98.0%
Gemma 3 12B	100	100	100	100	90	98.0%
Claude 3 Haiku	100	100	100	100	90	97.9%
Z.AI GLM 5 Turbo	100	100	100	99	90	97.8%
Gemini 2.5 Pro	100	100	100	100	89	97.7%
Aion 2.0	100	100	100	100	88	97.6%
Mistral Large 3	100	100	100	100	88	97.6%
WizardLM 2 8x22b	100	100	100	94	93	97.5%
GPT-4.1 Mini	100	100	100	98	90	97.5%
Qwen 3.5 27B	100	100	100	100	87	97.4%
Qwen 3.5 122B	100	100	100	100	87	97.4%
GPT-5	100	100	100	97	90	97.2%
Z.AI GLM 5	100	100	98	94	93	97.0%
Claude Sonnet 4.5	100	100	100	100	83	96.7%
Mistral Small 4 (Reasoning)	100	100	100	100	82	96.5%
o4 Mini High	100	100	100	100	82	96.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	82	96.4%
Grok 4.20 (Reasoning)	100	100	100	100	81	96.1%
LFM2 24B	100	100	100	100	81	96.1%
DeepSeek-V2 Chat	100	100	100	100	80	96.0%
Qwen 3.6 27B	100	100	100	100	77	95.5%
GPT-5.4 Nano (Reasoning)	100	100	100	100	76	95.3%
DeepSeek V3.2	100	100	98	91	85	94.9%
Claude Opus 4.7 (Reasoning)	100	100	100	95	79	94.7%
Claude Haiku 4.5	100	100	100	94	78	94.3%
DeepSeek V3 (2025-03-24)	100	100	100	100	70	93.9%
Grok 4.20	100	100	100	100	67	93.3%
GPT-4o Mini (temp=1)	100	100	100	89	77	93.2%
Hermes 3 70B	100	100	100	100	66	93.1%
Qwen 3 32B	100	100	100	89	75	92.8%
Arcee AI: Trinity Large (Preview)	100	100	100	99	63	92.4%
GPT-5 Mini	100	100	100	87	73	91.9%
Grok 4.20 (Beta, Reasoning)	100	100	99	87	70	91.2%
Grok 4 Fast	100	100	100	86	63	90.0%
Xiaomi MIMO v2.5	100	100	100	91	59	90.0%
GPT-4o, Aug. 6th (temp=0)	100	100	98	83	68	89.7%
Z.AI GLM 4.5 Air	100	100	100	91	55	89.2%
Ministral 3B	100	100	100	90	55	89.1%
GPT-4o, Aug. 6th (temp=1)	100	100	100	87	54	88.1%
DeepSeek V3.1	100	100	88	84	61	86.7%
MiniMax M2.7	100	100	83	76	71	86.1%
Gemma 4 26B	100	100	100	65	64	85.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	65	63	85.7%
Claude 3.5 Sonnet	100	100	85	73	70	85.5%
MoonshotAI: Kimi K2.5	100	97	93	86	49	85.1%
ByteDance Seed 2.0 Lite	100	100	100	66	59	84.9%
Stealth: Healer Alpha	100	94	87	71	71	84.7%
Gemini 3.5 Flash (Reasoning)	100	100	88	81	52	84.2%
Z.AI GLM 4.5	100	100	82	81	52	82.8%
GPT-5 Nano	100	93	87	74	60	82.6%
Claude Sonnet 4	100	100	93	86	19	79.5%
Gemini 3 Flash (Preview)	100	100	95	76	24	79.0%
Gemini 2.5 Flash Lite	99	95	94	57	41	77.2%
Arcee AI: Trinity Mini	99	89	73	71	44	75.4%
Gemma 4 31B	100	86	69	65	52	74.5%
Z.AI GLM 4.6	100	100	82	67	21	74.0%
Claude 3.7 Sonnet	100	100	83	39	38	71.9%
Gemma 4 31B (Reasoning)	100	91	88	52	28	71.7%
Gemini 3 Flash (Preview, Reasoning)	87	76	72	69	34	67.9%
Gemma 3 4B	100	86	79	49	25	67.7%
Qwen 2.5 72B	100	100	62	52	24	67.6%
GPT-OSS 120B	100	99	56	45	27	65.6%
Mistral Small 3.2 24B	100	100	100	24	0	64.8%
Gemini 2.5 Flash Lite (Reasoning)	74	71	68	59	45	63.2%
Nemotron 3 Nano	100	87	54	52	13	61.1%
ByteDance Seed 1.6	96	76	70	43	16	60.2%
Inception Mercury	100	100	100	0	0	60.0%
ByteDance Seed 2.0 Mini	100	100	71	17	0	57.6%
Inception Mercury 2	93	85	55	48	5	57.4%
Nemotron 3 Super	100	94	48	33	0	55.2%
Gemini 3.1 Flash Lite (Preview)	93	84	73	15	10	55.1%
Gemini 3.1 Flash Lite (Reasoning)	100	89	41	39	0	53.8%
Gemma 4 26B (Reasoning)	90	63	62	48	0	52.7%
Gemini 3.1 Flash Lite	82	75	48	32	10	49.3%
Llama 3.1 70B	63	63	61	54	0	48.4%
Stealth: Aurora Alpha	82	81	70	0	0	46.4%
Llama 3.1 Nemotron 70B	100	48	17	0	0	32.9%
Llama 3.1 8B	76	48	39	0	0	32.4%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	99	99.8%
Qwen 3.6 27B	100	100	100	100	99	99.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.8%
Ministral 8B	100	100	100	100	99	99.7%
GPT-4o, May 13th (temp=1)	100	100	100	100	98	99.6%
Xiaomi MIMO v2.5 Pro	100	100	100	100	98	99.6%
Stealth: Healer Alpha	100	100	100	100	98	99.5%
Arcee AI: Trinity Large (Preview)	100	100	100	100	98	99.5%
DeepSeek V4 Flash	100	100	100	100	98	99.5%
GPT-4.1	100	100	100	100	95	98.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	94	98.7%
GPT-5.2	100	100	100	100	93	98.6%
Gemini 3.1 Flash Lite	100	100	100	100	93	98.5%
Ministral 3 3B	100	100	100	100	93	98.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	92	98.4%
Stealth: Hunter Alpha	100	100	100	100	91	98.3%
Grok 4.20	100	100	100	100	91	98.2%
Claude Opus 4.6	100	100	100	100	91	98.1%
Claude Opus 4.5	100	100	100	100	89	97.9%
Z.AI GLM 5	100	100	100	100	89	97.7%
Claude 3.7 Sonnet	100	100	100	100	88	97.7%
GPT-5.4 Mini (Reasoning)	100	100	100	96	90	97.4%
GPT-4o Mini (temp=0)	100	100	100	97	89	97.1%
ByteDance Seed 1.6	100	100	100	100	86	97.1%
Gemma 4 31B (Reasoning)	100	100	100	100	85	96.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	94	91	96.9%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	95	88	96.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	82	96.4%
GPT-OSS 120B	100	100	100	100	82	96.4%
Mistral Small 3.2 24B	100	100	100	100	82	96.4%
Gemini 2.5 Pro	100	100	100	96	86	96.3%
DeepSeek V3.2	100	100	100	100	81	96.1%
GPT-4.1 Nano	100	100	100	100	79	95.8%
Qwen 3.6 Flash	100	100	100	100	78	95.6%
Gemma 4 26B	100	100	100	94	83	95.6%
Claude Haiku 4.5	100	100	100	92	85	95.4%
Gemma 4 31B	100	100	100	96	81	95.4%
Z.AI GLM 5 Turbo	100	100	100	91	82	94.6%
Cohere Command R+ (Aug. 2024)	100	100	100	90	82	94.3%
Aion 2.0	100	100	100	95	76	94.1%
Gemini 3 Pro (Preview)	100	100	100	90	79	93.7%
Z.AI GLM 4.7	100	100	100	100	68	93.5%
Arcee AI: Trinity Mini	100	100	100	100	68	93.5%
DeepSeek V3.1	100	100	96	89	82	93.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	99	68	93.3%
GPT-5 Mini	100	100	100	89	77	93.3%
Grok 4.20 (Beta, Reasoning)	100	100	100	99	68	93.3%
Z.AI GLM 5.1	100	100	100	93	72	93.0%
Claude 3.5 Sonnet	100	100	100	100	61	92.2%
Gemini 2.5 Flash	100	100	100	88	70	91.6%
Gemini 2.5 Flash (Reasoning)	100	100	100	88	67	90.9%
MiniMax M2.5	100	100	96	84	72	90.4%
Gemma 3 4B	100	100	100	100	51	90.1%
Ministral 3B	100	100	100	100	50	90.0%
Inception Mercury 2	100	100	100	100	45	89.1%
Qwen 3.5 27B	100	100	100	100	45	89.0%
Ministral 3 8B	100	100	100	100	45	89.0%
Z.AI GLM 4.5 Air	100	100	100	80	61	88.3%
Gemini 3.1 Flash Lite (Preview)	100	100	100	81	58	87.7%
Qwen 3.5 Plus (2026-02-15)	100	100	100	85	48	86.6%
Gemma 4 26B (Reasoning)	100	100	100	80	51	86.1%
Gemma 3 12B	100	100	79	74	71	84.8%
Gemini 3 Flash (Preview, Reasoning)	100	95	93	76	60	84.8%
Gemini 2.5 Flash Lite	100	89	87	68	67	82.4%
ByteDance Seed 2.0 Lite	100	100	100	100	9	81.7%
Rocinante 12B	100	100	100	71	36	81.4%
Z.AI GLM 4.6	100	94	86	78	48	81.0%
Qwen 2.5 72B	100	100	84	81	39	80.8%
Stealth: Aurora Alpha	100	100	89	81	35	80.8%
Claude Opus 4.7	100	100	100	49	46	79.0%
Llama 3.1 70B	100	100	90	66	37	78.5%
GPT-5 Nano	100	100	89	85	13	77.4%
Z.AI GLM 4.5	100	100	100	80	0	76.0%
Gemini 3 Flash (Preview)	92	89	87	60	44	74.5%
Nemotron 3 Super	86	80	71	61	60	71.4%
Hermes 3 70B	100	100	95	50	0	69.0%
Gemini 2.5 Flash Lite (Reasoning)	97	71	55	45	45	62.6%
Gemini 3.1 Flash Lite (Reasoning)	90	88	52	49	33	62.3%
Nemotron 3 Nano	100	76	66	17	0	51.7%
Llama 3.1 8B	100	75	66	0	0	48.1%
Llama 3.1 Nemotron 70B	100	76	33	15	5	45.9%
ByteDance Seed 2.0 Mini	60	46	38	13	11	33.7%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	99	99.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	98	99.6%
Qwen3.7 Max	100	100	100	100	98	99.6%
LFM2 24B	100	100	100	100	98	99.5%
DeepSeek V3.2	100	100	100	100	97	99.5%
GPT-5.2	100	100	100	100	97	99.4%
Mistral Large	100	100	100	100	97	99.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	97	99.4%
Claude Opus 4.7 (Reasoning)	100	100	100	100	97	99.4%
MiniMax M2.5	100	100	100	100	96	99.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	96	99.2%
GPT-5.1	100	100	100	100	92	98.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	92	98.4%
Grok 4.20	100	100	100	100	91	98.2%
Mistral Medium 3.1	100	100	100	100	91	98.1%
Stealth: Hunter Alpha	100	100	100	100	90	98.1%
Gemma 4 26B (Reasoning)	100	100	100	96	94	97.9%
Gemma 3 27B	100	100	100	100	87	97.5%
Rocinante 12B	100	100	100	100	87	97.4%
DeepSeek V4 Pro	100	100	100	100	87	97.4%
Grok 4.3 (Reasoning)	100	100	100	94	93	97.3%
Gemini 3 Pro (Preview)	100	100	100	98	89	97.2%
MoonshotAI: Kimi K2.5	100	100	100	100	86	97.1%
GPT-4o Mini (temp=0)	100	100	100	100	86	97.1%
Mistral Small Creative	100	100	100	100	86	97.1%
Ministral 3 14B	100	100	100	100	86	97.1%
Grok 4.3	100	100	100	94	92	97.1%
Qwen 3 32B	100	100	100	95	90	97.1%
MoonshotAI: Kimi K2.6	100	100	100	100	85	96.9%
Qwen 3.5 397B A17B	100	100	100	100	84	96.9%
Hermes 3 70B	100	100	100	100	83	96.7%
Mistral Large 2	100	100	100	95	89	96.7%
MiniMax M2.7	100	100	100	100	82	96.4%
Mistral Large 3	100	100	100	100	80	96.0%
Qwen 3.5 122B	100	100	100	100	80	96.0%
Claude Opus 4.6	100	100	100	100	80	95.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	79	95.8%
Ministral 3 3B	100	100	100	100	77	95.4%
DeepSeek V3.1	100	100	100	90	87	95.4%
Gemini 2.5 Pro	100	100	93	93	89	95.1%
GPT-5 Mini	100	100	100	98	75	94.7%
Z.AI GLM 5 Turbo	100	100	100	100	71	94.3%
Z.AI GLM 4.6	100	100	100	87	84	94.1%
Stealth: Healer Alpha	100	100	100	99	70	93.9%
Gemma 3 12B	100	100	100	92	74	93.1%
Grok 4.20 (Reasoning)	100	100	100	100	65	93.1%
Claude Haiku 4.5	100	100	100	93	71	92.8%
GPT-4o, May 13th (temp=0)	100	100	100	100	63	92.7%
Grok 4.20 (Beta)	100	100	96	88	78	92.5%
Claude Opus 4.5	100	100	96	86	80	92.4%
Qwen 3.5 Plus (2026-02-15)	100	100	100	97	64	92.3%
Grok 4	100	100	100	94	67	92.1%
Gemini 2.5 Flash Lite	100	100	96	95	69	92.0%
GPT-4.1 Mini	100	100	100	91	68	91.7%
Xiaomi MIMO v2.5	100	100	100	86	70	91.3%
Grok 4.20 (Beta, Reasoning)	100	100	100	86	70	91.1%
Qwen 2.5 72B	100	100	100	97	57	90.8%
Qwen 3.5 35B	100	100	100	100	54	90.8%
Aion 2.0	100	100	89	88	75	90.4%
Gemma 4 31B	100	98	88	83	81	90.2%
Claude Sonnet 4	100	100	100	91	60	90.1%
Z.AI GLM 4.5	100	100	92	91	66	89.8%
GPT-5.4 Nano (Reasoning, Low)	100	89	88	85	84	89.2%
DeepSeek-V2 Chat	100	100	100	100	44	88.7%
WizardLM 2 8x22b	100	100	100	97	43	88.1%
Gemma 4 31B (Reasoning)	100	100	100	70	69	87.6%
Z.AI GLM 4.7 Flash	100	100	98	86	55	87.6%
Mistral NeMO	100	100	100	95	41	87.2%
Claude 3.5 Sonnet	100	94	88	85	65	86.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	97	71	60	85.5%
Arcee AI: Trinity Large (Preview)	100	100	100	92	35	85.3%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	22	84.4%
Gemma 4 26B	100	96	94	90	43	84.4%
GPT-4o, May 13th (temp=1)	100	100	87	87	39	82.6%
GPT-5 Nano	100	80	77	75	74	81.1%
Claude 3 Haiku	100	100	89	81	35	80.9%
Qwen 3.6 27B	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	90	80	30	80.0%
ByteDance Seed 2.0 Lite	100	90	87	63	48	77.6%
Z.AI GLM 4.5 Air	100	97	78	61	52	77.6%
Cohere Command R+ (Aug. 2024)	100	100	100	66	14	76.2%
Arcee AI: Trinity Mini	100	88	75	66	52	76.0%
Claude 3.7 Sonnet	100	89	88	54	49	75.9%
Gemini 3.1 Flash Lite (Preview)	89	85	71	62	54	72.1%
Gemini 3 Flash (Preview)	93	88	72	66	42	72.0%
Gemini 3 Flash (Preview, Reasoning)	95	85	82	73	24	71.6%
Gemini 3.1 Flash Lite	100	100	67	66	22	70.9%
Gemma 3 4B	86	77	72	68	47	69.8%
Llama 3.1 70B	100	75	59	54	52	67.8%
ByteDance Seed 1.6	100	69	61	55	48	66.6%
Llama 3.1 Nemotron 70B	100	100	100	27	0	65.4%
ByteDance Seed 2.0 Mini	100	100	70	50	0	63.9%
Inception Mercury	100	100	66	46	0	62.4%
Nemotron 3 Super	82	75	58	44	38	59.2%
Llama 3.1 8B	100	100	57	33	3	58.7%
GPT-OSS 120B	56	49	47	26	22	39.8%
Stealth: Aurora Alpha	77	55	31	29	0	38.6%
Inception Mercury 2	69	60	43	12	0	36.9%
Nemotron 3 Nano	100	67	8	0	0	35.1%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	99	99.8%
GPT-5.4 Nano	100	100	100	100	99	99.8%
Mistral Large	100	100	100	100	99	99.7%
Grok 4.20 (Beta)	100	100	100	100	97	99.4%
Qwen 3.6 Flash	100	100	100	100	97	99.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	96	99.2%
GPT-5.4 (Reasoning, Low)	100	100	100	100	95	98.9%
o4 Mini	100	100	100	100	92	98.5%
Ministral 8B	100	100	100	100	91	98.3%
GPT-5.4 (Reasoning)	100	100	100	100	91	98.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	91	98.1%
Grok 4 Fast	100	100	100	100	89	97.8%
Stealth: Hunter Alpha	100	100	100	100	88	97.6%
Mistral Small 4 (Reasoning)	100	100	100	100	88	97.6%
Mistral Large 3	100	100	100	100	87	97.5%
Grok 4.3	100	100	100	99	87	97.2%
ByteDance Seed 2.0 Lite	100	100	100	100	83	96.7%
Qwen 3.5 35B	100	100	100	95	87	96.3%
Claude Sonnet 4.5	100	100	100	100	82	96.3%
Qwen 3.6 27B	100	100	100	95	86	96.3%
GPT-4.1 Mini	100	100	100	100	81	96.1%
GPT-5.2	100	100	100	93	86	95.8%
Claude Opus 4.7	100	100	100	100	79	95.8%
GPT-5.4 Nano (Reasoning)	100	100	100	100	77	95.4%
Xiaomi MIMO v2.5 Pro	100	100	100	91	85	95.2%
DeepSeek V4 Pro	100	100	100	98	74	94.4%
Grok 4	100	100	97	96	78	94.2%
GPT-5 Mini	100	100	100	88	83	94.1%
Qwen 3.6 35B	100	100	100	94	73	93.6%
DeepSeek V4 Flash	100	100	91	88	87	93.3%
GPT-5.4 Mini (Reasoning)	100	100	100	86	80	93.2%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	66	93.1%
GPT-4.1	100	100	100	89	73	92.4%
Gemini 3 Pro (Preview)	100	100	100	87	75	92.4%
MoonshotAI: Kimi K2.6	100	100	100	99	61	92.0%
Z.AI GLM 4.7 Flash	100	100	99	96	64	91.8%
DeepSeek V3.1	100	96	95	84	79	90.9%
GPT-5.4 Nano (Reasoning, Low)	100	99	98	89	63	89.8%
Claude Opus 4	100	100	89	86	74	89.7%
Grok 4.3 (Reasoning)	100	100	100	83	63	89.2%
DeepSeek-V2 Chat	100	100	100	81	63	88.7%
ByteDance Seed 2.0 Mini	100	100	100	89	54	88.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	91	51	88.4%
GPT-4o Mini (temp=1)	100	100	100	88	54	88.3%
Mistral NeMO	100	100	100	73	68	88.1%
GPT-4o, Aug. 6th (temp=1)	100	100	96	88	56	88.0%
Mistral Small 3.2 24B	100	100	100	100	37	87.5%
Qwen 3.5 122B	100	100	93	79	65	87.4%
Qwen3.7 Max	100	100	100	75	62	87.4%
Ministral 3B	100	100	100	76	59	87.0%
GPT-5.4 Mini	100	93	86	85	68	86.6%
LFM2 24B	100	100	100	98	32	86.0%
ByteDance Seed 1.6 Flash	100	100	100	80	48	85.5%
Z.AI GLM 5 Turbo	100	100	86	79	61	85.2%
Xiaomi MIMO v2.5	100	99	95	66	65	85.1%
Rocinante 12B	100	100	100	75	48	84.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	80	41	84.2%
Gemini 3.1 Pro (Preview)	100	99	88	79	55	84.1%
Z.AI GLM 4.7	100	100	86	68	65	83.7%
Hermes 3 405B	100	100	100	100	15	83.0%
Claude 3 Haiku	100	98	91	88	36	82.5%
Qwen 3.5 397B A17B	100	98	91	72	51	82.4%
MoonshotAI: Kimi K2.5	100	100	87	62	61	81.8%
Cohere Command R+ (Aug. 2024)	100	100	100	60	41	80.3%
Qwen 3.5 Flash	100	93	79	60	59	78.1%
Aion 2.0	100	85	79	65	60	77.7%
GPT-4o Mini (temp=0)	100	100	75	55	44	74.7%
Gemini 3 Flash (Preview, Reasoning)	100	99	74	70	29	74.1%
DeepSeek V4 Flash (Reasoning)	95	92	79	60	40	73.0%
Gemma 3 27B	100	100	88	70	7	72.9%
Qwen 3.5 27B	100	100	71	71	6	69.5%
Gemma 3 12B	100	71	69	68	36	68.8%
Gemini 2.5 Pro	100	87	85	52	14	67.6%
Z.AI GLM 5.1	100	89	73	44	32	67.5%
DeepSeek V3 (2024-12-26)	100	100	56	41	39	67.2%
GPT-4o, May 13th (temp=0)	100	83	69	54	29	67.1%
Gemini 2.5 Flash Lite	84	73	65	65	45	66.6%
Gemma 4 31B (Reasoning)	100	79	60	54	38	66.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	75	41	21	65.9%
Gemini 3.5 Flash (Reasoning)	89	73	68	51	46	65.5%
MiniMax M2.5	100	82	68	46	24	63.9%
Gemini 3.1 Flash Lite (Preview)	100	86	52	41	36	62.9%
Gemma 4 31B	94	70	58	48	43	62.5%
Z.AI GLM 5	91	79	70	45	22	61.3%
Gemini 3.1 Flash Lite	92	90	82	32	10	61.2%
DeepSeek V3.2	100	65	51	49	40	61.0%
Gemini 3 Flash (Preview)	100	86	72	39	3	60.2%
Claude 3.7 Sonnet	100	100	72	22	0	58.7%
Gemini 2.5 Flash (Reasoning)	94	74	63	57	0	57.6%
Ministral 3 3B	100	100	42	21	14	55.4%
Claude Opus 4.5	95	63	60	42	16	55.3%
Hermes 3 70B	100	92	60	19	0	54.1%
Gemini 3.1 Flash Lite (Reasoning)	89	63	56	29	27	52.6%
Stealth: Healer Alpha	100	78	45	34	3	52.0%
GPT-4.1 Nano	100	94	35	26	0	50.8%
Claude Haiku 4.5	81	72	68	19	2	48.2%
Gemini 2.5 Flash	81	63	50	46	0	48.1%
ByteDance Seed 1.6	88	85	31	24	0	45.4%
Gemma 3 4B	94	52	43	24	8	44.2%
GPT-4o, May 13th (temp=1)	89	75	24	0	0	37.4%
Z.AI GLM 4.6	74	54	51	0	0	35.8%
Qwen 3.5 Plus (2026-02-15)	48	48	40	27	0	32.3%
GPT-4o, Aug. 6th (temp=0)	77	65	18	0	0	31.9%
GPT-5 Nano	87	54	17	0	0	31.6%
MiniMax M2.7	78	36	31	11	0	31.2%
Arcee AI: Trinity Mini	58	52	33	10	0	30.5%
Qwen 2.5 72B	86	26	24	0	0	27.2%
Arcee AI: Trinity Large (Preview)	79	29	16	0	0	24.6%
Llama 3.1 8B	96	16	0	0	0	22.4%
Llama 3.1 Nemotron 70B	92	13	7	0	0	22.3%
Claude Sonnet 4	42	31	20	11	0	20.8%
Gemma 4 26B	46	32	8	0	0	17.1%
Z.AI GLM 4.5	49	27	0	0	0	15.2%
Z.AI GLM 4.5 Air	38	35	0	0	0	14.6%
Gemini 2.5 Flash Lite (Reasoning)	37	27	7	0	0	14.1%
WizardLM 2 8x22b	48	11	0	0	0	11.6%
Claude 3.5 Sonnet	43	0	0	0	0	8.6%
Inception Mercury	23	0	0	0	0	4.7%
Llama 3.1 70B	17	0	0	0	0	3.4%
Nemotron 3 Super	16	0	0	0	0	3.2%
Gemma 4 26B (Reasoning)	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	99.9%
Gemini 3.1 Pro (Preview)	100	100	100	100	99	99.8%
DeepSeek V4 Pro	100	100	100	100	99	99.7%
Claude Opus 4.6	100	100	100	100	98	99.6%
DeepSeek V4 Flash	100	100	100	100	98	99.5%
MoonshotAI: Kimi K2.5	100	100	100	100	97	99.3%
Grok 4.20 (Reasoning)	100	100	100	100	95	99.0%
Z.AI GLM 4.7 Flash	100	100	100	100	94	98.9%
Claude Sonnet 4.6	100	100	100	100	94	98.8%
Grok 4.20	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	100	94	98.7%
Qwen 3.6 35B	100	100	100	100	92	98.4%
Z.AI GLM 5 Turbo	100	100	100	100	91	98.2%
o4 Mini High	100	100	100	100	87	97.3%
Gemini 2.5 Pro	100	100	100	98	88	97.1%
GPT-4.1	100	100	100	100	85	97.0%
GPT-5	100	100	100	100	84	96.8%
DeepSeek-V2 Chat	100	100	100	100	82	96.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	79	95.8%
Qwen 3.5 27B	100	100	100	100	79	95.8%
Stealth: Hunter Alpha	100	100	100	100	77	95.2%
Grok 4.20 (Beta, Reasoning)	100	100	100	95	81	95.2%
Qwen 3.5 122B	100	100	100	95	81	95.2%
GPT-4.1 Nano	100	100	100	89	85	94.7%
Grok 4.20 (Beta)	100	100	100	92	82	94.7%
Mistral Large	100	100	100	89	85	94.7%
GPT-5.2	100	100	100	95	78	94.6%
ByteDance Seed 1.6 Flash	100	100	100	99	74	94.6%
Qwen 3 32B	100	100	100	100	73	94.6%
GPT-4.1 Mini	100	100	97	88	86	94.3%
Z.AI GLM 5.1	100	100	100	100	71	94.1%
Qwen 3.6 27B	100	100	100	91	80	94.1%
Qwen 3.5 Flash	100	100	91	91	89	94.1%
Mistral Large 2	100	100	100	100	70	94.0%
Ministral 3 8B	100	100	100	100	68	93.6%
DeepSeek V4 Flash (Reasoning)	100	100	92	87	86	93.2%
Ministral 3 3B	100	100	100	100	66	93.1%
GPT-5.4 Mini (Reasoning)	100	100	100	87	79	93.0%
GPT-5.4 Mini	100	99	94	93	79	92.9%
o4 Mini	100	100	100	91	73	92.8%
Mistral Large 3	100	100	100	85	79	92.7%
Claude Opus 4.7 (Reasoning)	100	100	100	100	63	92.5%
Xiaomi MIMO v2.5	100	100	100	85	77	92.3%
GPT-4o Mini (temp=1)	100	100	100	100	62	92.3%
Z.AI GLM 5	100	100	100	100	61	92.2%
Z.AI GLM 4.7	100	100	97	94	70	92.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	82	79	92.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	85	71	91.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	91	63	90.8%
ByteDance Seed 2.0 Lite	100	100	93	91	70	90.8%
Gemini 3 Pro (Preview)	100	100	100	92	59	90.2%
Gemma 3 12B	100	100	86	86	79	90.2%
Aion 2.0	100	96	89	83	83	90.1%
GPT-5.4 Nano	100	100	100	81	69	90.0%
Claude Sonnet 4.5	100	100	100	87	61	89.7%
Grok 4.3	100	100	91	83	73	89.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	75	71	89.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	88	59	89.3%
GPT-5 Mini	100	92	91	90	70	88.7%
Qwen 3.5 35B	100	99	84	83	75	88.1%
MiniMax M2.5	100	100	100	78	62	88.0%
Xiaomi MIMO v2.5 Pro	100	100	93	73	71	87.5%
Claude Opus 4	100	100	100	82	55	87.3%
GPT-5.4 Nano (Reasoning)	100	94	93	78	65	86.2%
Qwen3.7 Max	100	100	83	74	70	85.5%
DeepSeek V3.2	100	100	89	78	61	85.4%
Gemini 3.5 Flash (Reasoning)	100	92	86	79	63	83.9%
Ministral 3B	100	100	100	100	17	83.3%
Gemini 3 Flash (Preview)	100	96	85	74	60	83.0%
Grok 4.3 (Reasoning)	100	100	85	77	50	82.3%
Qwen 3.5 397B A17B	100	100	73	69	64	81.2%
Claude Opus 4.5	100	96	93	65	48	80.2%
Rocinante 12B	89	88	86	71	66	80.0%
Grok 4 Fast	100	100	91	83	24	79.7%
ByteDance Seed 2.0 Mini	100	100	77	61	60	79.6%
DeepSeek V3 (2024-12-26)	100	100	92	87	18	79.3%
Claude Haiku 4.5	89	85	81	79	63	79.3%
LFM2 24B	100	100	100	72	0	74.5%
MiniMax M2.7	92	87	78	69	42	73.6%
Gemini 3.1 Flash Lite (Preview)	100	100	94	57	16	73.4%
Arcee AI: Trinity Mini	100	100	89	57	20	73.0%
ByteDance Seed 1.6	100	100	86	71	0	71.4%
Gemini 2.5 Flash Lite	100	81	71	62	42	71.1%
Mistral NeMO	100	100	75	69	0	68.6%
DeepSeek V3.1	99	98	58	50	36	68.2%
Gemma 3 4B	91	76	62	60	52	67.9%
Gemma 3 27B	85	76	65	54	54	66.8%
GPT-4o, May 13th (temp=1)	100	97	76	30	27	66.0%
Z.AI GLM 4.6	80	77	70	54	46	65.4%
Qwen 3.5 Plus (2026-02-15)	71	69	66	63	48	63.4%
Hermes 3 405B	100	100	96	20	0	63.1%
Cohere Command R+ (Aug. 2024)	100	77	76	38	24	62.9%
Gemini 2.5 Flash	99	64	56	54	42	62.8%
Gemma 4 31B	71	64	59	56	41	58.2%
Gemma 4 31B (Reasoning)	87	82	52	35	26	56.4%
Mistral Small 3.2 24B	100	70	67	26	11	54.8%
Gemini 3.1 Flash Lite	77	67	48	48	29	53.6%
GPT-4o Mini (temp=0)	88	60	54	39	17	51.5%
Gemini 2.5 Flash (Reasoning)	100	51	48	37	19	51.3%
Claude Sonnet 4	76	67	66	33	13	50.8%
Grok 4	100	80	69	0	0	49.8%
Claude 3.5 Sonnet	94	73	70	0	0	47.4%
Hermes 3 70B	90	81	37	27	0	46.9%
Claude 3.7 Sonnet	84	75	32	25	18	46.8%
Gemini 2.5 Flash Lite (Reasoning)	92	45	42	38	0	43.4%
Gemini 3 Flash (Preview, Reasoning)	76	58	52	20	0	41.2%
Claude 3 Haiku	71	64	36	29	0	40.3%
Z.AI GLM 4.5	87	49	32	31	0	39.7%
Arcee AI: Trinity Large (Preview)	90	49	32	10	0	36.1%
Qwen 2.5 72B	100	43	11	4	0	31.7%
Gemma 4 26B	65	60	31	0	0	31.3%
GPT-5 Nano	67	32	27	0	0	25.2%
Z.AI GLM 4.5 Air	71	20	4	0	0	18.9%
GPT-4o, Aug. 6th (temp=0)	36	34	4	0	0	14.9%
Gemma 4 26B (Reasoning)	40	18	13	0	0	14.2%
Nemotron 3 Super	54	0	0	0	0	10.7%
Llama 3.1 8B	48	0	0	0	0	9.5%
WizardLM 2 8x22b	44	0	0	0	0	8.9%
GPT-4o, May 13th (temp=0)	8	0	0	0	0	1.5%
GPT-OSS 120B	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0.0%
Stealth: Aurora Alpha	0	0	0	0	0	0.0%
Inception Mercury	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Llama 3.1 Nemotron 70B	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	99	99.8%
Gemini 3 Flash (Preview)	100	100	100	100	99	99.7%
Gemini 2.5 Flash Lite	100	100	100	100	99	99.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	98	99.6%
Gemini 2.5 Flash	100	100	100	99	99	99.6%
GPT-4.1	100	100	100	100	97	99.5%
GPT-5 Mini	100	100	100	100	97	99.4%
DeepSeek V3 (2024-12-26)	100	100	100	100	97	99.4%
Ministral 3 3B	100	100	100	100	97	99.3%
MiniMax M2.7	100	100	100	100	96	99.3%
DeepSeek V4 Pro (Reasoning)	100	100	100	99	97	99.1%
GPT-4.1 Nano	100	100	100	100	94	98.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	94	98.8%
Claude Haiku 4.5	100	100	100	100	92	98.5%
GPT-5.2	100	100	100	100	91	98.3%
GPT-5.5 (Reasoning, Low)	100	100	100	100	91	98.2%
Gemma 3 4B	100	100	100	100	91	98.1%
Gemini 3 Pro (Preview)	100	100	100	100	90	98.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	90	98.1%
Stealth: Healer Alpha	100	100	100	100	89	97.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	89	97.9%
Mistral NeMO	100	100	100	100	89	97.8%
Gemini 2.5 Pro	100	100	100	100	88	97.7%
Qwen 2.5 72B	100	100	100	100	88	97.5%
GPT-5.4	100	100	100	100	87	97.3%
GPT-5	100	100	100	100	86	97.2%
Claude Opus 4.6 (Reasoning)	100	100	100	100	86	97.1%
Arcee AI: Trinity Mini	100	100	100	100	86	97.1%
Mistral Medium 3.1	100	100	100	92	91	96.7%
Z.AI GLM 4.5 Air	100	100	100	93	90	96.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	82	96.4%
Qwen 3.5 122B	100	100	100	100	81	96.2%
Qwen 3.5 Flash	100	100	100	100	80	96.1%
Claude Opus 4.6	100	100	100	100	80	95.9%
Qwen 3.6 Flash	100	100	100	100	79	95.8%
DeepSeek V4 Pro	100	100	99	93	86	95.6%
Grok 4.20 (Beta, Reasoning)	100	100	100	99	79	95.6%
Qwen 3.6 35B	100	100	100	100	78	95.5%
Grok 4.20	100	100	100	100	77	95.5%
Gemma 3 12B	100	100	100	99	79	95.4%
Claude Opus 4.7	100	100	100	90	86	95.1%
Claude Opus 4.5	100	100	95	90	89	94.9%
Claude 3.7 Sonnet	100	100	100	87	87	94.8%
Z.AI GLM 5.1	100	100	100	100	73	94.6%
DeepSeek V3.2	100	100	100	100	72	94.5%
Gemma 4 31B (Reasoning)	100	100	100	86	85	94.3%
GPT-4o Mini (temp=0)	100	100	100	88	82	93.9%
Qwen 3.5 27B	100	100	100	100	70	93.9%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	68	93.6%
GPT-4o, Aug. 6th (temp=0)	100	100	100	88	76	92.7%
MiniMax M2.5	100	100	100	100	63	92.7%
Claude Opus 4	100	100	100	100	62	92.3%
GPT-5.4 Mini	100	100	100	80	80	92.2%
Gemma 4 26B	100	100	100	100	56	91.3%
LFM2 24B	100	100	100	100	54	90.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	77	74	90.3%
Gemini 3.1 Pro (Preview)	100	100	100	89	61	90.1%
Qwen3.7 Max	100	100	100	100	50	90.0%
GPT-5.4 Mini (Reasoning)	100	100	100	99	48	89.4%
Arcee AI: Trinity Large (Preview)	100	100	92	79	69	88.0%
Claude 3.5 Sonnet	100	100	100	79	60	88.0%
Claude 3 Haiku	100	100	95	87	57	87.8%
Grok 4.3 (Reasoning)	100	100	100	100	39	87.8%
GPT-5.4 Nano	100	100	92	85	58	87.0%
Qwen 3 32B	100	100	100	100	33	86.6%
Z.AI GLM 5	100	100	96	76	57	85.8%
Z.AI GLM 4.5	100	100	100	100	22	84.4%
Gemma 4 31B	100	100	85	78	58	84.1%
Qwen 3.5 Plus (2026-02-15)	100	100	100	68	50	83.6%
ByteDance Seed 2.0 Lite	100	100	100	92	16	81.5%
Gemini 2.5 Flash Lite (Reasoning)	100	92	85	71	56	81.0%
Hermes 3 70B	100	100	94	71	35	80.2%
Gemma 4 26B (Reasoning)	100	100	100	69	21	77.9%
ByteDance Seed 2.0 Mini	100	100	100	70	19	77.8%
WizardLM 2 8x22b	100	100	83	61	38	76.5%
Gemini 3.1 Flash Lite	100	90	89	77	23	75.8%
Qwen 3.5 35B	100	99	94	79	0	74.4%
Ministral 3B	100	100	100	48	24	74.3%
Claude Sonnet 4.6 (Reasoning)	100	100	79	75	17	74.2%
Qwen 3.5 397B A17B	95	91	84	65	24	71.8%
Inception Mercury	100	100	100	54	0	70.7%
Gemini 3.1 Flash Lite (Preview)	100	100	73	36	35	68.8%
Llama 3.1 70B	100	100	66	66	0	66.4%
Gemini 3.1 Flash Lite (Reasoning)	82	80	59	55	48	64.7%
GPT-5 Nano	100	77	65	59	8	61.6%
GPT-OSS 120B	71	67	49	32	27	49.1%
Nemotron 3 Super	100	49	38	35	24	49.0%
Llama 3.1 Nemotron 70B	100	54	19	15	0	37.5%
Llama 3.1 8B	100	31	19	18	17	36.8%
Inception Mercury 2	64	49	47	9	0	33.9%
Nemotron 3 Nano	52	27	19	13	0	22.2%
Stealth: Aurora Alpha	19	19	16	0	0	10.8%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	99.9%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.8%
DeepSeek V3.2	100	100	100	100	98	99.6%
GPT-5.2	100	100	100	100	97	99.5%
Stealth: Hunter Alpha	100	100	100	100	97	99.4%
Mistral Large 3	100	100	100	100	97	99.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	97	99.4%
DeepSeek V4 Flash	100	100	100	100	96	99.3%
GPT-5.4	100	100	100	100	96	99.2%
Claude Opus 4	100	100	100	100	96	99.2%
Mistral Medium 3.1	100	100	100	100	95	99.0%
GPT-5.4 Nano	100	100	100	99	96	98.9%
Ministral 3 8B	100	100	100	100	94	98.8%
GPT-5	100	100	100	100	94	98.7%
Gemini 2.5 Pro	100	100	100	100	93	98.6%
GPT-5.4 Nano (Reasoning)	100	100	99	98	96	98.5%
Qwen 3.5 9B	100	100	100	100	92	98.5%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	92	98.4%
Claude Opus 4.7	100	100	100	100	91	98.1%
Qwen 3.5 397B A17B	100	100	100	100	90	98.1%
Qwen 3.6 27B	100	100	100	100	90	98.1%
GPT-4.1	100	100	100	100	90	98.1%
Z.AI GLM 4.7	100	100	100	95	95	97.9%
Z.AI GLM 5 Turbo	100	100	100	97	91	97.5%
GPT-5.1	100	100	100	100	87	97.3%
Qwen 3.6 Flash	100	100	100	100	86	97.2%
Rocinante 12B	100	100	100	100	86	97.1%
o4 Mini High	100	100	100	100	85	97.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	85	97.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	99	95	89	96.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	81	96.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	81	96.3%
Z.AI GLM 5.1	100	100	95	94	92	96.1%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	80	96.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	80	96.0%
Ministral 3B	100	100	96	96	85	95.4%
Qwen 3.5 27B	100	100	100	97	80	95.4%
Z.AI GLM 4.6	100	100	100	100	76	95.3%
Ministral 3 3B	100	100	100	100	76	95.2%
Stealth: Healer Alpha	100	100	100	100	75	95.1%
Gemma 3 27B	100	100	100	100	75	95.0%
GPT-5 Mini	100	100	100	88	86	94.8%
Grok 4.20	100	100	100	95	77	94.4%
Z.AI GLM 4.7 Flash	100	100	100	86	85	94.3%
o4 Mini	100	100	100	100	71	94.3%
Grok 4	100	100	100	87	84	94.3%
MiniMax M2.5	100	100	100	89	83	94.3%
Mistral Small 3.2 24B	100	100	100	100	70	94.1%
Grok 4.1 Fast	100	100	100	100	70	94.0%
GPT-4o Mini (temp=1)	100	100	98	97	74	93.6%
Gemini 2.5 Flash	100	100	100	91	77	93.6%
Gemma 3 4B	100	100	100	86	81	93.3%
Mistral Small 4 (Reasoning)	100	100	100	99	67	93.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	92	74	93.1%
Xiaomi MIMO v2.5 Pro	100	100	99	95	71	93.1%
Xiaomi MIMO v2.5	100	100	100	82	82	92.8%
MoonshotAI: Kimi K2.6	100	100	97	83	82	92.4%
Mistral NeMO	100	100	99	99	62	92.0%
DeepSeek V3 (2025-03-24)	100	100	100	82	77	91.8%
Arcee AI: Trinity Large (Preview)	100	100	100	85	74	91.8%
Grok 4.20 (Beta, Reasoning)	100	100	89	85	85	91.8%
Gemini 3 Pro (Preview)	100	100	100	100	59	91.8%
GPT-4o Mini (temp=0)	100	100	100	93	66	91.7%
Claude Opus 4.6	100	100	100	100	58	91.6%
Hermes 3 405B	100	100	100	82	75	91.4%
ByteDance Seed 1.6 Flash	100	100	100	100	57	91.3%
Grok 4.3	100	100	94	87	73	90.8%
DeepSeek V3.1	100	100	100	100	51	90.3%
Claude Sonnet 4.5	100	96	90	82	82	90.0%
GPT-4o, Aug. 6th (temp=1)	100	100	99	88	59	89.1%
Claude Sonnet 4.6	100	100	100	94	49	88.5%
GPT-4o, May 13th (temp=0)	100	100	98	83	60	88.1%
Qwen 3 32B	100	100	100	72	68	88.0%
Llama 3.1 70B	100	100	100	100	38	87.6%
GPT-4o, May 13th (temp=1)	100	100	100	80	58	87.4%
Gemini 3 Flash (Preview)	100	100	90	83	63	87.2%
Cohere Command R+ (Aug. 2024)	100	100	100	76	58	86.8%
Gemini 2.5 Flash Lite	100	100	83	80	69	86.6%
DeepSeek V3 (2024-12-26)	100	100	97	82	54	86.4%
Qwen 3.5 35B	100	100	92	72	67	86.2%
Gemma 4 31B (Reasoning)	100	100	91	76	60	85.4%
Qwen 3.6 35B	100	100	98	86	42	85.2%
Qwen 3.5 122B	100	94	81	76	75	85.2%
Grok 4.20 (Beta)	100	89	82	80	69	83.9%
Z.AI GLM 5	92	89	88	82	61	82.5%
Grok 4.20 (Reasoning)	100	100	87	81	40	81.6%
Claude Haiku 4.5	100	100	82	81	44	81.4%
Gemini 3.5 Flash (Reasoning)	100	89	81	81	55	81.2%
Claude 3.7 Sonnet	100	94	73	72	58	79.3%
Qwen 3.5 Flash	100	100	100	79	11	78.2%
Qwen3.7 Max	100	93	70	66	61	77.8%
WizardLM 2 8x22b	100	94	75	71	48	77.7%
MiniMax M2.7	100	92	68	66	62	77.5%
Grok 4.3 (Reasoning)	100	100	100	75	11	77.2%
Arcee AI: Trinity Mini	100	100	100	68	0	73.4%
Z.AI GLM 4.5	100	93	81	60	33	73.4%
GPT-5 Nano	100	91	63	62	48	73.0%
Qwen 3.5 Plus (2026-02-15)	96	92	72	62	40	72.6%
ByteDance Seed 2.0 Mini	100	100	82	42	37	72.2%
GPT-4.1 Nano	100	98	62	58	37	70.8%
Z.AI GLM 4.5 Air	100	100	86	67	0	70.6%
Llama 3.1 Nemotron 70B	100	71	66	66	43	69.2%
Gemini 3 Flash (Preview, Reasoning)	96	83	73	56	30	67.6%
Grok 4 Fast	89	84	68	63	32	67.0%
Claude Opus 4.5	100	96	71	60	7	66.7%
LFM2 24B	86	74	67	48	42	63.3%
Gemini 3.1 Flash Lite (Preview)	100	63	55	48	48	62.8%
MoonshotAI: Kimi K2.5	97	70	66	49	32	62.7%
Gemma 4 31B	79	74	63	54	43	62.6%
Claude 3.5 Sonnet	91	86	68	59	5	61.7%
Gemma 4 26B (Reasoning)	88	76	74	48	16	60.3%
Qwen 2.5 72B	89	62	56	45	33	57.1%
ByteDance Seed 2.0 Lite	87	68	66	41	16	55.4%
Claude Sonnet 4	97	89	84	0	0	54.0%
Gemini 3.1 Flash Lite	94	79	52	19	17	52.1%
Gemini 3.1 Flash Lite (Reasoning)	97	82	54	16	3	50.3%
Gemma 4 26B	100	72	47	10	2	46.1%
Hermes 3 70B	63	60	55	37	10	45.1%
Nemotron 3 Super	100	63	33	22	0	43.8%
ByteDance Seed 1.6	98	70	44	6	0	43.5%
GPT-OSS 120B	56	47	21	9	0	26.6%
Inception Mercury	100	24	0	0	0	24.8%
Llama 3.1 8B	45	41	0	0	0	17.1%
Stealth: Aurora Alpha	51	5	0	0	0	11.2%
Nemotron 3 Nano	24	17	5	0	0	9.0%
Inception Mercury 2	15	12	12	3	0	8.4%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	98	99.6%
Z.AI GLM 4.5 Air	100	100	100	100	98	99.6%
Grok 4.20	100	100	100	100	98	99.5%
Claude Opus 4.7 (Reasoning)	100	100	100	100	98	99.5%
Claude Opus 4.7	100	100	100	100	95	99.0%
o4 Mini	100	100	100	100	95	99.0%
GPT-5.2	100	100	100	100	95	99.0%
Grok 4.20 (Reasoning)	100	100	100	100	95	99.0%
Qwen 3.6 27B	100	100	100	100	94	98.8%
Aion 2.0	100	100	100	100	94	98.8%
Z.AI GLM 5.1	100	100	100	99	94	98.7%
Stealth: Healer Alpha	100	100	100	98	95	98.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	92	98.4%
DeepSeek V3 (2024-12-26)	100	100	100	100	92	98.4%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	99	92	98.2%
Mistral Large	100	100	100	100	91	98.2%
Ministral 3 3B	100	100	100	100	91	98.2%
LFM2 24B	100	100	100	100	91	98.2%
GPT-4o, May 13th (temp=0)	100	100	100	100	91	98.1%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	90	98.0%
GPT-5 Mini	100	100	100	100	87	97.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	87	97.4%
Claude Sonnet 4.6	100	100	100	100	86	97.3%
Mistral Large 3	100	100	100	100	86	97.1%
GPT-5.4 Nano (Reasoning, Low)	100	100	99	98	89	97.1%
GPT-5.4 Nano (Reasoning)	100	100	100	93	92	96.9%
Gemma 3 27B	100	100	100	100	85	96.9%
Xiaomi MIMO v2.5	100	100	100	97	88	96.9%
Z.AI GLM 4.7	100	100	100	100	83	96.6%
GPT-4.1	100	100	100	100	83	96.5%
Arcee AI: Trinity Mini	100	100	100	100	82	96.4%
Qwen 3.5 122B	100	100	99	92	88	95.9%
Xiaomi MIMO v2.5 Pro	100	100	100	94	86	95.9%
Gemma 4 31B (Reasoning)	100	100	100	90	89	95.8%
Claude Haiku 4.5	100	100	100	96	82	95.8%
GPT-5.4 Nano	100	100	100	93	85	95.6%
MiniMax M2.7	100	100	100	100	78	95.6%
Ministral 3B	100	100	100	89	89	95.6%
Gemini 3 Pro (Preview)	100	100	100	99	79	95.5%
GPT-4o Mini (temp=1)	100	100	100	100	78	95.5%
Gemma 3 4B	100	100	100	92	85	95.4%
Gemma 4 31B	100	100	100	98	78	95.2%
Ministral 3 8B	100	100	100	100	76	95.2%
Stealth: Hunter Alpha	100	100	100	93	80	94.6%
MoonshotAI: Kimi K2.5	100	100	100	97	75	94.4%
GPT-4o, Aug. 6th (temp=0)	100	100	99	87	86	94.4%
Gemini 3 Flash (Preview)	100	100	97	90	83	94.1%
MoonshotAI: Kimi K2.6	100	100	100	92	78	94.0%
Claude 3 Haiku	100	100	100	100	68	93.5%
Qwen 3.5 9B	100	100	100	87	81	93.5%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	84	83	93.5%
Claude 3.7 Sonnet	100	100	100	100	66	93.2%
Hermes 3 70B	100	100	100	85	81	93.1%
GPT-5.4 Mini	100	100	100	83	82	93.0%
Grok 4.3 (Reasoning)	100	100	100	100	65	92.9%
Grok 4.20 (Beta)	100	100	100	100	64	92.9%
Z.AI GLM 5 Turbo	100	100	100	89	73	92.5%
Arcee AI: Trinity Large (Preview)	100	100	100	100	62	92.4%
Z.AI GLM 5	100	100	100	83	79	92.4%
Claude Sonnet 4	100	100	100	97	63	91.9%
Mistral NeMO	100	100	100	100	59	91.8%
MiniMax M2.5	100	100	100	87	71	91.7%
Gemini 2.5 Flash	100	100	100	100	58	91.6%
Z.AI GLM 4.7 Flash	100	100	94	84	79	91.5%
GPT-5	100	100	100	88	69	91.4%
ByteDance Seed 1.6 Flash	100	100	100	100	53	90.6%
GPT-5.4 Mini (Reasoning)	100	100	99	80	74	90.5%
Gemma 3 12B	100	100	89	87	76	90.4%
Grok 4.20 (Beta, Reasoning)	100	97	89	89	74	89.8%
Gemini 2.5 Flash (Reasoning)	100	100	91	90	67	89.5%
Claude 3.5 Sonnet	100	100	100	76	69	89.1%
Gemini 2.5 Pro	100	100	100	81	63	88.8%
Qwen3.6 Max Preview	100	100	95	88	60	88.6%
Qwen 2.5 72B	100	100	98	86	52	87.2%
Qwen3.7 Max	100	100	100	68	64	86.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	75	55	85.9%
Gemini 3.1 Pro (Preview)	100	100	100	68	61	85.8%
Qwen 3.5 35B	100	100	86	84	58	85.4%
GPT-4.1 Nano	100	100	100	90	35	85.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	94	31	85.0%
Z.AI GLM 4.5	100	100	100	97	25	84.4%
Qwen 3.5 Flash	100	100	100	75	37	82.4%
Gemini 2.5 Flash Lite (Reasoning)	100	98	81	79	52	82.2%
GPT-4o, Aug. 6th (temp=1)	100	100	98	90	22	81.8%
Qwen 3.6 35B	100	100	76	73	58	81.6%
Qwen 3.6 Flash	100	100	93	75	36	81.0%
Gemini 2.5 Flash Lite	100	100	94	71	35	80.1%
Rocinante 12B	100	100	100	100	0	80.0%
Z.AI GLM 4.6	100	100	100	90	10	80.0%
ByteDance Seed 1.6	100	100	83	80	36	79.9%
ByteDance Seed 2.0 Lite	100	100	81	66	52	79.6%
DeepSeek V3.1	100	100	98	65	25	77.5%
Qwen 3.5 27B	98	91	90	66	38	76.7%
Qwen 3.5 Plus (2026-02-15)	100	100	86	50	42	75.6%
Qwen 3.5 397B A17B	99	85	77	62	53	75.1%
Ministral 8B	100	100	100	68	0	73.6%
Claude Opus 4.5	100	100	64	62	33	71.8%
WizardLM 2 8x22b	100	94	83	54	0	66.3%
Gemini 3.1 Flash Lite (Preview)	94	88	68	61	12	64.6%
GPT-OSS 120B	87	86	83	66	0	64.5%
Gemma 4 26B	100	98	81	27	16	64.5%
GPT-4o Mini (temp=0)	77	71	67	63	28	61.2%
ByteDance Seed 2.0 Mini	100	82	73	48	3	60.9%
GPT-5 Nano	85	84	67	34	34	60.9%
Gemma 4 26B (Reasoning)	100	89	66	27	9	58.1%
Inception Mercury	100	100	39	0	0	47.8%
Llama 3.1 8B	76	44	40	39	33	46.5%
Llama 3.1 70B	94	83	50	3	0	46.1%
Gemini 3.1 Flash Lite (Reasoning)	98	83	34	0	0	43.1%
Nemotron 3 Super	71	48	38	0	0	31.3%
Llama 3.1 Nemotron 70B	100	33	20	0	0	30.7%
Gemini 3.1 Flash Lite	78	32	21	0	0	26.1%
Stealth: Aurora Alpha	47	34	0	0	0	16.2%
Inception Mercury 2	43	0	0	0	0	8.6%
Nemotron 3 Nano	7	3	0	0	0	2.0%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	99.9%
Cohere Command R+ (Aug. 2024)	100	100	100	100	98	99.6%
Gemma 3 27B	100	100	100	100	96	99.3%
GPT-5.4 Mini	100	100	100	100	96	99.3%
GPT-5.4	100	100	100	100	96	99.2%
GPT-4o Mini (temp=1)	100	100	100	100	96	99.1%
GPT-5.4 (Reasoning)	100	100	100	100	94	98.8%
Mistral Large 2	100	100	100	100	93	98.6%
Ministral 8B	100	100	100	100	92	98.5%
Mistral Large 3	100	100	100	100	92	98.4%
Qwen 3.6 27B	100	100	100	100	90	97.9%
Ministral 3B	100	100	100	100	89	97.8%
Ministral 3 8B	100	100	100	95	94	97.8%
Gemma 3 12B	100	100	100	99	90	97.7%
Qwen3.7 Max	100	100	100	100	87	97.5%
Xiaomi MIMO v2.5 Pro	100	100	99	99	88	97.2%
Z.AI GLM 4.7	100	100	100	100	86	97.2%
DeepSeek V4 Pro	100	100	100	100	86	97.1%
DeepSeek V3.1	100	100	100	100	85	97.0%
Qwen 3.5 Flash	100	100	100	98	86	96.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	95	89	96.7%
Claude Opus 4.7	100	100	100	100	83	96.7%
o4 Mini High	100	100	100	95	87	96.5%
Mistral NeMO	100	100	100	94	87	96.2%
GPT-4.1	100	100	100	96	85	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	96	84	96.0%
ByteDance Seed 1.6 Flash	100	100	100	100	79	95.8%
Stealth: Healer Alpha	100	100	100	95	83	95.7%
Claude Opus 4	100	100	100	96	82	95.5%
GPT-4o Mini (temp=0)	100	100	100	97	81	95.5%
Qwen 3.6 35B	100	100	98	93	85	95.1%
Qwen 3.5 Plus (2026-04-20)	100	98	97	90	90	95.1%
DeepSeek V4 Flash (Reasoning)	100	100	99	92	83	94.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	92	81	94.6%
Z.AI GLM 5.1	100	100	96	93	82	94.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	95	76	94.2%
GPT-5 Mini	100	100	100	92	79	94.1%
MoonshotAI: Kimi K2.6	100	100	100	90	79	94.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	94	76	94.0%
GPT-5.2	100	100	95	91	82	93.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	68	93.5%
DeepSeek V4 Flash	100	100	100	91	76	93.5%
Stealth: Hunter Alpha	100	100	95	94	76	93.1%
DeepSeek-V2 Chat	100	100	97	88	81	93.1%
Qwen 3.5 122B	100	100	96	87	81	92.8%
Claude Opus 4.6	100	100	100	89	75	92.7%
Claude Sonnet 4.5	100	100	99	94	71	92.6%
Qwen 3 32B	100	100	100	98	64	92.5%
Z.AI GLM 4.6	100	97	93	88	83	92.3%
DeepSeek V3 (2024-12-26)	100	100	100	91	66	91.3%
Claude Opus 4.6 (Reasoning)	100	100	99	94	63	91.1%
Grok 4	100	100	90	83	82	91.1%
Mistral Large	100	100	100	78	77	90.9%
Z.AI GLM 4.7 Flash	100	100	91	87	76	90.8%
Xiaomi MIMO v2.5	100	100	98	80	73	90.0%
GPT-4.1 Nano	100	100	100	96	52	89.6%
Qwen 3.5 27B	100	98	90	80	79	89.5%
Gemma 4 31B	100	100	100	78	69	89.4%
Grok 4.20 (Beta, Reasoning)	100	93	88	83	82	89.2%
GPT-5.4 Nano	100	100	96	94	54	89.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	87	57	88.8%
GPT-4o, May 13th (temp=1)	100	96	94	93	59	88.5%
Grok 4.20	100	100	100	74	67	88.1%
Claude Sonnet 4.6 (Reasoning)	100	100	92	84	63	88.0%
Grok 4.3	100	100	100	100	39	87.8%
Grok 4.20 (Beta)	100	100	94	80	61	87.1%
Claude Sonnet 4.6	100	100	100	91	41	86.4%
DeepSeek V3 (2025-03-24)	100	100	100	73	59	86.3%
Qwen 2.5 72B	100	100	100	79	53	86.2%
Qwen 3.5 35B	100	100	100	81	46	85.3%
Aion 2.0	100	100	91	76	55	84.4%
Hermes 3 405B	100	100	81	71	70	84.3%
Qwen 3.5 397B A17B	100	100	99	80	41	84.0%
DeepSeek V3.2	100	100	100	97	17	82.9%
LFM2 24B	97	97	89	66	56	80.8%
Qwen 3.6 Flash	100	100	77	68	57	80.4%
Gemini 2.5 Flash	100	100	100	100	0	80.0%
Gemma 3 4B	100	94	87	62	52	79.2%
Gemini 2.5 Flash Lite	94	90	84	64	60	78.5%
Grok 4 Fast	100	99	97	96	0	78.3%
Claude Opus 4.5	98	85	81	65	62	78.2%
Claude Haiku 4.5	100	86	86	62	56	77.9%
GPT-4o, Aug. 6th (temp=0)	100	98	72	68	51	77.8%
MiniMax M2.7	100	100	83	53	52	77.5%
Gemma 4 31B (Reasoning)	100	100	100	49	38	77.4%
Arcee AI: Trinity Large (Preview)	100	100	94	86	0	75.9%
Gemini 2.5 Flash Lite (Reasoning)	100	100	84	57	38	75.8%
Ministral 3 3B	100	100	89	82	0	74.2%
Z.AI GLM 5	100	87	66	58	57	73.7%
Grok 4.20 (Reasoning)	100	100	97	63	0	72.1%
Qwen 3.5 Plus (2026-02-15)	79	77	73	68	61	71.9%
ByteDance Seed 2.0 Mini	100	100	77	63	19	71.7%
Mistral Small 3.2 24B	100	100	73	71	0	68.9%
Gemini 3.1 Flash Lite	94	86	62	54	42	67.5%
Arcee AI: Trinity Mini	87	86	76	74	0	64.6%
Gemma 4 26B (Reasoning)	91	80	71	61	20	64.5%
GPT-5 Nano	100	98	80	40	0	63.5%
MiniMax M2.5	100	100	55	51	10	63.2%
Claude 3 Haiku	100	93	68	29	21	62.1%
Hermes 3 70B	100	86	62	47	0	58.8%
Gemini 3 Flash (Preview)	96	72	63	40	8	55.9%
Gemma 4 26B	96	59	52	35	28	53.9%
Inception Mercury	100	94	46	13	0	50.7%
Llama 3.1 Nemotron 70B	78	73	71	30	0	50.5%
MoonshotAI: Kimi K2.5	98	71	59	24	0	50.2%
Claude 3.7 Sonnet	71	70	65	22	20	49.5%
Gemini 3.1 Flash Lite (Reasoning)	86	68	55	32	5	49.0%
ByteDance Seed 1.6	69	68	51	45	11	48.6%
ByteDance Seed 2.0 Lite	73	68	54	43	0	47.5%
Llama 3.1 8B	76	75	59	15	0	45.0%
Z.AI GLM 4.5	76	74	51	24	0	44.8%
Grok 4.1 Fast	96	94	20	11	0	44.3%
Gemini 3.1 Flash Lite (Preview)	58	58	46	36	13	42.0%
Llama 3.1 70B	82	82	38	0	0	40.5%
WizardLM 2 8x22b	100	100	0	0	0	40.0%
Grok 4.3 (Reasoning)	61	40	33	33	0	33.3%
Z.AI GLM 4.5 Air	68	55	40	0	0	32.5%
Gemini 3 Flash (Preview, Reasoning)	63	42	31	0	0	27.1%
Claude 3.5 Sonnet	54	41	24	0	0	23.6%
Claude Sonnet 4	28	18	10	4	0	11.7%
GPT-OSS 120B	22	14	0	0	0	7.1%
Nemotron 3 Super	11	8	3	0	0	4.4%
Stealth: Aurora Alpha	9	0	0	0	0	1.7%
Inception Mercury 2	3	0	0	0	0	0.6%
Nemotron 3 Nano	0	0	0	0	0	0.0%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	99.9%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	99	99.8%
LFM2 24B	100	100	100	100	98	99.6%
Grok 4.3 (Reasoning)	100	100	100	100	97	99.4%
Claude Sonnet 4.6	100	100	100	100	97	99.4%
Grok 4.20 (Reasoning)	100	100	100	100	96	99.2%
Qwen 3.5 27B	100	100	100	100	95	98.9%
Z.AI GLM 4.7	100	100	100	100	95	98.9%
Mistral Small 4 (Reasoning)	100	100	100	99	95	98.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	94	98.7%
Qwen 3 32B	100	100	100	100	94	98.7%
Rocinante 12B	100	100	100	100	88	97.6%
Mistral Large 2	100	100	100	100	87	97.5%
Xiaomi MIMO v2.5 Pro	100	100	100	94	92	97.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	86	97.1%
Qwen 3.5 122B	100	100	100	100	83	96.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	93	89	96.5%
Gemini 3.1 Flash Lite	100	100	100	100	82	96.3%
GPT-4o Mini (temp=1)	100	100	100	100	79	95.8%
Stealth: Hunter Alpha	100	100	100	100	76	95.2%
Gemini 2.5 Flash (Reasoning)	100	100	100	94	80	94.9%
Gemma 4 31B (Reasoning)	100	100	93	92	89	94.8%
Grok 4.3	100	100	100	100	74	94.7%
Ministral 3 8B	100	100	100	100	74	94.7%
Gemma 3 27B	100	100	100	100	73	94.5%
GPT-5 Mini	100	100	100	86	84	94.1%
ByteDance Seed 2.0 Mini	100	100	100	100	70	93.8%
Gemini 3 Pro (Preview)	100	100	100	93	74	93.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	85	81	93.1%
Z.AI GLM 5.1	100	100	100	96	69	92.9%
Qwen 3.5 Plus (2026-02-15)	100	100	98	97	67	92.3%
Grok 4.20 (Beta)	100	100	93	84	83	92.2%
Claude Sonnet 4.5	100	100	100	100	56	91.3%
WizardLM 2 8x22b	100	100	100	86	63	90.0%
Z.AI GLM 4.7 Flash	100	100	100	100	49	89.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	94	94	81	78	89.3%
GPT-4o Mini (temp=0)	100	94	89	88	75	89.1%
Gemma 4 31B	100	100	88	87	68	88.6%
ByteDance Seed 1.6	100	100	100	100	41	88.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	74	63	87.4%
Gemini 3.5 Flash (Reasoning)	100	99	85	77	76	87.4%
Ministral 8B	100	100	100	98	38	87.1%
Xiaomi MIMO v2.5	100	100	100	71	59	86.1%
DeepSeek V3.1	100	100	86	80	56	84.5%
Gemini 2.5 Pro	100	100	81	75	66	84.2%
DeepSeek V3.2	100	94	75	74	64	81.4%
GPT-4.1 Mini	100	100	99	85	22	81.1%
Z.AI GLM 5 Turbo	100	95	86	81	39	80.2%
Gemma 4 26B (Reasoning)	100	100	98	73	25	79.1%
Claude Opus 4.5	100	96	94	81	21	78.3%
DeepSeek-V2 Chat	100	100	97	74	19	78.1%
DeepSeek V3 (2024-12-26)	100	100	75	71	39	76.9%
Gemini 3.1 Flash Lite (Preview)	100	83	79	71	49	76.4%
DeepSeek V4 Flash	100	100	85	49	45	75.8%
Gemini 3 Flash (Preview)	100	92	74	66	45	75.5%
Aion 2.0	99	88	69	63	58	75.3%
GPT-4o, Aug. 6th (temp=1)	100	73	70	69	63	75.1%
Z.AI GLM 5	100	97	90	73	15	75.1%
Stealth: Healer Alpha	100	100	77	71	24	74.2%
Claude Haiku 4.5	100	100	81	61	15	71.2%
Gemini 3 Flash (Preview, Reasoning)	99	92	76	44	35	69.3%
GPT-4o, May 13th (temp=0)	97	78	73	49	43	68.0%
Arcee AI: Trinity Mini	100	89	78	52	13	66.4%
Gemma 3 4B	99	81	73	61	13	65.4%
Mistral NeMO	100	100	94	26	4	64.8%
GPT-4.1 Nano	100	77	69	67	11	64.6%
ByteDance Seed 2.0 Lite	100	100	99	24	0	64.6%
Claude 3 Haiku	100	89	83	36	13	64.3%
Claude Opus 4	100	71	67	45	39	64.3%
Hermes 3 405B	100	100	100	16	0	63.2%
Qwen 2.5 72B	99	89	69	31	20	61.6%
Nemotron 3 Super	89	78	48	46	44	61.0%
Z.AI GLM 4.6	98	85	63	34	22	60.6%
MiniMax M2.5	95	83	66	52	0	59.3%
Gemma 3 12B	100	68	44	42	42	59.3%
Gemini 2.5 Flash	98	71	51	35	34	57.8%
Hermes 3 70B	100	100	39	33	15	57.4%
Claude 3.5 Sonnet	100	100	73	9	0	56.4%
Cohere Command R+ (Aug. 2024)	100	78	76	19	7	56.0%
Z.AI GLM 4.5 Air	100	77	52	49	0	55.5%
GPT-4o, May 13th (temp=1)	71	67	65	43	16	52.2%
GPT-5 Nano	78	69	43	42	16	49.7%
MiniMax M2.7	72	54	51	34	11	44.5%
Claude 3.7 Sonnet	98	52	41	15	8	42.9%
GPT-OSS 120B	69	58	41	12	0	35.9%
Gemma 4 26B	100	42	26	11	0	35.9%
Inception Mercury 2	59	51	49	18	0	35.3%
Llama 3.1 Nemotron 70B	88	68	5	0	0	32.0%
Mistral Small 3.2 24B	100	42	18	0	0	31.9%
Arcee AI: Trinity Large (Preview)	100	29	27	0	0	31.3%
Gemini 2.5 Flash Lite	76	50	7	0	0	26.5%
Stealth: Aurora Alpha	76	29	5	0	0	21.9%
Gemini 2.5 Flash Lite (Reasoning)	81	7	0	0	0	17.5%
Claude Sonnet 4	54	33	0	0	0	17.3%
Z.AI GLM 4.5	65	0	0	0	0	13.0%
Llama 3.1 70B	49	3	0	0	0	10.5%
Nemotron 3 Nano	38	0	0	0	0	7.5%
Llama 3.1 8B	20	0	0	0	0	4.1%
Inception Mercury	6	0	0	0	0	1.1%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
LFM2 24B	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	99.9%
MiniMax M2.5	100	100	100	100	99	99.9%
GPT-5.4 Mini	100	100	100	100	99	99.9%
Claude Opus 4.7 (Reasoning)	100	100	100	100	99	99.7%
Claude Opus 4.7	100	100	100	100	98	99.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	97	99.4%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	97	99.4%
Qwen 3.5 Flash	100	100	100	100	96	99.3%
Mistral Small 4	100	100	100	100	96	99.3%
Ministral 3 8B	100	100	100	100	96	99.2%
Qwen3.7 Max	100	100	100	100	95	98.9%
Cohere Command R+ (Aug. 2024)	100	100	100	98	96	98.8%
Gemini 2.5 Pro	100	100	100	100	93	98.6%
GPT-4.1 Nano	100	100	100	100	93	98.6%
Aion 2.0	100	100	100	100	92	98.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	92	98.5%
Gemini 3.5 Flash (Reasoning)	100	100	100	99	92	98.3%
GPT-4o Mini (temp=0)	100	100	100	97	94	98.3%
Hermes 3 405B	100	100	100	99	89	97.6%
ByteDance Seed 2.0 Mini	100	100	100	100	85	96.9%
Qwen 3.6 35B	100	100	100	100	84	96.8%
Ministral 8B	100	100	100	100	84	96.8%
Z.AI GLM 5	100	100	100	100	83	96.6%
DeepSeek V4 Pro (Reasoning)	100	100	98	96	87	96.2%
Ministral 3B	100	100	100	100	81	96.1%
Claude Sonnet 4.5	100	100	100	94	87	96.0%
Z.AI GLM 4.7 Flash	100	100	100	100	80	96.0%
Grok 4.20 (Beta)	100	100	100	100	80	96.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	80	96.0%
GPT-5.4 Nano (Reasoning)	100	100	100	96	83	95.9%
GPT-4o Mini (temp=1)	100	100	100	94	86	95.9%
DeepSeek V3.2	100	100	100	100	76	95.2%
Gemini 3 Flash (Preview)	100	100	100	98	78	95.1%
Xiaomi MIMO v2.5 Pro	100	100	100	100	75	95.0%
DeepSeek V3.1	100	100	100	97	76	94.6%
Z.AI GLM 5 Turbo	100	100	100	100	73	94.6%
GPT-4.1 Mini	100	100	100	93	77	94.0%
Gemma 3 27B	100	100	97	87	80	92.7%
Gemini 3.1 Flash Lite (Preview)	100	100	100	97	66	92.6%
WizardLM 2 8x22b	100	100	96	92	67	91.2%
Claude Sonnet 4.6	100	100	100	85	67	90.3%
Claude Opus 4	100	100	98	75	74	89.5%
Qwen 3.5 Plus (2026-02-15)	100	100	93	81	72	89.3%
MiniMax M2.7	100	100	96	96	52	88.9%
Z.AI GLM 4.6	100	100	84	82	77	88.7%
Ministral 3 3B	100	100	100	100	32	86.3%
ByteDance Seed 1.6	100	100	100	73	54	85.5%
Stealth: Healer Alpha	100	98	82	77	69	85.3%
DeepSeek-V2 Chat	100	100	100	84	42	85.2%
Claude Opus 4.5	100	100	100	93	31	84.8%
Gemma 4 26B	98	88	84	79	75	84.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	14	82.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	95	64	55	82.8%
Gemini 3.1 Flash Lite (Reasoning)	100	98	76	74	63	82.2%
Xiaomi MIMO v2.5	100	100	96	78	27	80.1%
Mistral NeMO	100	100	100	96	0	79.2%
Gemini 2.5 Flash Lite	100	92	75	54	52	74.8%
Hermes 3 70B	100	100	86	82	0	73.6%
Gemma 4 26B (Reasoning)	100	80	72	56	54	72.3%
Gemini 3.1 Flash Lite	89	85	83	76	27	72.2%
Gemini 2.5 Flash (Reasoning)	97	93	83	51	34	71.5%
Z.AI GLM 4.5	100	92	87	44	30	70.7%
Claude 3.5 Sonnet	100	100	68	50	35	70.5%
Gemma 3 4B	92	86	81	80	10	69.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	66	52	25	68.6%
Rocinante 12B	100	100	70	55	0	64.9%
Gemma 3 12B	100	98	77	27	22	64.7%
Llama 3.1 8B	100	92	81	48	0	64.2%
GPT-4o, May 13th (temp=1)	100	75	62	44	35	63.2%
Claude 3.7 Sonnet	88	88	60	47	23	61.3%
Gemini 2.5 Flash	100	100	54	47	0	60.0%
Z.AI GLM 4.5 Air	100	95	85	6	0	57.0%
Nemotron 3 Super	100	56	51	42	22	54.2%
Arcee AI: Trinity Mini	100	76	75	16	0	53.3%
Gemini 2.5 Flash Lite (Reasoning)	82	82	61	30	0	51.1%
Mistral Small 3.2 24B	100	100	0	0	–	50.0%
Arcee AI: Trinity Large (Preview)	100	100	27	0	0	45.3%
Claude Sonnet 4	71	51	48	36	19	44.9%
Claude 3 Haiku	88	84	51	0	0	44.5%
Inception Mercury	100	42	0	0	0	28.5%
GPT-4o, May 13th (temp=0)	75	55	0	0	0	26.2%
GPT-4o, Aug. 6th (temp=0)	67	48	0	0	0	22.9%
GPT-5 Nano	40	32	26	5	2	21.2%
Qwen 2.5 72B	30	25	19	19	0	18.9%
Llama 3.1 Nemotron 70B	30	21	10	0	0	12.3%
Stealth: Aurora Alpha	36	14	0	0	0	10.0%
GPT-OSS 120B	36	0	0	0	0	7.1%
Inception Mercury 2	11	0	0	0	0	2.3%
Llama 3.1 70B	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	99	99.8%
LFM2 24B	100	100	100	100	98	99.6%
Gemini 2.5 Flash	100	100	100	100	98	99.5%
Gemini 2.5 Pro	100	100	100	100	97	99.4%
Stealth: Hunter Alpha	100	100	100	100	97	99.4%
Stealth: Healer Alpha	100	100	100	100	97	99.4%
Mistral Small 3.2 24B	100	100	100	100	97	99.4%
Claude 3 Haiku	100	100	100	100	97	99.4%
Qwen 3.5 27B	100	100	100	100	97	99.3%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	96	99.1%
MoonshotAI: Kimi K2.6	100	100	100	100	95	99.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	95	99.0%
Claude Haiku 4.5	100	100	100	100	95	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	95	99.0%
Ministral 3 8B	100	100	100	100	95	99.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	94	98.7%
Claude Opus 4.7	100	100	100	100	94	98.7%
Qwen 3.5 122B	100	100	100	100	93	98.6%
Gemma 4 26B (Reasoning)	100	100	100	100	93	98.5%
GPT-4.1 Mini	100	100	100	100	93	98.5%
Qwen 3.6 35B	100	100	100	100	93	98.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	92	98.5%
GPT-5	100	100	100	100	92	98.4%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	91	98.1%
Cohere Command R+ (Aug. 2024)	100	100	100	100	90	98.0%
Qwen 3.5 397B A17B	100	100	100	100	89	97.8%
DeepSeek V4 Flash	100	100	100	100	88	97.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	88	97.5%
Gemma 4 26B	100	100	100	100	87	97.4%
GPT-5.4 Mini	100	100	100	100	87	97.4%
Z.AI GLM 4.7	100	100	100	100	86	97.3%
GPT-4o, May 13th (temp=1)	100	100	100	100	86	97.1%
Qwen 3.5 35B	100	100	100	100	85	97.0%
Arcee AI: Trinity Mini	100	100	100	100	85	96.9%
Claude Sonnet 4	100	100	100	100	83	96.7%
Hermes 3 70B	100	100	100	100	83	96.7%
Qwen3.6 Max Preview	100	100	100	100	82	96.5%
Grok 4.20	100	100	100	100	80	95.9%
Claude Opus 4.6	100	100	100	91	88	95.8%
Aion 2.0	100	100	100	95	82	95.4%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	76	95.2%
Claude 3.7 Sonnet	100	100	100	90	83	94.7%
Ministral 3B	100	100	100	92	79	94.1%
Claude Sonnet 4.6	100	100	100	100	70	94.0%
Mistral NeMO	100	100	100	96	74	93.9%
GPT-4o, May 13th (temp=0)	100	100	100	100	68	93.5%
Gemma 3 4B	100	100	100	89	79	93.5%
Grok 4.20 (Reasoning)	100	100	93	87	87	93.5%
Qwen 2.5 72B	100	100	100	94	68	92.4%
Gemma 3 12B	100	100	100	100	60	91.9%
Z.AI GLM 4.7 Flash	100	100	100	100	59	91.8%
Z.AI GLM 5	100	100	100	99	58	91.4%
Claude Opus 4	100	100	100	100	54	90.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	95	57	90.4%
Claude Opus 4.7 (Reasoning)	100	100	93	81	73	89.2%
Arcee AI: Trinity Large (Preview)	100	100	100	100	45	89.1%
Gemini 3.1 Flash Lite	100	100	94	89	61	88.7%
Qwen 3.6 Flash	100	100	89	87	66	88.5%
ByteDance Seed 1.6	100	100	100	83	50	86.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	69	61	86.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	73	55	85.6%
GPT-OSS 120B	100	100	91	67	55	82.7%
Inception Mercury 2	100	100	73	69	60	80.3%
Nemotron 3 Super	100	100	100	59	33	78.3%
Llama 3.1 70B	100	93	79	70	3	69.0%
Inception Mercury	100	100	100	28	10	67.7%
Stealth: Aurora Alpha	100	98	90	50	0	67.5%
Llama 3.1 Nemotron 70B	81	78	73	70	33	66.9%
GPT-5 Nano	100	77	76	74	4	66.2%
Gemini 3.1 Flash Lite (Reasoning)	86	57	42	32	16	46.4%
Llama 3.1 8B	100	100	31	0	0	46.2%
Nemotron 3 Nano	78	36	33	28	0	34.9%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Stealth: Healer Alpha	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	99	99.8%
GPT-5	100	100	100	100	99	99.8%
o4 Mini	100	100	100	100	97	99.4%
Z.AI GLM 4.6	100	100	100	100	97	99.4%
DeepSeek V3.2	100	100	100	100	97	99.4%
Writer: Palmyra X5	100	100	100	100	96	99.3%
Z.AI GLM 5	100	100	100	100	96	99.1%
Mistral Medium 3.1	100	100	100	100	95	99.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	94	98.9%
Gemini 2.5 Flash	100	100	100	100	94	98.6%
Gemini 3.1 Pro (Preview)	100	100	100	100	93	98.6%
Gemma 3 27B	100	100	100	100	93	98.6%
GPT-5.1	100	100	100	100	93	98.5%
Hermes 3 405B	100	100	100	100	93	98.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	92	98.5%
Xiaomi MIMO v2.5	100	100	100	99	93	98.4%
Grok 4.20	100	100	100	100	92	98.4%
Xiaomi MIMO v2.5 Pro	100	100	98	98	96	98.4%
Z.AI GLM 5.1	100	100	100	100	91	98.2%
WizardLM 2 8x22b	100	100	100	100	90	98.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	90	98.0%
Qwen 3.5 122B	100	100	100	100	89	97.9%
Z.AI GLM 4.7	100	100	100	100	89	97.8%
Gemini 2.5 Pro	100	100	100	94	94	97.7%
Claude Opus 4.6	100	100	100	100	88	97.7%
GPT-5 Mini	100	100	100	100	88	97.5%
Grok 4 Fast	100	100	100	97	90	97.4%
GPT-4.1	100	100	100	100	87	97.4%
GPT-4.1 Mini	100	100	100	100	86	97.3%
Mistral Small 4 (Reasoning)	100	100	100	100	86	97.1%
Grok 4.20 (Beta)	100	100	100	100	84	96.7%
Qwen 3.5 Flash	100	100	100	100	82	96.5%
Claude Sonnet 4.5	100	100	100	100	82	96.3%
Ministral 3B	100	100	100	100	81	96.1%
Grok 4.20 (Beta, Reasoning)	100	100	95	94	92	96.1%
Grok 4	100	100	100	92	88	96.1%
GPT-4o Mini (temp=1)	100	100	100	92	88	95.9%
MiniMax M2.5	100	100	100	94	85	95.8%
ByteDance Seed 1.6 Flash	100	100	100	98	80	95.6%
ByteDance Seed 2.0 Mini	100	100	100	92	86	95.5%
DeepSeek V4 Flash	100	100	100	100	77	95.4%
Qwen3.7 Max	100	100	100	89	88	95.4%
Mistral NeMO	100	100	100	100	76	95.2%
Mistral Large	100	100	100	100	75	95.0%
Grok 4.3	100	100	100	88	86	94.7%
Claude Opus 4	100	100	100	100	73	94.5%
Qwen 3 32B	100	100	100	92	80	94.3%
Cohere Command R+ (Aug. 2024)	100	100	100	100	70	94.0%
Claude Opus 4.6 (Reasoning)	100	100	100	96	73	93.7%
Z.AI GLM 5 Turbo	100	100	92	89	86	93.4%
Gemini 3.5 Flash (Reasoning)	100	100	100	86	79	93.1%
GPT-4o Mini (temp=0)	100	100	100	82	82	92.7%
Arcee AI: Trinity Mini	100	100	100	98	61	91.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	86	79	91.8%
DeepSeek V4 Pro	100	100	100	80	78	91.6%
DeepSeek V3 (2024-12-26)	100	100	100	85	70	91.0%
Gemma 4 26B (Reasoning)	100	100	94	83	75	90.4%
GPT-4.1 Nano	100	100	100	88	62	90.1%
Qwen 3.5 Plus (2026-02-15)	100	100	94	81	75	89.9%
DeepSeek V4 Pro (Reasoning)	100	100	100	78	71	89.9%
DeepSeek-V2 Chat	100	100	100	100	49	89.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	90	59	89.8%
Ministral 3 3B	100	100	100	90	57	89.4%
Qwen 3.5 397B A17B	100	100	100	94	52	89.3%
Claude Opus 4.7	100	100	100	93	54	89.2%
ByteDance Seed 2.0 Lite	100	100	100	83	60	88.6%
LFM2 24B	100	100	100	89	54	88.4%
Z.AI GLM 4.5	100	94	89	82	76	88.1%
MiniMax M2.7	100	91	89	89	67	87.1%
GPT-4o, May 13th (temp=0)	100	100	100	83	51	86.9%
Ministral 3 8B	100	100	92	92	50	86.8%
Gemma 4 31B	100	100	89	86	58	86.7%
MoonshotAI: Kimi K2.5	100	100	90	73	70	86.5%
Gemma 3 4B	100	100	97	68	61	85.1%
Inception Mercury	100	100	100	94	30	84.8%
Claude Opus 4.5	99	90	86	71	71	83.6%
Claude 3 Haiku	100	100	100	91	27	83.5%
Gemma 4 31B (Reasoning)	100	100	86	85	45	83.1%
Mistral Small 3.2 24B	100	100	100	90	25	83.1%
GPT-5 Nano	100	100	91	71	45	81.4%
Nemotron 3 Super	100	100	100	73	33	81.0%
GPT-OSS 120B	100	100	100	61	41	80.4%
Arcee AI: Trinity Large (Preview)	100	100	100	93	7	79.9%
Gemini 2.5 Flash Lite	96	95	79	72	51	78.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	81	80	28	77.6%
Claude 3.7 Sonnet	100	75	71	70	67	76.5%
Claude Haiku 4.5	100	100	100	79	0	75.9%
Z.AI GLM 4.5 Air	100	100	84	61	30	75.0%
DeepSeek V3.1	100	100	65	54	45	72.7%
Gemini 3 Flash (Preview)	100	83	74	54	36	69.4%
Rocinante 12B	100	100	100	33	0	66.6%
ByteDance Seed 1.6	100	100	48	44	39	66.2%
Gemini 3.1 Flash Lite (Preview)	100	100	61	43	26	66.0%
Inception Mercury 2	96	61	58	54	53	64.5%
Gemini 3 Flash (Preview, Reasoning)	100	66	66	51	39	64.4%
Llama 3.1 8B	100	94	61	51	0	61.3%
Gemini 3.1 Flash Lite (Reasoning)	100	88	55	31	26	60.0%
Gemini 3.1 Flash Lite	91	67	63	46	0	53.3%
Hermes 3 70B	100	59	56	29	22	53.1%
Qwen 2.5 72B	63	59	54	42	36	50.7%
Gemma 4 26B	98	71	41	24	19	50.3%
Claude Sonnet 4	100	100	20	19	2	48.1%
Llama 3.1 70B	96	71	48	24	0	47.8%
Llama 3.1 Nemotron 70B	100	68	51	13	0	46.3%
Claude 3.5 Sonnet	79	63	59	7	0	41.7%
Stealth: Aurora Alpha	93	37	16	4	0	30.0%
Nemotron 3 Nano	66	16	8	5	4	19.9%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100.0%
Qwen 3 32B	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	99	99.9%
Claude 3 Haiku	100	100	100	100	98	99.6%
Gemma 4 31B (Reasoning)	100	100	100	100	98	99.5%
GPT-4.1 Nano	100	100	100	100	98	99.5%
Z.AI GLM 4.5	100	100	100	100	96	99.2%
GPT-4o Mini (temp=0)	100	100	100	100	96	99.2%
Grok 4 Fast	100	100	100	100	95	98.9%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	94	98.8%
Z.AI GLM 5	100	100	100	100	94	98.8%
Ministral 3 3B	100	100	100	100	94	98.7%
Z.AI GLM 4.7 Flash	100	100	100	99	93	98.4%
GPT-4o, May 13th (temp=1)	100	100	100	100	92	98.4%
Claude Sonnet 4.5	100	100	100	100	92	98.3%
Qwen 3.5 122B	100	100	100	100	91	98.3%
Claude Opus 4.5	100	100	100	96	95	98.2%
Qwen 3.5 35B	100	100	100	100	91	98.2%
DeepSeek-V2 Chat	100	100	100	100	91	98.2%
Qwen 3.6 Flash	100	100	100	100	90	98.0%
Stealth: Aurora Alpha	100	100	100	99	91	98.0%
Qwen 3.6 27B	100	100	100	100	89	97.9%
LFM2 24B	100	100	100	100	89	97.9%
GPT-5.4 (Reasoning, Low)	100	100	100	100	88	97.7%
Z.AI GLM 5 Turbo	100	100	100	100	88	97.6%
Gemini 2.5 Flash	100	100	100	100	87	97.4%
GPT-OSS 120B	100	100	100	97	89	97.2%
Gemini 3.1 Flash Lite	100	100	100	100	86	97.1%
GPT-4o, May 13th (temp=0)	100	100	100	100	85	97.0%
Gemini 2.5 Pro	100	100	100	96	87	96.7%
Gemini 3 Pro (Preview)	100	100	100	100	83	96.7%
Ministral 3 8B	100	100	100	100	82	96.5%
Grok 4.20 (Reasoning)	100	100	100	93	90	96.4%
Gemma 3 4B	100	100	100	100	81	96.1%
Z.AI GLM 5.1	100	100	100	96	84	96.0%
MiniMax M2.5	100	100	100	100	79	95.7%
Cohere Command R+ (Aug. 2024)	100	100	100	100	78	95.6%
Qwen 3.5 Flash	100	100	100	100	77	95.5%
GPT-4o Mini (temp=1)	100	100	100	100	75	95.0%
Z.AI GLM 4.5 Air	100	100	100	92	82	94.8%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	71	94.3%
ByteDance Seed 2.0 Lite	100	100	100	87	82	93.8%
Inception Mercury 2	100	100	100	100	68	93.5%
Claude Opus 4	100	100	95	94	75	92.7%
Arcee AI: Trinity Large (Preview)	100	100	100	89	73	92.5%
Qwen 3.5 397B A17B	100	100	100	85	77	92.4%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	62	92.4%
Gemini 3.5 Flash (Reasoning)	100	100	100	98	63	92.1%
ByteDance Seed 1.6	100	100	100	87	74	92.0%
Mistral NeMO	100	100	100	88	71	91.7%
Stealth: Healer Alpha	100	100	100	78	78	91.2%
MiniMax M2.7	100	100	99	90	67	91.1%
Qwen 2.5 72B	100	100	100	100	54	90.7%
Arcee AI: Trinity Mini	100	100	100	100	54	90.7%
Claude Opus 4.7	100	100	100	94	59	90.7%
Grok 4.20 (Beta, Reasoning)	100	100	100	80	71	90.3%
Aion 2.0	100	100	94	92	64	90.1%
Claude Sonnet 4.6	100	100	100	89	60	89.9%
Hermes 3 70B	100	100	100	78	71	89.9%
Claude Haiku 4.5	100	100	100	98	46	88.7%
DeepSeek V3.2	100	100	94	79	63	87.0%
Gemini 2.5 Flash Lite	100	93	89	83	68	86.5%
Gemma 3 12B	100	100	100	67	63	86.1%
Gemini 2.5 Flash (Reasoning)	94	94	91	75	67	84.1%
Gemini 3 Flash (Preview)	100	87	84	81	68	84.0%
GPT-4.1 Mini	100	100	100	100	19	83.7%
GPT-5.4 Mini (Reasoning)	100	100	76	75	67	83.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	91	24	82.9%
DeepSeek V3.1	100	100	100	72	41	82.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	94	77	38	81.8%
Qwen 3.6 35B	100	100	81	80	43	80.8%
Inception Mercury	100	100	100	100	0	80.0%
ByteDance Seed 2.0 Mini	100	100	100	62	36	79.5%
Gemini 2.5 Flash Lite (Reasoning)	100	100	90	72	33	79.0%
Gemini 3.1 Flash Lite (Preview)	100	100	93	92	2	77.4%
Gemma 4 26B (Reasoning)	100	100	86	55	44	77.0%
Rocinante 12B	100	100	98	54	24	75.2%
Claude Sonnet 4	100	100	100	74	0	74.7%
Gemini 3 Flash (Preview, Reasoning)	96	95	67	47	41	69.1%
Gemini 3.1 Flash Lite (Reasoning)	100	88	67	47	41	68.6%
Llama 3.1 8B	100	100	98	44	0	68.5%
GPT-5 Nano	100	91	81	30	29	66.1%
Nemotron 3 Super	100	94	82	30	13	64.0%
Llama 3.1 70B	100	88	78	21	17	60.7%
Nemotron 3 Nano	100	61	53	39	0	50.7%
Llama 3.1 Nemotron 70B	100	61	51	0	0	42.4%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
Rocinante 12B	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	99	99.8%
Qwen 3.5 122B	100	100	100	100	98	99.6%
Arcee AI: Trinity Mini	100	100	100	100	98	99.5%
Claude Opus 4.7 (Reasoning)	100	100	100	100	97	99.4%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	96	99.2%
Z.AI GLM 4.7 Flash	100	100	100	100	96	99.2%
MoonshotAI: Kimi K2.6	100	100	100	100	95	98.9%
Qwen 3.5 397B A17B	100	100	100	100	95	98.9%
Mistral Small 4	100	100	100	100	94	98.9%
Ministral 3B	100	100	100	98	97	98.8%
Aion 2.0	100	100	100	100	94	98.7%
GPT-4o, Aug. 6th (temp=1)	100	100	100	99	94	98.7%
Gemini 3 Pro (Preview)	100	100	100	100	93	98.7%
Qwen 3.6 35B	100	100	100	100	93	98.6%
GPT-5.4 Mini (Reasoning)	100	100	100	100	93	98.5%
Qwen 3.5 9B	100	100	100	100	92	98.5%
GPT-4.1 Mini	100	100	100	100	90	98.0%
Z.AI GLM 4.7	100	100	100	96	94	98.0%
Grok 4.3	100	100	100	96	93	97.9%
DeepSeek V4 Pro	100	100	100	100	89	97.9%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	88	97.5%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	86	97.3%
Gemini 2.5 Flash Lite	100	100	100	100	86	97.3%
Qwen 3.6 Flash	100	100	100	100	86	97.2%
Grok 4	100	100	100	100	86	97.1%
DeepSeek V3.1	100	100	100	100	86	97.1%
Gemma 3 12B	100	100	100	98	86	96.9%
Z.AI GLM 5 Turbo	100	100	100	100	84	96.8%
Z.AI GLM 5.1	100	100	100	100	83	96.7%
Ministral 8B	100	100	100	100	83	96.5%
Mistral Small 4 (Reasoning)	100	100	97	92	92	96.3%
DeepSeek V3 (2025-03-24)	100	100	100	97	84	96.2%
GPT-4o Mini (temp=1)	100	100	100	100	81	96.1%
GPT-4o, May 13th (temp=1)	100	100	100	100	80	96.0%
Xiaomi MIMO v2.5	100	100	100	100	79	95.8%
ByteDance Seed 1.6 Flash	100	100	98	91	90	95.7%
GPT-4.1 Nano	100	100	100	100	78	95.6%
GPT-5	100	100	100	94	83	95.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	77	95.4%
Qwen 3.5 35B	100	100	100	98	78	95.1%
Claude Haiku 4.5	100	100	100	100	75	95.0%
Z.AI GLM 5	100	100	98	96	81	94.9%
Claude Sonnet 4.5	100	100	100	95	77	94.4%
Gemini 2.5 Flash	100	100	100	100	71	94.3%
Gemini 2.5 Flash (Reasoning)	100	100	100	88	82	94.1%
Grok 4.20 (Beta, Reasoning)	100	100	100	88	82	93.9%
Qwen 3.5 Flash	100	100	100	93	76	93.8%
Claude Sonnet 4.6	100	100	98	92	79	93.6%
Qwen 2.5 72B	100	100	100	100	65	93.0%
Gemma 4 26B (Reasoning)	100	100	100	99	63	92.5%
DeepSeek V3.2	100	100	100	87	76	92.5%
GPT-4o, May 13th (temp=0)	100	100	100	94	68	92.3%
Qwen 3 32B	100	100	100	99	62	92.2%
GPT-5.4 Nano (Reasoning)	100	100	100	97	64	92.2%
DeepSeek V4 Flash	100	100	100	83	77	92.1%
MiniMax M2.7	100	100	100	88	72	92.0%
Z.AI GLM 4.5 Air	100	100	98	86	75	91.8%
GPT-4.1	100	100	100	100	58	91.6%
Gemini 2.5 Pro	100	100	100	85	73	91.5%
Mistral NeMO	100	99	97	83	76	91.0%
Hermes 3 405B	100	100	100	83	71	91.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	89	85	77	90.2%
Gemma 3 27B	100	100	100	76	74	90.0%
Gemma 4 26B	100	100	87	82	80	89.8%
Gemma 4 31B (Reasoning)	100	100	100	100	48	89.5%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	45	89.0%
Stealth: Healer Alpha	100	100	90	86	69	88.8%
GPT-5 Mini	100	98	91	88	65	88.4%
LFM2 24B	100	88	88	86	79	88.3%
Gemma 4 31B	100	100	98	81	62	88.3%
Gemma 3 4B	100	100	98	71	70	87.6%
Cohere Command R+ (Aug. 2024)	98	97	93	80	69	87.3%
Grok 4.20 (Reasoning)	100	100	90	72	68	85.8%
Claude Opus 4.6 (Reasoning)	100	100	86	84	59	85.7%
MoonshotAI: Kimi K2.5	100	100	86	81	61	85.7%
WizardLM 2 8x22b	100	100	92	91	44	85.5%
Z.AI GLM 4.6	100	100	100	74	52	85.2%
Hermes 3 70B	100	100	100	75	49	84.8%
DeepSeek V3 (2024-12-26)	100	100	100	65	56	84.2%
Gemini 3 Flash (Preview)	100	94	82	74	66	83.5%
MiniMax M2.5	100	86	85	72	69	82.4%
Mistral Small 3.2 24B	100	100	100	94	18	82.3%
Claude Opus 4.5	100	96	83	77	54	81.9%
Grok 4.3 (Reasoning)	100	100	100	100	0	80.0%
Claude 3.5 Sonnet	100	100	86	76	33	79.0%
DeepSeek-V2 Chat	100	100	100	53	30	76.5%
GPT-5 Nano	100	100	100	56	15	74.1%
Gemini 3.1 Flash Lite (Reasoning)	100	91	73	59	46	73.8%
ByteDance Seed 2.0 Lite	100	89	86	79	0	70.7%
Gemini 2.5 Flash Lite (Reasoning)	100	87	67	62	33	69.8%
Gemini 3.1 Flash Lite	100	82	64	59	41	69.3%
Gemini 3 Flash (Preview, Reasoning)	100	80	80	46	34	67.9%
Inception Mercury	100	100	100	33	0	66.6%
Claude 3.7 Sonnet	100	88	57	53	32	65.8%
ByteDance Seed 2.0 Mini	100	86	65	57	0	61.6%
Arcee AI: Trinity Large (Preview)	100	88	71	41	0	60.0%
Z.AI GLM 4.5	98	70	63	39	17	57.5%
Inception Mercury 2	74	69	64	63	14	56.9%
Llama 3.1 8B	100	94	54	30	0	55.4%
Llama 3.1 70B	89	71	71	24	21	55.4%
Nemotron 3 Nano	98	79	50	19	0	49.3%
ByteDance Seed 1.6	92	88	35	16	5	47.2%
Nemotron 3 Super	88	58	54	33	0	46.5%
Gemini 3.1 Flash Lite (Preview)	82	54	46	33	0	43.0%
Llama 3.1 Nemotron 70B	100	70	33	10	0	42.5%
GPT-OSS 120B	71	63	50	26	0	42.0%
Stealth: Aurora Alpha	50	40	17	16	12	27.1%
Claude Sonnet 4	59	33	15	0	0	21.3%

Filter word density

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets