AI-ism adverb frequency

Test: Bad Writing Habits

Avg. Score

88.8%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	ByteDance Seed 1.6 Flash	97.0%	$0.0013	27.3s	91%
2	ByteDance Seed 2.0 Lite	98.0%	$0.012	2.2m	95%
3	o4 Mini	95.4%	$0.015	25.7s	86%
4	Inception Mercury 2	92.6%	$0.0032	7.0s	84%
5	DeepSeek V4 Flash	93.5%	$0.0006	31.6s	84%
6	o4 Mini High	95.8%	$0.025	47.2s	87%
7	Qwen 3.5 9B	95.3%	$0.0011	1.4m	85%
8	GPT-5 Mini	94.0%	$0.0100	57.4s	86%
9	Gemini 3 Flash (Preview)	92.3%	$0.0078	19.6s	84%
10	Qwen 3.5 Flash	93.2%	$0.0025	47.5s	84%
11	Gemini 3.1 Flash Lite (Preview)	91.5%	$0.0030	8.4s	81%
12	DeepSeek V4 Flash (Reasoning)	92.6%	$0.0007	31.1s	82%
13	Gemini 3.1 Flash Lite	91.3%	$0.0030	12.1s	81%
14	GPT-4.1	93.4%	$0.018	44.7s	85%
15	Gemini 3 Flash (Preview, Reasoning)	91.9%	$0.012	30.1s	84%
16	Gemini 3.1 Flash Lite (Reasoning)	91.7%	$0.0030	11.9s	80%
17	Qwen 3.6 Flash	93.0%	$0.010	41.4s	82%
18	Grok 4.3	92.0%	$0.0069	30.5s	81%
19	Mistral Medium 3.1	91.9%	$0.0048	36.5s	81%
20	Qwen 3.5 35B	93.6%	$0.018	1.0m	84%
21	ByteDance Seed 1.6	96.3%	$0.013	2.5m	89%
22	GPT-5.4 Nano (Reasoning, Low)	90.1%	$0.0055	20.6s	81%
23	Grok 4.5 (Reasoning, Low)	94.0%	$0.018	1.1m	83%
24	Aion 3.0	93.6%	$0.024	1.0m	85%
25	GPT-5.4 Mini (Reasoning, Low)	91.0%	$0.015	16.8s	81%
26	GPT-5.4 Nano	89.6%	$0.0057	26.3s	82%
27	GPT-5.4 Mini (Reasoning)	92.4%	$0.022	28.1s	81%
28	Mistral Large 3	90.8%	$0.0033	30.3s	79%
29	Qwen 3.6 35B	92.3%	$0.0083	1.0m	82%
30	GPT-5.4 Mini	90.9%	$0.015	16.8s	80%
31	GPT-5 Nano	90.8%	$0.0042	1.4m	85%
32	GPT-5.4 Nano (Reasoning)	89.7%	$0.0061	24.5s	80%
33	Qwen 3.5 122B	93.2%	$0.025	1.1m	83%
34	Grok 4.5 (Reasoning, High)	94.8%	$0.030	1.6m	85%
35	GPT-OSS 120B	92.9%	$0.0015	1.8m	83%
36	Qwen 3.5 Plus (2026-04-20)	93.9%	$0.017	1.8m	85%
37	Z.AI GLM 5 Turbo	90.9%	$0.0081	33.2s	79%
38	Gemma 4 26B	90.3%	$0.0009	55.1s	79%
39	Z.AI GLM 5.2 (Reasoning, High)	91.6%	$0.011	1.0m	80%
40	Aion 3.0 Mini	91.8%	$0.0053	1.2m	79%
41	Qwen 3.5 Plus (2026-02-15)	89.5%	$0.0060	31.5s	78%
42	Nemotron 3 Nano	90.0%	$0.0010	1.1m	80%
43	Ministral 3 14B	88.8%	$0.0007	11.7s	75%
44	Gemma 4 31B	91.8%	$0.0010	1.6m	81%
45	Ministral 8B	88.5%	$0.0004	10.4s	75%
46	Qwen 3 32B	90.8%	$0.0015	54.6s	77%
47	Z.AI GLM 5.1	92.1%	$0.014	1.5m	82%
48	Grok 4.3 (Reasoning)	94.3%	$0.021	2.3m	85%
49	Qwen 3.5 27B	92.8%	$0.020	1.6m	82%
50	Z.AI GLM 5	90.4%	$0.0084	1.2m	80%
51	Qwen 2.5 72B	88.6%	$0.0010	36.7s	76%
52	Xiaomi MIMO v2.5 Pro	89.8%	$0.0085	53.5s	78%
53	Arcee AI: Trinity Mini	88.3%	$0.0003	9.2s	73%
54	Grok 4.20 (Reasoning)	91.1%	$0.018	1.5m	82%
55	Xiaomi MIMO v2.5	87.8%	$0.0054	31.8s	77%
56	Nemotron 3 Super	90.3%	$0.0000	1.4m	78%
57	Z.AI GLM 4.7 Flash	89.3%	$0.0017	1.2m	78%
58	Mistral Large 2	89.3%	$0.013	29.4s	76%
59	Ministral 3 8B	86.9%	$0.0008	19.6s	75%
60	Mistral Small 4 (Reasoning)	87.0%	$0.0022	30.2s	75%
61	Gemma 4 31B (Reasoning)	91.2%	$0.0014	2.2m	80%
62	DeepSeek V4 Pro	88.9%	$0.0048	1.3m	78%
63	DeepSeek V3 (2025-03-24)	88.7%	$0.0014	39.4s	73%
64	Ministral 3B	87.9%	$0.0001	8.1s	70%
65	GPT-5.2	93.5%	$0.056	1.5m	83%
66	Qwen 3.5 397B A17B	93.6%	$0.014	3.0m	84%
67	Ministral 3 3B	87.4%	$0.0005	11.1s	70%
68	Grok 4.20	86.9%	$0.0093	45.7s	77%
69	Mistral Small 4	86.3%	$0.0014	18.2s	72%
70	Gemma 4 26B (Reasoning)	90.1%	$0.0013	2.0m	79%
71	MiniMax M2.7	87.4%	$0.0040	1.1m	76%
72	Aion 2.0	88.6%	$0.0064	1.3m	76%
73	Gemini 3.5 Flash (Reasoning, Minimal)	86.1%	$0.018	12.0s	73%
74	MoonshotAI: Kimi K2.5	93.5%	$0.019	3.2m	83%
75	GPT-5.4	91.7%	$0.049	1.4m	80%
76	Writer: Palmyra X5	86.3%	$0.011	22.0s	71%
77	GPT-5.4 (Reasoning, Low)	92.2%	$0.055	1.4m	79%
78	Qwen3 235B A22B Instruct 2507	86.6%	$0.0011	59.2s	73%
79	GPT-5	95.4%	$0.065	2.8m	87%
80	Llama 3.1 70B	86.6%	$0.0015	29.4s	69%
81	Claude Opus 4.6	92.2%	$0.078	1.2m	82%
82	Z.AI GLM 4.7	87.0%	$0.010	1.4m	76%
83	DeepSeek V4 Pro (Reasoning)	91.7%	$0.015	3.1m	82%
84	Z.AI GLM 4.6	85.4%	$0.0065	51.5s	73%
85	MiniMax M2.5	86.1%	$0.0034	1.3m	74%
86	Gemini 2.5 Pro	87.8%	$0.036	36.2s	74%
87	GPT-4o, Aug. 6th (temp=0)	85.8%	$0.023	22.7s	72%
88	Claude Sonnet 4.5	88.3%	$0.035	38.1s	73%
89	Claude Sonnet 5 (Reasoning, Low)	87.4%	$0.031	38.4s	73%
90	Mistral NeMO	83.7%	$0.0005	10.1s	68%
91	WizardLM 2 8x22b	88.0%	$0.0026	1.8m	74%
92	Claude Opus 4.8 (Reasoning, Low)	91.1%	$0.071	41.9s	76%
93	Cohere Command R+ (Aug. 2024)	86.5%	$0.020	52.5s	72%
94	Qwen3.6 Max Preview	95.0%	$0.050	3.5m	85%
95	GPT-5.1	91.3%	$0.054	1.8m	78%
96	Claude Sonnet 5 (Reasoning)	87.0%	$0.030	38.9s	71%
97	Claude Sonnet 5	86.5%	$0.027	33.5s	69%
98	Claude Haiku 4.5	83.3%	$0.011	21.6s	69%
99	DeepSeek V3.2	85.8%	$0.0014	1.9m	74%
100	ByteDance Seed 2.0 Mini	93.1%	$0.0045	4.9m	84%
101	Qwen 3.6 27B	91.3%	$0.025	2.3m	72%
102	GPT-4o, Aug. 6th (temp=1)	83.4%	$0.018	24.4s	68%
103	Claude Opus 4.8 (Reasoning)	89.1%	$0.071	41.7s	73%
104	Claude Opus 4.6 (Reasoning)	91.0%	$0.088	1.4m	79%
105	GPT-5.5 (Reasoning, Low)	94.9%	$0.139	1.8m	87%
106	Claude Opus 4.7 (Reasoning)	88.2%	$0.076	32.0s	74%
107	GPT-4o Mini (temp=0)	82.7%	$0.0012	34.8s	66%
108	GPT-5.5	94.7%	$0.139	1.7m	86%
109	Gemini 2.5 Flash Lite	80.4%	$0.0009	9.5s	65%
110	DeepSeek V3.1	84.7%	$0.0020	1.8m	71%
111	Gemini 3.5 Flash (Reasoning)	87.0%	$0.071	37.6s	74%
112	Gemini 2.5 Flash	80.7%	$0.0052	10.6s	65%
113	Qwen3.7 Max	91.8%	$0.068	2.3m	78%
114	Z.AI GLM 4.5 Air	83.6%	$0.0029	58.2s	66%
115	Gemma 3 27B	82.6%	$0.0006	52.6s	66%
116	GPT-5.5 (Reasoning)	94.8%	$0.142	1.8m	85%
117	DeepSeek V3 (2024-12-26)	82.6%	$0.0021	54.6s	66%
118	Claude Sonnet 4	83.4%	$0.032	43.7s	70%
119	GPT-5.4 (Reasoning)	93.2%	$0.089	2.6m	81%
120	GPT-4o Mini (temp=1)	80.9%	$0.0012	34.8s	65%
121	Gemini 2.5 Flash Lite (Reasoning)	79.3%	$0.0028	30.8s	67%
122	MiniMax M3	87.3%	$0.0060	3.1m	73%
123	Claude Opus 4.5	86.0%	$0.070	53.4s	73%
124	Claude Opus 4.7	86.4%	$0.069	30.4s	70%
125	DeepSeek-V2 Chat	82.2%	$0.0021	53.3s	64%
126	Hermes 3 405B	81.9%	$0.0032	53.2s	63%
127	Hermes 3 70B	82.2%	$0.0010	1.2m	63%
128	Gemma 3 12B	78.9%	$0.0004	41.3s	62%
129	GPT-4.1 Mini	78.3%	$0.0027	19.0s	60%
130	Z.AI GLM 4.5	78.2%	$0.0051	42.1s	62%
131	Claude Sonnet 4.6 (Reasoning)	84.0%	$0.060	1.2m	67%
132	MoonshotAI: Kimi K2.6	95.7%	$0.058	6.5m	87%
133	Gemini 2.5 Flash (Reasoning)	77.1%	$0.011	21.5s	60%
134	Claude Sonnet 4.6	80.3%	$0.031	39.3s	61%
135	Gemini 3.1 Pro (Preview)	88.4%	$0.107	1.8m	70%
136	Gemma 3 4B	74.0%	$0.0002	20.0s	57%
137	Cydonia 24B V4.1	72.2%	$0.0014	44.8s	50%
138	GPT-4.1 Nano	67.5%	$0.0007	13.3s	49%
139	Claude Opus 4	85.5%	$0.209	1.4m	73%
140	Mistral Small 3.2 24B	79.3%	$0.0069	5.7m	49%
88.75%

Individual Scenarios

Detailed Writing Rules

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen 3.5 122B	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	97	99.4%
Qwen 3.6 Flash	100	100	100	100	96	99.2%
GPT-5.5 (Reasoning)	100	100	98	98	98	98.9%
Qwen3.6 Max Preview	100	100	100	97	96	98.5%
GPT-5.4	100	100	98	97	97	98.5%
ByteDance Seed 1.6 Flash	100	100	100	97	93	98.1%
GPT-5.4 (Reasoning)	100	100	98	96	95	97.9%
ByteDance Seed 2.0 Lite	100	100	100	96	93	97.8%
GPT-5.5 (Reasoning, Low)	100	100	98	96	94	97.6%
ByteDance Seed 1.6	100	100	96	96	95	97.5%
GPT-5.2	98	98	98	98	96	97.4%
o4 Mini High	100	97	96	96	96	97.1%
GPT-5.4 (Reasoning, Low)	100	100	96	96	93	97.1%
GPT-5.4 Mini (Reasoning)	97	97	97	97	95	96.8%
GPT-5.5	100	100	97	95	89	96.3%
Qwen3.7 Max	100	100	100	95	86	96.2%
DeepSeek V4 Flash (Reasoning)	100	96	95	95	95	96.2%
Gemini 3.1 Flash Lite (Preview)	100	96	96	96	92	96.1%
o4 Mini	100	100	100	97	84	96.1%
Qwen 3.5 27B	100	100	100	90	90	96.0%
Claude Opus 4.6 (Reasoning)	100	100	98	91	91	95.9%
GPT-5 Mini	98	96	96	95	94	95.8%
Claude Opus 4.6	100	97	94	94	94	95.6%
GPT-5.4 Mini (Reasoning, Low)	98	97	96	95	92	95.5%
Qwen 3.5 397B A17B	100	100	93	93	92	95.5%
Qwen 3.5 Flash	100	100	100	94	83	95.3%
Gemini 3 Flash (Preview, Reasoning)	100	97	96	93	90	95.3%
GPT-5	100	97	96	93	89	95.1%
Aion 3.0 Mini	100	100	100	94	81	95.1%
Qwen 3.5 35B	100	97	96	95	87	95.1%
GPT-OSS 120B	97	96	96	94	92	95.0%
Grok 4.5 (Reasoning, High)	100	100	100	93	82	95.0%
Grok 4.3 (Reasoning)	100	100	95	90	90	95.0%
Qwen 3.6 27B	100	97	94	92	92	95.0%
GPT-5.4 Nano (Reasoning)	100	98	93	92	90	94.6%
Claude Opus 4.8 (Reasoning, Low)	100	100	95	91	87	94.6%
Arcee AI: Trinity Mini	100	100	93	91	89	94.5%
Mistral Large 3	100	95	95	92	91	94.4%
GPT-5.1	98	94	94	94	92	94.3%
DeepSeek V3 (2024-12-26)	100	100	100	89	82	94.2%
Qwen 3.5 Plus (2026-04-20)	100	96	95	94	85	94.1%
DeepSeek V4 Flash	100	100	96	91	84	94.0%
Z.AI GLM 5.1	100	97	95	91	87	93.9%
DeepSeek V4 Pro (Reasoning)	100	95	95	90	88	93.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	95	87	85	93.5%
Mistral Large 2	100	95	95	91	86	93.5%
GPT-5.4 Nano	96	96	95	92	88	93.5%
Gemma 4 31B	100	96	92	90	90	93.4%
Inception Mercury 2	100	96	94	89	88	93.4%
Qwen 3 32B	99	95	94	90	89	93.4%
ByteDance Seed 2.0 Mini	100	95	93	90	89	93.3%
Ministral 3 8B	100	95	95	92	85	93.2%
GPT-5.4 Mini	100	96	90	90	89	93.2%
Gemma 4 31B (Reasoning)	100	96	95	90	85	93.1%
Qwen 3.5 Plus (2026-02-15)	100	93	93	91	88	92.9%
Grok 4.5 (Reasoning, Low)	96	92	92	92	92	92.9%
Xiaomi MIMO v2.5 Pro	100	97	97	87	83	92.8%
Gemini 3.1 Flash Lite	97	96	95	92	83	92.8%
Gemini 3.1 Flash Lite (Reasoning)	96	96	95	88	88	92.7%
GPT-5.4 Nano (Reasoning, Low)	94	94	94	91	88	92.4%
GPT-4.1	100	96	92	89	84	92.3%
Gemma 4 26B (Reasoning)	100	95	91	90	86	92.3%
Claude Sonnet 4.5	100	100	93	86	82	92.2%
Z.AI GLM 5 Turbo	100	92	91	90	87	92.1%
Gemini 3.1 Pro (Preview)	100	96	90	87	85	91.6%
Gemma 4 26B	100	96	93	88	81	91.5%
Claude Sonnet 5 (Reasoning)	96	95	90	90	85	91.2%
DeepSeek V3 (2025-03-24)	100	100	89	86	81	91.2%
Gemini 2.5 Pro	100	96	92	87	81	91.0%
Qwen 3.5 9B	95	95	93	88	83	91.0%
MoonshotAI: Kimi K2.6	96	92	91	90	85	91.0%
DeepSeek-V2 Chat	100	100	92	89	72	90.6%
Qwen 3.6 35B	95	94	92	92	80	90.6%
Grok 4.20 (Reasoning)	93	91	90	90	89	90.6%
Cohere Command R+ (Aug. 2024)	100	100	94	91	68	90.5%
Mistral Medium 3.1	93	92	90	90	88	90.5%
GPT-5 Nano	93	92	92	89	87	90.3%
Gemini 3 Flash (Preview)	97	94	89	88	82	90.1%
MoonshotAI: Kimi K2.5	100	92	88	86	85	90.0%
Z.AI GLM 5	100	93	92	84	80	89.9%
Aion 3.0	96	93	91	89	81	89.8%
Gemini 3.5 Flash (Reasoning)	95	93	89	89	82	89.5%
Qwen3 235B A22B Instruct 2507	96	92	90	89	80	89.4%
DeepSeek V3.2	93	93	91	91	79	89.3%
GPT-4o, Aug. 6th (temp=1)	95	94	88	86	81	88.9%
Writer: Palmyra X5	95	90	88	87	83	88.8%
Grok 4.3	97	95	91	81	80	88.7%
Claude Opus 4	92	90	90	86	86	88.7%
Claude Sonnet 5 (Reasoning, Low)	95	95	90	86	76	88.5%
DeepSeek V3.1	93	92	90	87	80	88.4%
MiniMax M2.7	96	95	88	83	79	88.2%
Claude Sonnet 4.6 (Reasoning)	96	93	86	84	81	88.0%
MiniMax M3	93	91	91	83	81	87.9%
Z.AI GLM 5.2 (Reasoning, High)	97	94	92	90	66	87.7%
Ministral 8B	94	92	91	90	72	87.7%
Ministral 3 3B	100	100	88	85	65	87.6%
Claude Opus 4.7	95	95	90	81	76	87.5%
Z.AI GLM 4.7 Flash	93	88	87	85	83	87.4%
Nemotron 3 Nano	92	90	88	86	80	87.0%
Claude Opus 4.7 (Reasoning)	95	95	90	90	63	86.9%
Grok 4.20	93	88	87	85	80	86.8%
Aion 2.0	97	92	88	85	70	86.4%
Claude Opus 4.5	94	92	86	84	73	85.9%
Claude Opus 4.8 (Reasoning)	95	90	86	80	77	85.7%
GPT-4o, Aug. 6th (temp=0)	89	86	85	85	83	85.5%
DeepSeek V4 Pro	100	85	82	81	78	85.3%
Claude Sonnet 5	100	89	86	85	63	84.6%
Z.AI GLM 4.7	96	91	83	79	73	84.5%
WizardLM 2 8x22b	93	84	82	82	80	84.1%
Qwen 2.5 72B	96	89	85	76	76	84.1%
Z.AI GLM 4.5 Air	94	93	82	82	66	83.6%
Ministral 3 14B	100	92	78	75	73	83.6%
Claude Sonnet 4.6	92	91	90	76	68	83.4%
Xiaomi MIMO v2.5	90	87	84	83	73	83.4%
Ministral 3B	100	100	92	64	61	83.4%
MiniMax M2.5	91	91	84	78	67	82.3%
Hermes 3 70B	93	84	81	78	74	81.8%
Gemma 3 27B	96	91	77	75	68	81.3%
Cydonia 24B V4.1	100	77	77	76	74	80.9%
Gemini 2.5 Flash Lite (Reasoning)	90	85	82	78	69	80.8%
GPT-4.1 Nano	90	87	81	77	68	80.6%
Mistral Small 4 (Reasoning)	84	81	81	79	78	80.6%
Mistral Small 4	90	89	80	79	63	80.4%
Claude Haiku 4.5	93	80	79	75	72	79.8%
GPT-4.1 Mini	90	86	74	73	73	79.4%
Claude Sonnet 4	95	83	80	76	61	79.2%
Gemini 2.5 Flash	83	83	82	75	68	78.2%
Z.AI GLM 4.6	90	82	76	74	69	78.1%
Gemma 3 12B	91	78	75	72	70	77.2%
Gemini 2.5 Flash Lite	81	78	76	75	73	76.6%
Llama 3.1 70B	90	80	78	70	63	76.3%
Z.AI GLM 4.5	89	83	75	70	61	75.5%
Hermes 3 405B	100	83	76	70	48	75.5%
GPT-4o Mini (temp=0)	83	83	81	67	63	75.3%
GPT-4o Mini (temp=1)	86	81	75	73	60	74.9%
Mistral NeMO	97	82	74	62	55	74.1%
Gemini 2.5 Flash (Reasoning)	82	80	74	66	65	73.1%
Gemma 3 4B	87	73	73	67	62	72.3%
Mistral Small 3.2 24B	81	75	66	65	61	69.6%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
o4 Mini High	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	96	99.2%
ByteDance Seed 2.0 Lite	100	100	100	100	96	99.2%
GPT-5.5 (Reasoning)	100	100	98	98	98	98.8%
Qwen3.6 Max Preview	100	100	100	100	93	98.6%
Qwen 3.5 397B A17B	100	100	98	96	95	97.8%
Qwen 3.5 9B	100	100	100	100	88	97.5%
GPT-5.4 (Reasoning)	100	100	100	95	93	97.5%
GPT-5.5	98	98	98	96	96	97.4%
GPT-5.4 Mini	100	100	98	96	93	97.2%
ByteDance Seed 1.6 Flash	100	100	97	96	93	97.2%
Z.AI GLM 4.5 Air	100	100	100	96	89	97.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	85	97.0%
GPT-5.4	100	98	97	95	94	96.9%
GPT-5	100	100	98	94	91	96.7%
Claude Opus 4.6	100	100	95	94	94	96.7%
Grok 4.5 (Reasoning, Low)	100	97	97	96	93	96.7%
GPT-5.5 (Reasoning, Low)	100	100	96	94	92	96.5%
ByteDance Seed 1.6	100	100	100	96	86	96.5%
Claude Opus 4.6 (Reasoning)	100	97	97	94	93	96.3%
Qwen 3.5 27B	100	97	96	95	94	96.2%
MoonshotAI: Kimi K2.6	100	100	100	91	90	96.2%
Claude Sonnet 5	100	100	95	95	90	96.1%
GPT-5.2	100	98	97	93	91	95.8%
GPT-5.4 (Reasoning, Low)	100	98	95	93	93	95.6%
Qwen 3.5 Flash	97	97	96	96	92	95.6%
Grok 4.5 (Reasoning, High)	100	100	95	91	91	95.5%
Gemini 3 Flash (Preview, Reasoning)	97	97	96	94	93	95.4%
Gemma 4 31B (Reasoning)	100	96	95	95	91	95.3%
Gemma 4 31B	100	96	95	95	89	95.1%
DeepSeek V4 Flash	100	96	95	95	89	95.0%
Gemini 3.1 Flash Lite (Preview)	100	96	95	93	91	95.0%
GPT-5.4 Mini (Reasoning)	97	97	95	94	92	94.9%
Grok 4.3 (Reasoning)	100	100	100	91	83	94.8%
Gemini 3.1 Pro (Preview)	96	96	96	96	90	94.8%
Qwen3.7 Max	100	100	95	91	87	94.8%
o4 Mini	100	96	96	96	85	94.7%
Qwen 3 32B	100	94	93	93	92	94.5%
Qwen 3.5 122B	96	95	95	94	92	94.4%
Qwen 3.6 Flash	100	96	95	93	87	94.4%
Mistral Small 3.2 24B	100	100	100	92	80	94.4%
Inception Mercury 2	100	95	94	92	89	94.2%
Aion 3.0 Mini	100	100	94	92	85	94.2%
Qwen 3.5 Plus (2026-02-15)	97	95	94	92	91	93.8%
MoonshotAI: Kimi K2.5	100	95	94	90	89	93.8%
GPT-5 Mini	98	97	95	93	87	93.8%
Z.AI GLM 5.2 (Reasoning, High)	100	100	92	89	88	93.8%
GPT-5.1	98	98	96	94	83	93.8%
Aion 3.0	100	100	96	87	86	93.8%
Qwen 3.6 27B	100	95	95	93	85	93.5%
Mistral Medium 3.1	100	97	95	95	79	93.3%
Writer: Palmyra X5	100	95	95	91	85	93.2%
Qwen 3.5 Plus (2026-04-20)	100	100	95	88	82	93.2%
Ministral 3 8B	100	95	94	90	87	93.2%
Nemotron 3 Super	100	96	92	91	87	93.2%
Ministral 3B	100	100	100	87	79	93.1%
DeepSeek V4 Flash (Reasoning)	100	96	94	92	84	93.1%
Z.AI GLM 4.7 Flash	100	96	95	89	85	92.9%
Z.AI GLM 4.7	96	94	93	92	90	92.8%
DeepSeek V4 Pro	100	96	95	92	80	92.8%
Z.AI GLM 5 Turbo	100	100	95	85	84	92.7%
Ministral 8B	100	95	93	90	86	92.7%
Mistral Large 2	100	95	94	87	86	92.6%
Mistral Large 3	100	100	90	87	85	92.5%
Gemini 3.1 Flash Lite (Reasoning)	96	96	92	90	87	92.2%
Grok 4.20 (Reasoning)	96	94	92	91	88	92.1%
GPT-4.1	96	95	91	91	86	92.1%
Gemini 3.5 Flash (Reasoning, Minimal)	96	95	91	90	89	92.1%
GPT-5.4 Mini (Reasoning, Low)	100	95	93	87	85	92.0%
Gemma 4 26B	97	96	92	89	85	91.8%
Qwen3 235B A22B Instruct 2507	100	95	92	90	83	91.8%
Qwen 3.6 35B	100	97	91	90	81	91.7%
Gemini 3.5 Flash (Reasoning)	100	95	93	88	83	91.7%
Claude Sonnet 5 (Reasoning, Low)	100	95	91	91	81	91.7%
Claude Opus 4.7 (Reasoning)	100	100	96	86	76	91.4%
Claude Sonnet 4.5	100	95	92	90	78	91.3%
Claude Sonnet 4.6 (Reasoning)	100	95	95	86	81	91.3%
ByteDance Seed 2.0 Mini	94	92	92	90	87	91.2%
Z.AI GLM 5	96	93	92	90	85	91.1%
Z.AI GLM 5.1	100	95	88	88	84	91.1%
GPT-OSS 120B	95	95	91	87	86	91.0%
GPT-5.4 Nano (Reasoning)	98	95	93	89	80	91.0%
GPT-5 Nano	95	93	90	90	86	91.0%
Ministral 3 14B	100	94	93	85	83	90.9%
Arcee AI: Trinity Mini	100	92	92	91	80	90.9%
Xiaomi MIMO v2.5 Pro	97	94	93	91	79	90.8%
WizardLM 2 8x22b	96	96	93	87	82	90.8%
DeepSeek V4 Pro (Reasoning)	100	95	91	87	80	90.7%
Mistral Small 4 (Reasoning)	94	93	92	88	84	90.3%
GPT-5.4 Nano (Reasoning, Low)	92	91	91	90	87	90.1%
Grok 4.20	95	92	89	88	86	90.0%
Claude Opus 4.8 (Reasoning)	100	96	91	85	77	89.8%
GPT-5.4 Nano	91	91	89	89	88	89.7%
Claude Opus 4.5	92	92	91	91	82	89.6%
Gemma 4 26B (Reasoning)	95	95	92	86	79	89.6%
Claude Opus 4.8 (Reasoning, Low)	95	90	90	86	85	89.4%
Claude Sonnet 4	100	90	89	88	79	89.2%
Cohere Command R+ (Aug. 2024)	94	92	91	85	82	88.9%
Aion 2.0	95	90	90	87	82	88.8%
Nemotron 3 Nano	97	89	88	87	82	88.5%
MiniMax M2.5	100	93	91	83	74	88.2%
Claude Opus 4	96	93	91	86	76	88.2%
GPT-4o, Aug. 6th (temp=0)	100	90	85	85	81	88.1%
Gemini 3 Flash (Preview)	94	91	89	89	77	88.1%
Gemini 3.1 Flash Lite	93	93	91	87	76	88.0%
MiniMax M2.7	92	91	87	85	82	87.4%
DeepSeek V3.1	100	96	93	84	64	87.4%
Mistral Small 4	100	92	89	88	67	87.3%
Qwen 2.5 72B	100	89	89	79	77	86.9%
Llama 3.1 70B	99	94	89	84	68	86.7%
DeepSeek V3.2	89	89	86	85	82	86.1%
Grok 4.3	92	86	85	85	80	85.7%
Claude Opus 4.7	100	95	81	76	76	85.5%
GPT-4o Mini (temp=0)	100	87	83	82	74	85.1%
Xiaomi MIMO v2.5	94	92	82	80	77	85.0%
Claude Sonnet 5 (Reasoning)	100	86	86	86	63	84.1%
Claude Haiku 4.5	87	86	86	83	78	83.9%
Gemini 2.5 Flash Lite (Reasoning)	92	88	84	84	71	83.8%
Hermes 3 405B	100	90	87	80	59	83.4%
Mistral NeMO	93	88	85	84	67	83.4%
Z.AI GLM 4.6	92	88	86	77	70	82.5%
GPT-4.1 Mini	91	83	83	80	75	82.5%
Gemini 2.5 Flash	94	91	86	86	55	82.5%
DeepSeek V3 (2024-12-26)	100	100	89	67	55	82.1%
MiniMax M3	100	88	81	78	63	82.1%
Gemini 2.5 Flash Lite	92	85	84	78	71	82.0%
Gemma 3 27B	95	82	80	77	74	81.6%
Gemini 2.5 Flash (Reasoning)	95	85	82	77	69	81.5%
Gemma 3 12B	92	91	85	74	66	81.5%
Claude Sonnet 4.6	95	85	76	75	75	81.3%
Gemma 3 4B	93	81	78	76	76	80.9%
Gemini 2.5 Pro	86	84	82	79	73	80.8%
Ministral 3 3B	100	91	75	73	65	80.7%
GPT-4o, Aug. 6th (temp=1)	96	90	79	78	60	80.7%
Hermes 3 70B	100	97	83	73	49	80.4%
DeepSeek-V2 Chat	91	87	79	73	72	80.3%
GPT-4o Mini (temp=1)	79	78	76	76	76	77.3%
Z.AI GLM 4.5	87	87	69	67	65	75.0%
GPT-4.1 Nano	83	75	68	67	65	71.7%
Cydonia 24B V4.1	89	73	68	65	59	70.6%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 2.0 Lite	100	100	100	100	96	99.2%
Grok 4.5 (Reasoning, Low)	100	100	100	100	95	99.0%
MoonshotAI: Kimi K2.6	100	100	100	97	96	98.7%
Claude Opus 4.6	100	100	100	97	92	97.8%
GPT-5.5 (Reasoning)	100	98	98	97	96	97.7%
Qwen 3.5 9B	100	100	98	95	95	97.7%
GPT-5	98	98	98	97	96	97.4%
Claude Opus 4.6 (Reasoning)	100	100	100	96	91	97.4%
GPT-OSS 120B	100	100	97	94	94	97.0%
GPT-5.5	100	98	96	96	94	96.9%
GPT-5.4	98	98	98	96	94	96.6%
ByteDance Seed 1.6 Flash	100	100	97	95	91	96.6%
Aion 3.0	100	97	97	96	93	96.5%
GPT-5.4 (Reasoning, Low)	100	98	98	96	91	96.4%
Qwen3.6 Max Preview	100	96	96	95	95	96.4%
Gemini 3.1 Pro (Preview)	100	100	100	92	88	96.1%
Grok 4.5 (Reasoning, High)	100	97	97	96	89	95.9%
GPT-5.2	98	96	96	95	94	95.7%
GPT-5.4 (Reasoning)	98	98	96	94	93	95.7%
Qwen 3.5 35B	100	97	95	94	92	95.5%
ByteDance Seed 1.6	100	100	95	94	88	95.5%
Qwen 3.5 Plus (2026-04-20)	100	97	96	93	91	95.4%
Grok 4.3 (Reasoning)	100	96	96	93	91	95.3%
GPT-5.1	100	98	95	92	92	95.3%
Grok 4.3	100	100	95	93	87	95.2%
GPT-5.5 (Reasoning, Low)	97	95	95	94	94	95.1%
Mistral Medium 3.1	100	100	97	91	88	95.1%
Qwen 3.6 27B	98	97	97	97	84	94.8%
GPT-5.4 Mini (Reasoning)	98	97	94	93	91	94.6%
Qwen3.7 Max	100	100	94	91	87	94.3%
Qwen 3.5 397B A17B	97	96	95	92	90	94.2%
Qwen 3.5 122B	100	95	94	91	90	93.9%
Gemini 3.5 Flash (Reasoning)	100	100	96	89	83	93.8%
Qwen 3.5 Flash	97	96	93	93	90	93.8%
Qwen 3.5 27B	97	96	95	91	90	93.8%
Qwen 3.6 Flash	100	100	92	91	86	93.8%
Qwen 3 32B	100	100	97	86	86	93.7%
GPT-5.4 Mini	96	96	93	93	90	93.5%
DeepSeek V4 Pro	100	93	92	91	90	93.2%
Qwen 3.6 35B	99	96	92	91	88	93.1%
Gemini 3 Flash (Preview, Reasoning)	100	94	93	90	88	92.9%
DeepSeek V4 Flash	100	95	91	91	88	92.9%
GPT-5.4 Mini (Reasoning, Low)	96	95	93	92	88	92.9%
Z.AI GLM 5.2 (Reasoning, High)	100	92	91	91	89	92.6%
Inception Mercury 2	97	95	93	91	87	92.6%
GPT-5.4 Nano	95	95	92	92	88	92.2%
GPT-4.1 Mini	100	94	92	88	86	92.0%
Gemini 3.1 Flash Lite (Preview)	100	93	92	88	87	91.9%
DeepSeek V3 (2025-03-24)	95	92	91	91	90	91.7%
Llama 3.1 70B	100	100	93	84	80	91.4%
MoonshotAI: Kimi K2.5	96	96	95	85	85	91.4%
Arcee AI: Trinity Mini	100	96	90	86	85	91.4%
ByteDance Seed 2.0 Mini	94	94	92	89	87	91.3%
GPT-5.4 Nano (Reasoning)	94	93	90	90	89	91.2%
Claude Opus 4.7 (Reasoning)	100	96	95	84	81	91.2%
Claude Opus 4.7	96	95	91	88	86	91.2%
Gemma 4 31B	100	100	92	86	77	91.2%
Aion 3.0 Mini	97	96	94	88	81	91.1%
DeepSeek V4 Pro (Reasoning)	95	93	90	89	88	91.1%
GPT-5 Nano	98	92	92	91	83	91.0%
Gemma 4 31B (Reasoning)	96	96	95	86	82	90.9%
GPT-5 Mini	98	94	92	86	83	90.8%
Mistral Large 2	100	97	91	87	79	90.7%
Claude Opus 4.8 (Reasoning)	100	95	95	86	77	90.7%
o4 Mini	96	93	92	87	85	90.5%
Ministral 8B	100	100	100	79	74	90.4%
MiniMax M3	100	92	90	88	82	90.4%
Xiaomi MIMO v2.5	94	93	93	91	81	90.4%
Gemma 4 26B (Reasoning)	100	96	91	84	80	90.4%
Claude Sonnet 5 (Reasoning)	100	94	91	85	81	90.2%
Writer: Palmyra X5	96	93	93	89	80	90.1%
Z.AI GLM 5	97	95	88	88	82	90.0%
Ministral 3 3B	100	100	88	86	76	90.0%
GPT-4.1	100	93	91	87	79	90.0%
o4 Mini High	100	93	89	86	82	90.0%
Gemini 3 Flash (Preview)	94	94	88	87	87	89.9%
Claude Opus 4.8 (Reasoning, Low)	96	95	90	87	80	89.8%
Claude Sonnet 5 (Reasoning, Low)	100	96	87	86	80	89.6%
Xiaomi MIMO v2.5 Pro	92	90	90	88	87	89.4%
Gemini 3.1 Flash Lite (Reasoning)	96	96	92	83	78	89.2%
Grok 4.20	97	92	90	89	77	89.2%
GPT-5.4 Nano (Reasoning, Low)	96	90	89	88	82	89.2%
Nemotron 3 Nano	98	97	84	84	83	89.0%
Nemotron 3 Super	95	95	91	83	80	88.9%
Gemini 3.1 Flash Lite	96	93	92	85	79	88.9%
Grok 4.20 (Reasoning)	93	91	88	87	85	88.8%
Ministral 3B	93	89	88	88	86	88.7%
DeepSeek V3.1	100	93	89	84	77	88.6%
Gemma 4 26B	96	95	84	83	83	88.4%
Claude Sonnet 4.6	96	89	89	86	81	88.2%
Cohere Command R+ (Aug. 2024)	95	94	91	86	75	88.1%
Qwen 2.5 72B	96	89	87	86	81	88.1%
Z.AI GLM 5.1	92	90	88	87	83	88.1%
Aion 2.0	92	89	88	87	83	87.9%
Mistral Small 4 (Reasoning)	95	90	88	83	83	87.8%
DeepSeek V4 Flash (Reasoning)	100	100	86	76	76	87.7%
MiniMax M2.7	94	93	90	82	78	87.4%
Claude Opus 4	96	92	84	84	76	86.5%
Claude Sonnet 4.5	90	89	87	86	80	86.4%
Z.AI GLM 4.7 Flash	94	86	85	85	82	86.3%
Qwen 3.5 Plus (2026-02-15)	93	91	87	85	76	86.2%
Claude Sonnet 4.6 (Reasoning)	96	96	86	81	72	86.2%
GPT-4o Mini (temp=1)	93	87	87	82	82	86.1%
Ministral 3 14B	94	90	87	82	78	86.1%
Claude Sonnet 4	94	87	87	83	79	85.9%
Hermes 3 405B	96	93	90	84	65	85.7%
DeepSeek V3.2	90	87	85	83	79	85.1%
Z.AI GLM 4.6	90	88	85	81	80	85.0%
Claude Opus 4.5	94	89	89	85	68	85.0%
GPT-4o Mini (temp=0)	91	89	88	85	72	84.9%
Qwen3 235B A22B Instruct 2507	100	90	78	78	76	84.5%
DeepSeek-V2 Chat	100	95	83	77	67	84.5%
Gemini 2.5 Pro	96	91	86	78	71	84.3%
WizardLM 2 8x22b	93	89	84	82	73	84.3%
Ministral 3 8B	95	90	90	79	66	84.0%
Claude Sonnet 5	91	87	82	81	78	83.9%
Z.AI GLM 5 Turbo	89	87	83	79	78	83.3%
Z.AI GLM 4.7	90	90	88	74	72	82.9%
Mistral Large 3	86	85	85	84	75	82.8%
Z.AI GLM 4.5 Air	100	88	82	80	63	82.5%
GPT-4o, Aug. 6th (temp=0)	95	88	80	75	73	82.1%
Mistral Small 4	96	95	87	68	64	82.0%
Gemini 3.5 Flash (Reasoning, Minimal)	92	81	81	78	77	81.6%
DeepSeek V3 (2024-12-26)	100	90	84	76	57	81.3%
MiniMax M2.5	96	87	82	76	64	81.0%
Mistral NeMO	94	84	82	73	70	80.7%
Hermes 3 70B	91	89	75	74	67	79.3%
Gemini 2.5 Flash Lite	89	84	82	77	60	78.7%
Claude Haiku 4.5	86	80	77	74	72	77.7%
GPT-4o, Aug. 6th (temp=1)	85	85	84	66	64	76.8%
Gemini 2.5 Flash Lite (Reasoning)	86	81	79	70	60	75.0%
Gemma 3 27B	84	81	70	69	69	74.3%
Mistral Small 3.2 24B	100	100	80	75	14	73.7%
Gemini 2.5 Flash (Reasoning)	83	80	73	65	59	72.1%
Gemini 2.5 Flash	85	82	79	68	44	71.6%
Gemma 3 12B	79	74	74	65	64	71.0%
Cydonia 24B V4.1	81	74	71	61	59	69.4%
Gemma 3 4B	73	70	67	62	58	66.3%
Z.AI GLM 4.5	79	76	64	63	51	66.2%
GPT-4.1 Nano	73	68	66	65	44	63.1%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	98	97	99.0%
Grok 4.3 (Reasoning)	100	100	100	100	94	98.9%
Grok 4.5 (Reasoning, High)	100	100	100	97	96	98.7%
GPT-5	100	100	100	98	95	98.6%
Qwen 3.5 122B	100	100	100	97	96	98.6%
GPT-5.4 (Reasoning, Low)	100	100	100	100	93	98.6%
GPT-5.5 (Reasoning, Low)	100	98	98	98	98	98.5%
ByteDance Seed 2.0 Lite	100	100	100	96	96	98.3%
Qwen 3.5 35B	100	100	98	97	97	98.3%
Grok 4.5 (Reasoning, Low)	100	100	100	95	95	98.1%
Qwen 3.5 397B A17B	100	100	100	95	95	98.0%
GPT-5.4 Mini (Reasoning)	100	100	97	97	95	98.0%
GPT-5.5 (Reasoning)	100	98	98	98	95	97.8%
GPT-OSS 120B	100	100	100	95	93	97.6%
GPT-5.5	100	100	97	96	96	97.6%
Mistral Small 3.2 24B	100	99	98	97	93	97.5%
Claude Opus 4.6	100	97	97	96	96	97.3%
Qwen 3.6 Flash	100	100	97	97	92	97.2%
Claude Sonnet 5	100	100	95	95	95	97.1%
Inception Mercury 2	100	100	97	95	92	96.8%
Qwen3.6 Max Preview	100	100	96	95	92	96.7%
GPT-5.4	98	98	97	96	95	96.7%
ByteDance Seed 1.6 Flash	100	100	96	95	91	96.5%
Claude Opus 4.8 (Reasoning, Low)	100	100	95	95	91	96.3%
Qwen 3.5 Plus (2026-02-15)	100	97	97	94	93	96.1%
Qwen 3.6 35B	100	100	100	98	82	96.0%
Claude Sonnet 5 (Reasoning)	100	100	100	95	83	95.7%
o4 Mini High	97	97	96	95	94	95.7%
Gemini 3.1 Pro (Preview)	100	96	95	93	93	95.6%
Claude Sonnet 5 (Reasoning, Low)	100	100	96	91	91	95.5%
Claude Opus 4.8 (Reasoning)	100	100	96	95	86	95.5%
GPT-5.2	100	96	94	94	93	95.4%
Qwen 3.5 Flash	100	96	96	96	88	95.4%
DeepSeek-V2 Chat	100	100	96	91	89	95.3%
GPT-4.1	96	96	96	96	93	95.3%
Gemini 3 Flash (Preview)	97	96	95	94	94	95.2%
Z.AI GLM 4.5 Air	100	100	96	94	85	95.1%
Claude Opus 4.7 (Reasoning)	100	100	95	90	90	95.1%
GPT-5 Mini	98	96	94	94	93	95.1%
Claude Opus 4.6 (Reasoning)	100	97	97	94	85	94.7%
Qwen 3.5 27B	100	100	95	92	86	94.7%
Qwen 3.5 9B	100	100	95	90	88	94.5%
ByteDance Seed 1.6	100	100	95	88	88	94.2%
Qwen 3.5 Plus (2026-04-20)	100	97	96	89	89	94.2%
GPT-5.1	98	96	95	93	88	93.9%
Nemotron 3 Nano	96	95	94	92	92	93.7%
MoonshotAI: Kimi K2.5	100	95	95	89	89	93.6%
Mistral Medium 3.1	100	95	94	91	87	93.5%
MoonshotAI: Kimi K2.6	100	100	94	92	82	93.5%
GPT-4o, Aug. 6th (temp=1)	100	95	94	90	89	93.5%
o4 Mini	100	97	93	90	87	93.5%
GPT-5.4 Mini (Reasoning, Low)	98	95	93	93	89	93.4%
Z.AI GLM 5.1	96	95	95	94	85	93.2%
Aion 2.0	100	96	95	88	87	93.2%
Xiaomi MIMO v2.5	97	95	94	94	86	93.2%
Writer: Palmyra X5	96	96	95	91	88	93.2%
Qwen 2.5 72B	100	100	94	89	82	93.1%
Claude Opus 4.7	100	95	91	91	89	93.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	95	70	92.9%
Z.AI GLM 5 Turbo	100	95	94	92	83	92.9%
GPT-5.4 Mini	100	93	92	90	89	92.9%
Aion 3.0	100	96	93	92	83	92.8%
Z.AI GLM 5.2 (Reasoning, High)	100	96	95	90	83	92.8%
Ministral 8B	95	95	92	92	91	92.7%
Qwen 3 32B	100	96	95	94	77	92.5%
DeepSeek V4 Pro (Reasoning)	95	95	92	90	89	92.4%
Gemma 4 31B (Reasoning)	100	96	95	90	81	92.4%
Mistral Small 4 (Reasoning)	100	96	94	90	82	92.3%
Ministral 3 14B	100	100	91	87	84	92.3%
MiniMax M3	100	97	94	91	80	92.3%
Z.AI GLM 5	97	93	92	90	88	92.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	91	90	79	92.0%
GPT-5.4 Nano (Reasoning)	96	96	92	91	84	91.9%
ByteDance Seed 2.0 Mini	100	100	95	87	77	91.8%
Gemini 3 Flash (Preview, Reasoning)	96	95	93	89	86	91.7%
Qwen3 235B A22B Instruct 2507	96	95	95	95	78	91.7%
Claude Sonnet 4.5	100	96	91	87	83	91.6%
Z.AI GLM 4.7 Flash	100	92	91	89	86	91.5%
Gemini 3.1 Flash Lite (Preview)	100	92	91	89	84	91.4%
GPT-5 Nano	95	93	91	90	87	91.4%
Gemini 3.5 Flash (Reasoning)	100	92	90	89	86	91.3%
Ministral 3 8B	100	95	92	86	84	91.2%
Xiaomi MIMO v2.5 Pro	97	94	91	90	84	91.2%
Gemma 4 26B	100	93	92	86	84	91.1%
DeepSeek V4 Flash	100	95	93	84	82	90.9%
Grok 4.3	100	96	92	87	79	90.9%
Ministral 3 3B	100	90	89	87	86	90.6%
Mistral Small 4	100	97	93	86	76	90.4%
DeepSeek V3.1	100	96	86	85	85	90.2%
DeepSeek V4 Pro	100	100	92	80	78	90.0%
Grok 4.20 (Reasoning)	97	90	89	88	86	89.9%
Llama 3.1 70B	100	100	92	83	74	89.8%
Claude Sonnet 4.6	100	95	91	81	81	89.6%
Gemini 2.5 Pro	96	95	90	87	80	89.6%
Qwen 3.6 27B	97	96	92	86	76	89.3%
Gemini 3.1 Flash Lite	100	90	89	87	81	89.3%
Z.AI GLM 4.7	100	94	91	82	78	89.1%
Arcee AI: Trinity Mini	100	92	92	82	79	89.1%
DeepSeek V3 (2025-03-24)	100	100	91	84	69	88.9%
Claude Sonnet 4.6 (Reasoning)	100	91	90	82	79	88.7%
GPT-5.4 Nano (Reasoning, Low)	94	91	90	89	79	88.6%
GPT-5.4 Nano	94	90	88	87	83	88.5%
Mistral NeMO	92	90	88	85	85	87.9%
Ministral 3B	91	91	90	88	79	87.8%
DeepSeek V4 Flash (Reasoning)	100	95	89	84	71	87.8%
Grok 4.20	90	89	89	86	85	87.8%
Gemma 4 31B	95	93	88	86	75	87.6%
Hermes 3 70B	96	94	87	83	78	87.6%
Claude Opus 4	92	91	88	87	80	87.4%
WizardLM 2 8x22b	95	93	88	81	77	86.9%
GPT-4o Mini (temp=0)	100	91	84	79	79	86.5%
Nemotron 3 Super	100	86	82	82	79	85.8%
Gemma 4 26B (Reasoning)	91	86	85	83	81	85.3%
Claude Haiku 4.5	100	90	85	79	70	84.8%
Aion 3.0 Mini	95	91	90	81	67	84.7%
DeepSeek V3.2	91	86	85	83	77	84.4%
Mistral Large 3	91	89	88	84	70	84.4%
Claude Opus 4.5	96	96	83	80	66	84.2%
Cohere Command R+ (Aug. 2024)	95	88	86	78	73	84.1%
Gemini 2.5 Flash	92	86	85	80	76	83.9%
MiniMax M2.7	92	92	80	80	74	83.7%
Gemini 3.5 Flash (Reasoning, Minimal)	96	85	84	77	76	83.6%
Gemini 2.5 Flash Lite	100	92	78	74	71	82.9%
Z.AI GLM 4.6	95	89	83	77	65	81.9%
Mistral Large 2	91	86	84	82	64	81.4%
Claude Sonnet 4	88	83	82	77	75	81.1%
MiniMax M2.5	88	87	82	78	65	80.0%
Gemma 3 4B	91	86	75	74	73	79.8%
Cydonia 24B V4.1	95	83	78	72	71	79.6%
DeepSeek V3 (2024-12-26)	84	83	81	79	70	79.5%
Gemma 3 27B	87	84	80	77	67	78.8%
Gemma 3 12B	88	80	78	78	67	78.1%
GPT-4o Mini (temp=1)	100	82	76	68	64	78.0%
Gemini 2.5 Flash (Reasoning)	88	82	79	74	63	77.3%
GPT-4.1 Mini	90	77	71	71	69	75.7%
Hermes 3 405B	87	84	76	69	60	75.1%
Z.AI GLM 4.5	82	77	76	71	66	74.3%
Gemini 2.5 Flash Lite (Reasoning)	84	80	72	70	62	73.5%
GPT-4.1 Nano	75	70	67	55	52	63.9%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
o4 Mini	100	100	100	100	97	99.4%
Qwen 3.6 Flash	100	100	100	100	96	99.2%
GPT-5.5 (Reasoning)	100	100	98	98	98	98.8%
GPT-5.5 (Reasoning, Low)	100	100	100	97	96	98.6%
Grok 4.5 (Reasoning, High)	100	100	100	97	96	98.6%
ByteDance Seed 1.6 Flash	100	100	100	97	96	98.4%
Qwen3.6 Max Preview	100	100	97	97	96	98.0%
GPT-5.4 Mini (Reasoning)	100	100	98	97	95	98.0%
Grok 4.3	100	100	100	97	92	97.8%
GPT-5.5	100	98	98	98	95	97.8%
Grok 4.3 (Reasoning)	100	100	97	97	91	97.1%
GPT-5.4 (Reasoning, Low)	98	98	98	96	95	96.9%
MoonshotAI: Kimi K2.6	100	100	97	96	92	96.9%
GPT-5.2	100	98	96	96	94	96.7%
Qwen 3.6 27B	100	98	98	95	93	96.6%
GPT-5.4 (Reasoning)	100	98	96	96	93	96.5%
Z.AI GLM 5 Turbo	100	100	97	93	92	96.5%
Qwen 3.6 35B	100	100	96	96	89	96.3%
Grok 4.5 (Reasoning, Low)	100	100	97	94	90	96.2%
Qwen 3.5 122B	100	100	94	94	93	96.2%
Xiaomi MIMO v2.5 Pro	100	100	98	95	88	96.2%
ByteDance Seed 2.0 Lite	100	96	96	96	92	95.9%
Qwen 3.5 9B	100	100	96	94	89	95.7%
ByteDance Seed 2.0 Mini	100	100	100	92	86	95.7%
Claude Opus 4.6 (Reasoning)	98	97	97	94	92	95.6%
ByteDance Seed 1.6	100	100	95	92	91	95.6%
GPT-5	100	100	96	94	87	95.5%
GPT-4.1	100	100	96	95	87	95.5%
DeepSeek V4 Flash	100	100	95	94	89	95.5%
GPT-5.4	100	96	95	93	93	95.5%
Claude Opus 4.6	97	96	95	94	94	95.3%
Qwen 3.5 Plus (2026-02-15)	100	97	95	92	92	95.3%
Qwen 3.5 27B	100	97	96	95	87	94.9%
Qwen 3.5 Flash	100	100	97	89	88	94.9%
GPT-5.4 Mini (Reasoning, Low)	97	97	94	93	93	94.8%
Claude Opus 4.8 (Reasoning)	100	100	95	91	86	94.4%
Qwen 3.5 35B	97	96	96	94	89	94.3%
DeepSeek V4 Flash (Reasoning)	100	94	94	93	90	94.0%
o4 Mini High	100	97	96	92	85	93.9%
Z.AI GLM 5.1	96	96	95	94	88	93.8%
Aion 3.0	100	96	94	90	89	93.8%
Z.AI GLM 5.2 (Reasoning, High)	100	97	96	88	87	93.6%
Claude Opus 4.7 (Reasoning)	100	100	95	86	85	93.3%
GPT-5.4 Mini	100	96	93	88	88	93.1%
Inception Mercury 2	100	97	92	89	88	93.0%
Qwen3 235B A22B Instruct 2507	100	96	96	86	86	92.8%
GPT-5.4 Nano (Reasoning, Low)	96	94	92	92	89	92.6%
Qwen 3.5 Plus (2026-04-20)	95	93	92	92	91	92.6%
GPT-5.1	97	95	94	90	88	92.5%
Aion 3.0 Mini	96	95	94	89	87	92.4%
Gemini 3 Flash (Preview)	97	97	95	87	85	92.2%
Arcee AI: Trinity Mini	95	94	94	89	88	92.1%
Gemini 3.1 Flash Lite (Reasoning)	100	100	92	89	80	92.0%
Qwen 2.5 72B	100	100	87	86	86	91.8%
Qwen 3.5 397B A17B	97	95	92	88	87	91.8%
Claude Opus 4.7	95	95	90	90	87	91.5%
Grok 4.20 (Reasoning)	97	93	92	90	86	91.5%
Gemini 3 Flash (Preview, Reasoning)	97	91	90	90	88	91.2%
MiniMax M3	93	93	91	90	89	91.1%
Qwen3.7 Max	100	96	91	88	81	91.0%
Ministral 3B	100	100	90	84	79	90.8%
Z.AI GLM 4.7 Flash	96	95	94	86	81	90.4%
Gemini 3.5 Flash (Reasoning)	95	94	92	85	84	90.2%
Grok 4.20	94	91	90	90	86	90.2%
MoonshotAI: Kimi K2.5	100	94	88	86	83	90.2%
Gemini 3.1 Flash Lite (Preview)	96	95	88	86	85	90.2%
Gemma 4 31B	96	92	91	90	82	90.1%
DeepSeek V4 Pro (Reasoning)	95	93	93	88	81	90.1%
Nemotron 3 Nano	96	96	89	88	82	90.0%
GPT-5 Nano	92	92	91	88	86	89.8%
DeepSeek V3 (2025-03-24)	100	100	94	82	73	89.7%
Ministral 3 14B	100	93	88	87	79	89.5%
GPT-5 Mini	93	93	91	87	81	89.2%
Gemma 4 31B (Reasoning)	100	90	86	86	84	89.1%
Mistral Large 3	96	94	94	81	79	89.0%
DeepSeek V3.2	93	92	88	87	85	89.0%
Mistral Small 4 (Reasoning)	91	90	90	88	85	88.8%
GPT-OSS 120B	97	93	92	85	77	88.7%
Aion 2.0	100	93	85	84	80	88.5%
Z.AI GLM 5	96	94	88	83	79	88.0%
GPT-4o, Aug. 6th (temp=0)	95	94	88	86	76	88.0%
Claude Opus 4	90	90	90	87	83	87.9%
Gemini 2.5 Pro	92	88	87	87	85	87.9%
GPT-5.4 Nano (Reasoning)	93	90	89	84	82	87.8%
Gemma 4 26B (Reasoning)	100	92	92	88	67	87.8%
GPT-5.4 Nano	91	89	88	86	84	87.7%
Ministral 8B	100	96	95	73	73	87.5%
Z.AI GLM 4.7	92	92	90	84	79	87.5%
Hermes 3 405B	100	100	89	81	68	87.5%
Gemini 3.5 Flash (Reasoning, Minimal)	91	91	88	86	81	87.4%
Claude Sonnet 5 (Reasoning, Low)	95	90	85	85	82	87.4%
Nemotron 3 Super	92	90	86	84	82	86.9%
Gemini 3.1 Pro (Preview)	100	93	90	82	69	86.8%
Claude Sonnet 4.5	96	93	86	83	74	86.5%
GPT-4o, Aug. 6th (temp=1)	91	90	89	86	77	86.5%
Mistral Small 4	100	100	92	74	65	86.1%
Claude Opus 4.8 (Reasoning, Low)	96	86	86	85	78	86.0%
Gemma 4 26B	96	87	85	84	77	85.9%
Z.AI GLM 4.5 Air	95	92	87	83	73	85.9%
Claude Sonnet 5 (Reasoning)	95	90	85	80	79	85.9%
Mistral Medium 3.1	96	87	85	83	78	85.8%
DeepSeek V3 (2024-12-26)	100	95	90	80	63	85.5%
Writer: Palmyra X5	96	89	87	79	75	85.1%
Hermes 3 70B	94	85	83	82	80	85.0%
DeepSeek V4 Pro	94	91	89	77	72	84.8%
Claude Sonnet 4.6 (Reasoning)	100	93	84	80	65	84.5%
MiniMax M2.5	93	86	86	79	78	84.4%
Mistral Large 2	96	90	84	77	72	84.0%
Cohere Command R+ (Aug. 2024)	100	88	78	77	76	83.9%
GPT-4o Mini (temp=0)	88	88	87	78	77	83.8%
Xiaomi MIMO v2.5	93	87	81	79	78	83.7%
Ministral 3 3B	90	89	89	76	74	83.7%
Gemini 3.1 Flash Lite	88	86	86	80	77	83.5%
DeepSeek-V2 Chat	100	90	79	75	73	83.4%
DeepSeek V3.1	88	87	85	78	77	83.1%
GPT-4.1 Mini	100	87	86	85	57	82.9%
Ministral 3 8B	96	92	84	73	70	82.8%
Qwen 3 32B	94	93	90	69	66	82.5%
Claude Sonnet 4	89	87	87	76	72	82.3%
Claude Haiku 4.5	93	82	79	79	78	82.3%
Llama 3.1 70B	100	82	80	75	74	82.2%
Mistral NeMO	94	85	82	75	74	81.9%
WizardLM 2 8x22b	92	85	80	77	69	80.6%
MiniMax M2.7	88	84	83	80	66	80.2%
Claude Sonnet 4.6	87	85	80	76	71	79.9%
Claude Opus 4.5	86	85	77	74	72	78.7%
Gemini 2.5 Flash Lite (Reasoning)	89	80	75	72	71	77.4%
Claude Sonnet 5	88	83	76	76	64	77.3%
Z.AI GLM 4.6	89	78	75	74	70	77.3%
Gemini 2.5 Flash	86	84	81	77	58	77.2%
GPT-4o Mini (temp=1)	85	82	76	72	71	77.1%
Gemini 2.5 Flash Lite	84	82	81	73	63	77.0%
Mistral Small 3.2 24B	99	81	78	77	49	76.9%
Gemma 3 27B	88	82	75	75	65	76.9%
Z.AI GLM 4.5	89	86	77	67	65	76.9%
Gemma 3 12B	81	77	74	67	65	72.8%
Gemini 2.5 Flash (Reasoning)	77	77	75	65	63	71.2%
GPT-4.1 Nano	79	72	69	62	54	67.3%
Cydonia 24B V4.1	79	73	61	59	0	54.4%
Gemma 3 4B	70	66	45	42	40	52.5%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	98	99.7%
Qwen3.6 Max Preview	100	100	100	100	97	99.4%
o4 Mini	100	100	100	100	97	99.4%
o4 Mini High	100	100	100	100	97	99.4%
GPT-5.5	100	100	100	98	98	99.4%
GPT-5.5 (Reasoning)	100	100	100	98	98	99.3%
Grok 4.5 (Reasoning, Low)	100	100	100	100	96	99.1%
DeepSeek V4 Flash	100	100	100	100	95	99.0%
Arcee AI: Trinity Mini	100	100	100	100	95	98.9%
GPT-5	100	100	99	98	97	98.9%
Claude Opus 4.6	100	100	100	97	97	98.7%
Aion 3.0	100	100	100	100	93	98.6%
GPT-5.1	100	98	98	98	98	98.6%
GPT-5.4 (Reasoning, Low)	100	100	98	98	97	98.6%
DeepSeek V3 (2025-03-24)	100	100	100	100	93	98.5%
Claude Opus 4.6 (Reasoning)	100	100	100	97	95	98.3%
Qwen 3.5 27B	100	100	100	96	95	98.3%
GPT-5.4 Mini (Reasoning)	100	100	97	97	97	98.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	98	98	96	98.2%
Xiaomi MIMO v2.5 Pro	100	100	100	96	95	98.2%
Qwen3.7 Max	100	100	100	96	95	98.2%
Claude Opus 4.7	100	100	100	95	95	98.1%
GPT-5.2	100	100	98	98	95	98.1%
ByteDance Seed 1.6	100	100	100	100	90	98.1%
ByteDance Seed 2.0 Lite	100	100	100	96	93	97.8%
GPT-4.1	100	100	100	96	93	97.8%
Qwen 3 32B	100	100	98	96	95	97.6%
Z.AI GLM 5.2 (Reasoning, High)	100	97	97	96	96	97.4%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	95	91	97.2%
Gemma 4 31B (Reasoning)	100	100	95	95	95	97.1%
GPT-5.4 Mini	98	98	98	98	94	97.0%
Grok 4.5 (Reasoning, High)	100	100	97	96	93	97.0%
Grok 4.3 (Reasoning)	100	100	100	95	89	96.8%
GPT-5 Mini	98	98	98	96	94	96.8%
ByteDance Seed 1.6 Flash	100	100	96	96	92	96.7%
Ministral 3B	100	100	100	93	90	96.7%
Qwen 3.5 9B	100	100	100	100	83	96.7%
Z.AI GLM 5 Turbo	100	100	100	92	91	96.7%
MoonshotAI: Kimi K2.5	100	100	96	95	92	96.5%
Gemini 3.1 Flash Lite	100	100	96	96	91	96.5%
Ministral 8B	100	100	100	92	90	96.4%
Z.AI GLM 5.1	100	97	96	96	93	96.4%
Z.AI GLM 5	100	100	100	93	89	96.3%
Aion 2.0	100	100	96	92	92	96.0%
Mistral Large 2	100	100	96	95	89	96.0%
Aion 3.0 Mini	100	100	96	96	87	95.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	94	85	95.9%
MoonshotAI: Kimi K2.6	100	96	96	95	92	95.9%
Qwen 3.5 Plus (2026-04-20)	100	100	97	92	90	95.9%
Qwen 3.5 Plus (2026-02-15)	100	97	96	93	92	95.7%
Mistral Small 4 (Reasoning)	100	97	96	95	90	95.7%
Claude Sonnet 4	100	96	95	95	92	95.7%
GPT-5.4 Nano (Reasoning)	98	98	98	93	91	95.6%
Claude Opus 4.7 (Reasoning)	100	100	95	92	91	95.6%
GPT-5.4 Nano (Reasoning, Low)	98	97	96	94	93	95.6%
Qwen 3.5 Flash	100	97	95	95	91	95.6%
Claude Opus 4.5	100	100	96	96	86	95.5%
DeepSeek V4 Pro	100	96	96	96	90	95.5%
Qwen 3.5 122B	100	97	95	93	91	95.2%
Claude Sonnet 5	100	100	100	90	86	95.2%
GPT-5 Nano	97	97	94	94	94	95.2%
ByteDance Seed 2.0 Mini	100	100	95	93	87	95.2%
Claude Sonnet 5 (Reasoning, Low)	100	100	95	90	90	95.1%
Hermes 3 70B	100	100	100	94	81	95.0%
Writer: Palmyra X5	100	96	95	94	89	95.0%
Gemini 3 Flash (Preview)	100	97	97	92	90	95.0%
Claude Sonnet 4.5	100	96	96	95	87	95.0%
DeepSeek V4 Pro (Reasoning)	100	96	95	92	91	94.9%
Qwen 3.6 Flash	100	100	96	90	87	94.6%
Claude Sonnet 5 (Reasoning)	100	96	95	91	90	94.5%
MiniMax M3	100	100	93	91	88	94.5%
WizardLM 2 8x22b	100	96	96	91	90	94.4%
Ministral 3 14B	100	96	95	93	88	94.3%
Qwen 3.5 35B	100	100	93	92	86	94.3%
Qwen3 235B A22B Instruct 2507	100	96	96	92	88	94.2%
Mistral Medium 3.1	100	97	95	90	90	94.2%
Qwen 3.5 397B A17B	100	93	93	92	92	94.2%
Gemma 4 26B	100	97	97	89	86	93.9%
Z.AI GLM 4.7 Flash	100	100	92	89	88	93.8%
Z.AI GLM 4.5 Air	100	95	91	91	91	93.8%
Claude Sonnet 4.6	100	100	100	91	77	93.6%
Qwen 3.6 35B	100	96	95	92	85	93.4%
Grok 4.20 (Reasoning)	97	95	93	93	89	93.4%
Mistral Small 4	95	95	95	92	90	93.4%
GPT-OSS 120B	95	95	95	92	91	93.2%
Z.AI GLM 4.6	100	96	96	95	79	93.2%
GPT-5.4 Nano	98	95	93	91	89	93.0%
Gemini 3 Flash (Preview, Reasoning)	97	97	94	93	84	92.9%
DeepSeek-V2 Chat	95	94	94	93	87	92.9%
Gemini 2.5 Pro	100	95	94	91	84	92.8%
Gemma 3 27B	100	95	94	92	81	92.5%
Gemini 3.1 Pro (Preview)	100	97	96	92	76	92.4%
MiniMax M2.7	97	96	94	92	82	92.1%
Gemini 3.1 Flash Lite (Reasoning)	96	96	92	92	84	91.9%
MiniMax M2.5	96	92	91	90	90	91.9%
DeepSeek V3.2	96	93	91	91	88	91.9%
Gemma 4 26B (Reasoning)	100	96	92	87	84	91.9%
Nemotron 3 Nano	94	94	91	90	89	91.8%
Gemma 4 31B	100	96	92	87	84	91.8%
Ministral 3 8B	97	96	92	86	86	91.4%
Claude Sonnet 4.6 (Reasoning)	100	96	91	85	85	91.4%
Gemini 3.1 Flash Lite (Preview)	92	92	91	91	89	91.3%
Gemini 3.5 Flash (Reasoning)	96	95	95	91	79	91.2%
Llama 3.1 70B	100	92	92	88	84	91.1%
GPT-4o Mini (temp=1)	100	91	88	87	87	90.9%
Inception Mercury 2	96	94	94	85	85	90.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	96	90	87	80	90.6%
Grok 4.3	97	96	95	91	74	90.5%
Nemotron 3 Super	100	96	92	82	81	90.1%
Grok 4.20	100	94	87	86	82	90.0%
Claude Opus 4.8 (Reasoning)	100	95	91	83	81	90.0%
Claude Opus 4	96	94	90	87	82	89.8%
Cohere Command R+ (Aug. 2024)	95	94	94	89	76	89.7%
Z.AI GLM 4.7	97	89	88	87	85	89.2%
Xiaomi MIMO v2.5	97	93	86	85	84	89.1%
GPT-4o, Aug. 6th (temp=0)	95	90	87	86	86	88.7%
Claude Haiku 4.5	92	92	87	86	85	88.6%
Mistral Large 3	91	90	88	87	84	88.0%
GPT-4o Mini (temp=0)	96	96	86	81	78	87.4%
GPT-4.1 Mini	100	90	89	84	70	86.6%
DeepSeek V3 (2024-12-26)	92	88	87	87	79	86.5%
DeepSeek V3.1	93	89	86	83	81	86.4%
Gemini 2.5 Flash	91	89	88	84	79	86.3%
Mistral Small 3.2 24B	100	97	93	80	62	86.2%
Gemini 2.5 Flash Lite	95	91	85	83	77	86.0%
Qwen 2.5 72B	94	91	88	82	76	86.0%
Gemini 2.5 Flash (Reasoning)	90	90	84	84	80	85.6%
Gemini 2.5 Flash Lite (Reasoning)	95	88	88	85	71	85.5%
Mistral NeMO	100	93	86	82	62	84.4%
Gemma 3 4B	92	92	89	78	69	83.8%
Z.AI GLM 4.5	96	89	88	78	61	82.6%
GPT-4o, Aug. 6th (temp=1)	96	91	84	72	70	82.5%
Gemma 3 12B	96	89	79	77	71	82.2%
Hermes 3 405B	87	85	82	79	69	80.1%
Cydonia 24B V4.1	97	95	87	74	44	79.5%
GPT-4.1 Nano	90	87	76	70	69	78.6%
Qwen 3.6 27B	95	93	93	90	5	74.9%

genre

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 1.6	100	100	100	100	100	100.0%
o4 Mini High	100	100	97	96	93	97.2%
GPT-5 Mini	100	100	96	95	94	97.0%
ByteDance Seed 2.0 Lite	100	97	97	94	93	96.2%
Aion 3.0 Mini	100	100	96	94	88	95.6%
Gemma 4 31B	100	100	96	95	86	95.5%
ByteDance Seed 1.6 Flash	100	98	95	94	91	95.4%
o4 Mini	100	100	93	92	89	94.9%
Qwen 3.5 Flash	100	96	93	93	89	94.2%
Gemini 3 Flash (Preview)	100	97	93	90	87	93.4%
Qwen 3.5 Plus (2026-04-20)	97	97	96	91	85	93.1%
Gemini 2.5 Pro	100	94	93	89	89	93.0%
ByteDance Seed 2.0 Mini	97	94	94	91	88	92.7%
Gemini 3.1 Flash Lite (Preview)	96	92	92	92	89	92.2%
MoonshotAI: Kimi K2.6	94	94	93	91	89	92.2%
MoonshotAI: Kimi K2.5	97	97	95	92	78	91.7%
Gemini 3.1 Flash Lite (Reasoning)	100	96	92	87	84	91.6%
DeepSeek V4 Flash	96	93	93	90	86	91.5%
GPT-5	98	94	92	89	82	91.3%
GPT-OSS 120B	97	92	92	90	84	91.2%
Grok 4.3 (Reasoning)	95	94	92	90	84	91.1%
GPT-5 Nano	95	93	91	90	86	91.0%
Gemma 4 31B (Reasoning)	100	96	92	88	79	91.0%
Inception Mercury 2	98	94	91	90	83	90.9%
Mistral Large 3	96	96	91	86	86	90.8%
Mistral Small 3.2 24B	100	100	99	79	74	90.4%
Z.AI GLM 5	94	94	89	88	86	90.2%
Qwen 3.5 35B	97	96	92	87	79	89.9%
Qwen 3.5 9B	100	96	92	83	79	89.9%
GPT-5.5 (Reasoning)	93	92	91	89	84	89.9%
Mistral Large 2	100	96	91	88	75	89.9%
Gemini 3.1 Flash Lite	96	92	88	87	87	89.9%
Gemma 3 27B	95	91	90	87	85	89.7%
DeepSeek V4 Pro	93	92	91	88	83	89.6%
MiniMax M3	93	93	91	86	84	89.5%
DeepSeek V4 Flash (Reasoning)	100	97	92	80	78	89.4%
Qwen 3.5 397B A17B	96	92	89	86	83	89.4%
Grok 4.3	97	90	88	86	84	89.1%
Z.AI GLM 5.2 (Reasoning, High)	94	93	88	88	82	89.0%
Claude Opus 4.6	100	94	93	81	77	88.9%
Qwen 3.5 27B	96	93	87	85	82	88.7%
DeepSeek V4 Pro (Reasoning)	98	91	88	86	80	88.5%
GPT-5.4 Nano (Reasoning)	95	89	88	86	84	88.4%
GPT-5.4 Nano (Reasoning, Low)	94	90	88	85	84	88.3%
Qwen 3.5 122B	96	92	91	84	78	88.0%
Aion 3.0	90	90	89	86	84	88.0%
GPT-4.1	92	90	89	85	83	87.9%
Qwen3.6 Max Preview	94	91	88	84	82	87.7%
Ministral 3 3B	94	91	88	84	81	87.7%
Nemotron 3 Super	92	91	90	86	79	87.6%
GPT-5.5 (Reasoning, Low)	91	90	89	85	82	87.4%
Qwen 3.6 27B	97	92	91	82	76	87.4%
Grok 4.5 (Reasoning, High)	100	88	85	85	79	87.3%
Qwen 3.6 35B	97	97	87	81	75	87.3%
Claude Sonnet 4.5	100	92	91	85	68	87.2%
Grok 4.5 (Reasoning, Low)	92	90	88	84	83	87.2%
GPT-5.4 Mini (Reasoning)	90	89	89	85	82	87.0%
Claude Opus 4.6 (Reasoning)	94	92	85	84	80	87.0%
Gemini 3 Flash (Preview, Reasoning)	93	91	85	83	83	87.0%
GPT-5.4 Nano	91	87	87	85	82	86.7%
Grok 4.20	92	88	87	86	80	86.6%
Qwen3.7 Max	96	89	84	84	78	86.2%
Qwen 2.5 72B	95	93	85	82	76	86.2%
Z.AI GLM 4.7 Flash	89	88	87	86	81	86.1%
Claude Sonnet 5 (Reasoning)	100	86	85	83	77	86.0%
Qwen3 235B A22B Instruct 2507	88	88	86	86	82	86.0%
GPT-5.4	88	87	87	85	82	85.9%
GPT-5.5	90	87	86	83	82	85.8%
Z.AI GLM 5.1	91	89	85	83	81	85.7%
GPT-5.4 (Reasoning)	90	89	85	83	82	85.7%
WizardLM 2 8x22b	100	86	86	85	71	85.5%
Nemotron 3 Nano	93	85	85	82	82	85.5%
MiniMax M2.7	95	93	86	80	74	85.4%
Gemini 3.5 Flash (Reasoning)	92	88	84	82	82	85.4%
Z.AI GLM 5 Turbo	96	93	92	80	67	85.4%
Qwen 3 32B	95	90	82	81	79	85.4%
Qwen 3.6 Flash	92	89	86	83	77	85.4%
Grok 4.20 (Reasoning)	86	86	86	85	81	84.9%
Ministral 3 14B	96	95	89	82	61	84.8%
Ministral 8B	92	87	87	84	73	84.7%
Ministral 3B	100	93	92	86	52	84.5%
Gemini 3.5 Flash (Reasoning, Minimal)	90	88	84	83	78	84.4%
Gemma 4 26B (Reasoning)	96	88	88	78	72	84.4%
Qwen 3.5 Plus (2026-02-15)	94	85	85	81	76	84.2%
GPT-5.4 Mini (Reasoning, Low)	88	87	85	83	78	84.2%
GPT-5.2	89	88	82	82	80	84.0%
Claude Opus 4.8 (Reasoning, Low)	95	88	84	79	73	83.9%
Gemma 4 26B	92	89	82	79	77	83.8%
MiniMax M2.5	89	86	86	83	75	83.8%
Claude Haiku 4.5	93	91	84	78	73	83.7%
DeepSeek V3 (2025-03-24)	92	90	87	78	70	83.6%
Claude Opus 4.5	94	89	81	79	75	83.5%
Mistral Medium 3.1	94	88	84	77	74	83.4%
Ministral 3 8B	91	87	83	80	75	83.3%
Aion 2.0	92	85	83	83	73	83.2%
GPT-5.1	88	86	82	80	78	82.9%
DeepSeek V3.2	93	84	81	80	75	82.8%
GPT-4o, Aug. 6th (temp=0)	87	85	82	81	78	82.6%
GPT-4o, Aug. 6th (temp=1)	91	91	90	77	62	82.2%
Gemini 2.5 Flash Lite	90	86	85	82	68	82.1%
Xiaomi MIMO v2.5	86	84	83	81	76	82.0%
Gemma 3 4B	90	85	85	76	71	81.6%
Arcee AI: Trinity Mini	95	84	83	73	73	81.5%
Cohere Command R+ (Aug. 2024)	89	87	80	80	71	81.3%
Gemma 3 12B	91	83	82	80	69	81.1%
Mistral Small 4	91	90	81	76	68	81.1%
Claude Sonnet 4.6	96	86	77	76	70	81.0%
Z.AI GLM 4.6	88	87	84	74	70	80.7%
Hermes 3 405B	89	83	82	73	73	79.9%
Xiaomi MIMO v2.5 Pro	87	84	84	74	69	79.5%
Claude Opus 4	87	81	77	76	76	79.4%
Hermes 3 70B	95	84	76	73	70	79.4%
Gemini 2.5 Flash Lite (Reasoning)	83	82	79	78	73	78.9%
Z.AI GLM 4.7	84	84	82	75	69	78.9%
Mistral Small 4 (Reasoning)	91	87	84	67	65	78.8%
GPT-5.4 Mini	89	84	75	73	72	78.6%
Writer: Palmyra X5	83	83	80	78	69	78.6%
Mistral NeMO	86	84	84	75	61	78.1%
Claude Sonnet 5 (Reasoning, Low)	86	81	78	77	67	77.7%
Claude Opus 4.8 (Reasoning)	96	91	69	69	63	77.7%
DeepSeek V3.1	87	83	81	71	66	77.7%
Claude Opus 4.7 (Reasoning)	88	82	74	73	69	77.1%
Claude Sonnet 4.6 (Reasoning)	87	78	76	72	72	77.1%
GPT-4.1 Mini	92	73	73	72	72	76.4%
DeepSeek-V2 Chat	88	84	81	70	58	76.2%
Z.AI GLM 4.5	86	83	77	77	57	76.0%
Claude Sonnet 4	86	86	72	68	67	75.8%
GPT-5.4 (Reasoning, Low)	83	82	75	70	68	75.4%
Gemini 3.1 Pro (Preview)	86	80	72	70	69	75.4%
Claude Sonnet 5	91	83	81	67	53	75.2%
Z.AI GLM 4.5 Air	81	80	78	76	59	74.9%
DeepSeek V3 (2024-12-26)	78	77	73	72	72	74.6%
GPT-4o Mini (temp=1)	81	79	77	75	59	74.1%
Cydonia 24B V4.1	92	77	76	67	54	73.2%
Gemini 2.5 Flash	81	75	72	72	64	72.6%
Gemini 2.5 Flash (Reasoning)	89	76	72	63	62	72.2%
Llama 3.1 70B	86	78	76	72	45	71.3%
Claude Opus 4.7	86	76	70	61	47	67.7%
GPT-4o Mini (temp=0)	77	75	74	55	50	66.1%
GPT-4.1 Nano	65	60	60	48	41	54.8%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen 3.5 9B	100	100	100	94	93	97.5%
ByteDance Seed 1.6	100	100	100	95	90	97.1%
o4 Mini High	100	100	97	97	92	97.0%
ByteDance Seed 2.0 Lite	100	97	97	97	94	96.8%
Gemini 3 Flash (Preview)	100	97	97	93	90	95.3%
Qwen 3 32B	100	95	95	94	89	94.7%
ByteDance Seed 1.6 Flash	97	94	94	93	93	94.2%
MoonshotAI: Kimi K2.5	100	96	95	89	88	93.6%
Grok 4.3 (Reasoning)	100	97	95	89	87	93.5%
Qwen 3.5 397B A17B	100	93	92	92	91	93.4%
o4 Mini	100	94	93	93	87	93.4%
DeepSeek V4 Flash (Reasoning)	96	96	94	92	88	93.3%
ByteDance Seed 2.0 Mini	95	95	95	92	86	92.5%
Qwen 3.5 27B	96	93	93	90	89	92.1%
Mistral NeMO	100	100	91	86	83	91.8%
MoonshotAI: Kimi K2.6	94	93	93	90	89	91.7%
DeepSeek V4 Flash	100	92	90	90	87	91.7%
GPT-5 Mini	97	93	92	91	85	91.6%
Mistral Small 4	93	93	92	90	89	91.3%
Grok 4.5 (Reasoning, Low)	97	95	91	91	84	91.3%
Gemma 4 31B	100	96	88	87	86	91.3%
Gemini 3.1 Flash Lite (Reasoning)	96	96	92	87	85	91.1%
GPT-5	95	95	91	91	83	91.1%
Mistral Medium 3.1	97	93	92	88	83	90.7%
Qwen 3.5 Flash	94	93	93	90	84	90.7%
Gemma 4 26B	100	93	87	86	86	90.3%
Gemini 3.1 Flash Lite	96	90	89	89	88	90.3%
Qwen3.6 Max Preview	96	94	90	90	82	90.2%
Gemini 3 Flash (Preview, Reasoning)	94	94	93	88	81	89.9%
GPT-5 Nano	94	92	90	89	85	89.9%
GPT-4.1	100	89	89	86	85	89.8%
Nemotron 3 Nano	98	92	90	86	85	89.8%
Grok 4.5 (Reasoning, High)	91	91	90	89	88	89.8%
Z.AI GLM 5.1	100	93	92	85	79	89.7%
Qwen 3.5 35B	93	93	92	86	83	89.5%
Aion 3.0	96	91	89	86	86	89.4%
Gemini 3.1 Flash Lite (Preview)	96	96	85	85	84	89.4%
MiniMax M2.7	95	90	89	88	86	89.3%
Z.AI GLM 4.7 Flash	92	92	92	86	85	89.3%
Qwen 3.6 Flash	96	95	91	88	76	89.3%
MiniMax M2.5	93	93	90	89	81	89.2%
Grok 4.3	94	92	88	87	85	89.1%
Qwen 2.5 72B	100	96	88	86	76	89.0%
Qwen 3.6 35B	94	89	89	87	85	88.8%
GPT-OSS 120B	97	92	91	90	74	88.8%
GPT-5.5 (Reasoning, Low)	92	90	89	87	84	88.6%
Z.AI GLM 5	97	97	91	82	76	88.5%
Qwen 3.5 122B	93	89	88	87	85	88.4%
Z.AI GLM 4.7	94	90	87	86	85	88.4%
Ministral 8B	94	93	92	86	76	88.3%
DeepSeek V4 Pro (Reasoning)	100	97	91	81	72	88.2%
GPT-5.5	91	91	88	87	85	88.2%
Z.AI GLM 5.2 (Reasoning, High)	97	92	89	84	78	87.9%
Z.AI GLM 4.6	97	92	86	85	78	87.4%
Qwen 3.6 27B	97	97	92	90	59	87.3%
Arcee AI: Trinity Mini	96	94	91	87	68	87.3%
Mistral Large 3	95	93	89	81	78	87.0%
Z.AI GLM 5 Turbo	94	93	89	85	74	86.9%
DeepSeek V4 Pro	89	88	86	86	85	86.8%
Qwen 3.5 Plus (2026-04-20)	92	91	86	83	81	86.7%
Qwen 3.5 Plus (2026-02-15)	91	89	88	82	82	86.5%
Gemini 3.1 Pro (Preview)	91	88	86	86	81	86.4%
Hermes 3 70B	100	93	85	82	73	86.4%
Mistral Small 3.2 24B	100	91	87	78	75	86.3%
Gemma 4 26B (Reasoning)	96	93	87	79	76	86.2%
Aion 3.0 Mini	97	93	92	89	59	86.0%
Mistral Small 4 (Reasoning)	90	88	87	86	79	85.8%
Inception Mercury 2	92	90	83	83	81	85.8%
GPT-5.5 (Reasoning)	89	87	85	84	83	85.7%
GPT-5.4 Nano	91	91	85	81	80	85.6%
Claude Sonnet 4.5	100	91	88	78	71	85.5%
DeepSeek V3.1	90	89	85	83	79	85.4%
DeepSeek V3 (2025-03-24)	93	92	80	80	80	85.0%
Claude Sonnet 4	93	91	86	78	77	85.0%
Z.AI GLM 4.5 Air	94	88	85	80	78	85.0%
GPT-5.4 Mini	92	90	83	81	79	84.9%
Ministral 3 3B	95	90	81	80	79	84.8%
Grok 4.20 (Reasoning)	89	88	87	84	76	84.7%
Ministral 3 8B	93	92	85	82	71	84.5%
Claude Opus 4.5	94	87	84	83	75	84.4%
Ministral 3B	88	86	85	83	80	84.3%
Nemotron 3 Super	89	88	83	81	80	84.1%
Claude Opus 4	94	86	82	82	76	84.1%
Mistral Large 2	95	94	82	76	73	84.1%
GPT-5.2	86	84	84	84	82	83.9%
GPT-5.4 (Reasoning, Low)	89	88	88	78	76	83.8%
GPT-4o Mini (temp=1)	93	88	84	80	75	83.8%
Xiaomi MIMO v2.5 Pro	94	84	84	80	77	83.8%
GPT-4o, Aug. 6th (temp=1)	92	89	87	86	65	83.7%
WizardLM 2 8x22b	90	88	83	81	76	83.6%
Ministral 3 14B	94	90	86	83	65	83.6%
Grok 4.20	88	87	82	80	80	83.5%
Gemini 3.5 Flash (Reasoning)	89	89	86	82	70	83.4%
Aion 2.0	91	83	82	80	79	83.2%
Gemini 3.5 Flash (Reasoning, Minimal)	91	90	88	74	74	83.1%
Gemma 3 12B	96	90	87	77	66	83.1%
DeepSeek V3.2	88	88	83	80	76	82.9%
Claude Sonnet 5 (Reasoning)	92	87	86	82	68	82.7%
Xiaomi MIMO v2.5	94	94	80	79	66	82.6%
GPT-5.4 Mini (Reasoning, Low)	93	93	81	75	71	82.6%
Gemma 4 31B (Reasoning)	92	86	84	77	73	82.2%
Claude Haiku 4.5	90	83	81	81	77	82.2%
Z.AI GLM 4.5	88	87	85	82	68	82.1%
Llama 3.1 70B	93	93	84	76	64	82.1%
Claude Opus 4.6	86	84	84	81	75	82.0%
Qwen3 235B A22B Instruct 2507	92	88	81	74	74	81.9%
GPT-5.4 Nano (Reasoning, Low)	84	83	82	80	79	81.9%
Gemini 2.5 Pro	93	90	80	75	71	81.7%
Writer: Palmyra X5	87	87	85	84	66	81.7%
Cohere Command R+ (Aug. 2024)	97	90	89	67	65	81.5%
GPT-5.4 Mini (Reasoning)	86	86	84	76	76	81.4%
GPT-5.4 Nano (Reasoning)	83	82	81	80	79	80.8%
Gemini 2.5 Flash (Reasoning)	92	83	82	80	67	80.7%
Gemini 2.5 Flash Lite	89	87	79	78	68	80.5%
Claude Opus 4.7 (Reasoning)	95	78	77	76	72	79.7%
Gemini 2.5 Flash	83	81	80	79	76	79.7%
Claude Opus 4.7	86	85	77	76	72	79.3%
Qwen3.7 Max	91	85	85	75	61	79.3%
DeepSeek V3 (2024-12-26)	93	84	81	70	64	78.5%
GPT-5.4 (Reasoning)	86	81	81	74	69	78.5%
Claude Opus 4.8 (Reasoning)	86	86	78	73	68	78.3%
MiniMax M3	88	81	81	71	71	78.3%
Gemma 3 4B	86	82	78	73	70	77.6%
Claude Sonnet 5 (Reasoning, Low)	87	87	76	74	63	77.4%
Claude Opus 4.6 (Reasoning)	85	80	77	75	67	77.0%
GPT-4o, Aug. 6th (temp=0)	87	83	76	74	65	76.9%
Claude Sonnet 4.6 (Reasoning)	79	78	77	75	74	76.5%
GPT-5.4	82	81	77	71	71	76.5%
Claude Opus 4.8 (Reasoning, Low)	96	82	81	65	58	76.5%
GPT-4o Mini (temp=0)	81	77	76	75	73	76.3%
Hermes 3 405B	87	87	84	76	48	76.2%
Claude Sonnet 5	95	76	72	68	67	75.9%
GPT-5.1	81	78	78	73	67	75.5%
DeepSeek-V2 Chat	88	87	86	59	56	75.4%
Gemini 2.5 Flash Lite (Reasoning)	85	83	82	65	60	74.9%
Gemma 3 27B	77	77	77	76	67	74.9%
GPT-4.1 Mini	87	77	72	67	66	73.5%
GPT-4.1 Nano	86	81	69	54	52	68.5%
Cydonia 24B V4.1	93	75	75	52	47	68.3%
Claude Sonnet 4.6	75	73	69	58	41	63.3%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 2.0 Lite	97	97	97	97	97	97.3%
ByteDance Seed 1.6	100	98	97	96	95	97.2%
ByteDance Seed 1.6 Flash	100	98	95	95	95	96.5%
Qwen 3.5 9B	100	100	100	92	90	96.4%
GPT-5 Mini	100	98	94	89	88	93.9%
Grok 4.5 (Reasoning, High)	95	95	94	93	89	93.2%
o4 Mini High	100	97	93	90	86	93.0%
GPT-OSS 120B	98	94	92	92	89	93.0%
Grok 4.3	100	97	90	88	88	92.7%
Grok 4.5 (Reasoning, Low)	98	95	94	90	85	92.3%
Grok 4.3 (Reasoning)	100	97	94	86	84	92.2%
MoonshotAI: Kimi K2.6	100	92	90	90	87	91.7%
Grok 4.20 (Reasoning)	96	93	92	89	87	91.4%
Qwen 3.6 Flash	96	94	90	88	87	91.0%
Llama 3.1 70B	93	91	91	91	88	90.9%
ByteDance Seed 2.0 Mini	97	93	92	87	85	90.8%
Qwen 3 32B	97	95	95	89	77	90.7%
Claude Opus 4.8 (Reasoning, Low)	100	96	91	86	80	90.7%
GPT-4.1	100	97	90	84	80	90.3%
DeepSeek V4 Flash (Reasoning)	100	93	90	86	82	90.3%
DeepSeek V3 (2025-03-24)	100	95	89	88	76	89.8%
Inception Mercury 2	94	90	89	87	87	89.4%
DeepSeek V4 Flash	93	90	90	88	86	89.4%
Aion 3.0 Mini	96	94	93	88	75	89.2%
Nemotron 3 Super	96	90	87	87	86	89.2%
Qwen 3.6 35B	94	91	90	85	85	89.1%
Ministral 3 3B	94	94	89	84	84	89.0%
Gemini 3.1 Flash Lite	97	92	92	88	76	89.0%
Mistral Large 3	95	91	89	86	83	89.0%
DeepSeek V4 Pro (Reasoning)	98	97	89	84	77	88.9%
Gemini 3.1 Flash Lite (Reasoning)	96	92	89	86	81	88.8%
Aion 3.0	94	90	88	87	83	88.5%
Grok 4.20	96	91	91	82	81	88.3%
Z.AI GLM 5.2 (Reasoning, High)	95	88	88	86	86	88.3%
Z.AI GLM 4.6	93	89	88	87	83	88.0%
Cohere Command R+ (Aug. 2024)	97	96	87	82	78	87.9%
o4 Mini	96	90	87	86	80	87.9%
Z.AI GLM 5.1	97	95	88	88	70	87.6%
WizardLM 2 8x22b	94	87	86	85	85	87.4%
Mistral Medium 3.1	98	86	85	84	84	87.3%
Ministral 8B	92	91	87	84	82	87.1%
Qwen 3.5 Flash	89	88	87	86	86	87.1%
Gemini 3 Flash (Preview, Reasoning)	93	91	86	84	81	86.9%
Z.AI GLM 5 Turbo	92	88	86	85	83	86.8%
Gemini 3.1 Flash Lite (Preview)	92	92	92	82	76	86.8%
Xiaomi MIMO v2.5 Pro	93	93	85	82	81	86.8%
GPT-5 Nano	92	92	85	85	80	86.8%
Qwen 3.5 Plus (2026-04-20)	92	91	87	83	80	86.6%
Z.AI GLM 5	90	89	86	85	79	86.1%
Claude Opus 4.6	93	92	83	81	80	85.9%
MoonshotAI: Kimi K2.5	97	94	88	79	71	85.7%
Gemma 4 31B	94	86	85	83	82	85.7%
Nemotron 3 Nano	90	88	88	86	76	85.6%
MiniMax M2.7	93	92	91	82	70	85.6%
DeepSeek V4 Pro	92	88	87	85	76	85.5%
Gemini 3 Flash (Preview)	91	86	84	84	82	85.2%
Xiaomi MIMO v2.5	91	88	83	82	82	85.2%
GPT-5.4 (Reasoning, Low)	89	85	84	83	82	84.7%
Qwen 3.5 35B	93	92	87	77	75	84.7%
GPT-5.5 (Reasoning, Low)	89	86	85	82	81	84.7%
Claude Opus 4.6 (Reasoning)	89	88	87	81	79	84.7%
Z.AI GLM 4.7 Flash	91	89	86	79	77	84.6%
GPT-5	89	88	83	81	81	84.5%
Qwen 3.5 397B A17B	89	87	84	84	79	84.5%
Claude Opus 4.8 (Reasoning)	88	87	83	82	81	84.3%
GPT-5.5	89	87	85	81	79	84.2%
Mistral Small 4 (Reasoning)	92	87	84	80	77	84.2%
Gemma 4 26B	90	86	86	81	77	84.1%
Qwen 3.6 27B	95	86	82	81	76	84.0%
GPT-5.1	87	85	84	82	81	83.8%
Qwen 3.5 27B	92	88	82	78	78	83.8%
GPT-5.4 Nano	89	85	83	82	80	83.7%
Mistral NeMO	92	88	87	76	73	83.3%
Claude Opus 4.5	85	85	84	82	80	83.2%
Mistral Large 2	93	89	85	82	66	83.1%
Aion 2.0	89	86	83	83	75	83.0%
GPT-4o, Aug. 6th (temp=0)	91	85	84	84	70	82.8%
GPT-5.4 Mini	88	85	84	82	75	82.8%
Claude Opus 4.7 (Reasoning)	92	89	89	73	72	82.7%
Gemma 4 26B (Reasoning)	90	87	86	81	70	82.7%
Ministral 3 8B	91	89	82	79	73	82.6%
Qwen3.6 Max Preview	84	84	84	81	80	82.4%
GPT-5.4 Nano (Reasoning, Low)	89	86	84	83	69	82.1%
GPT-5.4 (Reasoning)	86	85	81	80	79	82.1%
GPT-5.4 Nano (Reasoning)	89	81	81	80	78	81.9%
Gemini 2.5 Pro	94	85	80	78	71	81.7%
Claude Sonnet 4.5	88	85	82	77	75	81.6%
Z.AI GLM 4.7	92	84	81	76	75	81.6%
GPT-5.2	90	81	80	79	78	81.5%
Mistral Small 4	92	83	82	79	71	81.5%
DeepSeek V3 (2024-12-26)	88	85	82	81	69	81.2%
Qwen 3.5 122B	96	88	81	72	69	81.2%
GPT-5.4 Mini (Reasoning)	85	82	81	80	77	81.0%
Claude Sonnet 4	87	87	85	74	73	80.9%
GPT-5.5 (Reasoning)	84	83	83	79	75	80.9%
DeepSeek V3.2	95	82	80	74	73	80.8%
Claude Opus 4	96	89	84	74	60	80.8%
Qwen 3.5 Plus (2026-02-15)	84	84	79	79	77	80.8%
GPT-5.4	82	82	81	79	79	80.7%
Qwen 2.5 72B	85	84	82	81	69	80.3%
Qwen3.7 Max	87	85	80	76	73	80.3%
GPT-5.4 Mini (Reasoning, Low)	85	82	80	78	75	80.0%
Claude Sonnet 5	92	91	82	70	61	79.3%
Gemma 4 31B (Reasoning)	86	84	78	76	73	79.2%
GPT-4o Mini (temp=0)	91	87	86	66	66	79.2%
Gemini 2.5 Flash	92	79	78	76	70	78.9%
Hermes 3 405B	95	85	81	74	57	78.4%
MiniMax M2.5	93	89	72	70	67	78.3%
Ministral 3 14B	92	78	77	73	72	78.2%
Claude Haiku 4.5	81	81	80	78	71	78.2%
GPT-4.1 Mini	86	85	80	77	61	78.0%
Gemini 2.5 Flash Lite (Reasoning)	88	87	78	69	67	77.9%
Mistral Small 3.2 24B	91	83	74	70	70	77.7%
Z.AI GLM 4.5	85	84	83	71	62	76.7%
Claude Opus 4.7	86	80	79	74	64	76.6%
Claude Sonnet 5 (Reasoning, Low)	91	83	76	73	59	76.5%
DeepSeek V3.1	86	80	73	71	70	76.1%
Ministral 3B	94	75	72	71	66	75.6%
Writer: Palmyra X5	80	80	74	74	68	75.3%
MiniMax M3	84	80	77	69	68	75.3%
GPT-4o, Aug. 6th (temp=1)	87	83	72	71	62	75.2%
Gemini 3.5 Flash (Reasoning, Minimal)	80	78	75	72	69	75.0%
Hermes 3 70B	82	80	73	70	67	74.5%
Gemma 3 27B	88	78	75	71	59	74.2%
Z.AI GLM 4.5 Air	81	80	78	70	61	74.2%
Claude Sonnet 4.6 (Reasoning)	80	77	77	75	56	73.1%
Gemini 3.5 Flash (Reasoning)	80	78	75	74	57	72.8%
Qwen3 235B A22B Instruct 2507	83	79	74	74	53	72.7%
Gemini 2.5 Flash (Reasoning)	79	75	74	73	62	72.7%
Arcee AI: Trinity Mini	79	72	72	71	66	72.0%
Gemini 2.5 Flash Lite	81	77	76	69	58	72.0%
Claude Sonnet 5 (Reasoning)	91	91	73	68	36	71.8%
GPT-4o Mini (temp=1)	82	76	71	65	59	70.6%
DeepSeek-V2 Chat	80	75	70	66	61	70.1%
Claude Sonnet 4.6	85	82	73	54	54	69.7%
Gemma 3 12B	77	75	74	67	54	69.1%
Gemini 3.1 Pro (Preview)	85	82	63	62	47	67.9%
Gemma 3 4B	78	78	69	59	51	67.1%
Cydonia 24B V4.1	76	74	63	45	40	59.5%
GPT-4.1 Nano	70	60	54	45	33	52.4%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 1.6 Flash	100	100	97	96	95	97.6%
ByteDance Seed 2.0 Lite	100	100	100	94	94	97.6%
DeepSeek V4 Flash	100	100	96	96	95	97.6%
GPT-4.1	100	97	96	93	93	95.9%
ByteDance Seed 1.6	98	98	97	96	91	95.8%
Qwen 3.5 Plus (2026-04-20)	100	98	97	94	91	95.8%
GPT-OSS 120B	98	98	94	93	92	95.3%
Qwen 3.5 9B	100	100	100	97	78	94.9%
Inception Mercury 2	100	96	95	94	87	94.3%
o4 Mini High	100	97	96	91	86	94.0%
ByteDance Seed 2.0 Mini	97	97	94	93	88	94.0%
Gemma 4 26B (Reasoning)	96	93	93	93	92	93.4%
MoonshotAI: Kimi K2.6	97	95	94	91	89	93.2%
GPT-5	97	93	93	93	89	92.9%
Claude Opus 4.8 (Reasoning, Low)	100	96	92	89	88	92.8%
Qwen 2.5 72B	100	96	95	95	78	92.7%
Gemma 4 26B	100	97	97	96	73	92.5%
Gemini 3 Flash (Preview)	100	94	91	90	88	92.4%
o4 Mini	100	97	96	90	78	92.4%
DeepSeek V4 Flash (Reasoning)	97	94	91	90	89	92.3%
Z.AI GLM 4.7 Flash	97	93	92	91	88	92.2%
Qwen 3.5 Flash	96	93	93	91	87	92.2%
WizardLM 2 8x22b	100	95	94	87	85	92.1%
Nemotron 3 Nano	96	93	93	93	85	91.8%
Claude Opus 4.8 (Reasoning)	100	96	91	89	82	91.8%
Gemini 3.1 Flash Lite	100	92	92	88	87	91.8%
MiniMax M3	100	97	97	93	72	91.6%
Qwen3.6 Max Preview	100	94	92	87	85	91.6%
Gemini 3 Flash (Preview, Reasoning)	97	94	90	88	87	91.3%
Qwen 3.6 Flash	97	95	90	88	87	91.3%
Mistral Large 3	100	96	91	87	82	91.2%
GPT-5 Mini	94	93	92	89	88	91.1%
Gemini 3.1 Flash Lite (Preview)	92	92	92	91	88	90.9%
Qwen 3.6 35B	94	93	93	87	87	90.9%
Cohere Command R+ (Aug. 2024)	100	96	90	89	80	90.9%
Gemma 4 31B	96	92	92	89	85	90.6%
MoonshotAI: Kimi K2.5	97	95	92	91	78	90.6%
Z.AI GLM 5.1	100	94	94	91	73	90.5%
GPT-5.5 (Reasoning, Low)	92	91	90	90	89	90.5%
Qwen 3.5 35B	93	91	90	90	89	90.4%
GPT-5 Nano	92	92	90	90	89	90.4%
Arcee AI: Trinity Mini	100	94	93	89	75	90.1%
Grok 4.3	100	96	91	83	79	90.0%
Ministral 3 8B	100	94	87	85	83	89.9%
Claude Opus 4.6	93	93	91	87	86	89.8%
Gemma 4 31B (Reasoning)	100	91	89	87	80	89.5%
Aion 2.0	97	93	89	88	80	89.4%
MiniMax M2.7	96	94	92	86	77	89.2%
GPT-4o, Aug. 6th (temp=0)	95	95	91	83	81	89.2%
Mistral Medium 3.1	97	92	91	85	81	89.1%
Z.AI GLM 5.2 (Reasoning, High)	94	93	90	85	83	89.0%
Claude Opus 4.7 (Reasoning)	96	96	87	87	80	88.9%
MiniMax M2.5	94	94	92	86	79	88.9%
Gemini 3.5 Flash (Reasoning, Minimal)	94	93	89	89	79	88.9%
GPT-5.5	91	89	88	88	87	88.8%
Qwen 3.5 122B	96	92	87	86	82	88.7%
Aion 3.0	94	94	91	85	79	88.7%
Xiaomi MIMO v2.5 Pro	93	93	90	85	83	88.6%
Qwen 3 32B	98	88	88	87	82	88.6%
Llama 3.1 70B	100	92	86	86	79	88.5%
Mistral NeMO	100	92	89	82	79	88.4%
Aion 3.0 Mini	95	94	91	89	73	88.4%
Gemini 2.5 Flash	97	96	88	85	76	88.4%
Gemini 3.1 Flash Lite (Reasoning)	100	91	89	87	75	88.4%
Grok 4.20 (Reasoning)	90	90	88	87	87	88.3%
Xiaomi MIMO v2.5	91	90	89	86	86	88.3%
Mistral Large 2	100	96	91	78	77	88.3%
Claude Sonnet 5 (Reasoning, Low)	95	91	90	86	78	88.0%
Z.AI GLM 5	93	93	92	85	77	87.9%
GPT-5.4 Mini (Reasoning, Low)	93	90	88	87	81	87.9%
Grok 4.3 (Reasoning)	93	91	88	83	83	87.7%
Mistral Small 3.2 24B	92	90	87	86	83	87.5%
GPT-5.4 Mini (Reasoning)	92	90	89	85	82	87.4%
GPT-4o Mini (temp=0)	100	90	87	81	78	87.3%
Qwen 3.5 Plus (2026-02-15)	94	87	86	85	84	87.2%
Nemotron 3 Super	93	91	87	84	81	87.2%
GPT-5.4 Mini	93	89	89	87	78	87.2%
Claude Sonnet 4.5	91	89	87	85	83	87.0%
Ministral 8B	100	95	84	83	72	86.9%
DeepSeek V4 Pro (Reasoning)	95	91	87	83	79	86.9%
Claude Sonnet 5	96	92	87	82	78	86.9%
Claude Haiku 4.5	96	92	87	82	76	86.8%
Z.AI GLM 4.6	92	89	87	87	80	86.7%
Qwen 3.6 27B	91	91	85	84	82	86.5%
Qwen 3.5 397B A17B	92	90	87	86	78	86.5%
Ministral 3 3B	88	88	88	88	79	86.4%
GPT-5.4 Nano	89	89	87	85	82	86.3%
GPT-5.5 (Reasoning)	93	89	88	83	78	86.2%
GPT-5.4 (Reasoning)	96	90	84	81	81	86.1%
GPT-5.4 Nano (Reasoning, Low)	92	87	86	85	80	86.0%
Hermes 3 405B	100	93	82	78	77	86.0%
GPT-5.2	91	87	86	84	80	85.8%
Grok 4.5 (Reasoning, Low)	88	87	86	84	83	85.6%
Hermes 3 70B	100	93	88	75	71	85.5%
Qwen 3.5 27B	93	90	87	82	75	85.5%
Claude Opus 4.7	96	87	84	82	78	85.4%
GPT-5.4 (Reasoning, Low)	93	89	83	81	80	85.4%
Claude Sonnet 5 (Reasoning)	91	87	86	86	77	85.3%
Cydonia 24B V4.1	96	95	84	83	69	85.3%
Claude Sonnet 4	92	90	88	81	76	85.2%
Grok 4.5 (Reasoning, High)	95	94	83	78	76	85.1%
GPT-5.4	88	87	85	85	81	85.1%
DeepSeek V3.1	96	91	89	85	64	85.0%
Gemma 3 27B	92	86	83	81	81	84.7%
Ministral 3 14B	96	87	83	79	78	84.5%
Gemini 2.5 Pro	94	87	84	80	77	84.4%
Ministral 3B	100	88	88	84	62	84.4%
GPT-4o, Aug. 6th (temp=1)	95	91	86	78	69	83.8%
Claude Opus 4.6 (Reasoning)	90	87	87	84	71	83.7%
DeepSeek V3.2	90	88	87	79	75	83.6%
DeepSeek V3 (2025-03-24)	91	91	83	77	76	83.6%
Gemini 2.5 Flash Lite	97	95	80	76	69	83.4%
Qwen3.7 Max	93	89	86	75	74	83.3%
Z.AI GLM 4.5 Air	100	86	84	74	72	83.1%
GPT-5.1	87	83	82	81	81	82.9%
GPT-4o Mini (temp=1)	88	86	85	82	74	82.8%
DeepSeek V4 Pro	90	85	84	82	73	82.6%
Claude Opus 4.5	86	86	81	80	80	82.6%
Gemini 2.5 Flash Lite (Reasoning)	93	83	83	81	72	82.4%
Z.AI GLM 5 Turbo	92	89	80	78	72	82.4%
Qwen3 235B A22B Instruct 2507	93	88	84	73	73	82.1%
Gemini 3.5 Flash (Reasoning)	90	87	80	78	75	82.0%
Claude Sonnet 4.6 (Reasoning)	100	88	80	77	64	81.8%
Mistral Small 4	95	87	82	75	70	81.6%
Z.AI GLM 4.7	85	85	84	77	76	81.4%
Mistral Small 4 (Reasoning)	92	82	81	78	72	81.1%
GPT-5.4 Nano (Reasoning)	86	84	82	78	75	81.0%
DeepSeek V3 (2024-12-26)	91	82	80	78	75	81.0%
Claude Sonnet 4.6	91	90	77	74	68	79.9%
DeepSeek-V2 Chat	92	87	76	75	67	79.3%
Gemma 3 12B	96	82	76	74	62	77.9%
Grok 4.20	84	81	80	79	63	77.4%
Claude Opus 4	88	83	75	70	68	76.8%
Writer: Palmyra X5	92	84	76	68	63	76.6%
Z.AI GLM 4.5	85	83	73	68	60	73.7%
Gemini 2.5 Flash (Reasoning)	80	76	67	67	64	70.9%
Gemini 3.1 Pro (Preview)	76	71	68	64	63	68.4%
GPT-4.1 Mini	91	67	62	62	57	67.6%
GPT-4.1 Nano	89	80	64	62	44	67.6%
Gemma 3 4B	77	73	50	49	49	59.6%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 2.0 Lite	100	100	100	97	97	98.7%
ByteDance Seed 1.6	100	100	97	95	93	97.2%
ByteDance Seed 1.6 Flash	100	96	94	94	87	94.2%
DeepSeek V4 Flash	97	96	94	93	89	93.9%
ByteDance Seed 2.0 Mini	97	97	95	92	88	93.8%
Mistral Medium 3.1	95	94	94	94	90	93.5%
Llama 3.1 70B	100	93	93	93	87	93.3%
MoonshotAI: Kimi K2.6	100	94	93	92	87	93.2%
DeepSeek V4 Flash (Reasoning)	96	96	94	90	88	93.0%
o4 Mini	100	96	91	90	88	92.9%
GPT-5 Mini	96	95	94	90	87	92.3%
Aion 3.0	100	95	95	88	84	92.2%
Qwen 3.5 35B	100	92	91	90	87	92.0%
Z.AI GLM 5.1	93	93	93	92	88	91.7%
Grok 4.3	97	97	95	83	78	90.1%
Qwen 3.5 9B	96	94	93	89	77	89.8%
GPT-5 Nano	91	91	91	88	87	89.7%
Mistral Large 2	100	95	91	83	80	89.7%
Grok 4.20 (Reasoning)	96	93	89	87	83	89.6%
Grok 4.5 (Reasoning, High)	100	90	87	86	83	89.3%
Gemma 4 26B (Reasoning)	94	92	91	88	80	89.1%
Grok 4.3 (Reasoning)	94	93	90	85	83	88.9%
Mistral Large 3	97	95	95	81	76	88.9%
Qwen 3.5 122B	93	90	89	88	85	88.8%
MoonshotAI: Kimi K2.5	94	93	92	83	80	88.4%
Z.AI GLM 5	94	94	90	85	79	88.4%
Ministral 8B	97	97	88	80	79	88.1%
Qwen 3.6 27B	92	91	91	84	82	88.0%
Qwen 3.5 Plus (2026-04-20)	93	92	89	85	81	87.9%
Hermes 3 405B	100	95	88	78	77	87.7%
Gemma 4 26B	93	93	85	84	83	87.6%
GPT-4.1	93	89	87	86	83	87.6%
Qwen 3 32B	95	95	85	84	78	87.5%
Gemini 3.1 Flash Lite (Reasoning)	100	85	85	84	83	87.4%
DeepSeek V4 Pro (Reasoning)	93	89	87	86	82	87.4%
Qwen 3.5 397B A17B	93	92	90	85	76	87.3%
Nemotron 3 Nano	94	88	86	86	83	87.3%
Inception Mercury 2	91	89	87	86	84	87.3%
DeepSeek V3 (2025-03-24)	100	100	88	85	64	87.3%
Claude Opus 4.6	92	90	88	87	79	87.2%
MiniMax M2.7	96	88	86	83	83	87.1%
Gemini 3 Flash (Preview)	97	94	91	84	69	86.9%
Gemini 3.1 Flash Lite	93	92	89	85	75	86.8%
Qwen 3.6 35B	97	87	87	82	81	86.8%
o4 Mini High	97	89	86	85	76	86.7%
Gemini 3 Flash (Preview, Reasoning)	91	90	87	85	80	86.6%
Qwen 3.6 Flash	96	93	85	82	76	86.5%
Claude Opus 4.5	94	91	89	80	78	86.5%
GPT-5	93	87	85	84	83	86.4%
Aion 3.0 Mini	95	88	86	85	76	86.2%
Qwen 3.5 Flash	96	94	89	76	74	86.0%
GPT-5.4 Nano	92	85	85	84	84	85.9%
Gemma 4 31B	92	89	85	84	79	85.8%
Qwen 2.5 72B	95	92	85	78	78	85.8%
Z.AI GLM 5 Turbo	95	89	87	83	75	85.8%
Nemotron 3 Super	92	86	85	84	81	85.7%
Qwen3.6 Max Preview	97	86	85	81	79	85.6%
Xiaomi MIMO v2.5	94	86	85	82	81	85.5%
GPT-OSS 120B	91	91	86	84	75	85.5%
GPT-5.5	89	88	85	85	80	85.4%
GPT-5.5 (Reasoning, Low)	91	87	85	83	81	85.4%
Ministral 3 14B	91	88	85	82	80	85.3%
GPT-5.4 Nano (Reasoning)	88	88	86	84	80	85.2%
GPT-5.5 (Reasoning)	88	87	85	85	80	84.8%
Ministral 3 8B	94	90	84	78	76	84.3%
GPT-5.4 Nano (Reasoning, Low)	88	86	85	85	78	84.2%
DeepSeek V3.1	88	87	85	83	77	83.8%
DeepSeek V4 Pro	96	84	81	80	78	83.7%
Claude Opus 4.8 (Reasoning, Low)	96	87	87	84	66	83.7%
Z.AI GLM 4.7 Flash	86	86	84	83	78	83.6%
GPT-5.2	86	85	84	83	79	83.3%
Gemini 3.1 Flash Lite (Preview)	96	92	78	76	72	83.0%
WizardLM 2 8x22b	91	91	82	76	75	82.7%
Cohere Command R+ (Aug. 2024)	91	82	80	79	79	82.3%
Claude Sonnet 4	86	85	82	80	78	82.2%
Mistral Small 4	93	85	79	76	76	81.8%
Z.AI GLM 4.7	90	84	82	81	72	81.7%
GPT-5.4 Mini (Reasoning, Low)	89	82	81	79	77	81.6%
Claude Opus 4.6 (Reasoning)	90	85	82	76	73	81.4%
Qwen3 235B A22B Instruct 2507	89	88	87	74	67	81.1%
Qwen 3.5 27B	90	83	81	79	72	81.1%
Gemini 2.5 Pro	84	83	83	78	77	81.1%
Xiaomi MIMO v2.5 Pro	93	88	77	77	70	80.9%
Mistral Small 4 (Reasoning)	93	84	82	73	72	80.6%
Claude Sonnet 5 (Reasoning, Low)	91	87	83	77	64	80.5%
Ministral 3B	88	85	82	75	71	80.5%
Claude Opus 4	89	86	84	76	67	80.4%
Grok 4.5 (Reasoning, Low)	90	89	87	68	67	80.3%
Claude Sonnet 5 (Reasoning)	91	82	82	75	71	80.2%
Mistral NeMO	92	86	85	77	61	80.0%
Z.AI GLM 4.6	87	84	79	77	73	80.0%
Aion 2.0	87	84	82	75	71	79.8%
MiniMax M2.5	84	80	80	78	76	79.7%
Arcee AI: Trinity Mini	100	83	75	72	68	79.7%
Ministral 3 3B	94	88	73	71	71	79.5%
Grok 4.20	84	80	79	77	74	79.1%
GPT-4o Mini (temp=0)	81	81	81	77	76	79.1%
Gemma 4 31B (Reasoning)	84	83	79	78	70	78.8%
Claude Sonnet 5	86	86	82	74	66	78.8%
Z.AI GLM 5.2 (Reasoning, High)	84	80	79	76	75	78.6%
GPT-5.4 (Reasoning)	89	84	77	72	72	78.6%
DeepSeek V3.2	86	83	76	74	73	78.4%
GPT-4o Mini (temp=1)	87	87	76	71	70	78.2%
GPT-5.4 Mini	88	81	79	75	68	78.1%
GPT-4o, Aug. 6th (temp=1)	87	83	77	73	69	78.0%
Claude Haiku 4.5	87	84	82	78	58	77.9%
Qwen 3.5 Plus (2026-02-15)	90	83	75	72	69	77.8%
GPT-5.4	85	81	76	74	72	77.6%
Claude Opus 4.7 (Reasoning)	87	79	78	72	69	76.9%
GPT-4o, Aug. 6th (temp=0)	86	82	75	72	68	76.5%
Claude Opus 4.8 (Reasoning)	89	80	78	71	64	76.4%
GPT-5.4 Mini (Reasoning)	84	83	74	73	68	76.4%
Claude Opus 4.7	91	90	72	65	63	76.3%
GPT-5.4 (Reasoning, Low)	80	78	78	76	67	75.8%
Gemma 3 27B	86	81	77	67	67	75.7%
MiniMax M3	88	85	79	64	62	75.6%
Qwen3.7 Max	86	76	76	72	67	75.4%
Claude Sonnet 4.6 (Reasoning)	82	82	72	71	68	75.1%
Gemini 3.5 Flash (Reasoning, Minimal)	89	83	70	69	63	74.9%
DeepSeek-V2 Chat	84	80	79	67	63	74.8%
Gemma 3 12B	88	88	70	64	60	74.0%
DeepSeek V3 (2024-12-26)	89	83	67	66	64	73.6%
GPT-5.1	83	76	71	70	67	73.5%
Hermes 3 70B	89	78	69	66	62	72.6%
Writer: Palmyra X5	80	76	75	67	65	72.5%
Gemini 3.5 Flash (Reasoning)	78	77	72	66	65	71.8%
Gemini 2.5 Flash Lite (Reasoning)	78	78	72	69	62	71.8%
Gemini 2.5 Flash Lite	85	75	74	70	54	71.7%
Gemini 2.5 Flash	84	74	71	70	58	71.4%
GPT-4.1 Mini	87	86	65	64	55	71.4%
Z.AI GLM 4.5	76	75	74	64	56	68.9%
Claude Sonnet 4.5	86	72	71	64	51	68.6%
Gemini 3.1 Pro (Preview)	75	71	69	66	61	68.2%
Z.AI GLM 4.5 Air	80	67	65	64	64	68.1%
Cydonia 24B V4.1	83	71	64	63	58	67.8%
Claude Sonnet 4.6	84	74	67	63	49	67.4%
Gemini 2.5 Flash (Reasoning)	75	70	66	62	61	66.8%
Gemma 3 4B	80	77	70	55	36	63.8%
GPT-4.1 Nano	74	63	62	34	34	53.3%
Mistral Small 3.2 24B	68	67	66	35	28	52.9%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
ByteDance Seed 2.0 Lite	100	100	100	100	97	99.3%
o4 Mini	100	100	100	97	96	98.5%
DeepSeek V4 Pro (Reasoning)	100	100	97	97	97	98.3%
Qwen 3.5 9B	100	100	100	96	92	97.7%
Qwen 3 32B	100	98	97	97	95	97.5%
DeepSeek V4 Flash	100	100	97	97	94	97.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	96	96	95	97.4%
GPT-5 Mini	100	100	98	95	94	97.3%
Aion 3.0 Mini	100	100	97	96	93	97.2%
ByteDance Seed 1.6 Flash	100	98	97	96	95	97.2%
GPT-4.1	100	100	97	97	90	96.6%
Claude Opus 4.8 (Reasoning)	100	96	96	96	96	96.6%
Gemini 2.5 Pro	100	100	96	93	93	96.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	96	87	96.5%
Qwen3.6 Max Preview	100	100	97	93	92	96.5%
Grok 4.5 (Reasoning, High)	100	100	97	94	91	96.4%
WizardLM 2 8x22b	100	100	100	98	83	96.3%
Z.AI GLM 5.2 (Reasoning, High)	100	100	97	97	87	96.2%
o4 Mini High	100	100	94	94	93	96.2%
Qwen 3.6 35B	100	100	96	93	92	96.2%
Qwen 3.5 122B	100	96	96	96	92	96.0%
DeepSeek V4 Flash (Reasoning)	100	100	96	93	90	95.9%
Qwen3.7 Max	100	97	96	93	93	95.8%
Qwen 3.5 Plus (2026-04-20)	100	97	96	96	90	95.8%
MoonshotAI: Kimi K2.5	100	100	94	93	91	95.7%
Ministral 3B	100	100	98	93	87	95.6%
GPT-5.4 (Reasoning)	100	96	95	95	93	95.6%
Qwen 3.5 35B	100	96	96	95	91	95.6%
ByteDance Seed 1.6	100	100	94	93	91	95.6%
Claude Sonnet 5	100	96	96	96	91	95.6%
Mistral Large 3	100	96	95	94	93	95.5%
Gemma 4 31B	100	100	96	92	89	95.5%
Arcee AI: Trinity Mini	100	96	94	94	93	95.4%
Aion 3.0	100	97	94	94	92	95.3%
GPT-5 Nano	98	97	94	94	93	95.2%
Z.AI GLM 4.7 Flash	97	97	97	93	92	95.2%
Claude Opus 4.7	100	100	95	90	90	95.2%
GPT-5	100	98	96	91	90	94.9%
Grok 4.3 (Reasoning)	100	97	96	91	90	94.9%
Claude Sonnet 5 (Reasoning, Low)	100	100	96	92	87	94.9%
GPT-5.2	96	95	95	94	94	94.8%
Gemma 4 31B (Reasoning)	100	96	96	95	87	94.7%
GPT-5.4 Mini	98	96	94	93	92	94.6%
Grok 4.3	100	96	94	92	91	94.5%
Qwen 3.5 Flash	100	96	95	94	88	94.4%
Claude Opus 4.6 (Reasoning)	100	98	94	91	89	94.4%
Qwen 3.5 27B	100	100	96	92	84	94.4%
Inception Mercury 2	100	98	95	91	88	94.2%
DeepSeek V3 (2024-12-26)	100	100	94	93	85	94.2%
Gemini 3 Flash (Preview)	100	96	94	91	89	94.1%
GPT-5.4 Mini (Reasoning)	98	95	93	93	91	94.1%
Gemini 3.1 Flash Lite	100	96	96	96	82	94.0%
GPT-5.5 (Reasoning)	100	96	93	92	89	94.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	91	91	88	93.9%
Z.AI GLM 5 Turbo	100	100	97	93	80	93.9%
Gemini 3 Flash (Preview, Reasoning)	100	97	93	90	89	93.9%
Claude Opus 4.6	97	97	95	92	88	93.9%
Qwen 2.5 72B	100	97	95	90	88	93.8%
DeepSeek V3.2	100	100	93	91	84	93.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	93	88	87	93.6%
ByteDance Seed 2.0 Mini	97	97	94	91	89	93.6%
Qwen 3.5 397B A17B	100	93	92	91	91	93.5%
GPT-5.5 (Reasoning, Low)	96	96	93	93	90	93.4%
GPT-OSS 120B	97	96	94	92	88	93.3%
Aion 2.0	97	96	95	92	85	93.1%
Gemma 4 26B (Reasoning)	96	96	96	92	86	93.0%
DeepSeek V4 Pro	100	97	91	91	86	93.0%
Z.AI GLM 5.1	100	97	93	92	83	93.0%
GPT-5.5	95	94	94	94	88	92.9%
MiniMax M2.5	96	95	93	91	89	92.8%
GPT-4o, Aug. 6th (temp=0)	95	95	95	93	86	92.7%
Qwen 3.6 Flash	96	94	93	91	90	92.6%
Nemotron 3 Nano	95	94	93	92	89	92.4%
GPT-5.4 (Reasoning, Low)	94	94	93	92	87	92.1%
GPT-5.4 Mini (Reasoning, Low)	93	93	93	92	89	92.0%
Mistral Small 4	96	94	92	90	88	91.9%
Qwen 3.6 27B	100	97	97	88	78	91.9%
Z.AI GLM 4.5 Air	96	94	93	93	84	91.9%
Xiaomi MIMO v2.5 Pro	97	94	91	91	87	91.8%
MoonshotAI: Kimi K2.6	100	95	93	87	82	91.7%
Gemma 3 12B	96	95	92	91	83	91.6%
Z.AI GLM 5	97	97	93	87	84	91.5%
Z.AI GLM 4.6	96	93	92	90	87	91.5%
Qwen 3.5 Plus (2026-02-15)	100	93	90	89	86	91.5%
Llama 3.1 70B	100	94	93	93	78	91.4%
Gemma 4 26B	96	92	91	89	89	91.4%
DeepSeek V3.1	95	95	94	94	79	91.3%
Ministral 3 14B	100	95	88	87	86	91.3%
Claude Sonnet 4.6 (Reasoning)	97	96	93	90	81	91.3%
GPT-5.4 Nano (Reasoning, Low)	95	93	92	91	85	91.2%
Writer: Palmyra X5	100	92	91	86	86	91.1%
Grok 4.5 (Reasoning, Low)	97	97	90	87	84	91.0%
GPT-5.4	95	94	93	91	80	90.6%
Claude Opus 4.5	94	94	90	89	86	90.6%
Qwen3 235B A22B Instruct 2507	96	92	91	90	84	90.5%
MiniMax M3	94	93	90	89	86	90.5%
Claude Sonnet 4.5	96	96	91	87	82	90.4%
Grok 4.20 (Reasoning)	97	92	89	88	86	90.4%
Cohere Command R+ (Aug. 2024)	100	92	89	86	83	90.0%
Nemotron 3 Super	93	91	91	89	86	90.0%
Ministral 3 8B	96	90	89	89	87	90.0%
MiniMax M2.7	96	91	91	87	85	89.9%
Mistral Small 4 (Reasoning)	97	91	91	85	84	89.9%
GPT-5.1	94	94	91	87	84	89.8%
Xiaomi MIMO v2.5	97	92	90	89	80	89.7%
Gemini 2.5 Flash Lite	96	95	91	91	75	89.7%
Mistral Medium 3.1	97	93	90	87	80	89.4%
Claude Sonnet 5 (Reasoning)	100	96	87	82	82	89.4%
GPT-4o Mini (temp=1)	96	95	92	92	71	89.3%
Claude Opus 4	96	93	88	85	84	89.3%
Gemini 2.5 Flash	95	92	91	85	82	89.1%
Claude Opus 4.7 (Reasoning)	100	90	88	84	82	89.0%
GPT-5.4 Nano (Reasoning)	95	95	88	85	83	88.8%
GPT-5.4 Nano	93	91	88	88	84	88.8%
Ministral 3 3B	100	100	90	84	69	88.6%
Gemma 3 27B	96	92	88	85	82	88.5%
Grok 4.20	94	92	87	86	83	88.5%
Cydonia 24B V4.1	95	88	87	86	81	87.2%
GPT-4o Mini (temp=0)	96	89	88	82	80	87.1%
Gemini 3.5 Flash (Reasoning)	93	90	89	83	79	86.9%
Z.AI GLM 4.7	90	90	87	85	83	86.8%
Claude Sonnet 4	96	95	88	87	68	86.7%
Hermes 3 70B	100	91	86	78	77	86.4%
DeepSeek V3 (2025-03-24)	100	100	82	79	70	86.2%
Ministral 8B	95	88	84	82	82	86.2%
Gemini 3.1 Pro (Preview)	91	89	86	86	77	85.9%
Gemini 2.5 Flash Lite (Reasoning)	95	90	84	81	80	85.9%
Mistral Large 2	90	87	87	83	82	85.8%
GPT-4o, Aug. 6th (temp=1)	95	90	81	81	80	85.8%
Mistral NeMO	97	96	81	78	76	85.7%
GPT-4.1 Mini	95	91	84	79	77	85.2%
Claude Haiku 4.5	95	93	89	85	64	85.1%
Gemini 2.5 Flash (Reasoning)	91	88	86	81	78	84.7%
Z.AI GLM 4.5	91	87	85	81	80	84.6%
DeepSeek-V2 Chat	100	91	91	80	58	84.2%
Mistral Small 3.2 24B	100	97	90	79	50	83.2%
GPT-4.1 Nano	90	90	85	77	70	82.5%
Hermes 3 405B	95	93	84	76	63	82.2%
Gemma 3 4B	91	88	82	78	68	81.5%
Claude Sonnet 4.6	95	86	77	74	73	81.1%

Novelcrafter Default Prompt

▼

Fantasy: entering an ancient ruin

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5	100	100	100	98	97	99.0%
GPT-5.1	100	100	100	98	96	98.9%
MoonshotAI: Kimi K2.6	100	100	100	100	93	98.7%
GPT-5.5	100	99	98	98	97	98.4%
GPT-5.5 (Reasoning, Low)	100	98	98	98	96	98.3%
GPT-5.2	100	100	98	98	96	98.3%
GPT-5.5 (Reasoning)	100	100	98	98	95	98.2%
o4 Mini	100	100	100	96	92	97.7%
ByteDance Seed 1.6 Flash	100	100	97	96	96	97.6%
Gemma 4 31B	100	100	96	96	95	97.5%
Qwen3.6 Max Preview	100	98	97	97	95	97.4%
GPT-5 Mini	100	98	98	96	94	97.2%
Claude Opus 4.8 (Reasoning, Low)	100	100	95	95	95	97.1%
ByteDance Seed 2.0 Lite	100	100	97	97	91	97.1%
o4 Mini High	100	97	96	96	95	96.9%
GPT-5.4 (Reasoning)	100	100	96	95	93	96.7%
ByteDance Seed 2.0 Mini	100	100	97	93	93	96.6%
Mistral Large 2	100	96	96	95	95	96.5%
Qwen 3.5 9B	100	100	96	95	92	96.5%
Qwen 3.5 35B	100	100	98	94	90	96.5%
Gemini 3.1 Pro (Preview)	100	100	97	97	88	96.5%
Gemma 4 26B (Reasoning)	100	100	96	95	91	96.3%
GPT-5.4 (Reasoning, Low)	100	100	98	92	90	96.0%
Aion 3.0	100	97	97	96	91	96.0%
Grok 4.5 (Reasoning, Low)	100	100	93	93	93	95.9%
GPT-5.4 Nano	97	97	97	95	93	95.8%
Qwen 3.5 27B	97	96	96	96	95	95.8%
Nemotron 3 Super	100	100	97	93	89	95.6%
GPT-5.4 Mini (Reasoning)	100	98	95	93	92	95.5%
MoonshotAI: Kimi K2.5	97	97	96	95	93	95.3%
GPT-OSS 120B	100	97	97	92	90	95.3%
Ministral 3 3B	100	100	100	94	82	95.0%
GPT-5.4 Mini (Reasoning, Low)	98	97	96	95	89	95.0%
Grok 4.5 (Reasoning, High)	100	100	98	92	85	95.0%
Mistral Large 3	100	100	93	92	89	94.8%
Qwen 3.5 Plus (2026-04-20)	100	97	97	95	85	94.7%
Mistral Medium 3.1	100	100	92	92	89	94.7%
GPT-5.4 Nano (Reasoning, Low)	96	95	95	94	93	94.6%
MiniMax M3	100	100	92	92	88	94.5%
Qwen 3.5 397B A17B	100	97	96	96	83	94.3%
Qwen 3.5 122B	98	96	96	92	89	94.2%
Claude Opus 4.8 (Reasoning)	100	100	95	90	85	94.1%
GPT-4.1	100	96	96	93	85	94.1%
Qwen 3.6 27B	100	97	95	92	87	94.0%
Inception Mercury 2	98	97	96	92	87	94.0%
Gemma 4 31B (Reasoning)	100	100	92	91	86	93.8%
Nemotron 3 Nano	100	97	94	90	87	93.7%
Gemini 3.1 Flash Lite (Reasoning)	96	96	96	92	88	93.5%
GPT-5.4 Mini	96	96	93	92	91	93.5%
DeepSeek V4 Flash	100	96	93	91	88	93.5%
Gemini 3.1 Flash Lite	96	96	95	91	89	93.4%
ByteDance Seed 1.6	100	97	96	95	79	93.4%
Qwen 3.6 35B	100	97	92	90	88	93.2%
GPT-5.4 Nano (Reasoning)	98	95	95	93	83	92.9%
Claude Haiku 4.5	100	95	95	91	82	92.7%
Z.AI GLM 4.7	100	92	91	91	89	92.7%
Gemini 3 Flash (Preview, Reasoning)	97	94	92	91	89	92.4%
Ministral 3B	100	100	92	85	84	92.3%
Qwen3.7 Max	100	97	92	88	85	92.2%
Z.AI GLM 5.1	96	95	93	89	88	92.2%
Writer: Palmyra X5	100	92	91	89	87	92.1%
Grok 4.3 (Reasoning)	98	98	92	87	86	92.1%
Aion 3.0 Mini	100	96	91	91	83	92.0%
Z.AI GLM 5.2 (Reasoning, High)	100	96	93	87	84	91.9%
GPT-5.4	98	98	95	87	82	91.9%
Qwen 3 32B	100	96	96	90	78	91.9%
Z.AI GLM 5 Turbo	96	96	95	86	85	91.6%
DeepSeek V4 Flash (Reasoning)	100	96	92	91	78	91.4%
Grok 4.3	100	94	93	86	85	91.3%
Qwen 3.6 Flash	93	93	91	91	88	91.3%
Gemma 4 26B	100	96	92	90	78	91.2%
Claude Sonnet 5 (Reasoning)	95	95	90	90	85	91.0%
Gemini 3 Flash (Preview)	96	93	92	87	86	90.9%
Grok 4.20 (Reasoning)	100	96	94	84	80	90.8%
Gemini 3.5 Flash (Reasoning)	94	91	91	91	86	90.7%
MiniMax M2.7	100	95	89	86	83	90.6%
Gemini 3.5 Flash (Reasoning, Minimal)	96	95	88	88	85	90.5%
Gemini 3.1 Flash Lite (Preview)	96	96	95	83	82	90.4%
Claude Opus 4.6 (Reasoning)	94	94	92	87	84	90.1%
Mistral Small 4 (Reasoning)	100	91	90	85	85	90.1%
Qwen 3.5 Plus (2026-02-15)	94	94	88	87	87	89.8%
Qwen3 235B A22B Instruct 2507	100	93	92	82	82	89.8%
DeepSeek V3 (2025-03-24)	100	94	90	82	81	89.6%
Xiaomi MIMO v2.5 Pro	98	93	91	86	79	89.3%
MiniMax M2.5	92	91	90	89	84	89.1%
Z.AI GLM 5	100	97	92	83	74	89.1%
Grok 4.20	96	91	88	88	81	88.6%
GPT-5 Nano	91	89	88	88	86	88.5%
Ministral 8B	100	88	87	85	83	88.5%
Ministral 3 14B	92	89	89	87	84	88.4%
Gemma 3 27B	95	95	91	86	74	88.2%
Claude Opus 4.7	100	90	90	85	75	88.2%
Claude Sonnet 4.5	92	90	89	85	85	88.1%
Claude Opus 4.5	93	89	86	86	85	87.9%
Arcee AI: Trinity Mini	94	91	87	86	82	87.9%
Claude Sonnet 5 (Reasoning, Low)	95	91	89	86	78	87.9%
Z.AI GLM 4.6	100	89	84	83	83	87.9%
Qwen 3.5 Flash	96	94	89	82	77	87.8%
Xiaomi MIMO v2.5	98	95	87	86	73	87.7%
Claude Sonnet 5	95	95	89	85	74	87.7%
DeepSeek V4 Pro	91	88	87	86	84	87.2%
Claude Opus 4.6	97	95	91	80	73	87.1%
Claude Opus 4.7 (Reasoning)	91	91	86	85	83	87.1%
Claude Opus 4	93	91	88	82	81	86.9%
Cohere Command R+ (Aug. 2024)	94	92	87	85	76	86.9%
Qwen 2.5 72B	89	88	88	86	82	86.8%
Gemini 2.5 Pro	100	91	85	79	77	86.1%
Claude Sonnet 4	95	89	85	82	79	86.1%
WizardLM 2 8x22b	93	89	83	83	80	85.6%
Llama 3.1 70B	100	86	85	78	76	85.0%
Mistral Small 4	92	87	86	82	78	85.0%
GPT-4o, Aug. 6th (temp=0)	99	87	86	84	68	84.7%
DeepSeek V4 Pro (Reasoning)	90	85	83	82	82	84.4%
Z.AI GLM 4.7 Flash	96	89	85	77	72	83.9%
Aion 2.0	92	87	87	78	75	83.8%
GPT-4o Mini (temp=0)	100	84	82	76	74	83.3%
Hermes 3 405B	93	88	86	79	66	82.6%
DeepSeek V3.2	90	90	79	78	76	82.5%
Z.AI GLM 4.5 Air	92	90	80	77	70	81.8%
Gemini 2.5 Flash (Reasoning)	87	87	85	81	70	81.8%
Claude Sonnet 4.6 (Reasoning)	87	85	82	81	74	81.8%
Gemma 3 4B	91	83	79	78	75	81.2%
Ministral 3 8B	93	85	79	77	69	80.5%
DeepSeek V3 (2024-12-26)	89	87	84	77	65	80.4%
GPT-4o, Aug. 6th (temp=1)	89	89	88	83	52	80.1%
Z.AI GLM 4.5	91	85	76	74	68	78.7%
Mistral NeMO	87	86	74	73	71	78.4%
DeepSeek V3.1	93	87	77	72	60	77.8%
Claude Sonnet 4.6	90	80	76	75	68	77.6%
Gemini 2.5 Flash Lite	84	76	76	74	73	76.7%
GPT-4.1 Mini	82	79	74	74	70	75.9%
Gemini 2.5 Flash Lite (Reasoning)	89	82	74	68	66	75.9%
DeepSeek-V2 Chat	84	80	77	72	65	75.5%
GPT-4o Mini (temp=1)	88	81	73	69	64	74.9%
Gemma 3 12B	88	86	70	70	56	73.9%
Gemini 2.5 Flash	90	79	70	65	60	72.8%
Cydonia 24B V4.1	79	78	70	56	55	67.8%
Hermes 3 70B	83	82	55	54	51	65.2%
GPT-4.1 Nano	70	70	65	53	41	59.8%
Mistral Small 3.2 24B	75	68	57	40	14	50.7%

▼

Horror: alone in an eerie place at night

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	97	99.3%
GPT-5.5 (Reasoning)	100	100	100	100	96	99.3%
Z.AI GLM 5.1	100	100	100	100	95	99.1%
ByteDance Seed 1.6 Flash	100	100	100	100	95	99.0%
GPT-5	100	100	100	100	94	98.9%
GPT-5.5 (Reasoning, Low)	100	98	98	98	98	98.7%
Qwen 3.5 397B A17B	100	100	100	100	93	98.6%
o4 Mini	100	100	100	97	96	98.6%
MoonshotAI: Kimi K2.5	100	100	100	100	92	98.5%
GPT-5.2	100	100	100	98	95	98.5%
Gemma 4 31B	100	100	100	96	96	98.3%
GPT-5.4 (Reasoning)	100	100	100	98	92	98.0%
Qwen3.6 Max Preview	100	100	100	97	93	97.9%
GPT-5.5	100	100	98	96	95	97.9%
o4 Mini High	100	100	100	96	93	97.8%
Qwen 3.5 Flash	100	100	100	97	92	97.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	96	96	93	97.0%
Grok 4.5 (Reasoning, High)	100	100	97	94	93	96.7%
Aion 3.0 Mini	100	100	95	95	92	96.6%
Gemini 3 Flash (Preview)	100	98	97	97	91	96.6%
ByteDance Seed 1.6	100	97	97	96	92	96.4%
Qwen 3.6 27B	100	100	100	95	86	96.3%
Qwen3.7 Max	100	100	100	96	85	96.1%
GPT-5.1	100	100	96	96	88	95.9%
Qwen 3.5 27B	100	100	96	93	91	95.9%
Qwen 3.5 35B	99	96	95	95	94	95.9%
Mistral Medium 3.1	100	100	95	94	89	95.8%
Gemma 4 31B (Reasoning)	100	96	96	95	91	95.6%
Nemotron 3 Super	100	100	100	91	85	95.2%
Mistral Small 4	100	100	95	92	89	95.1%
Grok 4.20 (Reasoning)	98	97	97	94	88	94.9%
GPT-5.4 Mini	100	95	94	93	93	94.9%
GPT-5.4 Mini (Reasoning)	97	97	97	93	89	94.9%
Gemini 3.1 Pro (Preview)	100	96	96	92	89	94.9%
Gemini 3.1 Flash Lite	100	96	96	93	88	94.8%
Qwen 3.5 122B	97	96	95	94	91	94.7%
GPT-5.4 (Reasoning, Low)	100	97	95	95	86	94.7%
DeepSeek V4 Flash	100	95	94	93	91	94.7%
GPT-5.4 Nano	97	95	95	95	92	94.7%
Gemma 4 26B	100	96	96	93	88	94.6%
Mistral Large 3	100	100	94	90	89	94.5%
Qwen 3.5 Plus (2026-04-20)	98	95	95	94	90	94.5%
Grok 4.5 (Reasoning, Low)	97	97	93	92	92	94.2%
Z.AI GLM 5	100	96	93	91	89	93.9%
Qwen 3.5 Plus (2026-02-15)	100	97	94	90	88	93.9%
Arcee AI: Trinity Mini	100	94	94	91	90	93.8%
Z.AI GLM 4.7 Flash	100	96	93	92	87	93.8%
Gemini 3.5 Flash (Reasoning)	100	97	96	91	86	93.8%
GPT-5.4	100	98	93	90	89	93.8%
Z.AI GLM 5 Turbo	100	95	95	92	87	93.7%
Qwen 3.5 9B	100	99	95	93	81	93.7%
Aion 3.0	100	96	93	92	87	93.6%
ByteDance Seed 2.0 Mini	100	97	95	90	86	93.5%
Qwen 3.6 Flash	96	96	93	92	90	93.4%
GPT-5.4 Nano (Reasoning)	96	94	94	93	89	93.3%
Gemini 3 Flash (Preview, Reasoning)	97	97	94	91	88	93.3%
Claude Opus 4.8 (Reasoning)	100	100	100	95	70	93.1%
Qwen 3 32B	95	94	93	92	90	92.9%
GPT-4.1	100	97	92	88	87	92.9%
DeepSeek V4 Pro (Reasoning)	95	95	94	92	88	92.9%
Xiaomi MIMO v2.5 Pro	100	97	93	87	85	92.5%
GPT-OSS 120B	94	94	93	92	89	92.4%
Z.AI GLM 4.7	96	95	93	91	85	92.2%
GPT-5.4 Nano (Reasoning, Low)	95	95	91	90	89	92.0%
Qwen 3.6 35B	100	91	91	90	89	92.0%
Z.AI GLM 5.2 (Reasoning, High)	100	96	88	88	87	91.9%
Mistral Large 2	100	100	92	92	74	91.6%
DeepSeek V4 Pro	100	96	93	86	83	91.5%
GPT-5 Mini	96	95	93	92	81	91.4%
Grok 4.3 (Reasoning)	97	95	93	88	85	91.4%
Inception Mercury 2	95	94	93	88	86	91.3%
Claude Sonnet 4.5	100	96	96	93	72	91.3%
Claude Opus 4.6 (Reasoning)	95	95	92	91	82	91.2%
Ministral 3 14B	94	94	93	91	84	91.2%
Gemma 4 26B (Reasoning)	96	95	93	92	80	91.1%
Gemini 3.1 Flash Lite (Preview)	96	96	92	88	83	91.0%
DeepSeek V3 (2025-03-24)	100	100	89	83	82	91.0%
GPT-5.4 Mini (Reasoning, Low)	98	92	89	88	86	90.7%
DeepSeek V4 Flash (Reasoning)	95	94	92	92	79	90.5%
Gemini 3.5 Flash (Reasoning, Minimal)	96	95	89	87	85	90.4%
GPT-5 Nano	95	92	90	89	86	90.4%
Qwen 2.5 72B	95	95	90	86	83	89.8%
Z.AI GLM 4.5 Air	96	94	87	87	84	89.6%
Claude Opus 4.8 (Reasoning, Low)	100	95	86	85	82	89.6%
Nemotron 3 Nano	100	94	89	88	75	89.3%
Aion 2.0	93	92	91	87	83	89.2%
Z.AI GLM 4.5	95	93	92	88	78	89.2%
Hermes 3 405B	93	91	88	87	85	89.1%
WizardLM 2 8x22b	97	96	86	84	82	89.0%
Grok 4.3	93	91	90	87	84	89.0%
Gemma 3 12B	95	95	90	86	80	89.0%
MiniMax M3	96	92	92	91	74	89.0%
Writer: Palmyra X5	100	96	92	80	77	88.9%
Claude Opus 4.6	93	92	91	88	79	88.8%
Claude Sonnet 5 (Reasoning, Low)	96	95	86	85	81	88.5%
MiniMax M2.7	95	94	92	84	77	88.5%
Gemini 2.5 Pro	95	91	89	86	80	88.2%
Ministral 8B	91	90	87	87	85	88.1%
Llama 3.1 70B	100	92	88	81	79	88.0%
MiniMax M2.5	95	92	87	85	80	87.8%
Mistral Small 4 (Reasoning)	93	91	89	85	80	87.5%
Claude Sonnet 5	95	95	95	86	66	87.4%
Mistral NeMO	100	86	85	85	79	86.9%
Grok 4.20	94	92	83	82	82	86.7%
Claude Opus 4	91	91	91	89	70	86.4%
DeepSeek V3.1	92	91	85	82	81	86.3%
Gemini 2.5 Flash Lite	89	88	84	83	79	84.7%
GPT-4o, Aug. 6th (temp=1)	91	91	85	82	74	84.7%
Xiaomi MIMO v2.5	89	89	85	84	76	84.6%
DeepSeek-V2 Chat	92	86	83	81	79	84.3%
Claude Opus 4.7 (Reasoning)	91	91	82	81	76	84.2%
DeepSeek V3.2	92	86	84	83	73	83.6%
GPT-4o Mini (temp=0)	100	90	82	82	61	83.1%
Mistral Small 3.2 24B	100	100	85	83	47	83.1%
Claude Opus 4.7	95	95	77	77	71	83.0%
Ministral 3 8B	92	86	84	79	74	82.9%
Z.AI GLM 4.6	94	86	80	79	75	82.9%
Gemma 3 27B	100	94	79	78	60	82.3%
Claude Haiku 4.5	91	89	88	79	64	82.3%
GPT-4o, Aug. 6th (temp=0)	91	87	85	76	72	82.1%
Qwen3 235B A22B Instruct 2507	92	91	84	83	59	81.9%
Gemini 2.5 Flash Lite (Reasoning)	91	83	82	81	69	81.3%
Hermes 3 70B	96	89	85	68	68	81.3%
DeepSeek V3 (2024-12-26)	87	87	82	80	70	81.1%
Gemini 2.5 Flash	91	87	82	73	72	81.0%
GPT-4o Mini (temp=1)	87	83	81	79	75	81.0%
Ministral 3B	86	83	82	76	76	80.7%
Claude Opus 4.5	88	88	79	75	70	80.0%
Gemini 2.5 Flash (Reasoning)	96	95	81	71	57	80.0%
Claude Sonnet 5 (Reasoning)	90	90	79	79	61	79.9%
GPT-4.1 Mini	90	81	80	74	74	79.9%
Claude Sonnet 4	91	83	80	73	72	79.7%
Ministral 3 3B	93	90	76	74	61	78.8%
Gemma 3 4B	91	87	83	69	61	78.3%
GPT-4.1 Nano	86	82	81	77	58	76.6%
Cydonia 24B V4.1	89	85	82	68	57	76.2%
Claude Sonnet 4.6 (Reasoning)	90	77	75	71	62	75.0%
Cohere Command R+ (Aug. 2024)	89	74	74	72	65	74.7%
Claude Sonnet 4.6	85	79	74	71	60	73.8%

▼

Literary fiction: old friends reunite

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.5 (Reasoning)	100	100	100	100	97	99.4%
GPT-5.2	100	100	100	100	97	99.3%
GPT-5	100	100	100	98	98	99.3%
GPT-5.5	100	99	99	99	99	99.0%
Grok 4.5 (Reasoning, Low)	100	100	100	98	97	98.9%
ByteDance Seed 2.0 Lite	100	100	100	97	97	98.8%
Grok 4.5 (Reasoning, High)	100	100	100	97	97	98.8%
MoonshotAI: Kimi K2.6	100	100	100	97	96	98.6%
Gemini 3.1 Pro (Preview)	100	100	100	97	95	98.5%
Grok 4.3 (Reasoning)	100	100	100	97	95	98.5%
GPT-5.5 (Reasoning, Low)	99	99	99	99	97	98.4%
Grok 4.3	100	100	100	97	95	98.4%
Qwen 3.6 27B	100	98	97	97	96	97.7%
Aion 3.0	100	98	97	97	97	97.6%
GPT-5.1	99	98	98	97	95	97.4%
Qwen 3.5 Plus (2026-04-20)	100	100	97	96	93	97.3%
Qwen3.6 Max Preview	100	100	98	95	93	97.1%
Qwen3.7 Max	100	100	97	96	92	97.0%
GPT-5.4 Mini (Reasoning)	100	96	96	96	95	96.5%
GPT-5.4 (Reasoning)	98	98	97	94	93	96.1%
o4 Mini High	100	100	95	92	91	95.8%
DeepSeek V4 Pro (Reasoning)	100	97	96	93	92	95.7%
Qwen 3.6 Flash	100	97	97	93	91	95.6%
o4 Mini	100	96	96	94	91	95.3%
Qwen 3.5 27B	97	97	97	97	88	95.2%
ByteDance Seed 1.6 Flash	100	97	95	93	91	95.1%
Claude Opus 4.6	98	98	97	91	91	94.9%
GPT-4.1	96	96	96	93	93	94.9%
Gemma 4 26B (Reasoning)	100	96	96	91	91	94.8%
Qwen 2.5 72B	100	96	95	94	89	94.7%
Qwen 3.6 35B	100	96	96	91	88	94.3%
Qwen 3.5 35B	97	97	93	93	91	94.2%
Claude Opus 4.6 (Reasoning)	100	97	93	92	88	94.2%
Gemma 4 31B (Reasoning)	100	100	96	89	86	94.1%
ByteDance Seed 1.6	98	94	94	94	90	94.0%
Claude Opus 4.7 (Reasoning)	96	96	95	95	87	93.7%
Gemini 3.1 Flash Lite (Preview)	100	96	96	92	85	93.7%
Mistral Medium 3.1	96	96	93	92	91	93.6%
Qwen 3.5 397B A17B	96	96	96	92	87	93.6%
GPT-5.4 (Reasoning, Low)	96	95	94	93	89	93.4%
MoonshotAI: Kimi K2.5	97	96	92	92	90	93.4%
Inception Mercury 2	100	94	92	92	89	93.4%
Gemini 3.1 Flash Lite	100	97	96	87	87	93.2%
Grok 4.20 (Reasoning)	97	96	92	92	88	93.1%
GPT-5.4 Nano (Reasoning, Low)	95	95	93	93	88	93.0%
Qwen 3.5 122B	100	96	92	89	88	92.9%
ByteDance Seed 2.0 Mini	100	97	97	89	80	92.6%
Ministral 3B	95	95	95	91	87	92.6%
GPT-5.4	97	95	93	91	86	92.3%
Gemini 3.1 Flash Lite (Reasoning)	96	96	92	92	85	92.3%
Z.AI GLM 5 Turbo	97	96	90	89	88	92.2%
Gemma 4 26B	100	96	95	92	78	92.2%
DeepSeek V4 Flash (Reasoning)	97	97	96	89	81	92.0%
GPT-OSS 120B	100	95	91	88	85	91.7%
Gemini 3 Flash (Preview, Reasoning)	97	97	95	86	83	91.7%
GPT-5.4 Mini (Reasoning, Low)	93	93	92	90	90	91.6%
Aion 2.0	97	94	91	90	86	91.6%
Ministral 3 14B	96	92	91	91	89	91.5%
Z.AI GLM 5.2 (Reasoning, High)	94	93	93	92	86	91.4%
Qwen 3.5 9B	94	94	94	88	87	91.4%
Mistral Large 3	100	94	91	87	84	91.3%
Gemini 3 Flash (Preview)	98	97	92	87	83	91.2%
MiniMax M3	100	96	91	90	78	91.1%
Qwen 3.5 Flash	94	94	92	92	82	91.0%
GPT-5 Nano	95	91	91	89	88	90.9%
GPT-5 Mini	96	92	92	91	83	90.8%
GPT-5.4 Mini	94	92	92	89	87	90.6%
Llama 3.1 70B	95	95	94	93	75	90.4%
Xiaomi MIMO v2.5	95	92	91	89	85	90.4%
Claude Opus 4.8 (Reasoning, Low)	100	91	91	86	83	90.1%
Hermes 3 70B	100	93	89	87	81	90.1%
Grok 4.20	98	96	88	86	83	89.9%
Nemotron 3 Super	97	96	96	93	67	89.8%
Xiaomi MIMO v2.5 Pro	96	93	91	89	79	89.7%
Nemotron 3 Nano	100	95	85	85	82	89.4%
DeepSeek V4 Flash	100	93	87	86	81	89.3%
Z.AI GLM 4.7	94	92	89	87	84	89.2%
Aion 3.0 Mini	100	93	88	87	77	89.1%
Gemma 4 31B	92	92	92	86	83	89.1%
Claude Opus 4.8 (Reasoning)	100	88	87	87	81	88.7%
Gemini 3.5 Flash (Reasoning)	100	93	90	80	79	88.4%
GPT-5.4 Nano (Reasoning)	93	91	88	85	84	88.3%
GPT-5.4 Nano	93	89	88	88	83	88.1%
DeepSeek V4 Pro	93	91	90	85	80	87.8%
Z.AI GLM 5.1	92	91	90	83	83	87.7%
Mistral Large 2	94	92	91	85	76	87.7%
Mistral Small 4 (Reasoning)	93	91	90	87	78	87.6%
Qwen 3.5 Plus (2026-02-15)	89	88	88	87	86	87.6%
MiniMax M2.5	97	93	90	86	72	87.5%
DeepSeek V3 (2025-03-24)	93	93	92	85	75	87.5%
Gemini 2.5 Pro	96	93	89	86	72	87.4%
Z.AI GLM 4.7 Flash	97	90	88	83	80	87.4%
Z.AI GLM 4.6	95	91	89	83	78	87.2%
Claude Opus 4.7	100	86	85	84	82	87.2%
Claude Sonnet 4.5	93	87	87	86	82	87.1%
Claude Opus 4	96	89	87	85	78	87.0%
Qwen3 235B A22B Instruct 2507	96	87	84	82	80	85.9%
Claude Sonnet 5	95	95	91	81	66	85.8%
Gemini 3.5 Flash (Reasoning, Minimal)	92	89	88	86	73	85.7%
Mistral Small 4	96	91	87	79	74	85.5%
Qwen 3 32B	100	88	83	83	72	85.3%
DeepSeek V3.1	93	88	86	82	77	85.2%
GPT-4o, Aug. 6th (temp=1)	91	91	86	85	72	85.1%
Claude Sonnet 4.6 (Reasoning)	96	86	85	83	75	85.1%
Claude Sonnet 5 (Reasoning)	96	86	83	82	78	85.0%
Ministral 3 3B	100	94	84	78	69	85.0%
Cohere Command R+ (Aug. 2024)	92	91	88	82	70	84.6%
GPT-4o, Aug. 6th (temp=0)	90	89	84	82	77	84.5%
Writer: Palmyra X5	88	88	83	82	80	84.2%
WizardLM 2 8x22b	92	84	83	82	76	83.3%
Z.AI GLM 5	92	86	85	82	72	83.3%
DeepSeek V3.2	89	86	84	81	77	83.3%
Claude Sonnet 4.6	95	87	81	77	76	83.2%
Z.AI GLM 4.5	95	95	81	78	67	83.1%
Claude Sonnet 5 (Reasoning, Low)	90	86	86	81	72	83.1%
Gemma 3 27B	100	91	83	76	66	83.1%
MiniMax M2.7	87	85	84	81	78	83.0%
Claude Opus 4.5	90	88	86	83	66	82.5%
DeepSeek V3 (2024-12-26)	85	85	84	82	75	82.1%
Ministral 3 8B	91	89	79	77	71	81.3%
GPT-4o Mini (temp=1)	92	86	83	79	64	81.0%
DeepSeek-V2 Chat	96	93	92	70	53	80.8%
GPT-4o Mini (temp=0)	96	96	76	67	66	80.2%
Mistral NeMO	85	81	81	79	74	80.0%
Hermes 3 405B	96	92	84	69	56	79.4%
Ministral 8B	84	82	77	75	70	77.7%
Claude Haiku 4.5	88	84	76	72	68	77.6%
Gemini 2.5 Flash	87	77	76	74	72	77.5%
Gemini 2.5 Flash Lite	84	82	80	66	66	75.8%
Arcee AI: Trinity Mini	83	82	72	72	69	75.5%
Mistral Small 3.2 24B	91	87	80	65	54	75.5%
Gemma 3 12B	81	79	78	70	67	75.2%
Z.AI GLM 4.5 Air	86	79	70	64	61	72.0%
Gemini 2.5 Flash Lite (Reasoning)	80	74	71	71	62	71.7%
Gemma 3 4B	92	83	71	57	55	71.6%
Claude Sonnet 4	86	82	73	59	51	70.3%
Gemini 2.5 Flash (Reasoning)	81	75	64	59	49	65.7%
GPT-4.1 Mini	76	70	63	60	54	64.4%
Cydonia 24B V4.1	81	76	65	59	36	63.5%
GPT-4.1 Nano	74	67	60	58	44	60.5%

▼

Mystery: examining a crime scene

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	98	99.7%
MoonshotAI: Kimi K2.6	100	100	100	100	96	99.2%
GPT-5.1	100	100	98	98	98	99.0%
GPT-5.5 (Reasoning)	100	100	100	100	95	98.9%
Qwen3.6 Max Preview	100	100	100	97	96	98.7%
GPT-5.5 (Reasoning, Low)	100	99	99	98	97	98.5%
GPT-5	100	100	98	97	97	98.4%
GPT-5.4 (Reasoning, Low)	100	100	98	98	96	98.3%
Grok 4.20 (Reasoning)	100	100	97	97	97	98.3%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	96	96	98.3%
Grok 4.3 (Reasoning)	100	100	100	96	93	97.9%
Qwen 3.5 397B A17B	100	100	97	96	96	97.8%
GPT-5.4	98	98	98	98	98	97.8%
Grok 4.5 (Reasoning, Low)	100	100	100	96	91	97.5%
Claude Opus 4.8 (Reasoning)	100	100	96	96	96	97.4%
GPT-5.4 (Reasoning)	100	98	98	98	93	97.2%
GPT-5.2	100	98	98	95	95	97.1%
Qwen 3.5 Flash	100	100	98	96	91	97.0%
ByteDance Seed 2.0 Lite	100	100	100	97	88	96.9%
Qwen 3.5 9B	100	100	100	97	87	96.8%
o4 Mini High	100	100	96	95	92	96.8%
Qwen 3.5 Plus (2026-04-20)	100	100	97	93	92	96.4%
Aion 3.0	100	100	96	94	92	96.4%
Grok 4.5 (Reasoning, High)	100	100	100	93	88	96.4%
ByteDance Seed 1.6	100	97	97	97	90	96.3%
Qwen 3.5 27B	99	97	97	95	92	96.1%
Mistral Medium 3.1	100	100	95	94	90	95.9%
o4 Mini	100	100	100	93	86	95.9%
Gemini 3.1 Pro (Preview)	100	100	97	96	86	95.8%
GPT-5.4 Mini (Reasoning, Low)	100	100	95	93	91	95.8%
Cohere Command R+ (Aug. 2024)	100	100	100	95	84	95.8%
GPT-5.4 Mini	98	98	95	94	94	95.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	93	93	92	95.6%
Gemini 3 Flash (Preview)	97	97	96	95	93	95.6%
DeepSeek V4 Pro (Reasoning)	97	97	96	93	93	95.3%
Claude Sonnet 5 (Reasoning, Low)	100	100	95	91	91	95.3%
Gemma 4 26B (Reasoning)	100	95	95	95	90	95.2%
GPT-OSS 120B	100	98	95	92	90	95.2%
Nemotron 3 Super	100	100	94	94	88	95.2%
GPT-4.1	97	97	96	93	92	94.9%
Inception Mercury 2	100	97	96	92	88	94.8%
DeepSeek V4 Flash (Reasoning)	100	100	96	90	88	94.8%
Gemini 3.1 Flash Lite (Preview)	97	96	96	96	89	94.8%
Qwen 3.6 Flash	100	100	97	92	85	94.8%
Qwen 3.6 27B	98	97	95	92	92	94.6%
GPT-5 Mini	97	95	94	94	92	94.5%
GPT-5.4 Mini (Reasoning)	98	96	95	94	89	94.2%
Qwen 3.5 122B	96	96	94	93	92	94.2%
Gemini 2.5 Pro	100	100	96	90	84	94.0%
Qwen 3 32B	100	95	95	94	85	93.9%
Gemini 3.1 Flash Lite	100	96	92	92	89	93.8%
Z.AI GLM 5	100	97	93	93	85	93.5%
Z.AI GLM 5 Turbo	100	96	95	92	84	93.4%
Z.AI GLM 5.1	97	96	93	92	90	93.4%
Gemma 4 31B (Reasoning)	100	100	95	86	85	93.3%
Nemotron 3 Nano	97	96	95	92	87	93.3%
Ministral 3 14B	100	100	93	90	83	93.3%
GPT-5.4 Nano (Reasoning)	97	94	93	90	90	93.1%
Qwen 3.6 35B	98	93	92	92	91	93.0%
Qwen 3.5 Plus (2026-02-15)	96	93	93	93	89	92.9%
Grok 4.3	97	96	93	91	88	92.8%
Aion 2.0	100	100	93	90	80	92.6%
Gemma 4 31B	100	100	96	86	81	92.5%
Gemini 3 Flash (Preview, Reasoning)	100	97	94	88	83	92.3%
Qwen 3.5 35B	100	96	91	90	84	92.3%
Arcee AI: Trinity Mini	100	93	92	91	86	92.2%
WizardLM 2 8x22b	100	94	94	90	82	92.0%
Xiaomi MIMO v2.5	94	94	92	91	89	91.8%
Claude Sonnet 4.5	100	96	96	92	75	91.7%
Gemini 3.5 Flash (Reasoning, Minimal)	100	93	92	88	85	91.5%
Claude Opus 4.7 (Reasoning)	100	100	90	85	82	91.5%
Claude Opus 4.6	95	95	92	89	86	91.4%
Gemma 4 26B	100	96	93	90	77	91.2%
Ministral 3 3B	100	100	92	83	79	90.9%
Claude Opus 4.6 (Reasoning)	100	95	88	87	83	90.7%
Gemini 3.5 Flash (Reasoning)	96	92	92	87	85	90.6%
DeepSeek V4 Pro	94	92	91	90	86	90.6%
MiniMax M2.7	97	92	91	90	84	90.6%
Claude Opus 4.7	96	95	95	88	77	90.5%
GPT-5.4 Nano (Reasoning, Low)	91	91	90	90	90	90.4%
Claude Sonnet 5	100	95	90	85	82	90.4%
DeepSeek V4 Flash	96	93	93	91	79	90.3%
Ministral 3B	100	100	94	86	71	90.2%
Claude Sonnet 4.6	95	92	90	87	86	90.1%
Mistral Small 3.2 24B	99	99	98	87	67	90.1%
Llama 3.1 70B	100	98	94	86	72	90.0%
Ministral 3 8B	92	92	92	90	83	89.9%
Claude Sonnet 5 (Reasoning)	95	90	90	89	85	89.9%
GPT-5 Nano	91	90	90	89	88	89.7%
Mistral Large 3	100	91	88	88	82	89.7%
Xiaomi MIMO v2.5 Pro	96	96	90	88	78	89.5%
GPT-5.4 Nano	94	90	90	90	83	89.2%
ByteDance Seed 2.0 Mini	100	100	87	83	75	89.2%
Ministral 8B	100	94	93	85	75	89.2%
Z.AI GLM 4.5 Air	96	95	88	86	80	89.1%
Mistral NeMO	96	95	93	85	76	89.0%
Aion 3.0 Mini	96	90	87	85	85	88.6%
Gemini 3.1 Flash Lite (Reasoning)	100	92	92	83	74	88.4%
Qwen3 235B A22B Instruct 2507	92	92	91	87	79	88.3%
Grok 4.20	93	90	88	86	83	88.0%
Z.AI GLM 4.7 Flash	92	91	89	86	82	88.0%
GPT-4o Mini (temp=0)	96	91	89	82	81	87.8%
Claude Sonnet 4.6 (Reasoning)	95	92	91	87	74	87.8%
Z.AI GLM 4.7	90	90	89	84	84	87.5%
Mistral Large 2	94	92	92	83	77	87.4%
Claude Opus 4.5	92	92	91	82	80	87.3%
GPT-4o, Aug. 6th (temp=0)	94	90	86	84	82	87.3%
Gemini 2.5 Flash	96	92	83	82	82	87.2%
Writer: Palmyra X5	92	90	86	86	82	87.2%
Z.AI GLM 4.6	96	90	85	84	80	87.0%
Claude Sonnet 4	92	91	91	85	75	86.6%
Mistral Small 4 (Reasoning)	94	90	89	85	75	86.6%
Hermes 3 405B	100	93	89	81	70	86.5%
Gemma 3 27B	95	94	91	77	70	85.5%
Gemini 2.5 Flash Lite (Reasoning)	89	86	86	84	83	85.5%
Cydonia 24B V4.1	92	89	85	85	75	85.3%
Gemini 2.5 Flash Lite	93	91	88	85	67	84.8%
DeepSeek V3.2	97	87	82	81	77	84.8%
GPT-4o Mini (temp=1)	100	96	80	75	72	84.6%
DeepSeek V3.1	95	93	82	79	73	84.3%
Qwen 2.5 72B	88	84	84	82	81	83.9%
GPT-4o, Aug. 6th (temp=1)	100	84	81	80	72	83.4%
MiniMax M3	87	85	82	81	80	83.2%
Claude Opus 4	92	89	86	86	63	83.1%
Hermes 3 70B	100	100	75	74	65	82.8%
MiniMax M2.5	97	87	82	76	71	82.6%
Mistral Small 4	89	89	86	82	66	82.5%
GPT-4.1 Mini	89	88	87	75	70	81.7%
Gemini 2.5 Flash (Reasoning)	97	88	85	72	65	81.5%
DeepSeek V3 (2025-03-24)	91	90	84	72	70	81.2%
DeepSeek-V2 Chat	94	91	80	76	65	81.1%
Z.AI GLM 4.5	91	90	82	70	63	79.0%
DeepSeek V3 (2024-12-26)	83	82	81	77	71	78.7%
Gemma 3 4B	84	79	78	77	69	77.7%
Gemma 3 12B	86	77	74	72	69	75.9%
Claude Haiku 4.5	88	78	77	71	65	75.7%
GPT-4.1 Nano	82	74	71	68	58	70.6%

▼

Romance: separated couple reunites

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5	100	100	99	99	98	99.2%
GPT-5.2	100	100	98	98	98	98.7%
GPT-5.5 (Reasoning)	100	100	98	97	97	98.5%
GPT-5.5 (Reasoning, Low)	100	99	98	97	97	98.2%
ByteDance Seed 1.6 Flash	100	100	98	96	96	97.9%
Qwen3.6 Max Preview	100	100	100	95	94	97.9%
o4 Mini High	100	100	100	96	93	97.9%
GPT-5	100	98	98	97	96	97.8%
ByteDance Seed 2.0 Lite	100	100	97	97	95	97.7%
Qwen 3.5 9B	100	100	100	94	94	97.7%
Grok 4.5 (Reasoning, High)	100	100	98	97	93	97.6%
o4 Mini	100	100	96	96	95	97.5%
Grok 4.5 (Reasoning, Low)	100	100	97	96	93	97.2%
Grok 4.3 (Reasoning)	100	97	97	96	96	97.1%
GPT-5.4 (Reasoning, Low)	100	100	96	95	95	97.1%
Aion 3.0	100	98	97	96	93	96.7%
GPT-5.1	100	98	96	96	93	96.6%
Qwen 3.5 Plus (2026-04-20)	100	98	97	97	91	96.4%
GPT-5.4 (Reasoning)	100	98	96	94	94	96.3%
Qwen 3.5 397B A17B	100	98	96	94	93	96.2%
Qwen 3.5 Flash	97	97	96	96	94	96.0%
Qwen3.7 Max	100	100	96	92	91	95.8%
GPT-5.4	98	97	96	94	93	95.4%
Aion 3.0 Mini	100	96	96	96	89	95.4%
Gemini 3 Flash (Preview)	97	96	95	95	94	95.3%
Qwen 3.5 122B	100	97	95	93	91	95.2%
GPT-5 Mini	100	96	96	94	90	95.1%
DeepSeek V4 Flash (Reasoning)	100	96	96	92	91	94.9%
Ministral 3 14B	100	100	100	100	74	94.7%
MoonshotAI: Kimi K2.5	100	100	94	92	87	94.6%
Gemma 4 26B	100	100	97	93	83	94.6%
Gemma 4 31B (Reasoning)	100	96	96	92	87	94.1%
DeepSeek V4 Pro (Reasoning)	97	97	97	93	86	94.1%
GPT-5.4 Nano (Reasoning, Low)	97	96	94	93	90	94.1%
Qwen 3.5 27B	100	96	96	91	88	94.1%
Qwen 3.6 Flash	100	97	97	88	88	94.1%
Mistral Large 3	95	95	94	94	92	94.1%
GPT-5.4 Mini (Reasoning)	98	95	93	93	91	94.0%
GPT-4.1	100	96	96	90	88	93.8%
ByteDance Seed 1.6	97	93	93	93	92	93.6%
Gemini 3 Flash (Preview, Reasoning)	95	94	94	93	91	93.5%
Qwen 3.6 27B	97	93	93	93	91	93.4%
Grok 4.3	96	95	94	91	90	93.3%
Xiaomi MIMO v2.5	97	97	94	92	86	93.3%
Claude Opus 4.6	97	97	93	92	87	93.1%
DeepSeek V4 Flash	97	93	93	93	89	93.0%
Grok 4.20 (Reasoning)	96	96	92	91	90	92.9%
Claude Opus 4.8 (Reasoning, Low)	100	95	92	91	86	92.9%
Mistral Medium 3.1	96	96	92	90	90	92.7%
Z.AI GLM 5 Turbo	100	97	92	90	84	92.7%
Qwen 2.5 72B	100	95	91	89	88	92.6%
GPT-5.4 Nano (Reasoning)	95	94	93	92	88	92.4%
Inception Mercury 2	95	94	93	90	89	92.4%
Z.AI GLM 5.2 (Reasoning, High)	97	96	94	91	83	92.4%
Z.AI GLM 5.1	96	94	94	89	88	92.3%
GPT-5.4 Mini (Reasoning, Low)	96	94	94	91	87	92.2%
Mistral Large 2	100	100	94	87	80	92.2%
Gemini 3.1 Flash Lite	97	96	96	88	83	91.9%
Gemini 3.1 Flash Lite (Preview)	100	92	92	87	87	91.7%
Z.AI GLM 5	97	93	91	91	86	91.6%
GPT-5.4 Mini	97	94	91	89	86	91.6%
Qwen 3.5 35B	100	97	90	89	83	91.5%
Qwen 3.6 35B	100	94	90	88	85	91.4%
Xiaomi MIMO v2.5 Pro	98	93	90	90	85	90.9%
Claude Sonnet 4.5	100	96	92	87	80	90.9%
ByteDance Seed 2.0 Mini	97	91	91	90	86	90.9%
GPT-5.4 Nano	95	91	90	89	89	90.9%
Claude Sonnet 5 (Reasoning)	100	100	95	90	69	90.7%
GPT-5 Nano	93	92	90	90	88	90.6%
Claude Opus 4.6 (Reasoning)	100	97	92	83	80	90.4%
WizardLM 2 8x22b	100	91	90	86	84	90.3%
GPT-OSS 120B	93	92	92	89	85	90.1%
MiniMax M2.5	93	92	92	92	80	89.7%
Claude Opus 4.7 (Reasoning)	100	91	90	87	81	89.6%
DeepSeek V3.2	96	94	93	80	80	88.9%
DeepSeek V3 (2025-03-24)	100	95	94	84	71	88.6%
Writer: Palmyra X5	100	100	85	79	79	88.6%
Mistral Small 4 (Reasoning)	94	93	92	87	76	88.5%
Nemotron 3 Nano	100	94	92	86	67	88.0%
Gemma 4 26B (Reasoning)	96	92	88	87	78	87.9%
GPT-4o, Aug. 6th (temp=0)	95	90	86	84	83	87.8%
DeepSeek V4 Pro	94	91	90	84	78	87.6%
Mistral NeMO	95	94	89	88	71	87.3%
Claude Haiku 4.5	91	90	89	84	82	87.3%
Qwen 3.5 Plus (2026-02-15)	94	91	87	85	79	87.1%
Z.AI GLM 4.6	94	88	88	85	81	87.1%
Nemotron 3 Super	100	94	85	79	77	87.1%
Gemma 4 31B	91	88	88	86	80	86.6%
Ministral 8B	100	94	83	80	76	86.6%
Gemini 3.1 Flash Lite (Reasoning)	91	90	90	89	70	86.1%
Claude Opus 4.5	91	91	88	83	77	85.9%
Cohere Command R+ (Aug. 2024)	94	91	84	84	76	85.8%
Aion 2.0	90	88	87	86	77	85.6%
Ministral 3B	94	94	93	77	70	85.6%
Z.AI GLM 4.7 Flash	92	89	86	83	78	85.5%
Z.AI GLM 4.7	94	87	84	82	80	85.3%
Claude Opus 4.8 (Reasoning)	86	86	86	86	81	85.3%
MiniMax M2.7	94	90	83	83	75	85.2%
GPT-4o Mini (temp=0)	95	90	85	79	77	85.1%
Qwen3 235B A22B Instruct 2507	89	86	85	84	81	85.0%
Ministral 3 8B	94	89	84	83	75	85.0%
Claude Sonnet 5	95	89	89	85	66	84.9%
Mistral Small 4	96	89	86	80	70	84.4%
Claude Sonnet 5 (Reasoning, Low)	100	95	80	76	70	84.3%
Gemma 3 27B	100	86	82	80	71	84.0%
Claude Sonnet 4.6 (Reasoning)	91	91	81	80	76	84.0%
Hermes 3 70B	94	90	84	82	66	83.6%
Grok 4.20	91	87	86	77	76	83.5%
Gemini 3.5 Flash (Reasoning)	94	85	84	78	75	83.4%
DeepSeek V3 (2024-12-26)	94	89	85	82	66	83.3%
Gemini 2.5 Pro	92	89	82	80	73	83.2%
Ministral 3 3B	100	90	89	79	57	83.1%
Claude Opus 4.7	86	86	81	80	80	82.8%
Gemini 2.5 Flash	95	87	86	72	71	82.4%
Gemma 3 12B	96	92	83	71	69	82.2%
Claude Sonnet 4	90	88	82	79	69	81.7%
Claude Opus 4	88	86	81	79	71	81.1%
Llama 3.1 70B	100	92	84	80	49	80.9%
Z.AI GLM 4.5	92	87	82	77	64	80.4%
DeepSeek V3.1	91	85	81	77	64	79.6%
MiniMax M3	92	83	80	76	68	79.6%
Gemini 2.5 Flash Lite (Reasoning)	90	90	81	68	66	79.1%
Arcee AI: Trinity Mini	84	82	81	80	69	79.1%
DeepSeek-V2 Chat	85	82	78	75	69	77.7%
Qwen 3 32B	100	90	90	55	49	76.7%
Gemini 3.5 Flash (Reasoning, Minimal)	83	83	76	73	68	76.5%
GPT-4o, Aug. 6th (temp=1)	82	80	76	72	67	75.5%
GPT-4o Mini (temp=1)	86	83	77	75	55	75.3%
Gemini 2.5 Flash (Reasoning)	78	78	72	72	69	74.0%
Hermes 3 405B	100	78	72	65	54	73.7%
Z.AI GLM 4.5 Air	92	77	66	66	58	71.9%
Gemini 2.5 Flash Lite	75	73	71	71	67	71.3%
Gemma 3 4B	85	77	70	59	57	69.5%
Claude Sonnet 4.6	80	70	69	64	58	68.2%
GPT-4.1 Mini	74	74	73	59	54	66.9%
GPT-4.1 Nano	80	72	64	60	52	65.5%
Mistral Small 3.2 24B	94	68	50	46	30	57.5%
Cydonia 24B V4.1	73	70	48	46	32	53.9%

▼

Thriller: chase through city streets

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	99	99.8%
GPT-5	100	100	100	100	98	99.6%
GPT-5.4 (Reasoning, Low)	100	100	100	100	98	99.5%
GPT-5.2	100	100	100	100	98	99.5%
GPT-5.4 Mini (Reasoning)	100	100	100	100	98	99.5%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	97	99.4%
ByteDance Seed 2.0 Lite	100	100	100	100	97	99.4%
ByteDance Seed 1.6	100	100	100	100	97	99.3%
GPT-4.1	100	100	100	100	96	99.2%
o4 Mini High	100	100	100	100	96	99.2%
Aion 2.0	100	100	100	100	96	99.1%
GPT-5.4	100	100	100	98	97	99.1%
o4 Mini	100	100	100	100	95	99.0%
MoonshotAI: Kimi K2.5	100	100	100	100	95	99.0%
Qwen 3.6 27B	100	100	100	97	97	98.8%
Inception Mercury 2	100	100	100	97	95	98.5%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	92	98.4%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	96	96	98.4%
Grok 4.5 (Reasoning, Low)	100	100	100	96	95	98.2%
GPT-5 Mini	100	100	98	98	95	98.2%
Qwen 3.5 397B A17B	100	100	100	96	95	98.2%
GPT-5.1	100	98	98	98	97	98.1%
ByteDance Seed 1.6 Flash	100	100	100	95	94	98.0%
ByteDance Seed 2.0 Mini	100	100	100	96	93	97.7%
GPT-5.4 Mini (Reasoning, Low)	100	98	98	98	95	97.7%
Z.AI GLM 5.1	100	100	96	96	96	97.7%
Qwen 3.5 122B	100	100	96	96	95	97.5%
Arcee AI: Trinity Mini	100	100	100	94	93	97.4%
Gemma 4 31B (Reasoning)	100	100	96	95	95	97.3%
DeepSeek V4 Pro (Reasoning)	100	100	96	95	95	97.3%
Grok 4.3	100	100	100	97	89	97.3%
Aion 3.0	100	97	97	96	96	97.2%
GPT-5.4 Mini	100	98	97	96	95	97.1%
GPT-OSS 120B	100	100	96	96	93	97.0%
Claude Sonnet 4.5	100	100	96	96	93	96.9%
Z.AI GLM 5 Turbo	100	97	96	96	95	96.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	96	96	92	96.6%
Gemini 3.1 Pro (Preview)	100	100	96	94	93	96.6%
Qwen3.7 Max	100	100	96	95	92	96.6%
Mistral Large 3	100	100	100	94	88	96.5%
Gemini 2.5 Flash (Reasoning)	100	100	95	94	93	96.5%
Qwen 3.6 35B	100	100	100	93	89	96.4%
Claude Sonnet 5	100	100	95	95	91	96.1%
Z.AI GLM 5	100	100	97	93	91	96.0%
Mistral Medium 3.1	100	100	100	95	84	95.9%
Ministral 3B	100	100	100	92	88	95.9%
GPT-5.4 Nano (Reasoning)	100	97	97	94	92	95.9%
Gemini 3 Flash (Preview, Reasoning)	97	97	95	95	95	95.8%
Gemini 2.5 Pro	100	100	96	96	87	95.7%
GPT-5.4 Nano (Reasoning, Low)	99	98	95	94	92	95.5%
Qwen 3.5 35B	100	100	96	95	86	95.4%
GPT-4o Mini (temp=1)	100	96	95	95	91	95.4%
Claude Opus 4.7	100	95	95	95	91	95.3%
Claude Opus 4	100	96	95	94	91	95.2%
Gemma 4 31B	100	100	96	91	89	95.2%
Z.AI GLM 4.7	100	97	96	96	87	95.1%
Gemini 3.1 Flash Lite	100	97	95	92	91	95.1%
Z.AI GLM 4.7 Flash	100	96	96	94	89	95.0%
Claude Opus 4.6	100	95	95	94	89	94.9%
Grok 4.20 (Reasoning)	100	100	96	89	89	94.8%
Xiaomi MIMO v2.5 Pro	100	97	93	92	91	94.8%
Qwen 3 32B	100	100	95	92	87	94.8%
Aion 3.0 Mini	100	100	95	94	84	94.8%
Claude Opus 4.6 (Reasoning)	97	97	94	94	90	94.6%
Nemotron 3 Super	100	95	95	93	89	94.5%
GPT-4o, Aug. 6th (temp=1)	96	96	95	95	90	94.3%
Claude Opus 4.8 (Reasoning)	100	95	95	91	90	94.3%
MiniMax M3	100	97	95	94	86	94.3%
Grok 4.3 (Reasoning)	100	96	95	90	90	94.3%
DeepSeek V4 Flash (Reasoning)	100	96	94	91	90	94.2%
Xiaomi MIMO v2.5	100	96	93	93	88	94.1%
WizardLM 2 8x22b	100	96	96	92	86	94.1%
Claude Opus 4.5	97	97	95	91	89	94.0%
Ministral 3 14B	100	94	93	93	90	94.0%
Mistral Small 3.2 24B	100	99	91	91	89	93.9%
Ministral 3 8B	100	100	91	90	88	93.9%
Qwen 3.5 27B	100	100	100	96	73	93.7%
Gemini 3 Flash (Preview)	96	96	94	94	88	93.7%
Ministral 8B	100	100	100	87	81	93.6%
Mistral Large 2	100	94	93	92	88	93.6%
Nemotron 3 Nano	98	96	93	92	89	93.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	87	80	93.4%
DeepSeek V3.2	100	97	95	90	85	93.3%
GPT-5 Nano	96	95	94	91	90	93.3%
Claude Sonnet 4.6	100	95	91	90	90	93.3%
Qwen 3.5 Flash	100	96	95	93	82	93.2%
Claude Haiku 4.5	96	96	95	92	87	93.1%
Claude Opus 4.7 (Reasoning)	100	100	96	86	83	93.1%
Claude Sonnet 5 (Reasoning)	100	95	95	90	84	93.0%
DeepSeek V4 Flash	100	96	93	92	82	92.7%
Ministral 3 3B	100	100	92	92	78	92.5%
Mistral Small 4	100	95	90	89	88	92.5%
DeepSeek-V2 Chat	100	96	90	90	85	92.3%
Gemini 2.5 Flash	100	94	92	89	86	92.3%
Z.AI GLM 4.6	100	92	90	90	88	92.1%
GPT-5.4 Nano	94	92	92	92	89	92.1%
GPT-4o, Aug. 6th (temp=0)	100	95	90	88	87	92.0%
Qwen 3.5 Plus (2026-02-15)	100	97	90	89	84	92.0%
Writer: Palmyra X5	100	100	95	92	73	91.9%
DeepSeek V4 Pro	100	100	94	88	78	91.9%
Claude Sonnet 5 (Reasoning, Low)	96	95	95	91	82	91.7%
MiniMax M2.5	96	93	90	90	89	91.7%
Gemini 2.5 Flash Lite	94	92	91	90	89	91.0%
Gemini 3.1 Flash Lite (Preview)	100	92	90	86	86	90.8%
Qwen 3.6 Flash	100	96	92	87	79	90.7%
GPT-4o Mini (temp=0)	100	96	91	90	76	90.4%
Llama 3.1 70B	100	100	85	85	81	90.4%
MiniMax M2.7	96	95	89	88	83	90.2%
Gemma 3 27B	96	91	90	90	83	89.9%
Qwen 2.5 72B	95	92	90	89	84	89.9%
Cohere Command R+ (Aug. 2024)	95	95	94	84	81	89.8%
Gemma 4 26B (Reasoning)	95	95	90	89	79	89.7%
GPT-4.1 Mini	100	95	86	85	82	89.7%
Gemma 4 26B	96	92	89	87	84	89.6%
Grok 4.20	93	92	90	88	84	89.5%
Mistral Small 4 (Reasoning)	100	96	86	85	79	89.2%
Gemini 3.5 Flash (Reasoning)	97	95	92	83	79	89.1%
Qwen3 235B A22B Instruct 2507	96	93	92	84	78	88.6%
DeepSeek V3 (2024-12-26)	92	90	90	89	78	87.9%
DeepSeek V3.1	95	93	86	86	79	87.8%
Claude Sonnet 4	100	95	86	79	78	87.6%
Gemma 3 4B	92	89	88	88	77	86.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	88	85	83	77	86.6%
DeepSeek V3 (2025-03-24)	100	94	94	82	62	86.5%
Hermes 3 405B	92	91	91	82	71	85.5%
Gemini 2.5 Flash Lite (Reasoning)	90	90	89	81	78	85.5%
Mistral NeMO	95	89	83	83	76	85.4%
Z.AI GLM 4.5	93	92	87	82	70	84.9%
Z.AI GLM 4.5 Air	92	86	86	84	73	84.3%
Gemma 3 12B	100	87	82	81	71	84.0%
Hermes 3 70B	93	82	80	79	77	82.2%
Cydonia 24B V4.1	100	76	75	68	67	77.1%
GPT-4.1 Nano	84	84	84	68	65	76.9%

AI-ism adverb frequency

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Detailed Writing Rules

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

genre

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets

Novelcrafter Default Prompt

Fantasy: entering an ancient ruin

Horror: alone in an eerie place at night

Literary fiction: old friends reunite

Mystery: examining a crime scene

Romance: separated couple reunites

Thriller: chase through city streets