Matches word count

Test: Write N of X

Avg. Score

75.2%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Inception Mercury	99.8%	$0.0002	2.1s	98%
2	Inception Mercury 2	99.8%	$0.0009	1.2s	98%
3	GPT-5.4 Nano (Reasoning)	99.9%	$0.0010	4.4s	99%
4	GPT-5.4 Mini (Reasoning)	99.9%	$0.0031	3.8s	99%
5	Nemotron 3 Super	100.0%	$0.0000	15.3s	100%
6	GPT-5 Nano	100.0%	$0.0008	19.2s	100%
7	Stealth: Aurora Alpha	99.5%	—	2.4s	94%
8	GPT-5.1	99.8%	$0.0073	9.2s	99%
9	GPT-5 Mini	99.2%	$0.0024	11.6s	93%
10	GPT-OSS 120B	99.8%	$0.0004	33.4s	98%
11	GPT-5.2	99.7%	$0.0087	9.6s	98%
12	o4 Mini	99.5%	$0.0069	14.8s	96%
13	GPT-5.4 (Reasoning)	99.7%	$0.0098	11.2s	98%
14	Qwen 3.6 35B	100.0%	$0.0068	37.0s	100%
15	Z.AI GLM 5 Turbo	100.0%	$0.011	25.2s	100%
16	Qwen 3.5 Flash	100.0%	$0.0036	54.0s	100%
17	Grok 4.3 (Reasoning)	100.0%	$0.0092	39.1s	100%
18	GPT-5.5 (Reasoning)	99.9%	$0.021	7.7s	99%
19	GPT-5.5 (Reasoning, Low)	99.5%	$0.019	6.8s	94%
20	GPT-5	98.4%	$0.013	18.1s	91%
21	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.018	28.6s	100%
22	o4 Mini High	99.4%	$0.010	36.6s	94%
23	GPT-4.1	94.6%	$0.0020	2.5s	67%
24	ByteDance Seed 1.6	99.1%	$0.0061	1.0m	93%
25	Claude Opus 4.7	96.6%	$0.017	3.3s	83%
26	Qwen 3.5 35B	100.0%	$0.017	49.8s	100%
27	Claude Opus 4.7 (Reasoning)	96.7%	$0.017	3.8s	83%
28	Gemini 3.1 Flash Lite	92.7%	$0.0005	1.1s	62%
29	Gemini 3 Flash (Preview)	93.0%	$0.0011	1.5s	58%
30	Qwen 3.6 Flash	98.0%	$0.0083	24.3s	72%
31	GPT-4o, Aug. 6th (temp=0)	94.8%	$0.0048	2.2s	61%
32	Gemini 3.1 Flash Lite (Reasoning)	92.1%	$0.0005	1.2s	57%
33	GPT-4o, Aug. 6th (temp=1)	93.3%	$0.0048	2.0s	60%
34	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.035	19.6s	100%
35	Gemini 3.5 Flash (Reasoning)	100.0%	$0.039	16.0s	100%
36	Qwen 3.5 27B	100.0%	$0.019	1.3m	100%
37	GPT-5.4 Mini (Reasoning, Low)	92.1%	$0.0018	2.4s	51%
38	GPT-5.5	93.6%	$0.0086	3.6s	59%
39	Z.AI GLM 5	100.0%	$0.016	1.6m	100%
40	Gemini 3.1 Flash Lite (Preview)	89.7%	$0.0005	1.1s	48%
41	MoonshotAI: Kimi K2.5	99.9%	$0.016	2.0m	99%
42	Gemini 3 Pro (Preview)	100.0%	$0.046	28.1s	100%
43	MoonshotAI: Kimi K2.6	99.9%	$0.015	2.0m	99%
44	GPT-5.4 (Reasoning, Low)	87.4%	$0.0043	3.6s	46%
45	Qwen3.7 Max	100.0%	$0.037	59.2s	100%
46	Claude Opus 4.6 (Reasoning)	100.0%	$0.050	19.6s	100%
47	ByteDance Seed 2.0 Lite	95.3%	$0.0055	1.0m	61%
48	GPT-4o Mini (temp=1)	90.9%	$0.0003	42.7s	50%
49	Nemotron 3 Nano	90.0%	$0.0004	22.7s	40%
50	GPT-5.4 Nano (Reasoning, Low)	86.2%	$0.0007	2.9s	35%
51	Z.AI GLM 4.7 Flash	96.8%	$0.0026	1.8m	69%
52	Qwen 3.5 Plus (2026-04-20)	98.0%	$0.014	1.4m	72%
53	Z.AI GLM 5.1	100.0%	$0.022	2.1m	100%
54	MiniMax M2.7	88.3%	$0.0022	27.8s	38%
55	Qwen 3.5 9B	98.0%	$0.0016	2.2m	72%
56	GPT-5.4	81.9%	$0.0028	2.9s	33%
57	Z.AI GLM 4.7	100.0%	$0.0098	3.0m	100%
58	GPT-4o Mini (temp=0)	84.1%	$0.0003	10.7s	30%
59	GPT-4.1 Nano	78.7%	$0.0001	2.2s	30%
60	Qwen3.6 Max Preview	100.0%	$0.034	1.9m	100%
61	Qwen 3.5 122B	97.5%	$0.027	1.1m	71%
62	GPT-4.1 Mini	79.9%	$0.0004	2.3s	27%
63	Gemini 2.5 Pro	86.0%	$0.013	10.9s	40%
64	GPT-5.4 Mini	79.5%	$0.0009	1.1s	25%
65	Gemma 4 31B (Reasoning)	100.0%	$0.0019	3.7m	100%
66	Gemini 3.5 Flash (Reasoning, Minimal)	81.3%	$0.0033	1.4s	26%
67	Grok 4 Fast	77.8%	$0.0004	3.4s	27%
68	Grok 4	83.2%	$0.010	13.3s	36%
69	Gemma 4 31B	80.2%	$0.0003	13.2s	24%
70	Gemma 4 26B	79.1%	$0.0002	6.5s	22%
71	Gemma 4 26B (Reasoning)	100.0%	$0.0027	3.9m	100%
72	Qwen 3.6 27B	95.9%	$0.020	1.4m	61%
73	GPT-4o, May 13th (temp=1)	82.3%	$0.0091	17.6s	32%
74	Stealth: Healer Alpha	78.4%	$0.0000	15.6s	21%
75	Claude Opus 4.5	81.5%	$0.012	4.4s	28%
76	Claude Opus 4.6	80.4%	$0.012	6.0s	30%
77	Grok 4.20 (Beta, Reasoning)	86.4%	$0.019	11.3s	35%
78	DeepSeek V3 (2024-12-26)	72.2%	$0.0006	3.8s	21%
79	GPT-5.4 Nano	71.1%	$0.0004	1.4s	20%
80	Xiaomi MIMO v2.5	72.9%	$0.0016	7.3s	21%
81	Claude Sonnet 4.5	74.1%	$0.0070	4.1s	25%
82	Grok 4.20	73.2%	$0.0018	1.8s	18%
83	Gemini 2.5 Flash Lite (Reasoning)	70.3%	$0.0005	4.5s	19%
84	DeepSeek V3 (2025-03-24)	71.5%	$0.0005	6.5s	17%
85	Mistral Large 3	68.3%	$0.0010	2.7s	18%
86	Claude Sonnet 4.6	74.8%	$0.0071	3.5s	20%
87	Mistral Medium 3.1	68.1%	$0.0009	2.9s	16%
88	Stealth: Hunter Alpha	69.8%	$0.0000	15.6s	17%
89	Gemini 2.5 Flash Lite	66.9%	$0.0002	711ms	14%
90	GPT-4o, May 13th (temp=0)	78.7%	$0.0091	18.7s	21%
91	DeepSeek V4 Flash	66.8%	$0.0001	4.7s	14%
92	DeepSeek V4 Pro (Reasoning)	91.1%	$0.0075	2.1m	48%
93	Gemini 3.1 Pro (Preview)	100.0%	$0.075	1.0m	100%
94	Claude 3.7 Sonnet	70.3%	$0.0069	4.8s	16%
95	ByteDance Seed 2.0 Mini	96.5%	$0.0031	3.3m	66%
96	Grok 4.20 (Reasoning)	78.7%	$0.0091	28.1s	20%
97	Grok 4.1 Fast	66.5%	$0.0007	6.3s	11%
98	Grok 4.20 (Beta)	61.2%	$0.0015	863ms	15%
99	MiniMax M2.5	70.4%	$0.0012	17.6s	12%
100	Ministral 3 14B	63.0%	$0.0003	1.3s	12%
101	Aion 2.0	74.2%	$0.0035	34.4s	16%
102	Claude Sonnet 4	67.6%	$0.0070	3.8s	14%
103	Z.AI GLM 4.5	61.3%	$0.0006	3.7s	12%
104	Qwen 3.5 397B A17B	100.0%	$0.030	3.5m	100%
105	Ministral 3 8B	59.0%	$0.0003	1.0s	11%
106	Gemma 3 27B	58.9%	$0.0002	3.8s	11%
107	Z.AI GLM 4.6	72.5%	$0.0036	48.5s	19%
108	Hermes 3 405B	60.3%	$0.0000	11.0s	8%
109	Claude 3.5 Sonnet	62.7%	$0.0067	10.3s	13%
110	Gemma 3 12B	56.2%	$0.0001	3.1s	6%
111	DeepSeek V4 Pro	57.9%	$0.0012	8.9s	8%
112	DeepSeek V4 Flash (Reasoning)	56.0%	$0.0001	4.9s	7%
113	DeepSeek-V2 Chat	55.9%	$0.0003	8.1s	8%
114	Mistral Small 4 (Reasoning)	58.9%	$0.0014	14.4s	8%
115	Qwen 3.5 Plus (2026-02-15)	57.6%	$0.0009	6.6s	5%
116	DeepSeek V3.1	54.5%	$0.0004	8.5s	8%
117	Xiaomi MIMO v2.5 Pro	56.1%	$0.0014	7.5s	7%
118	Llama 3.1 8B	53.0%	$0.0003	694ms	6%
119	LFM2 24B	52.1%	$0.0001	3.6s	7%
120	Gemini 2.5 Flash (Reasoning)	61.7%	$0.0066	12.0s	8%
121	Ministral 3 3B	52.1%	$0.0002	716ms	4%
122	Mistral Small 3.2 24B	51.3%	$0.0002	2.3s	5%
123	Llama 3.1 Nemotron 70B	50.2%	$0.0006	3.3s	7%
124	Arcee AI: Trinity Large (Preview)	50.4%	$0.0000	3.1s	4%
125	Qwen 2.5 72B	49.7%	$0.0007	3.1s	5%
126	Z.AI GLM 4.5 Air	50.8%	$0.0006	9.4s	6%
127	Mistral Small 4	48.9%	$0.0003	1.5s	3%
128	Llama 3.1 70B	45.7%	$0.0015	1.3s	6%
129	Claude Haiku 4.5	48.5%	$0.0023	2.3s	3%
130	Qwen 3 32B	46.7%	$0.0004	10.7s	4%
131	Claude Opus 4	76.9%	$0.035	21.6s	22%
132	Gemini 2.5 Flash	41.3%	$0.0005	1.1s	1%
133	DeepSeek V3.2	42.3%	$0.0005	6.1s	1%
134	Cohere Command R+ (Aug. 2024)	44.9%	$0.0051	2.7s	3%
135	Mistral Small Creative	39.2%	$0.0002	927ms	0%
136	ByteDance Seed 1.6 Flash	46.6%	$0.0010	17.0s	0%
137	Qwen3 235B A22B Instruct 2507	39.6%	$0.0002	5.2s	0%
138	Grok 4.3	40.4%	$0.0020	1.7s	0%
139	Arcee AI: Trinity Mini	31.3%	$0.0001	1.7s	0%
140	Claude 3 Haiku	33.5%	$0.0005	17.9s	0%
141	Writer: Palmyra X5	30.3%	$0.0018	8.3s	0%
142	Mistral NeMO	22.0%	$0.0003	2.4s	0%
143	Ministral 8B	18.8%	$0.0002	1.4s	0%
144	Mistral Large 2	23.5%	$0.0042	3.0s	0%
145	Hermes 3 70B	17.3%	$0.0007	4.8s	0%
146	Ministral 3B	14.1%	$0.0001	710ms	0%
147	WizardLM 2 8x22b	18.5%	$0.0015	19.8s	0%
148	Gemma 3 4B	3.8%	$0.0001	1.9s	0%
149	Rocinante 12B	5.4%	$0.0006	17.7s	0%
150	Mistral Large	21.9%	$0.017	29.8s	0%
75.23%

Individual Scenarios

words

▼

10 word summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100	100	100	99.9%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	99.9%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	99.9%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	99.9%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	99.9%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	99.9%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	100	99.9%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	99.9%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	98	99.8%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100	100	98	99.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	98	99.8%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	98	99.8%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	98	99.8%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	98	99.8%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	98	99.8%
Mistral Small 4	100	100	100	100	100	100	100	100	100	98	99.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	98	98	99.7%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100	98	98	99.7%
Mistral Small Creative	100	100	100	100	100	100	100	100	98	98	99.7%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100	98	98	99.6%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	100	98	98	99.6%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	98	98	99.6%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	98	98	99.6%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	98	98	98	99.5%
Aion 2.0	100	100	100	100	100	100	100	98	98	98	99.5%
DeepSeek V4 Flash	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	98	98	98	99.5%
Grok 4.3	100	100	100	100	100	100	98	98	98	98	99.3%
Z.AI GLM 4.5	100	100	100	100	100	100	98	98	98	98	99.3%
Claude Opus 4.5	100	100	100	100	100	100	98	98	98	98	99.3%
DeepSeek V3.1	100	100	100	100	100	98	98	98	98	98	99.2%
Mistral Large 3	100	100	100	100	100	98	98	98	98	98	99.2%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	98	92	99.0%
LFM2 24B	100	98	98	98	98	98	98	98	98	98	98.6%
Ministral 3 8B	100	100	98	98	98	98	98	98	98	92	98.1%
Claude Sonnet 4.6	100	100	100	100	100	100	98	98	92	92	98.1%
DeepSeek V3.2	100	100	100	100	100	98	98	98	92	92	97.9%
Llama 3.1 8B	100	100	100	100	100	98	98	98	92	92	97.9%
DeepSeek V3 (2024-12-26)	100	100	100	100	98	98	98	98	92	92	97.8%
Ministral 3 3B	100	100	100	100	98	98	98	98	98	77	96.9%
Writer: Palmyra X5	100	100	100	100	100	100	98	98	92	77	96.6%
Claude 3 Haiku	100	100	100	98	98	98	98	92	92	77	95.5%
Gemini 2.5 Flash	100	100	100	100	100	98	92	92	92	77	95.2%
Hermes 3 405B	100	100	100	100	100	100	100	98	98	54	95.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	92	54	94.5%
Z.AI GLM 4.5 Air	98	98	98	98	98	98	92	92	92	54	92.1%
Arcee AI: Trinity Mini	92	92	92	92	92	92	92	92	92	77	90.7%
Qwen 2.5 72B	100	98	98	98	98	98	92	92	77	54	90.7%
Qwen 3 32B	100	100	100	100	98	98	92	92	92	27	90.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Llama 3.1 Nemotron 70B	98	98	98	92	92	92	92	77	77	54	87.2%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	98	54	0	85.2%
Llama 3.1 70B	98	92	92	92	92	92	77	77	77	54	84.5%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
WizardLM 2 8x22b	100	100	100	98	98	77	54	2	0	0	62.9%
Mistral NeMO	100	98	98	77	77	77	27	0	0	0	55.6%
Hermes 3 70B	100	98	98	92	92	0	0	0	0	0	48.1%
Mistral Large	100	100	100	77	77	9	2	0	0	0	46.5%
Ministral 8B	98	98	92	54	9	0	0	0	0	0	35.2%
Ministral 3B	98	98	92	27	27	2	0	0	0	0	34.5%
Mistral Large 2	98	98	2	2	0	0	0	0	0	0	20.1%
Rocinante 12B	98	77	0	0	0	0	0	0	0	0	17.6%
Gemma 3 4B	54	27	2	0	0	0	0	0	0	0	8.3%

▼

20 word summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	99.9%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	100	99.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	99.9%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	99.9%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100	100	100	99.9%
Grok 4	100	100	100	100	100	100	100	100	100	98	99.8%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	98	99.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100	100	98	99.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	98	99.8%
Ministral 3 3B	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.5	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4	100	100	100	100	100	100	100	100	98	98	99.7%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100	98	98	99.7%
Grok 4.1 Fast	100	100	100	100	100	100	100	98	98	98	99.5%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	98	98	98	99.5%
Z.AI GLM 4.5	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4.1	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4.1 Mini	100	100	100	100	100	100	100	98	98	98	99.5%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	98	98	98	98	99.3%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	92	99.2%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100	100	92	99.2%
Grok 4 Fast	100	100	100	100	100	100	100	100	100	92	99.2%
Claude Opus 4	100	100	100	100	100	98	98	98	98	98	99.2%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	98	92	99.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	98	92	99.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100	98	92	99.0%
MiniMax M2.5	100	100	100	100	100	100	100	98	98	92	98.9%
GPT-5.4 Mini	100	100	100	100	100	100	100	98	98	92	98.9%
Grok 4.20	100	100	100	100	100	100	100	98	98	92	98.8%
Claude 3.5 Sonnet	100	100	100	100	100	100	98	98	98	92	98.7%
Xiaomi MIMO v2.5	100	100	100	100	100	98	98	98	98	92	98.6%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	98	98	98	98	92	98.5%
GPT-4o, Aug. 6th (temp=0)	98	98	98	98	98	98	98	98	98	98	98.4%
Qwen 2.5 72B	100	100	100	100	100	100	100	100	92	92	98.4%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	92	92	98.4%
Z.AI GLM 4.6	100	100	100	98	98	98	98	98	98	92	98.2%
Stealth: Hunter Alpha	100	100	100	100	100	98	98	98	92	92	97.9%
Gemini 2.5 Flash Lite	100	100	100	100	100	98	98	98	92	92	97.9%
Claude Sonnet 4	100	100	100	98	98	98	98	98	92	92	97.6%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	98	98	98	77	97.2%
Aion 2.0	100	100	100	100	100	100	100	100	92	77	97.0%
Gemma 3 12B	100	100	100	100	100	98	98	98	92	77	96.4%
Ministral 3 8B	100	100	98	98	98	98	92	92	92	77	94.8%
Claude Opus 4.6	100	98	98	98	98	98	92	92	92	77	94.6%
DeepSeek V4 Flash	100	100	100	100	100	98	98	98	92	54	94.0%
Claude Opus 4.5	100	100	100	100	98	98	98	98	92	54	93.9%
Mistral Small 3.2 24B	100	98	98	98	98	98	92	77	77	77	91.6%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	2	90.2%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	0	90.0%
Cohere Command R+ (Aug. 2024)	100	98	98	98	98	92	77	77	77	77	89.5%
DeepSeek V4 Pro	100	98	92	92	92	92	92	77	77	77	89.2%
Hermes 3 405B	100	100	100	100	100	100	98	92	92	0	88.3%
Mistral Medium 3.1	100	100	98	98	92	92	92	77	77	54	88.2%
Mistral Small 4	100	100	100	100	98	92	77	77	77	54	87.6%
Claude Sonnet 4.5	100	98	98	92	92	92	92	77	77	54	87.4%
DeepSeek V3.1	100	100	100	98	98	92	92	77	54	27	83.9%
Ministral 3 14B	100	98	92	77	77	77	77	77	77	77	83.3%
Llama 3.1 8B	100	100	100	100	100	98	92	77	27	27	82.3%
Arcee AI: Trinity Large (Preview)	100	100	100	100	98	98	92	92	27	0	80.9%
Grok 4.3	100	100	98	92	92	92	92	77	27	27	79.9%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	98	0	0	79.8%
Gemma 3 27B	100	98	98	92	92	92	77	77	27	27	78.3%
Mistral Small Creative	100	77	77	77	77	77	77	77	77	54	77.3%
Qwen 3 32B	100	100	100	100	92	92	92	77	9	9	77.2%
Qwen3 235B A22B Instruct 2507	100	100	98	92	92	77	77	54	54	2	74.6%
Claude 3 Haiku	100	100	100	100	98	77	54	54	27	9	71.9%
Grok 4.20 (Beta)	100	100	100	98	92	77	54	54	9	9	69.3%
Claude Haiku 4.5	100	100	100	98	77	54	54	27	27	9	64.6%
Gemini 2.5 Flash	98	92	92	77	77	77	54	27	27	9	63.2%
Z.AI GLM 4.5 Air	100	100	98	77	77	54	27	27	9	9	58.0%
Llama 3.1 Nemotron 70B	100	100	98	98	92	27	9	9	2	0	53.6%
DeepSeek V3.2	100	98	92	77	54	2	2	2	0	0	42.7%
Writer: Palmyra X5	92	92	77	54	27	9	0	0	0	0	35.2%
WizardLM 2 8x22b	100	98	98	0	0	0	0	0	0	0	29.7%
Ministral 3B	92	92	54	0	0	0	0	0	0	0	23.8%
Hermes 3 70B	77	54	0	0	0	0	0	0	0	0	13.1%
Arcee AI: Trinity Mini	77	54	0	0	0	0	0	0	0	0	13.1%
Ministral 8B	100	2	0	0	0	0	0	0	0	0	10.2%
Mistral NeMO	92	0	0	0	0	0	0	0	0	0	9.2%
Rocinante 12B	92	0	0	0	0	0	0	0	0	0	9.2%
Mistral Large	54	9	9	0	0	0	0	0	0	0	7.2%
LFM2 24B	54	2	2	2	2	2	2	0	0	0	6.4%
Llama 3.1 70B	27	0	0	0	0	0	0	0	0	0	2.8%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%

▼

50 word summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	99.9%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100	100	100	99.9%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.1	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	98	99.8%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	98	98	99.7%
GPT-5.5	100	100	100	100	100	100	100	100	98	98	99.6%
MiniMax M2.7	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	92	99.2%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	98	98	92	98.9%
Gemma 4 26B	100	100	100	100	100	100	100	98	98	92	98.9%
Grok 4	100	100	100	100	100	100	100	100	92	92	98.4%
Claude Opus 4.5	100	100	100	100	100	100	100	100	92	92	98.4%
GPT-4.1 Mini	100	100	100	100	100	100	98	98	92	92	98.1%
GPT-5.4	100	100	100	100	100	100	98	98	92	92	98.1%
Claude Opus 4	100	100	100	100	100	98	98	98	92	92	97.9%
Stealth: Healer Alpha	100	100	100	100	100	100	100	100	98	77	97.6%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	98	92	92	92	97.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	98	98	98	77	97.2%
Claude Opus 4.6	100	100	100	100	100	98	98	98	98	77	97.1%
GPT-4.1	100	100	100	100	100	100	98	98	92	77	96.6%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	98	92	92	77	96.0%
GPT-5.4 Mini	100	100	100	100	98	98	98	92	92	77	95.7%
Mistral Medium 3.1	100	100	100	100	98	98	92	92	92	77	95.1%
Stealth: Hunter Alpha	100	100	100	100	100	100	100	92	77	77	94.7%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	27	92.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	27	92.7%
GPT-4.1 Nano	100	100	100	98	98	98	92	92	92	54	92.5%
Claude Opus 4.7	100	100	100	100	98	98	98	98	77	54	92.4%
Grok 4 Fast	100	100	100	98	98	98	98	92	77	54	91.7%
Xiaomi MIMO v2.5	100	100	100	100	100	92	92	77	77	77	91.6%
Z.AI GLM 4.6	100	100	100	100	100	100	98	77	77	54	90.7%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.1 Fast	100	100	100	100	100	100	98	98	92	2	89.1%
Aion 2.0	100	100	100	100	100	100	100	100	77	0	87.7%
GPT-5.4 Nano	100	100	100	98	98	92	77	77	77	54	87.5%
Gemma 3 27B	100	100	100	98	98	98	92	77	77	9	85.1%
Gemini 2.5 Flash Lite	100	100	98	98	98	92	92	92	77	2	85.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	98	92	92	77	77	9	84.7%
Claude Sonnet 4.6	100	100	100	98	98	92	92	77	77	9	84.5%
MiniMax M2.5	100	100	98	98	92	92	92	92	77	0	84.3%
Llama 3.1 Nemotron 70B	100	100	100	98	98	92	92	77	77	2	83.7%
DeepSeek V4 Flash	100	100	100	100	100	98	98	77	54	9	83.6%
Qwen 3.5 Plus (2026-02-15)	100	100	100	98	98	98	77	77	54	2	80.5%
Claude Sonnet 4.5	100	100	100	100	100	98	77	77	27	0	78.0%
Grok 4.20	100	100	100	100	100	98	92	77	2	2	77.1%
Grok 4.20 (Beta)	100	100	98	98	92	77	77	54	27	27	75.2%
DeepSeek V4 Pro	100	100	100	98	98	92	77	54	9	2	73.1%
Llama 3.1 70B	100	100	98	98	92	77	54	27	27	27	70.2%
Nemotron 3 Nano	100	100	100	100	100	100	100	0	0	0	70.0%
Claude 3.7 Sonnet	98	98	98	92	92	92	54	27	27	9	68.9%
Z.AI GLM 4.5	100	98	98	98	92	54	54	54	27	9	68.4%
DeepSeek V3 (2025-03-24)	100	98	98	92	92	77	54	54	2	0	66.7%
Ministral 3 14B	100	100	100	92	92	77	77	2	2	0	64.2%
Claude 3.5 Sonnet	100	100	98	92	77	54	54	27	27	9	63.9%
Xiaomi MIMO v2.5 Pro	100	100	98	92	77	54	54	27	27	0	63.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	54	27	27	2	0	61.0%
Hermes 3 405B	100	98	98	98	92	77	27	9	2	0	60.3%
DeepSeek V3 (2024-12-26)	100	100	98	92	92	54	27	27	9	0	60.0%
Z.AI GLM 4.5 Air	100	100	100	100	98	77	9	9	2	0	59.6%
Claude Haiku 4.5	100	100	98	98	77	77	27	9	2	0	59.0%
Mistral Small 3.2 24B	100	100	100	98	98	27	27	27	9	0	58.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	92	92	54	27	2	2	0	56.9%
Claude Sonnet 4	98	92	92	77	54	54	27	27	2	0	52.4%
DeepSeek V3.1	100	77	54	54	54	54	54	27	27	9	50.9%
DeepSeek V4 Flash (Reasoning)	98	92	92	77	54	27	27	27	9	2	50.7%
Qwen 3 32B	100	100	77	77	54	54	27	2	0	0	49.1%
LFM2 24B	100	98	92	77	77	9	9	9	2	2	47.6%
Mistral NeMO	100	100	92	77	54	27	2	0	0	0	45.2%
Llama 3.1 8B	100	100	77	54	54	27	27	0	0	0	43.9%
Mistral Large 3	100	100	100	27	27	27	27	27	0	0	43.7%
Mistral Large 2	98	92	77	77	54	27	0	0	0	0	42.6%
DeepSeek-V2 Chat	92	92	54	54	54	54	27	0	0	0	42.6%
Ministral 8B	100	98	92	77	27	0	0	0	0	0	39.6%
DeepSeek V3.2	100	98	77	27	9	9	9	9	9	0	34.9%
Ministral 3 8B	100	98	54	54	9	2	0	0	0	0	31.6%
ByteDance Seed 1.6 Flash	100	100	100	0	0	0	0	0	0	0	30.0%
Arcee AI: Trinity Mini	98	77	77	27	9	0	0	0	0	0	29.0%
Arcee AI: Trinity Large (Preview)	100	92	92	0	0	0	0	0	0	0	28.4%
Mistral Small 4	100	98	54	9	9	2	0	0	0	0	27.2%
Qwen 2.5 72B	92	77	54	27	9	2	2	0	0	0	26.3%
Grok 4.3	100	98	27	2	0	0	0	0	0	0	22.7%
Ministral 3 3B	98	54	54	2	2	0	0	0	0	0	20.9%
Qwen3 235B A22B Instruct 2507	54	0	0	0	0	0	0	0	0	0	5.4%
Gemma 3 12B	27	9	2	0	0	0	0	0	0	0	3.8%
Mistral Large	27	2	0	0	0	0	0	0	0	0	2.9%
Ministral 3B	9	9	2	2	0	0	0	0	0	0	2.1%
Gemma 3 4B	9	0	0	0	0	0	0	0	0	0	0.9%
Writer: Palmyra X5	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0	0	0	0	0	0.0%
Rocinante 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small Creative	0	0	0	0	0	0	0	0	0	0	0.0%
Claude 3 Haiku	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%

▼

100 word summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	99.9%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	98	98	99.7%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	98	98	99.6%
o4 Mini High	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-5.1	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-5.2	100	100	100	100	100	100	98	98	98	98	99.4%
GPT-5.5	100	100	100	100	100	100	98	98	98	98	99.3%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	98	98	98	98	99.3%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	92	99.2%
Inception Mercury	100	100	100	100	100	100	100	100	100	92	99.2%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100	100	100	98	92	99.1%
GPT-4.1	100	100	100	100	100	100	100	98	98	92	98.9%
Claude Opus 4.7	100	100	100	100	100	100	98	98	98	92	98.7%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	92	92	98.4%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	98	98	98	98	98	98	92	98.2%
GPT-4o Mini (temp=1)	100	100	100	100	100	98	98	98	92	92	97.9%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	77	97.7%
Gemini 3.1 Flash Lite	100	100	100	98	98	98	98	98	92	92	97.6%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	98	92	92	92	97.5%
Claude Opus 4.5	100	100	100	100	100	100	100	98	98	77	97.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	98	98	77	97.4%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	98	98	92	92	92	97.3%
Gemma 4 31B	100	100	100	98	98	98	98	98	92	77	96.1%
Gemma 4 26B	100	98	98	98	98	92	92	92	92	92	95.5%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	98	54	95.2%
GPT-5	100	100	100	100	100	100	98	98	77	77	95.1%
GPT-5.4 (Reasoning, Low)	100	100	98	98	98	98	92	92	92	77	94.8%
Claude Opus 4.6	100	100	100	100	98	98	98	92	77	77	94.2%
GPT-4o, May 13th (temp=0)	100	100	100	100	98	98	98	92	77	77	94.2%
Claude Sonnet 4.6	100	100	98	98	98	92	92	92	92	54	91.7%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	9	90.9%
GPT-4.1 Mini	100	100	98	98	92	92	92	77	77	77	90.6%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	0	90.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
MiniMax M2.7	100	100	100	100	100	100	100	98	98	0	89.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	98	98	98	0	89.5%
GPT-4o, May 13th (temp=1)	100	100	100	100	98	98	77	77	54	54	85.8%
GPT-5.4	100	98	98	98	92	92	92	77	77	27	85.4%
Claude 3.7 Sonnet	100	100	100	100	100	98	92	77	54	9	83.0%
GPT-5.4 Mini	100	100	100	98	98	98	92	77	54	0	81.8%
Gemini 2.5 Pro	100	98	92	92	92	77	77	77	54	54	81.4%
DeepSeek V3 (2025-03-24)	100	100	100	98	92	92	92	92	27	0	79.4%
Claude Sonnet 4	100	100	100	98	98	98	98	92	2	0	78.7%
DeepSeek V3 (2024-12-26)	100	100	100	98	92	92	77	54	54	0	76.7%
Grok 4 Fast	100	100	98	92	92	92	77	77	27	9	76.6%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	92	92	54	0	0	73.8%
Z.AI GLM 4.6	100	100	98	98	92	77	54	54	54	2	72.9%
Llama 3.1 70B	100	100	98	98	92	77	54	54	27	9	71.0%
Claude Opus 4	100	100	100	98	77	77	77	27	27	0	68.5%
Aion 2.0	100	100	100	100	100	98	77	0	0	0	67.6%
GPT-4.1 Nano	100	100	98	92	77	77	54	54	2	0	65.4%
Grok 4.20	100	100	100	98	92	77	54	27	2	0	65.0%
LFM2 24B	100	100	92	92	77	54	54	27	0	0	59.6%
GPT-5.4 Nano	100	100	92	77	77	54	27	27	27	9	59.2%
Stealth: Healer Alpha	100	100	100	100	100	77	2	0	0	0	57.9%
Hermes 3 405B	100	100	98	98	77	77	27	0	0	0	57.9%
Stealth: Hunter Alpha	100	100	77	77	54	54	54	54	0	0	56.9%
Xiaomi MIMO v2.5	100	92	92	77	77	54	27	27	9	0	55.7%
Mistral Large 2	100	100	100	92	77	77	0	0	0	0	54.7%
Grok 4.20 (Beta)	100	98	77	77	54	54	54	27	2	2	54.5%
Mistral Large	100	100	92	92	92	54	0	0	0	0	53.0%
Grok 4	100	92	92	92	77	54	9	9	2	2	52.9%
Gemma 3 12B	100	92	92	92	92	54	2	2	0	0	52.6%
Gemini 2.5 Flash Lite	98	98	77	77	54	54	27	27	0	0	51.4%
Claude 3.5 Sonnet	100	98	92	77	54	54	27	9	0	0	51.1%
MiniMax M2.5	100	100	100	100	92	9	0	0	0	0	50.1%
Claude Sonnet 4.5	100	100	98	77	77	27	9	9	0	0	49.9%
Mistral Medium 3.1	100	92	92	92	77	9	0	0	0	0	46.3%
Z.AI GLM 4.5 Air	100	98	98	92	54	2	0	0	0	0	44.5%
Gemini 2.5 Flash Lite (Reasoning)	98	98	92	77	27	27	9	2	0	0	43.2%
Ministral 3 8B	77	77	77	77	77	27	9	0	0	0	42.4%
Llama 3.1 8B	100	100	100	98	9	2	0	0	0	0	40.9%
Gemini 2.5 Flash	100	100	100	92	9	0	0	0	0	0	40.1%
Gemini 2.5 Flash (Reasoning)	100	100	100	77	9	9	2	2	0	0	39.9%
Z.AI GLM 4.5	100	100	92	27	27	27	9	9	2	0	39.4%
DeepSeek-V2 Chat	100	77	77	54	27	27	0	0	0	0	36.3%
Mistral Small 4 (Reasoning)	100	92	77	27	27	9	9	2	0	0	34.4%
Mistral Large 3	98	77	77	54	27	9	0	0	0	0	34.3%
Qwen 2.5 72B	100	100	77	54	2	0	0	0	0	0	33.3%
Ministral 3 3B	100	92	77	54	9	0	0	0	0	0	33.2%
Arcee AI: Trinity Large (Preview)	100	92	92	27	9	9	2	0	0	0	33.2%
Grok 4.1 Fast	92	77	54	54	54	0	0	0	0	0	33.1%
Cohere Command R+ (Aug. 2024)	92	77	54	54	27	9	9	0	0	0	32.2%
Ministral 3 14B	100	100	100	9	9	0	0	0	0	0	31.8%
DeepSeek V4 Flash	100	100	77	27	0	0	0	0	0	0	30.5%
Llama 3.1 Nemotron 70B	100	54	54	27	27	2	0	0	0	0	26.3%
Gemma 3 27B	98	92	27	27	9	0	0	0	0	0	25.5%
Hermes 3 70B	100	100	54	0	0	0	0	0	0	0	25.4%
DeepSeek V3.1	100	54	54	0	0	0	0	0	0	0	20.7%
Xiaomi MIMO v2.5 Pro	98	54	54	2	0	0	0	0	0	0	20.7%
DeepSeek V3.2	100	77	27	2	0	0	0	0	0	0	20.6%
DeepSeek V4 Flash (Reasoning)	100	100	2	0	0	0	0	0	0	0	20.2%
Mistral Small 4	98	92	9	0	0	0	0	0	0	0	20.0%
Arcee AI: Trinity Mini	54	54	27	2	0	0	0	0	0	0	13.6%
Qwen 3 32B	100	9	9	2	0	0	0	0	0	0	12.0%
DeepSeek V4 Pro	77	27	0	0	0	0	0	0	0	0	10.5%
Qwen3 235B A22B Instruct 2507	77	27	0	0	0	0	0	0	0	0	10.5%
Claude Haiku 4.5	98	0	0	0	0	0	0	0	0	0	9.9%
Ministral 3B	98	0	0	0	0	0	0	0	0	0	9.8%
Mistral Small Creative	92	0	0	0	0	0	0	0	0	0	9.2%
Ministral 8B	92	0	0	0	0	0	0	0	0	0	9.2%
Qwen 3.5 Plus (2026-02-15)	77	2	2	0	0	0	0	0	0	0	8.1%
Writer: Palmyra X5	27	27	9	2	0	0	0	0	0	0	6.5%
Mistral Small 3.2 24B	54	9	2	0	0	0	0	0	0	0	6.4%
ByteDance Seed 1.6 Flash	27	0	0	0	0	0	0	0	0	0	2.7%
Grok 4.3	2	0	0	0	0	0	0	0	0	0	0.2%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Rocinante 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Claude 3 Haiku	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%

▼

200 word summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
Qwen 3.6 27B	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-5.1	100	100	100	100	100	100	100	98	98	98	99.5%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	98	98	98	99.5%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	98	98	98	98	99.4%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	98	98	98	98	99.4%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	92	99.2%
GPT-5.2	100	100	100	100	100	100	100	100	98	92	99.1%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	98	92	99.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	77	97.7%
o4 Mini High	100	100	100	100	100	100	100	98	98	77	97.4%
Qwen 3.5 122B	100	100	100	100	100	100	100	98	98	77	97.4%
o4 Mini	100	100	100	100	100	98	98	92	92	92	97.3%
GPT-5	100	100	98	98	98	98	98	92	92	92	96.9%
GPT-5 Mini	100	100	100	100	98	98	98	98	92	77	96.3%
ByteDance Seed 1.6	100	100	100	100	100	98	98	92	92	77	95.8%
Claude Opus 4.7	100	100	100	98	92	92	92	92	77	77	92.2%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	98	0	89.8%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	98	92	0	89.0%
Claude Opus 4.7 (Reasoning)	100	100	98	98	98	98	77	77	77	54	87.9%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	54	0	85.3%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	27	0	82.7%
GPT-4o, Aug. 6th (temp=0)	100	98	98	98	98	98	98	92	0	0	78.3%
GPT-4.1	100	100	98	98	98	92	77	77	27	9	77.9%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	54	9	0	76.3%
GPT-4o, Aug. 6th (temp=1)	98	98	98	98	92	92	77	54	9	0	71.8%
GPT-5.5	100	100	100	98	92	77	77	27	9	9	69.1%
Gemini 3.1 Flash Lite	98	98	92	77	77	77	54	54	27	2	65.7%
Gemini 3 Flash (Preview)	100	92	92	92	92	77	54	54	2	2	65.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	98	98	77	77	2	0	0	65.3%
Grok 4	100	100	98	92	92	77	54	27	9	0	65.0%
Mistral Large 3	100	100	100	98	92	92	54	9	0	0	64.5%
Gemini 3.1 Flash Lite (Reasoning)	100	92	92	92	92	54	54	27	9	9	62.1%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	2	0	0	0	60.2%
GPT-4o Mini (temp=1)	100	100	98	92	92	54	27	9	2	2	57.6%
Claude Sonnet 4.5	100	100	100	98	92	54	9	2	0	0	55.5%
MiniMax M2.7	100	100	100	98	98	27	0	0	0	0	52.4%
Gemini 2.5 Pro	100	100	98	92	92	9	0	0	0	0	49.2%
Gemini 3.1 Flash Lite (Preview)	98	92	77	77	54	54	27	9	2	0	49.1%
LFM2 24B	98	92	92	92	54	27	27	0	0	0	48.3%
GPT-5.4 (Reasoning, Low)	100	100	77	54	54	27	27	9	0	0	44.8%
Grok 4.20 (Beta, Reasoning)	100	100	100	77	54	0	0	0	0	0	43.1%
GPT-5.4 Nano (Reasoning, Low)	100	92	92	77	54	2	0	0	0	0	41.7%
Stealth: Healer Alpha	100	100	100	77	0	0	0	0	0	0	37.7%
GPT-4.1 Nano	100	98	77	27	27	27	0	0	0	0	35.8%
Ministral 3 14B	100	98	77	54	27	0	0	0	0	0	35.7%
GPT-4o, May 13th (temp=1)	100	100	77	9	2	0	0	0	0	0	28.8%
Gemma 3 12B	100	98	77	9	0	0	0	0	0	0	28.5%
Ministral 3 8B	100	100	54	27	0	0	0	0	0	0	28.1%
DeepSeek V3 (2024-12-26)	100	100	77	0	0	0	0	0	0	0	27.7%
DeepSeek V4 Flash	98	92	54	9	9	2	0	0	0	0	26.4%
GPT-5.4	77	77	54	54	2	0	0	0	0	0	26.4%
Grok 4.20	98	98	54	0	0	0	0	0	0	0	25.0%
Arcee AI: Trinity Large (Preview)	98	92	54	0	0	0	0	0	0	0	24.4%
Gemini 2.5 Flash Lite (Reasoning)	77	54	54	54	0	0	0	0	0	0	23.8%
Grok 4 Fast	98	77	27	9	2	0	0	0	0	0	21.4%
GPT-5.4 Mini	100	100	9	2	0	0	0	0	0	0	21.1%
GPT-4o Mini (temp=0)	77	77	54	0	0	0	0	0	0	0	20.9%
Aion 2.0	100	92	0	0	0	0	0	0	0	0	19.2%
Xiaomi MIMO v2.5	100	92	0	0	0	0	0	0	0	0	19.2%
MiniMax M2.5	98	92	0	0	0	0	0	0	0	0	19.1%
Claude Opus 4	98	92	0	0	0	0	0	0	0	0	19.1%
Claude Opus 4.5	100	77	9	0	0	0	0	0	0	0	18.7%
DeepSeek V3.1	100	77	0	0	0	0	0	0	0	0	17.7%
DeepSeek V4 Pro	92	77	0	0	0	0	0	0	0	0	17.0%
Claude Opus 4.6	92	27	27	9	2	2	0	0	0	0	16.0%
DeepSeek V3.2	100	54	2	0	0	0	0	0	0	0	15.5%
Writer: Palmyra X5	77	27	27	0	0	0	0	0	0	0	13.2%
Qwen3 235B A22B Instruct 2507	100	27	2	0	0	0	0	0	0	0	12.9%
DeepSeek V3 (2025-03-24)	98	27	0	0	0	0	0	0	0	0	12.6%
Gemini 2.5 Flash (Reasoning)	92	27	0	0	0	0	0	0	0	0	12.0%
GPT-4.1 Mini	77	27	9	2	0	0	0	0	0	0	11.6%
Mistral Medium 3.1	77	27	9	0	0	0	0	0	0	0	11.4%
Grok 4.1 Fast	100	9	2	0	0	0	0	0	0	0	11.1%
DeepSeek V4 Flash (Reasoning)	98	9	2	0	0	0	0	0	0	0	10.9%
Arcee AI: Trinity Mini	98	2	0	0	0	0	0	0	0	0	10.0%
Mistral Small Creative	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.4 Nano	100	0	0	0	0	0	0	0	0	0	10.0%
Mistral Small 4	100	0	0	0	0	0	0	0	0	0	10.0%
Gemma 3 4B	98	0	0	0	0	0	0	0	0	0	9.8%
Ministral 3 3B	98	0	0	0	0	0	0	0	0	0	9.8%
Claude Sonnet 4	92	0	0	0	0	0	0	0	0	0	9.2%
Claude Haiku 4.5	92	0	0	0	0	0	0	0	0	0	9.2%
Gemini 3.5 Flash (Reasoning, Minimal)	54	27	9	2	0	0	0	0	0	0	9.2%
Gemini 2.5 Flash	77	0	0	0	0	0	0	0	0	0	7.8%
Grok 4.20 (Beta)	54	9	9	0	0	0	0	0	0	0	7.2%
Gemma 3 27B	27	27	2	0	0	0	0	0	0	0	5.6%
Qwen 3 32B	54	0	0	0	0	0	0	0	0	0	5.4%
Gemma 4 31B	27	9	9	2	2	0	0	0	0	0	4.9%
Cohere Command R+ (Aug. 2024)	27	0	0	0	0	0	0	0	0	0	2.8%
DeepSeek-V2 Chat	27	0	0	0	0	0	0	0	0	0	2.7%
Gemma 4 26B	9	2	2	0	0	0	0	0	0	0	1.3%
Z.AI GLM 4.6	9	0	0	0	0	0	0	0	0	0	0.9%
ByteDance Seed 1.6 Flash	9	0	0	0	0	0	0	0	0	0	0.9%
Gemini 2.5 Flash Lite	2	0	0	0	0	0	0	0	0	0	0.2%
Claude Sonnet 4.6	2	0	0	0	0	0	0	0	0	0	0.2%
GPT-4o, May 13th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude 3.7 Sonnet	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
Stealth: Hunter Alpha	0	0	0	0	0	0	0	0	0	0	0.0%
Rocinante 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Claude 3 Haiku	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Claude 3.5 Sonnet	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 Nemotron 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0	0	0	0	0	0.0%

Matches word count

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

words

10 word summary

20 word summary

50 word summary

100 word summary

200 word summary