Matches Regex

Test: Voice/dialogue sheets

Avg. Score

65.4%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemma 4 31B	100.0%	$0.0001	8.3s	100%
2	Claude Sonnet 4.6	100.0%	$0.0033	1.9s	100%
3	Claude Sonnet 4	100.0%	$0.0033	2.8s	100%
4	Claude Opus 4.6	100.0%	$0.0055	3.9s	100%
5	Claude Opus 4.6 (Reasoning)	100.0%	$0.0060	3.1s	100%
6	Grok 4.5 (Reasoning, High)	100.0%	$0.0049	9.0s	100%
7	Claude Sonnet 5	98.0%	$0.0032	4.2s	72%
8	GPT-4.1	96.0%	$0.0017	2.6s	61%
9	GPT-4o, Aug. 6th (temp=0)	92.0%	$0.0022	2.4s	46%
10	Gemini 2.5 Flash	88.0%	$0.0005	933ms	35%
11	ByteDance Seed 1.6	94.0%	$0.0013	14.2s	53%
12	Gemma 4 26B	88.0%	$0.0001	4.5s	35%
13	Claude Sonnet 5 (Reasoning, Low)	92.0%	$0.0037	5.0s	46%
14	Qwen 3.5 Plus (2026-02-15)	86.0%	$0.0005	6.6s	31%
15	Grok 4.5 (Reasoning, Low)	92.0%	$0.0034	10.7s	46%
16	Claude Sonnet 5 (Reasoning)	90.0%	$0.0037	4.6s	40%
17	DeepSeek V3 (2025-03-24)	84.0%	$0.0003	6.1s	27%
18	Grok 4.20 (Reasoning)	92.0%	$0.0035	12.9s	46%
19	Claude Haiku 4.5	82.0%	$0.0011	1.6s	23%
20	Gemini 3 Flash (Preview)	80.0%	$0.0006	1.8s	20%
21	Claude Sonnet 4.6 (Reasoning)	90.0%	$0.0053	3.3s	40%
22	Mistral Large 3	80.0%	$0.0004	4.1s	20%
23	Gemini 3.1 Flash Lite (Reasoning)	78.0%	$0.0003	1.4s	17%
24	GPT-4o, Aug. 6th (temp=1)	82.0%	$0.0022	2.3s	23%
25	DeepSeek-V2 Chat	80.0%	$0.0001	8.2s	20%
26	Gemini 3.1 Flash Lite	76.0%	$0.0003	1.1s	15%
27	Claude Sonnet 4.5	84.0%	$0.0033	2.8s	27%
28	DeepSeek V4 Pro	82.0%	$0.0004	12.1s	23%
29	GPT-4.1 Mini	76.0%	$0.0003	2.7s	15%
30	Z.AI GLM 4.5	76.0%	$0.0004	5.3s	15%
31	Mistral Small 3.2 24B	72.0%	$0.0001	2.1s	10%
32	DeepSeek V3 (2024-12-26)	74.0%	$0.0003	4.6s	12%
33	Llama 3.1 70B	72.0%	$0.0005	1.5s	10%
34	Writer: Palmyra X5	78.0%	$0.0010	8.1s	17%
35	DeepSeek V3.1	76.0%	$0.0002	8.4s	15%
36	Grok 4.20	72.0%	$0.0007	1.5s	10%
37	Gemini 3.1 Flash Lite (Preview)	70.0%	$0.0003	979ms	8%
38	Qwen3 235B A22B Instruct 2507	72.0%	$0.0001	4.9s	10%
39	Gemini 3.5 Flash (Reasoning, Minimal)	74.0%	$0.0018	1.2s	12%
40	Gemini 2.5 Flash Lite (Reasoning)	70.0%	$0.0003	2.7s	8%
41	Gemma 4 31B (Reasoning)	92.0%	$0.0003	43.9s	46%
42	Gemini 2.5 Flash Lite	66.0%	$0.0001	610ms	5%
43	Z.AI GLM 5 Turbo	78.0%	$0.0030	7.7s	17%
44	Hermes 3 70B	68.0%	$0.0002	6.0s	7%
45	DeepSeek V4 Flash (Reasoning)	78.0%	$0.0002	20.6s	17%
46	ByteDance Seed 1.6 Flash	66.0%	$0.0002	4.5s	5%
47	GPT-5.4 (Reasoning)	80.0%	$0.0049	5.4s	20%
48	Gemini 3 Flash (Preview, Reasoning)	72.0%	$0.0024	4.3s	10%
49	Xiaomi MIMO v2.5	70.0%	$0.0013	6.2s	8%
50	Xiaomi MIMO v2.5 Pro	72.0%	$0.0015	7.9s	10%
51	Mistral Large 2	70.0%	$0.0018	4.7s	8%
52	Cohere Command R+ (Aug. 2024)	70.0%	$0.0023	3.2s	8%
53	Mistral Small 4	60.0%	$0.0001	1.3s	2%
54	DeepSeek V4 Flash	62.0%	$0.0001	3.7s	3%
55	Gemini 3.5 Flash (Reasoning)	86.0%	$0.0087	4.2s	31%
56	Qwen3.7 Max	98.0%	$0.013	23.9s	72%
57	GPT-4o Mini (temp=0)	60.0%	$0.0001	3.7s	2%
58	Grok 4.3	60.0%	$0.0008	1.7s	2%
59	Claude Opus 4.7 (Reasoning)	82.0%	$0.0080	1.8s	23%
60	Claude Opus 4.8 (Reasoning, Low)	82.0%	$0.0079	3.1s	23%
61	Qwen 3.5 122B	88.0%	$0.0073	17.5s	35%
62	GPT-5 Mini	72.0%	$0.0018	13.0s	10%
63	GPT-5.5 (Reasoning, Low)	78.0%	$0.0065	3.3s	17%
64	Qwen 3.6 35B	72.0%	$0.0022	12.2s	10%
65	GPT-5.4 Mini (Reasoning)	64.0%	$0.0018	4.1s	4%
66	Z.AI GLM 5.2 (Reasoning, High)	74.0%	$0.0033	10.5s	12%
67	ByteDance Seed 2.0 Lite	76.0%	$0.0018	20.6s	15%
68	Aion 3.0	74.0%	$0.0037	10.3s	12%
69	Claude Opus 4.7	80.0%	$0.0080	2.2s	20%
70	Qwen 3.5 35B	82.0%	$0.0051	17.7s	23%
71	Claude Opus 4.8 (Reasoning)	80.0%	$0.0079	3.2s	20%
72	Grok 4.3 (Reasoning)	80.0%	$0.0038	20.2s	20%
73	Gemma 3 12B	52.0%	$0.0000	4.1s	0%
74	Z.AI GLM 4.7 Flash	70.0%	$0.0005	21.5s	8%
75	MiniMax M2.7	56.0%	$0.0006	6.8s	1%
76	MiniMax M3	56.0%	$0.0004	7.8s	1%
77	Qwen 3.6 Flash	68.0%	$0.0031	10.1s	7%
78	Claude Opus 4.5	70.0%	$0.0055	2.9s	8%
79	Hermes 3 405B	58.0%	$0.0000	13.3s	1%
80	Mistral Small 4 (Reasoning)	48.0%	$0.0004	4.2s	0%
81	DeepSeek V3.2	50.0%	$0.0002	6.7s	0%
82	GPT-4o Mini (temp=1)	60.0%	$0.0001	15.0s	2%
83	GPT-5.4 Mini (Reasoning, Low)	48.0%	$0.0010	2.2s	0%
84	Qwen 3.5 Flash	70.0%	$0.0012	22.0s	8%
85	Ministral 3 8B	40.0%	$0.0001	1.2s	0%
86	Cydonia 24B V4.1	44.0%	$0.0001	3.6s	0%
87	GPT-4.1 Nano	40.0%	$0.0001	2.0s	0%
88	GPT-5.4 Nano (Reasoning, Low)	40.0%	$0.0002	1.4s	0%
89	GPT-5.2	54.0%	$0.0025	2.1s	0%
90	GPT-5.4 (Reasoning, Low)	58.0%	$0.0034	3.2s	1%
91	GPT-5.5 (Reasoning)	76.0%	$0.0083	4.6s	15%
92	GPT-5.1	64.0%	$0.0041	6.9s	4%
93	MiniMax M2.5	48.0%	$0.0006	7.7s	0%
94	GPT-5.4 Mini	40.0%	$0.0009	1.1s	0%
95	Aion 2.0	66.0%	$0.0015	20.9s	5%
96	Z.AI GLM 5.1	82.0%	$0.0045	33.2s	23%
97	WizardLM 2 8x22b	42.0%	$0.0004	7.6s	0%
98	o4 Mini	60.0%	$0.0036	8.6s	2%
99	Nemotron 3 Super	42.0%	$0.0000	9.8s	0%
100	Gemma 3 4B	30.0%	$0.0000	1.9s	0%
101	GPT-5.4 Nano	30.0%	$0.0002	1.4s	0%
102	Gemini 2.5 Flash (Reasoning)	38.0%	$0.0014	2.7s	0%
103	GPT-5.5	60.0%	$0.0058	2.3s	2%
104	Gemma 3 27B	30.0%	$0.0001	5.0s	0%
105	Inception Mercury 2	26.0%	$0.0004	823ms	0%
106	GPT-5.4 Nano (Reasoning)	24.0%	$0.0003	1.5s	0%
107	Qwen 3.6 27B	76.0%	$0.0056	25.4s	15%
108	Gemma 4 26B (Reasoning)	60.0%	$0.0003	27.8s	2%
109	Ministral 3 14B	20.0%	$0.0001	1.5s	0%
110	Mistral NeMO	22.0%	$0.0001	3.2s	0%
111	Z.AI GLM 4.5 Air	36.0%	$0.0005	11.1s	0%
112	Mistral Medium 3.1	22.0%	$0.0004	3.2s	0%
113	Qwen 3.5 27B	66.0%	$0.0044	20.4s	5%
114	GPT-5.4	34.0%	$0.0030	2.0s	0%
115	Qwen 2.5 72B	20.0%	$0.0002	4.9s	0%
116	Qwen 3 32B	50.0%	$0.0006	24.6s	0%
117	GPT-OSS 120B	38.0%	$0.0003	18.0s	0%
118	Aion 3.0 Mini	56.0%	$0.0015	25.7s	1%
119	GPT-5 Nano	44.0%	$0.0007	21.1s	0%
120	Ministral 3B	10.0%	$0.0000	1.1s	0%
121	ByteDance Seed 2.0 Mini	64.0%	$0.0007	37.7s	4%
122	Claude Opus 4	86.0%	$0.017	7.0s	31%
123	Ministral 8B	8.0%	$0.0001	1.5s	0%
124	Qwen3.6 Max Preview	96.0%	$0.014	46.9s	61%
125	Nemotron 3 Nano	22.0%	$0.0002	13.0s	0%
126	Qwen 3.5 Plus (2026-04-20)	64.0%	$0.0042	29.1s	4%
127	Ministral 3 3B	0.0%	$0.0001	835ms	0%
128	Z.AI GLM 5	56.0%	$0.0035	26.7s	1%
129	Arcee AI: Trinity Mini	8.0%	$0.0001	8.1s	0%
130	Qwen 3.5 9B	76.0%	$0.0007	1.1m	15%
131	Gemini 3.1 Pro (Preview)	74.0%	$0.013	12.9s	12%
132	MoonshotAI: Kimi K2.5	50.0%	$0.0040	30.8s	0%
133	Z.AI GLM 4.6	54.0%	$0.0025	39.8s	0%
134	GPT-5	58.0%	$0.011	19.2s	1%
135	Gemini 2.5 Pro	40.0%	$0.011	8.4s	0%
136	DeepSeek V4 Pro (Reasoning)	70.0%	$0.0039	1.1m	8%
137	Qwen 3.5 397B A17B	82.0%	$0.0086	1.1m	23%
138	Z.AI GLM 4.7	60.0%	$0.0027	1.1m	2%
139	o4 Mini High	58.0%	$0.0052	58.3s	1%
140	MoonshotAI: Kimi K2.6	50.0%	$0.0066	1.1m	0%
65.36%

Individual Scenarios

▼

Multiple speakers

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	0	90.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	0	90.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	0	0	80.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	0	0	80.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100	0	0	80.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	0	0	0	70.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	0	0	0	70.0%
Aion 2.0	100	100	100	100	100	100	100	0	0	0	70.0%
DeepSeek V3.1	100	100	100	100	100	100	100	0	0	0	70.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	0	0	0	0	60.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	0	0	0	0	60.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	0	0	0	0	60.0%
Z.AI GLM 5	100	100	100	100	100	100	0	0	0	0	60.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	0	0	0	0	60.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	0	0	0	0	60.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	0	0	0	0	0	50.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen 3.5 27B	100	100	100	100	100	0	0	0	0	0	50.0%
Claude Opus 4.5	100	100	100	100	100	0	0	0	0	0	50.0%
Z.AI GLM 4.6	100	100	100	100	100	0	0	0	0	0	50.0%
Xiaomi MIMO v2.5	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V4 Pro	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	0	0	0	0	0	50.0%
Gemma 3 12B	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	0	0	0	0	0	0	40.0%
Aion 3.0	100	100	100	100	0	0	0	0	0	0	40.0%
Gemini 2.5 Pro	100	100	100	100	0	0	0	0	0	0	40.0%
Z.AI GLM 4.7	100	100	100	100	0	0	0	0	0	0	40.0%
Qwen 3.6 35B	100	100	100	100	0	0	0	0	0	0	40.0%
Qwen 3.5 9B	100	100	100	100	0	0	0	0	0	0	40.0%
Qwen 3.6 27B	100	100	100	0	0	0	0	0	0	0	30.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
Qwen 3.5 35B	100	100	100	0	0	0	0	0	0	0	30.0%
MiniMax M2.5	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 3.1 Flash Lite	100	100	100	0	0	0	0	0	0	0	30.0%
Z.AI GLM 4.7 Flash	100	100	100	0	0	0	0	0	0	0	30.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	0	0	0	0	0	0	0	30.0%
Grok 4.3	100	100	100	0	0	0	0	0	0	0	30.0%
MoonshotAI: Kimi K2.6	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.4 (Reasoning, Low)	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.1	100	100	0	0	0	0	0	0	0	0	20.0%
Qwen 3.5 Plus (2026-04-20)	100	100	0	0	0	0	0	0	0	0	20.0%
ByteDance Seed 2.0 Mini	100	100	0	0	0	0	0	0	0	0	20.0%
Qwen 3.5 Flash	100	100	0	0	0	0	0	0	0	0	20.0%
Qwen3 235B A22B Instruct 2507	100	100	0	0	0	0	0	0	0	0	20.0%
ByteDance Seed 1.6 Flash	100	100	0	0	0	0	0	0	0	0	20.0%
Cohere Command R+ (Aug. 2024)	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.5 (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
MoonshotAI: Kimi K2.5	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.4 Mini (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.2	100	0	0	0	0	0	0	0	0	0	10.0%
Qwen 3.6 Flash	100	0	0	0	0	0	0	0	0	0	10.0%
MiniMax M2.7	100	0	0	0	0	0	0	0	0	0	10.0%
Gemini 3.1 Flash Lite (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
Z.AI GLM 4.5	100	0	0	0	0	0	0	0	0	0	10.0%
Aion 3.0 Mini	100	0	0	0	0	0	0	0	0	0	10.0%
Gemini 2.5 Flash Lite	100	0	0	0	0	0	0	0	0	0	10.0%
Cydonia 24B V4.1	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.5 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
MiniMax M3	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5	0	0	0	0	0	0	0	0	0	0	0.0%
o4 Mini High	0	0	0	0	0	0	0	0	0	0	0.0%
o4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0	0	0	0	0	0.0%
Nemotron 3 Super	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3 32B	0	0	0	0	0	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 4	0	0	0	0	0	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Simple

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	0	90.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	100	0	90.0%
Mistral Small 4	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	0	0	80.0%
Aion 3.0	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	0	0	80.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	0	0	80.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	0	0	80.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
GPT-5 Mini	100	100	100	100	100	100	100	0	0	0	70.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
Mistral Large 2	100	100	100	100	100	100	100	0	0	0	70.0%
Grok 4.3	100	100	100	100	100	100	100	0	0	0	70.0%
Llama 3.1 70B	100	100	100	100	100	100	100	0	0	0	70.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 122B	100	100	100	100	100	100	0	0	0	0	60.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	0	0	0	0	60.0%
Qwen 3.6 35B	100	100	100	100	100	100	0	0	0	0	60.0%
Aion 2.0	100	100	100	100	100	100	0	0	0	0	60.0%
MiniMax M2.7	100	100	100	100	100	100	0	0	0	0	60.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	0	0	0	0	60.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	0	0	0	0	60.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	0	0	0	0	60.0%
Gemini 2.5 Flash	100	100	100	100	100	100	0	0	0	0	60.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	0	0	0	0	60.0%
Hermes 3 70B	100	100	100	100	100	100	0	0	0	0	60.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	0	0	0	0	0	50.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen 3.5 397B A17B	100	100	100	100	100	0	0	0	0	0	50.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen 3.5 27B	100	100	100	100	100	0	0	0	0	0	50.0%
MiniMax M2.5	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V3.2	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen 3 32B	100	100	100	100	100	0	0	0	0	0	50.0%
GPT-5.2	100	100	100	100	0	0	0	0	0	0	40.0%
GPT-5.5	100	100	100	100	0	0	0	0	0	0	40.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	0	0	0	0	0	40.0%
Gemma 3 4B	100	100	100	100	0	0	0	0	0	0	40.0%
Z.AI GLM 5 Turbo	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
Z.AI GLM 4.6	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 3 Flash (Preview)	100	100	100	0	0	0	0	0	0	0	30.0%
Mistral Small 4 (Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
MiniMax M3	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.4 Mini (Reasoning)	100	100	0	0	0	0	0	0	0	0	20.0%
Z.AI GLM 5	100	100	0	0	0	0	0	0	0	0	20.0%
DeepSeek V4 Pro (Reasoning)	100	100	0	0	0	0	0	0	0	0	20.0%
Gemma 4 26B (Reasoning)	100	100	0	0	0	0	0	0	0	0	20.0%
o4 Mini High	100	100	0	0	0	0	0	0	0	0	20.0%
Gemini 2.5 Pro	100	100	0	0	0	0	0	0	0	0	20.0%
Z.AI GLM 4.7	100	100	0	0	0	0	0	0	0	0	20.0%
o4 Mini	100	100	0	0	0	0	0	0	0	0	20.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	0	0	0	0	0	0	0	0	20.0%
Aion 3.0 Mini	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	0	0	0	0	0	0	0	0	20.0%
Gemma 3 27B	100	100	0	0	0	0	0	0	0	0	20.0%
Ministral 3B	100	100	0	0	0	0	0	0	0	0	20.0%
Claude Opus 4.7 (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
Gemini 2.5 Flash (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
Claude Haiku 4.5	100	0	0	0	0	0	0	0	0	0	10.0%
Nemotron 3 Super	100	0	0	0	0	0	0	0	0	0	10.0%
Cydonia 24B V4.1	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.4 Nano	100	0	0	0	0	0	0	0	0	0	10.0%
WizardLM 2 8x22b	100	0	0	0	0	0	0	0	0	0	10.0%
Arcee AI: Trinity Mini	100	0	0	0	0	0	0	0	0	0	10.0%
Ministral 8B	100	0	0	0	0	0	0	0	0	0	10.0%
MoonshotAI: Kimi K2.6	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
MoonshotAI: Kimi K2.5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.1	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-OSS 120B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
Inception Mercury 2	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Simple (1-shot)

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	0	90.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	100	0	90.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.3	100	100	100	100	100	100	100	100	100	0	90.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	0	90.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100	100	0	90.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	0	0	80.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
MiniMax M3	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-5.2	100	100	100	100	100	100	100	100	0	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-5.4	100	100	100	100	100	100	100	100	0	0	80.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100	0	0	80.0%
Mistral Large 2	100	100	100	100	100	100	100	100	0	0	80.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	0	0	0	70.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	0	0	0	70.0%
Aion 3.0	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	0	0	0	70.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	0	0	0	70.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	0	0	0	70.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3 32B	100	100	100	100	100	100	100	0	0	0	70.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	0	0	0	70.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	0	0	0	0	60.0%
Qwen 3.6 Flash	100	100	100	100	100	100	0	0	0	0	60.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	0	0	0	0	60.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	0	0	0	0	60.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	0	0	0	0	60.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	0	0	0	0	0	50.0%
Z.AI GLM 4.7	100	100	100	100	100	0	0	0	0	0	50.0%
MiniMax M2.5	100	100	100	100	100	0	0	0	0	0	50.0%
Aion 2.0	100	100	100	100	100	0	0	0	0	0	50.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	0	0	0	0	0	50.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	0	0	0	0	0	50.0%
Gemma 4 26B	100	100	100	100	100	0	0	0	0	0	50.0%
GPT-OSS 120B	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V3.2	100	100	100	100	100	0	0	0	0	0	50.0%
Nemotron 3 Super	100	100	100	100	100	0	0	0	0	0	50.0%
MoonshotAI: Kimi K2.6	100	100	100	100	0	0	0	0	0	0	40.0%
Qwen 3.5 27B	100	100	100	100	0	0	0	0	0	0	40.0%
GPT-5 Nano	100	100	100	100	0	0	0	0	0	0	40.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	0	0	0	0	0	0	40.0%
Mistral NeMO	100	100	100	100	0	0	0	0	0	0	40.0%
Z.AI GLM 5	100	100	100	0	0	0	0	0	0	0	30.0%
Gemma 4 26B (Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
Z.AI GLM 4.6	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
MiniMax M2.7	100	100	0	0	0	0	0	0	0	0	20.0%
Mistral Medium 3.1	100	100	0	0	0	0	0	0	0	0	20.0%
Ministral 3B	100	100	0	0	0	0	0	0	0	0	20.0%
Gemini 2.5 Pro	100	0	0	0	0	0	0	0	0	0	10.0%
Inception Mercury 2	100	0	0	0	0	0	0	0	0	0	10.0%
Nemotron 3 Nano	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.4 Nano	100	0	0	0	0	0	0	0	0	0	10.0%
Gemma 3 4B	100	0	0	0	0	0	0	0	0	0	10.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Simple (5-shot)

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M3	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 4	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	0	90.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	0	90.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.4	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	0	90.0%
Cydonia 24B V4.1	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	0	0	80.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	0	0	80.0%
Aion 3.0	100	100	100	100	100	100	100	100	0	0	80.0%
o4 Mini	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	0	0	80.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	0	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	100	0	0	80.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
Qwen 3 32B	100	100	100	100	100	100	100	100	0	0	80.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	0	0	80.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	0	0	0	70.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	0	0	0	70.0%
Z.AI GLM 5	100	100	100	100	100	100	100	0	0	0	70.0%
o4 Mini High	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	0	0	0	70.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	0	0	0	70.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	0	0	0	70.0%
DeepSeek V3.2	100	100	100	100	100	100	100	0	0	0	70.0%
DeepSeek V4 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100	100	0	0	0	70.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	0	0	0	70.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	0	0	0	70.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	0	0	0	0	60.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	0	0	0	0	60.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	0	0	0	0	60.0%
Z.AI GLM 4.6	100	100	100	100	100	100	0	0	0	0	60.0%
Aion 2.0	100	100	100	100	100	100	0	0	0	0	60.0%
Mistral NeMO	100	100	100	100	100	100	0	0	0	0	60.0%
Nemotron 3 Super	100	100	100	100	100	0	0	0	0	0	50.0%
GPT-OSS 120B	100	100	100	100	0	0	0	0	0	0	40.0%
Gemini 2.5 Pro	100	100	100	0	0	0	0	0	0	0	30.0%
ByteDance Seed 2.0 Lite	100	100	100	0	0	0	0	0	0	0	30.0%
Gemma 3 27B	100	100	100	0	0	0	0	0	0	0	30.0%
Ministral 8B	100	100	100	0	0	0	0	0	0	0	30.0%
Gemini 2.5 Flash (Reasoning)	100	100	0	0	0	0	0	0	0	0	20.0%
Inception Mercury 2	100	100	0	0	0	0	0	0	0	0	20.0%
MiniMax M2.5	100	0	0	0	0	0	0	0	0	0	10.0%
Nemotron 3 Nano	100	0	0	0	0	0	0	0	0	0	10.0%
Ministral 3B	100	0	0	0	0	0	0	0	0	0	10.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Unattributed dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V4 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
Aion 2.0	100	100	100	100	100	100	100	100	100	0	90.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100	100	100	100	0	90.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	0	90.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	0	90.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
MiniMax M3	100	100	100	100	100	100	100	100	0	0	80.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	0	0	80.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	0	0	80.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	100	100	100	0	0	80.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	0	0	80.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	0	0	0	70.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	0	0	0	70.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	0	0	0	70.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	0	0	0	70.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	0	0	0	70.0%
GPT-5.5	100	100	100	100	100	100	0	0	0	0	60.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	0	0	0	0	60.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	0	0	0	0	60.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	0	0	0	0	60.0%
Grok 4.20	100	100	100	100	100	100	0	0	0	0	60.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	0	0	0	0	60.0%
GPT-5.2	100	100	100	100	100	0	0	0	0	0	50.0%
DeepSeek V3.1	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen 3 32B	100	100	100	100	100	0	0	0	0	0	50.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	0	0	0	0	0	50.0%
Claude Sonnet 4.5	100	100	100	100	0	0	0	0	0	0	40.0%
ByteDance Seed 2.0 Mini	100	100	100	100	0	0	0	0	0	0	40.0%
DeepSeek V4 Flash	100	100	100	100	0	0	0	0	0	0	40.0%
Z.AI GLM 4.5 Air	100	100	100	100	0	0	0	0	0	0	40.0%
Claude Opus 4	100	100	100	0	0	0	0	0	0	0	30.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	0	0	0	0	0	0	0	30.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	0	0	0	0	0	0	0	30.0%
GPT-5.4 Nano	100	100	100	0	0	0	0	0	0	0	30.0%
Arcee AI: Trinity Mini	100	100	100	0	0	0	0	0	0	0	30.0%
Cydonia 24B V4.1	100	100	0	0	0	0	0	0	0	0	20.0%
Claude Opus 4.8 (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
Claude Opus 4.8 (Reasoning, Low)	100	0	0	0	0	0	0	0	0	0	10.0%
Grok 4.3	100	0	0	0	0	0	0	0	0	0	10.0%
Gemma 3 12B	100	0	0	0	0	0	0	0	0	0	10.0%
Mistral Small 4	100	0	0	0	0	0	0	0	0	0	10.0%
Mistral NeMO	100	0	0	0	0	0	0	0	0	0	10.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.2	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0	0	0	0	0	0.0%

Matches Regex

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Multiple speakers

Simple

Simple (1-shot)

Simple (5-shot)

Unattributed dialogue