Voice/dialogue sheets

Extract dialogue from given text as voice sheets.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Sonnet 4.6	100%
Claude Sonnet 4	100%
Gemma 4 31B	100%
Claude 3.7 Sonnet	100%
Qwen3.6 Max Preview	96%
GPT-4.1	96%
GPT-4o, May 13th (temp=0)	96%
ByteDance Seed 1.6	94%
Gemma 4 31B (Reasoning)	92%
Grok 4.20 (Reasoning)	92%
GPT-4o, Aug. 6th (temp=0)	92%
Claude Sonnet 4.6 (Reasoning)	90%
GPT-4o, May 13th (temp=1)	90%
Qwen 3.5 122B	88%
Gemma 4 26B	88%
Gemini 2.5 Flash	88%
Claude Opus 4	86%
Qwen 3.5 Plus (2026-02-15)	86%

	Score	Cost	Time
Stealth: Healer Alpha	76%	$0.0000	5.0s
DeepSeek V4 Flash	62%	$0.0001	3.7s
Gemini 2.5 Flash Lite	66%	$0.0001	610ms
Mistral Small 3.2 24B	72%	$0.0001	2.1s
Stealth: Hunter Alpha	70%	$0.0000	18.7s
Mistral Small 4	60%	$0.0001	1.3s
GPT-4o Mini (temp=0)	60%	$0.0001	3.7s
Llama 3.1 8B	54%	$0.0001	919ms
Gemma 4 26B	88%	$0.0001	4.5s
Qwen3 235B A22B Instruct 2507	72%	$0.0001	4.9s
DeepSeek-V2 Chat	80%	$0.0001	8.2s
Gemma 4 31B	100%	$0.0001	8.3s
Gemma 3 12B	52%	$0.0000	4.1s
DeepSeek V4 Flash (Reasoning)	78%	$0.0002	20.6s
Z.AI GLM 4.5	76%	$0.0004	5.3s
Hermes 3 405B	58%	$0.0000	13.3s
Gemini 3.1 Flash Lite (Reasoning)	78%	$0.0003	1.4s
Gemini 3.1 Flash Lite (Preview)	70%	$0.0003	979ms
DeepSeek V3 (2025-03-24)	84%	$0.0003	6.1s
ByteDance Seed 1.6 Flash	66%	$0.0002	4.5s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
Claude Sonnet 4	100%	100%	100%
Gemma 4 31B	100%	100%	100%
Claude 3.7 Sonnet	100%	100%	100%
Qwen3.6 Max Preview	96%	61%	61%
GPT-4.1	96%	61%	61%
GPT-4o, May 13th (temp=0)	96%	61%	61%
ByteDance Seed 1.6	94%	53%	53%
Gemma 4 31B (Reasoning)	92%	46%	46%
Grok 4.20 (Reasoning)	92%	46%	46%
GPT-4o, Aug. 6th (temp=0)	92%	46%	46%
Claude Sonnet 4.6 (Reasoning)	90%	40%	40%
GPT-4o, May 13th (temp=1)	90%	40%	40%
Gemma 4 26B	88%	35%	35%
Qwen 3.5 122B	88%	35%	35%
Gemini 2.5 Flash	88%	35%	35%
Claude Opus 4	86%	31%	31%
Qwen 3.5 Plus (2026-02-15)	86%	31%	31%

	Score	Cost	Speed	Stability
Gemma 4 31B	100%	$0.0001	8.3s	100%
Claude Sonnet 4.6	100%	$0.0033	1.9s	100%
Claude Sonnet 4	100%	$0.0033	2.8s	100%
Claude 3.7 Sonnet	100%	$0.0034	3.5s	100%
Claude Opus 4.6	100%	$0.0055	3.9s	100%
Claude Opus 4.6 (Reasoning)	100%	$0.0060	3.1s	100%
GPT-4.1	96%	$0.0017	2.6s	61%
GPT-4o, May 13th (temp=0)	96%	$0.0037	5.2s	61%
GPT-4o, Aug. 6th (temp=0)	92%	$0.0022	2.4s	46%
Gemini 2.5 Flash	88%	$0.0005	933ms	35%
ByteDance Seed 1.6	94%	$0.0013	14.2s	53%
Gemma 4 26B	88%	$0.0001	4.5s	35%
Qwen 3.5 Plus (2026-02-15)	86%	$0.0005	6.6s	31%
Grok 4 Fast	84%	$0.0003	3.6s	27%
Grok 4.1 Fast	84%	$0.0004	4.4s	27%
GPT-4o, May 13th (temp=1)	90%	$0.0037	5.2s	40%
DeepSeek V3 (2025-03-24)	84%	$0.0003	6.1s	27%
Grok 4.20 (Reasoning)	92%	$0.0035	12.9s	46%
Claude Haiku 4.5	82%	$0.0011	1.6s	23%
Gemini 3 Flash (Preview)	80%	$0.0006	1.8s	20%

Model	Total ▼	Simple	Simple (1-shot)	Simple (5-shot)	Multiple speakers	Unattributed dialogue
Claude Opus 4.6 (Reasoning)	100%	100%	100%	100%	100%	100%
Claude Opus 4.6	100%	100%	100%	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%	100%	100%	100%
Claude Sonnet 4	100%	100%	100%	100%	100%	100%
Gemma 4 31B	100%	100%	100%	100%	100%	100%
Claude 3.7 Sonnet	100%	100%	100%	100%	100%	100%
Qwen3.6 Max Preview	96%	90%	100%	100%	90%	100%
GPT-4.1	96%	90%	100%	100%	90%	100%
GPT-4o, May 13th (temp=0)	96%	100%	100%	100%	80%	100%
ByteDance Seed 1.6	94%	90%	100%	100%	80%	100%
Gemma 4 31B (Reasoning)	92%	90%	90%	100%	80%	100%
Grok 4.20 (Reasoning)	92%	100%	100%	100%	60%	100%
GPT-4o, Aug. 6th (temp=0)	92%	100%	100%	100%	60%	100%
Claude Sonnet 4.6 (Reasoning)	90%	100%	90%	60%	100%	100%
GPT-4o, May 13th (temp=1)	90%	90%	100%	70%	90%	100%

Simple

Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
Claude Opus 4.6	100%
Grok 4.20 (Reasoning)	100%
Claude Sonnet 4.6	100%
Claude Sonnet 4	100%
Claude Opus 4	100%
Gemma 4 31B	100%
Z.AI GLM 4.5	100%
Qwen 3.5 Plus (2026-02-15)	100%
Gemini 3.1 Flash Lite (Preview)	100%
Gemma 4 26B	100%
Mistral Large 3	100%
GPT-4o, May 13th (temp=0)	100%
DeepSeek-V2 Chat	100%
Claude 3.5 Sonnet	100%
Grok 4.20 (Beta)	100%
DeepSeek V3 (2024-12-26)	100%
Claude 3.7 Sonnet	100%

	Score	Cost	Time
Gemini 2.5 Flash Lite	90%	$0.0000	446ms
Mistral Small 4	90%	$0.0001	1.2s
Gemini 3.1 Flash Lite	90%	$0.0001	772ms
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	808ms
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0001	871ms
Qwen3 235B A22B Instruct 2507	90%	$0.0000	1.7s
DeepSeek V4 Flash	100%	$0.0000	6.6s
Gemini 2.5 Flash	60%	$0.0002	697ms
Llama 3.1 70B	70%	$0.0002	1.1s
Gemma 4 26B	100%	$0.0000	3.3s
Mistral Large 3	100%	$0.0001	1.4s
GPT-4.1 Mini	90%	$0.0001	2.4s
Mistral Small 3.2 24B	60%	$0.0000	1.6s
DeepSeek V3 (2024-12-26)	100%	$0.0001	2.4s
Grok 4.20	100%	$0.0003	871ms
Grok 4 Fast	80%	$0.0002	2.3s
Grok 4.20 (Beta)	100%	$0.0005	613ms
Gemma 4 31B	100%	$0.0000	4.2s
GPT-4o Mini (temp=0)	100%	$0.0001	3.1s
Z.AI GLM 4.5	100%	$0.0001	2.7s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
Claude Sonnet 4	100%	100%	100%
Claude Opus 4	100%	100%	100%
Gemma 4 31B	100%	100%	100%
Z.AI GLM 4.5	100%	100%	100%
Qwen 3.5 Plus (2026-02-15)	100%	100%	100%
Gemini 3.1 Flash Lite (Preview)	100%	100%	100%
Gemma 4 26B	100%	100%	100%
Mistral Large 3	100%	100%	100%
GPT-4o, May 13th (temp=0)	100%	100%	100%
DeepSeek-V2 Chat	100%	100%	100%
Claude 3.5 Sonnet	100%	100%	100%
Grok 4.20 (Beta)	100%	100%	100%
DeepSeek V3 (2024-12-26)	100%	100%	100%
Claude 3.7 Sonnet	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 3.1 Flash Lite (Preview)	100%	$0.0001	808ms	100%
Mistral Large 3	100%	$0.0001	1.4s	100%
Grok 4.20	100%	$0.0003	871ms	100%
Grok 4.20 (Beta)	100%	$0.0005	613ms	100%
DeepSeek V3 (2024-12-26)	100%	$0.0001	2.4s	100%
Z.AI GLM 4.5	100%	$0.0001	2.7s	100%
GPT-4o Mini (temp=0)	100%	$0.0001	3.1s	100%
Gemma 4 26B	100%	$0.0000	3.3s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0002	3.6s	100%
Gemma 4 31B	100%	$0.0000	4.2s	100%
DeepSeek-V2 Chat	100%	$0.0000	4.3s	100%
GPT-4o, Aug. 6th (temp=0)	100%	$0.0009	1.5s	100%
GPT-4o, Aug. 6th (temp=1)	100%	$0.0009	1.5s	100%
Claude Sonnet 4.6	100%	$0.0013	1.4s	100%
Claude Sonnet 4	100%	$0.0013	2.1s	100%
DeepSeek V4 Flash	100%	$0.0000	6.6s	100%
Writer: Palmyra X5	100%	$0.0004	5.9s	100%
Claude 3.7 Sonnet	100%	$0.0016	2.3s	100%
GPT-4o, May 13th (temp=0)	100%	$0.0014	3.9s	100%
Claude 3.5 Sonnet	100%	$0.0015	4.0s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
21	Claude Opus 4.6 (Reasoning)	$0.0023	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Claude Sonnet 4.6 (Reasoning)	$0.0029	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-5.5 (Reasoning, Low)	$0.0039	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Claude Opus 4.6	$0.0022	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Grok 4.20 (Reasoning)	$0.0028	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Claude Sonnet 4.6	$0.0013	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Claude Sonnet 4	$0.0013	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Opus 4	$0.0066	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemma 4 31B	$0.0000	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Z.AI GLM 4.5	$0.0001	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Qwen 3.5 Plus (2026-02-15)	$0.0002	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 3.1 Flash Lite (Preview)	$0.0001	808ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemma 4 26B	$0.0000	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Mistral Large 3	$0.0001	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-4o, May 13th (temp=0)	$0.0014	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	DeepSeek-V2 Chat	$0.0000	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Claude 3.5 Sonnet	$0.0015	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Grok 4.20 (Beta)	$0.0005	613ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	DeepSeek V3 (2024-12-26)	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Claude 3.7 Sonnet	$0.0016	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Hermes 3 405B	$0.0000	11.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-4o, Aug. 6th (temp=1)	$0.0009	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-4o, Aug. 6th (temp=0)	$0.0009	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	DeepSeek V4 Flash	$0.0000	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Grok 4.20	$0.0003	871ms	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Writer: Palmyra X5	$0.0004	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-4o Mini (temp=1)	$0.0001	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-4o Mini (temp=0)	$0.0001	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
84	Qwen3.6 Max Preview	$0.013	45.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
47	Z.AI GLM 5.1	$0.0032	27.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
44	Gemma 4 31B (Reasoning)	$0.0002	28.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
40	ByteDance Seed 1.6	$0.0011	13.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
37	GPT-4.1	$0.0007	1.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
39	Stealth: Hunter Alpha	$0.0000	10.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
31	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	871ms	40%	100	100	100	100	100	100	100	100	100	0	90%
30	Gemini 3.1 Flash Lite	$0.0001	772ms	40%	100	100	100	100	100	100	100	100	100	0	90%
41	ByteDance Seed 2.0 Lite	$0.0016	18.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
38	GPT-4o, May 13th (temp=1)	$0.0014	3.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
34	GPT-4.1 Mini	$0.0001	2.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
36	DeepSeek V3.1	$0.0001	3.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
35	DeepSeek V3 (2025-03-24)	$0.0001	3.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
29	Gemini 2.5 Flash Lite	$0.0000	446ms	40%	100	100	100	100	100	100	100	100	100	0	90%
33	Qwen3 235B A22B Instruct 2507	$0.0000	1.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
32	Mistral Small 4	$0.0001	1.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
49	Qwen 3.6 Flash	$0.0027	8.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
63	Qwen 3.6 27B	$0.0046	26.0s	20%	100	100	100	100	100	100	100	100	0	0	80%
45	Grok 4.1 Fast	$0.0003	5.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
46	Claude Sonnet 4.5	$0.0014	2.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
61	Qwen 3.5 35B	$0.0052	18.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
42	Grok 4 Fast	$0.0002	2.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
82	Qwen 3.5 9B	$0.0006	59.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
48	DeepSeek V4 Pro	$0.0002	14.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
43	Cohere Command R+ (Aug. 2024)	$0.0009	1.8s	20%	100	100	100	100	100	100	100	100	0	0	80%
62	GPT-5.5 (Reasoning)	$0.0053	4.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
60	GPT-5 Mini	$0.0015	13.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
76	Grok 4.20 (Beta, Reasoning)	$0.0065	16.4s	8%	100	100	100	100	100	100	100	0	0	0	70%
54	DeepSeek V4 Flash (Reasoning)	$0.0001	6.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
77	Qwen 3.5 Flash	$0.0014	36.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
70	Z.AI GLM 4.7 Flash	$0.0004	29.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
53	Mistral Large 2	$0.0007	2.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
51	Grok 4.3	$0.0004	1.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
50	Llama 3.1 70B	$0.0002	1.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
52	ByteDance Seed 1.6 Flash	$0.0002	4.4s	8%	100	100	100	100	100	100	100	0	0	0	70%
103	Qwen 3.5 122B	$0.0086	19.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
86	Qwen 3.5 Plus (2026-04-20)	$0.0035	23.2s	2%	100	100	100	100	100	100	0	0	0	0	60%
73	Aion 2.0	$0.0012	16.8s	2%	100	100	100	100	100	100	0	0	0	0	60%
59	MiniMax M2.7	$0.0004	4.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
69	Qwen 3.6 35B	$0.0017	12.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
67	Xiaomi MIMO v2.5 Pro	$0.0018	9.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
89	ByteDance Seed 2.0 Mini	$0.0006	35.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
64	Xiaomi MIMO v2.5	$0.0014	7.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
55	Gemini 2.5 Flash	$0.0002	697ms	2%	100	100	100	100	100	100	0	0	0	0	60%
56	Mistral Small 3.2 24B	$0.0000	1.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
57	Hermes 3 70B	$0.0001	2.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
58	Rocinante 12B	$0.0001	3.5s	2%	100	100	100	100	100	100	0	0	0	0	60%
127	Gemini 3.1 Pro (Preview)	$0.011	12.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
90	Grok 4.3 (Reasoning)	$0.0033	16.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
81	GPT-5.4 (Reasoning)	$0.0040	6.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
147	Qwen 3.5 397B A17B	$0.010	1.4m	0%	100	100	100	100	100	0	0	0	0	0	50%
97	Qwen 3.5 27B	$0.0043	20.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
65	MiniMax M2.5	$0.0003	5.2s	0%	100	100	100	100	100	0	0	0	0	0	50%
68	Stealth: Healer Alpha	$0.0000	7.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
66	DeepSeek V3.2	$0.0001	6.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
125	Qwen 3 32B	$0.0009	45.7s	0%	100	100	100	100	100	0	0	0	0	0	50%
75	GPT-5.2	$0.0011	1.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
79	GPT-5.5	$0.0025	1.7s	0%	100	100	100	100	0	0	0	0	0	0	40%
74	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	2.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
72	Gemma 3 4B	$0.0000	742ms	0%	100	100	100	100	0	0	0	0	0	0	40%
71	Llama 3.1 8B	$0.0000	526ms	0%	100	100	100	100	0	0	0	0	0	0	40%
92	Z.AI GLM 5 Turbo	$0.0024	7.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
83	Gemini 3 Flash (Preview, Reasoning)	$0.0013	2.9s	0%	100	100	100	0	0	0	0	0	0	0	30%
135	Z.AI GLM 4.6	$0.0020	32.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
146	Gemini 3 Pro (Preview)	$0.023	16.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
78	Gemini 3 Flash (Preview)	$0.0002	1.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
80	Mistral Small 4 (Reasoning)	$0.0002	2.4s	0%	100	100	100	0	0	0	0	0	0	0	30%
120	Gemma 4 26B (Reasoning)	$0.0002	19.9s	0%	100	100	0	0	0	0	0	0	0	0	20%
139	Z.AI GLM 5	$0.0035	29.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
95	GPT-5.4 Mini (Reasoning)	$0.0014	4.8s	0%	100	100	0	0	0	0	0	0	0	0	20%
114	o4 Mini High	$0.0029	8.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
138	DeepSeek V4 Pro (Reasoning)	$0.0024	30.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
144	Z.AI GLM 4.7	$0.0019	1.2m	0%	100	100	0	0	0	0	0	0	0	0	20%
137	Gemini 2.5 Pro	$0.0082	7.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
99	o4 Mini	$0.0022	5.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
91	GPT-5.4 Mini (Reasoning, Low)	$0.0006	2.8s	0%	100	100	0	0	0	0	0	0	0	0	20%
88	Gemma 3 27B	$0.0000	2.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
87	Arcee AI: Trinity Large (Preview)	$0.0000	2.1s	0%	100	100	0	0	0	0	0	0	0	0	20%
85	Ministral 3B	$0.0000	588ms	0%	100	100	0	0	0	0	0	0	0	0	20%
122	Claude Opus 4.7 (Reasoning)	$0.0036	1.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
140	Grok 4	$0.0074	11.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
101	Gemini 2.5 Flash (Reasoning)	$0.0011	2.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
98	Claude Haiku 4.5	$0.0005	1.6s	0%	100	0	0	0	0	0	0	0	0	0	10%
102	Nemotron 3 Super	$0.0000	6.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
94	Inception Mercury	$0.0001	797ms	0%	100	0	0	0	0	0	0	0	0	0	10%
96	GPT-5.4 Nano	$0.0001	1.3s	0%	100	0	0	0	0	0	0	0	0	0	10%
100	WizardLM 2 8x22b	$0.0002	5.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
131	Arcee AI: Trinity Mini	$0.0002	21.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
93	Ministral 8B	$0.0000	840ms	0%	100	0	0	0	0	0	0	0	0	0	10%
130	GPT-5.1	$0.0024	5.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	MoonshotAI: Kimi K2.6	$0.0053	49.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	GPT-5	$0.011	20.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
128	GPT-5.4 (Reasoning, Low)	$0.0018	3.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
141	MoonshotAI: Kimi K2.5	$0.0042	33.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Claude Opus 4.7	$0.0036	2.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
129	Claude Opus 4.5	$0.0025	2.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	GPT-OSS 120B	$0.0002	14.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
123	GPT-5.4	$0.0013	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
113	Inception Mercury 2	$0.0003	695ms	0%	0	0	0	0	0	0	0	0	0	0	0%
143	Stealth: Aurora Alpha	—	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
124	Z.AI GLM 4.5 Air	$0.0003	5.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
136	GPT-5 Nano	$0.0004	18.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
116	GPT-5.4 Mini	$0.0004	940ms	0%	0	0	0	0	0	0	0	0	0	0	0%
108	GPT-5.4 Nano (Reasoning)	$0.0001	962ms	0%	0	0	0	0	0	0	0	0	0	0	0%
134	Mistral Large	$0.0030	4.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
109	GPT-5.4 Nano (Reasoning, Low)	$0.0001	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
110	Gemma 3 12B	$0.0000	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
112	Mistral Medium 3.1	$0.0002	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
126	Nemotron 3 Nano	$0.0001	8.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
117	Qwen 2.5 72B	$0.0001	2.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
118	Llama 3.1 Nemotron 70B	$0.0001	3.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
105	Mistral Small Creative	$0.0000	710ms	0%	0	0	0	0	0	0	0	0	0	0	0%
107	Ministral 3 14B	$0.0000	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
111	GPT-4.1 Nano	$0.0000	1.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
106	Ministral 3 8B	$0.0000	876ms	0%	0	0	0	0	0	0	0	0	0	0	0%
119	Claude 3 Haiku	$0.0001	3.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
104	Ministral 3 3B	$0.0000	688ms	0%	0	0	0	0	0	0	0	0	0	0	0%
121	Mistral NeMO	$0.0000	4.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
115	LFM2 24B	$0.0000	2.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
51.36%

Median	Evaluator	Top 3	Flop 3
60.0%	Matches Regex	100GPT-4o, May 13th (temp=0) 100GPT-5.5 (Reasoning, Low) 100Grok 4.20 (Beta)	0GPT-5 0GPT-5.4 Nano (Reasoning, Low) 0GPT-5 Nano

Simple (1-shot)

1-shot Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Grok 4.20 (Beta, Reasoning)	100%
Grok 4.20 (Reasoning)	100%
Claude Sonnet 4.6	100%
ByteDance Seed 1.6	100%
o4 Mini High	100%
DeepSeek V4 Pro (Reasoning)	100%
Claude Opus 4.7	100%

	Score	Cost	Time
Gemma 3 12B	100%	$0.0000	1.9s
Mistral Small Creative	90%	$0.0000	877ms
Ministral 3 8B	100%	$0.0000	644ms
Stealth: Healer Alpha	100%	$0.0000	3.5s
Gemini 2.5 Flash Lite	90%	$0.0000	451ms
DeepSeek V4 Flash	100%	$0.0000	1.4s
Mistral Small 3.2 24B	100%	$0.0000	1.2s
GPT-4.1 Nano	100%	$0.0000	1.6s
Mistral Small 4	100%	$0.0001	1.1s
Llama 3.1 8B	60%	$0.0001	801ms
Gemma 4 31B	100%	$0.0001	4.7s
GPT-4o Mini (temp=0)	100%	$0.0001	3.2s
DeepSeek-V2 Chat	100%	$0.0000	4.4s
Qwen3 235B A22B Instruct 2507	100%	$0.0001	4.5s
DeepSeek V4 Flash (Reasoning)	100%	$0.0001	5.5s
GPT-5.4 Nano (Reasoning, Low)	70%	$0.0001	1.0s
Gemini 3.1 Flash Lite (Reasoning)	90%	$0.0001	778ms
Gemini 3.1 Flash Lite	80%	$0.0001	920ms
Gemini 3.1 Flash Lite (Preview)	70%	$0.0001	801ms
Claude 3 Haiku	100%	$0.0001	3.6s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
o4 Mini High	100%	100%	100%
DeepSeek V4 Pro (Reasoning)	100%	100%	100%
Claude Opus 4.7	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 3 8B	100%	$0.0000	644ms	100%
Mistral Small 3.2 24B	100%	$0.0000	1.2s	100%
DeepSeek V4 Flash	100%	$0.0000	1.4s	100%
Gemma 3 12B	100%	$0.0000	1.9s	100%
Mistral Small 4	100%	$0.0001	1.1s	100%
GPT-4.1 Nano	100%	$0.0000	1.6s	100%
Stealth: Healer Alpha	100%	$0.0000	3.5s	100%
GPT-4o Mini (temp=0)	100%	$0.0001	3.2s	100%
DeepSeek-V2 Chat	100%	$0.0000	4.4s	100%
Gemini 2.5 Flash	100%	$0.0002	666ms	100%
DeepSeek V3 (2025-03-24)	100%	$0.0001	3.0s	100%
Qwen3 235B A22B Instruct 2507	100%	$0.0001	4.5s	100%
Gemma 4 31B	100%	$0.0001	4.7s	100%
Hermes 3 70B	100%	$0.0001	3.5s	100%
GPT-4.1 Mini	100%	$0.0002	2.3s	100%
Claude 3 Haiku	100%	$0.0001	3.6s	100%
Z.AI GLM 4.5	100%	$0.0002	2.7s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0001	5.5s	100%
WizardLM 2 8x22b	100%	$0.0002	4.5s	100%
Grok 4.20	100%	$0.0004	1.0s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
48	Claude Opus 4.6 (Reasoning)	$0.0034	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Qwen3.6 Max Preview	$0.0096	34.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Z.AI GLM 5 Turbo	$0.0018	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Grok 4.3 (Reasoning)	$0.0029	15.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-5.4 (Reasoning)	$0.0023	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Claude Opus 4.7 (Reasoning)	$0.0039	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	GPT-5.5 (Reasoning)	$0.0056	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-5 Mini	$0.0014	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5.5 (Reasoning, Low)	$0.0030	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	GPT-5.1	$0.0025	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Claude Opus 4.6	$0.0027	3.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	GPT-5	$0.0091	18.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Qwen 3.5 397B A17B	$0.0062	49.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Grok 4.20 (Beta, Reasoning)	$0.0071	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Grok 4.20 (Reasoning)	$0.0035	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Claude Sonnet 4.6	$0.0016	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	ByteDance Seed 1.6	$0.0007	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
95	o4 Mini High	$0.0038	3.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
69	DeepSeek V4 Pro (Reasoning)	$0.0056	49.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude Opus 4.7	$0.0039	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Qwen 3.6 27B	$0.0041	20.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Claude Opus 4.5	$0.0027	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-5.5	$0.0029	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	DeepSeek V4 Flash (Reasoning)	$0.0001	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Claude Sonnet 4	$0.0016	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-4.1	$0.0009	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	o4 Mini	$0.0023	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Claude Sonnet 4.5	$0.0016	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Qwen 3.5 35B	$0.0051	20.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Claude Opus 4	$0.0081	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	ByteDance Seed 2.0 Mini	$0.0003	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemma 4 31B	$0.0001	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Z.AI GLM 4.5	$0.0002	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Stealth: Healer Alpha	$0.0000	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Mistral Large 3	$0.0002	9.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	GPT-4o, May 13th (temp=0)	$0.0019	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Claude Haiku 4.5	$0.0005	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	DeepSeek-V2 Chat	$0.0000	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Claude 3.5 Sonnet	$0.0016	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Grok 4.20 (Beta)	$0.0005	552ms	100%	100	100	100	100	100	100	100	100	100	100	100%
39	GPT-4o, May 13th (temp=1)	$0.0019	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Claude 3.7 Sonnet	$0.0017	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-4.1 Mini	$0.0002	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-4o, Aug. 6th (temp=1)	$0.0011	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	GPT-4o, Aug. 6th (temp=0)	$0.0011	1.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5.4 Mini	$0.0004	914ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	DeepSeek V4 Flash	$0.0000	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	DeepSeek V3 (2025-03-24)	$0.0001	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Grok 4.20	$0.0004	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemini 2.5 Flash	$0.0002	666ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Qwen3 235B A22B Instruct 2507	$0.0001	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Writer: Palmyra X5	$0.0005	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-4o Mini (temp=1)	$0.0001	14.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Mistral Small 3.2 24B	$0.0000	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemma 3 12B	$0.0000	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-4o Mini (temp=0)	$0.0001	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Mistral Small 4	$0.0001	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Hermes 3 70B	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-4.1 Nano	$0.0000	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 3 8B	$0.0000	644ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Claude 3 Haiku	$0.0001	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	WizardLM 2 8x22b	$0.0002	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
83	Claude Sonnet 4.6 (Reasoning)	$0.0034	2.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
70	Gemma 4 31B (Reasoning)	$0.0002	20.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
101	Qwen 3.5 122B	$0.0065	16.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
74	GPT-5.4 Mini (Reasoning)	$0.0012	4.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
76	Gemini 3 Flash (Preview, Reasoning)	$0.0014	3.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
77	Qwen 3.6 35B	$0.0015	9.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
58	Gemini 3.1 Flash Lite (Reasoning)	$0.0001	778ms	40%	100	100	100	100	100	100	100	100	100	0	90%
62	Grok 4 Fast	$0.0002	2.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
79	Qwen 3.5 9B	$0.0006	57.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
65	Qwen 3.5 Plus (2026-02-15)	$0.0002	5.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
67	GPT-5.4 Mini (Reasoning, Low)	$0.0005	1.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
72	Xiaomi MIMO v2.5	$0.0010	5.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
64	Hermes 3 405B	$0.0000	9.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
68	DeepSeek V4 Pro	$0.0002	7.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
61	DeepSeek V3.1	$0.0001	5.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
56	Gemini 2.5 Flash Lite	$0.0000	451ms	40%	100	100	100	100	100	100	100	100	100	0	90%
66	Grok 4.3	$0.0005	1.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
60	Llama 3.1 70B	$0.0003	946ms	40%	100	100	100	100	100	100	100	100	100	0	90%
63	ByteDance Seed 1.6 Flash	$0.0002	3.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
57	Mistral Small Creative	$0.0000	877ms	40%	100	100	100	100	100	100	100	100	100	0	90%
71	Cohere Command R+ (Aug. 2024)	$0.0011	1.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
93	Z.AI GLM 5.1	$0.0027	16.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
86	GPT-5.2	$0.0012	1.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
82	Grok 4.1 Fast	$0.0003	3.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
138	Grok 4	$0.0098	15.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
80	Gemini 3.1 Flash Lite	$0.0001	920ms	20%	100	100	100	100	100	100	100	100	0	0	80%
87	GPT-5.4	$0.0015	1.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
84	Mistral Large 2	$0.0008	2.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
81	Rocinante 12B	$0.0001	8.0s	20%	100	100	100	100	100	100	100	100	0	0	80%
110	Qwen 3.5 Plus (2026-04-20)	$0.0030	19.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
99	GPT-5.4 (Reasoning, Low)	$0.0019	2.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
96	Qwen 3.5 Flash	$0.0009	17.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
89	Gemini 3.1 Flash Lite (Preview)	$0.0001	801ms	8%	100	100	100	100	100	100	100	0	0	0	70%
91	Gemini 3 Flash (Preview)	$0.0003	1.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
90	DeepSeek V3 (2024-12-26)	$0.0001	2.4s	8%	100	100	100	100	100	100	100	0	0	0	70%
92	Z.AI GLM 4.5 Air	$0.0002	8.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
94	Qwen 3 32B	$0.0006	20.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
88	GPT-5.4 Nano (Reasoning, Low)	$0.0001	1.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
127	MoonshotAI: Kimi K2.5	$0.0042	36.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
113	Qwen 3.6 Flash	$0.0022	8.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
102	Z.AI GLM 4.7 Flash	$0.0004	17.8s	2%	100	100	100	100	100	100	0	0	0	0	60%
109	ByteDance Seed 2.0 Lite	$0.0014	15.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
100	Mistral Small 4 (Reasoning)	$0.0003	2.5s	2%	100	100	100	100	100	100	0	0	0	0	60%
98	Llama 3.1 Nemotron 70B	$0.0001	3.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
97	Llama 3.1 8B	$0.0001	801ms	2%	100	100	100	100	100	100	0	0	0	0	60%
144	Gemini 3.1 Pro (Preview)	$0.0091	8.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
116	Aion 2.0	$0.0011	19.4s	0%	100	100	100	100	100	0	0	0	0	0	50%
145	Gemini 3 Pro (Preview)	$0.010	7.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
107	MiniMax M2.5	$0.0004	5.4s	0%	100	100	100	100	100	0	0	0	0	0	50%
135	Z.AI GLM 4.7	$0.0027	1.0m	0%	100	100	100	100	100	0	0	0	0	0	50%
115	Xiaomi MIMO v2.5 Pro	$0.0015	8.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
108	GPT-OSS 120B	$0.0002	10.7s	0%	100	100	100	100	100	0	0	0	0	0	50%
104	Gemma 4 26B	$0.0000	3.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
105	Nemotron 3 Super	$0.0000	7.7s	0%	100	100	100	100	100	0	0	0	0	0	50%
106	DeepSeek V3.2	$0.0001	6.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
103	Arcee AI: Trinity Large (Preview)	$0.0000	2.4s	0%	100	100	100	100	100	0	0	0	0	0	50%
147	MoonshotAI: Kimi K2.6	$0.0071	1.4m	0%	100	100	100	100	0	0	0	0	0	0	40%
136	Qwen 3.5 27B	$0.0036	17.1s	0%	100	100	100	100	0	0	0	0	0	0	40%
114	Stealth: Hunter Alpha	$0.0000	18.2s	0%	100	100	100	100	0	0	0	0	0	0	40%
119	GPT-5 Nano	$0.0005	16.9s	0%	100	100	100	100	0	0	0	0	0	0	40%
112	GPT-5.4 Nano (Reasoning)	$0.0001	1.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
111	Mistral NeMO	$0.0000	2.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
120	Gemma 4 26B (Reasoning)	$0.0002	13.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
142	Z.AI GLM 5	$0.0035	44.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
139	Z.AI GLM 4.6	$0.0021	36.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
118	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	2.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
143	Stealth: Aurora Alpha	—	1.3s	0%	100	100	100	0	0	0	0	0	0	0	30%
140	Mistral Large	$0.0035	4.6s	0%	100	100	100	0	0	0	0	0	0	0	30%
117	Inception Mercury	$0.0001	777ms	0%	100	100	100	0	0	0	0	0	0	0	30%
123	MiniMax M2.7	$0.0004	4.8s	0%	100	100	0	0	0	0	0	0	0	0	20%
122	Mistral Medium 3.1	$0.0002	2.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
121	Ministral 3B	$0.0000	751ms	0%	100	100	0	0	0	0	0	0	0	0	20%
146	Gemini 2.5 Pro	$0.0065	6.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
126	Inception Mercury 2	$0.0003	671ms	0%	100	0	0	0	0	0	0	0	0	0	10%
128	Nemotron 3 Nano	$0.0001	9.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
125	GPT-5.4 Nano	$0.0001	1.0s	0%	100	0	0	0	0	0	0	0	0	0	10%
124	Gemma 3 4B	$0.0000	1.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
141	Gemini 2.5 Flash (Reasoning)	$0.0008	2.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Gemma 3 27B	$0.0000	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
134	Qwen 2.5 72B	$0.0001	2.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
131	Ministral 3 14B	$0.0001	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	Arcee AI: Trinity Mini	$0.0002	6.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
129	Ministral 3 3B	$0.0000	635ms	0%	0	0	0	0	0	0	0	0	0	0	0%
130	Ministral 8B	$0.0000	842ms	0%	0	0	0	0	0	0	0	0	0	0	0%
132	LFM2 24B	$0.0000	2.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
74.08%

Median	Evaluator	Top 3	Flop 3
90.0%	Matches Regex	100GPT-5 100Grok 4.20 (Beta, Reasoning) 100Claude Opus 4.5	0Gemma 3 27B 0Ministral 3 3B 0Gemini 2.5 Flash (Reasoning)

Simple (5-shot)

Few-shot Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Claude Sonnet 4.6	100%
ByteDance Seed 1.6	100%
GPT-5.4 Mini (Reasoning)	100%
Claude Opus 4.7	100%
Claude Opus 4.5	100%

	Score	Cost	Time
Gemma 3 4B	100%	$0.0000	929ms
Mistral Small Creative	100%	$0.0001	653ms
Gemini 2.5 Flash Lite	70%	$0.0001	493ms
Ministral 3 8B	100%	$0.0001	633ms
Mistral Small 3.2 24B	100%	$0.0001	1.2s
Mistral Small 4	100%	$0.0001	844ms
Llama 3.1 8B	80%	$0.0002	739ms
Ministral 3 14B	100%	$0.0002	779ms
DeepSeek V4 Flash	70%	$0.0000	1.5s
GPT-4o Mini (temp=0)	100%	$0.0002	959ms
Gemma 3 12B	100%	$0.0000	1.7s
GPT-4o Mini (temp=1)	100%	$0.0002	977ms
Mistral NeMO	60%	$0.0001	1.3s
Gemma 4 26B	90%	$0.0001	4.3s
GPT-4.1 Nano	100%	$0.0001	1.8s
GPT-5.4 Nano	100%	$0.0002	1.1s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0002	1.2s
Gemini 3.1 Flash Lite (Preview)	90%	$0.0003	754ms
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0003	838ms
Gemini 3.1 Flash Lite	80%	$0.0003	873ms

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
Claude Opus 4.7	100%	100%	100%
Claude Opus 4.5	100%	100%	100%

	Score	Cost	Speed	Stability
Mistral Small Creative	100%	$0.0001	653ms	100%
Gemma 3 4B	100%	$0.0000	929ms	100%
Ministral 3 8B	100%	$0.0001	633ms	100%
Ministral 3 14B	100%	$0.0002	779ms	100%
Mistral Small 4	100%	$0.0001	844ms	100%
GPT-4o Mini (temp=0)	100%	$0.0002	959ms	100%
GPT-4o Mini (temp=1)	100%	$0.0002	977ms	100%
Mistral Small 3.2 24B	100%	$0.0001	1.2s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0003	838ms	100%
Gemma 3 12B	100%	$0.0000	1.7s	100%
GPT-5.4 Nano	100%	$0.0002	1.1s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0002	1.2s	100%
Claude 3 Haiku	100%	$0.0003	1.1s	100%
GPT-4.1 Nano	100%	$0.0001	1.8s	100%
Mistral Large 3	100%	$0.0005	1.4s	100%
Arcee AI: Trinity Large (Preview)	100%	$0.0000	3.1s	100%
Grok 4.20 (Beta)	100%	$0.0007	601ms	100%
GPT-4.1 Mini	100%	$0.0004	1.9s	100%
Llama 3.1 70B	100%	$0.0008	993ms	100%
Z.AI GLM 4.5	100%	$0.0003	2.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
58	Claude Opus 4.6 (Reasoning)	$0.0065	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
93	Qwen3.6 Max Preview	$0.0099	31.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Z.AI GLM 5 Turbo	$0.0020	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	Grok 4.3 (Reasoning)	$0.0034	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	GPT-5.4 (Reasoning)	$0.0043	4.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Opus 4.7 (Reasoning)	$0.0083	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	GPT-5.5 (Reasoning)	$0.0087	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-5.1	$0.0028	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Claude Opus 4.6	$0.0058	2.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
106	Qwen 3.5 397B A17B	$0.0077	54.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Gemma 4 31B (Reasoning)	$0.0003	31.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Qwen 3.5 122B	$0.0057	13.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Grok 4.20 (Beta, Reasoning)	$0.0096	7.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	GPT-5.4 (Reasoning, Low)	$0.0032	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	Grok 4.20 (Reasoning)	$0.0045	16.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	Claude Sonnet 4.6	$0.0035	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	ByteDance Seed 1.6	$0.0007	7.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-5.4 Mini (Reasoning)	$0.0012	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude Opus 4.7	$0.0083	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Claude Opus 4.5	$0.0058	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Grok 4.1 Fast	$0.0004	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	GPT-5.5	$0.0057	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Claude Sonnet 4	$0.0035	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	GPT-4.1	$0.0020	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	Claude Sonnet 4.5	$0.0035	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Qwen 3.5 35B	$0.0049	17.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
91	Claude Opus 4	$0.017	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	ByteDance Seed 2.0 Mini	$0.0003	15.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemma 4 31B	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite (Reasoning)	$0.0003	838ms	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Z.AI GLM 4.5	$0.0003	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5.4 Mini (Reasoning, Low)	$0.0009	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Mistral Large 3	$0.0005	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	GPT-4o, May 13th (temp=0)	$0.0047	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Gemini 3 Flash (Preview)	$0.0006	2.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Claude Haiku 4.5	$0.0012	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	DeepSeek-V2 Chat	$0.0001	4.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 4.7 Flash	$0.0004	11.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Claude 3.5 Sonnet	$0.0035	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Grok 4.20 (Beta)	$0.0007	601ms	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude 3.7 Sonnet	$0.0036	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-4.1 Mini	$0.0004	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Hermes 3 405B	$0.0000	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	GPT-4o, Aug. 6th (temp=1)	$0.0025	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	GPT-4o, Aug. 6th (temp=0)	$0.0025	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-5.4 Mini	$0.0009	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Mistral Large 2	$0.0021	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	DeepSeek V3 (2025-03-24)	$0.0003	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Grok 4.20	$0.0010	984ms	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Mistral Large	$0.0085	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Qwen3 235B A22B Instruct 2507	$0.0001	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Writer: Palmyra X5	$0.0008	5.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 Nano (Reasoning, Low)	$0.0002	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-4o Mini (temp=1)	$0.0002	977ms	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4.3	$0.0011	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Mistral Small 3.2 24B	$0.0001	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemma 3 12B	$0.0000	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Llama 3.1 70B	$0.0008	993ms	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-4o Mini (temp=0)	$0.0002	959ms	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Mistral Small 4	$0.0001	844ms	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.4 Nano	$0.0002	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Arcee AI: Trinity Large (Preview)	$0.0000	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Mistral Small Creative	$0.0001	653ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Hermes 3 70B	$0.0004	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Ministral 3 14B	$0.0002	779ms	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-4.1 Nano	$0.0001	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 3 8B	$0.0001	633ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Claude 3 Haiku	$0.0003	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	WizardLM 2 8x22b	$0.0008	2.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Cohere Command R+ (Aug. 2024)	$0.0025	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemma 3 4B	$0.0000	929ms	100%	100	100	100	100	100	100	100	100	100	100	100%
83	GPT-5 Mini	$0.0015	10.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
94	GPT-5.5 (Reasoning, Low)	$0.0068	3.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
140	MoonshotAI: Kimi K2.6	$0.0063	58.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
116	GPT-5	$0.0096	19.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
105	Qwen 3.5 27B	$0.0048	21.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
82	Qwen 3.6 Flash	$0.0022	7.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
79	GPT-5.2	$0.0022	1.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
102	DeepSeek V4 Pro (Reasoning)	$0.0023	29.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
78	MiniMax M2.7	$0.0003	4.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
75	DeepSeek V4 Flash (Reasoning)	$0.0001	4.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
115	Z.AI GLM 4.7	$0.0026	39.9s	40%	100	100	100	100	100	100	100	100	100	0	90%
126	Grok 4	$0.013	20.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
87	Qwen 3.5 Flash	$0.0011	17.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
76	Grok 4 Fast	$0.0003	4.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
69	Gemini 3.1 Flash Lite (Preview)	$0.0003	754ms	40%	100	100	100	100	100	100	100	100	100	0	90%
74	Gemma 4 26B	$0.0001	4.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
71	Gemini 2.5 Flash Lite (Reasoning)	$0.0002	2.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
81	GPT-5.4	$0.0029	1.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
72	DeepSeek V3 (2024-12-26)	$0.0003	2.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
80	DeepSeek V4 Pro	$0.0006	8.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
70	Gemini 2.5 Flash	$0.0004	583ms	40%	100	100	100	100	100	100	100	100	100	0	90%
73	Mistral Medium 3.1	$0.0004	2.7s	40%	100	100	100	100	100	100	100	100	100	0	90%
77	Llama 3.1 Nemotron 70B	$0.0003	4.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
111	Z.AI GLM 5.1	$0.0036	15.2s	20%	100	100	100	100	100	100	100	100	0	0	80%
119	MoonshotAI: Kimi K2.5	$0.0034	24.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
99	o4 Mini	$0.0033	7.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
92	Qwen 3.5 Plus (2026-02-15)	$0.0005	3.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
88	Stealth: Healer Alpha	$0.0000	3.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
85	Gemini 3.1 Flash Lite	$0.0003	873ms	20%	100	100	100	100	100	100	100	100	0	0	80%
95	Xiaomi MIMO v2.5	$0.0011	5.4s	20%	100	100	100	100	100	100	100	100	0	0	80%
107	GPT-5 Nano	$0.0006	20.1s	20%	100	100	100	100	100	100	100	100	0	0	80%
90	DeepSeek V3.1	$0.0002	4.4s	20%	100	100	100	100	100	100	100	100	0	0	80%
112	Qwen 3 32B	$0.0005	26.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
86	GPT-5.4 Nano (Reasoning)	$0.0003	1.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
89	ByteDance Seed 1.6 Flash	$0.0002	2.9s	20%	100	100	100	100	100	100	100	100	0	0	80%
84	Llama 3.1 8B	$0.0002	739ms	20%	100	100	100	100	100	100	100	100	0	0	80%
132	Gemini 3.1 Pro (Preview)	$0.0092	9.8s	8%	100	100	100	100	100	100	100	0	0	0	70%
129	Qwen 3.5 Plus (2026-04-20)	$0.0033	26.6s	8%	100	100	100	100	100	100	100	0	0	0	70%
130	Z.AI GLM 5	$0.0042	25.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
108	Gemini 3 Flash (Preview, Reasoning)	$0.0018	3.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
118	o4 Mini High	$0.0039	9.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
121	Qwen 3.6 27B	$0.0040	15.1s	8%	100	100	100	100	100	100	100	0	0	0	70%
113	Qwen 3.6 35B	$0.0019	9.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
103	Xiaomi MIMO v2.5 Pro	$0.0007	3.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
104	Stealth: Hunter Alpha	$0.0000	7.3s	8%	100	100	100	100	100	100	100	0	0	0	70%
146	Qwen 3.5 9B	$0.0007	1.0m	8%	100	100	100	100	100	100	100	0	0	0	70%
114	GPT-4o, May 13th (temp=1)	$0.0047	1.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
109	Z.AI GLM 4.5 Air	$0.0004	8.2s	8%	100	100	100	100	100	100	100	0	0	0	70%
98	Mistral Small 4 (Reasoning)	$0.0003	2.4s	8%	100	100	100	100	100	100	100	0	0	0	70%
100	DeepSeek V3.2	$0.0002	5.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
97	DeepSeek V4 Flash	$0.0000	1.5s	8%	100	100	100	100	100	100	100	0	0	0	70%
96	Gemini 2.5 Flash Lite	$0.0001	493ms	8%	100	100	100	100	100	100	100	0	0	0	70%
101	Rocinante 12B	$0.0002	5.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
123	Claude Sonnet 4.6 (Reasoning)	$0.0052	2.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
120	Gemma 4 26B (Reasoning)	$0.0003	13.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
125	Aion 2.0	$0.0014	17.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
134	Z.AI GLM 4.6	$0.0018	27.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
143	Gemini 3 Pro (Preview)	$0.010	7.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
110	Mistral NeMO	$0.0001	1.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
117	Nemotron 3 Super	$0.0000	5.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
136	GPT-OSS 120B	$0.0003	20.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
145	Gemini 2.5 Pro	$0.0075	6.2s	0%	100	100	100	0	0	0	0	0	0	0	30%
135	ByteDance Seed 2.0 Lite	$0.0011	11.4s	0%	100	100	100	0	0	0	0	0	0	0	30%
147	Stealth: Aurora Alpha	—	990ms	0%	100	100	100	0	0	0	0	0	0	0	30%
124	Gemma 3 27B	$0.0001	2.3s	0%	100	100	100	0	0	0	0	0	0	0	30%
122	Ministral 8B	$0.0001	740ms	0%	100	100	100	0	0	0	0	0	0	0	30%
131	Gemini 2.5 Flash (Reasoning)	$0.0009	2.0s	0%	100	100	0	0	0	0	0	0	0	0	20%
128	Inception Mercury 2	$0.0005	811ms	0%	100	100	0	0	0	0	0	0	0	0	20%
127	Inception Mercury	$0.0001	951ms	0%	100	100	0	0	0	0	0	0	0	0	20%
142	MiniMax M2.5	$0.0003	8.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
139	Nemotron 3 Nano	$0.0001	7.5s	0%	100	0	0	0	0	0	0	0	0	0	10%
133	Ministral 3B	$0.0000	619ms	0%	100	0	0	0	0	0	0	0	0	0	10%
141	Qwen 2.5 72B	$0.0004	2.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
144	Arcee AI: Trinity Mini	$0.0001	4.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	Ministral 3 3B	$0.0001	612ms	0%	0	0	0	0	0	0	0	0	0	0	0%
138	LFM2 24B	$0.0000	1.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
82.24%

Median	Evaluator	Top 3	Flop 3
90.0%	Matches Regex	100Ministral 3 14B 100Grok 4.20 (Reasoning) 100GPT-4o, Aug. 6th (temp=1)	0Arcee AI: Trinity Mini 0LFM2 24B 0Qwen 2.5 72B

Multiple speakers

Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Gemini 3.1 Pro (Preview)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
Claude Opus 4.6	100%
Claude Sonnet 4.6	100%
Claude Opus 4.7	100%
Gemini 3 Pro (Preview)	100%
Claude Sonnet 4	100%
Claude Sonnet 4.5	100%
Claude Opus 4	100%
Gemma 4 31B	100%
Qwen 3.5 Plus (2026-02-15)	100%
Gemma 4 26B	100%
Gemini 3 Flash (Preview)	100%
Claude Haiku 4.5	100%
ByteDance Seed 2.0 Lite	100%
Claude 3.7 Sonnet	100%
Mistral Large 2	100%
Gemini 2.5 Flash	100%

	Score	Cost	Time
Stealth: Hunter Alpha	60%	$0.0000	15.5s
Stealth: Healer Alpha	60%	$0.0000	4.7s
Gemma 4 26B	100%	$0.0002	6.9s
Gemma 4 31B	100%	$0.0002	17.6s
DeepSeek V3.2	80%	$0.0002	9.0s
Gemini 2.5 Flash Lite (Reasoning)	90%	$0.0005	3.8s
GPT-4.1 Mini	90%	$0.0006	3.8s
Grok 4.1 Fast	60%	$0.0005	5.3s
Gemini 2.5 Flash	100%	$0.0008	1.3s
Grok 4 Fast	60%	$0.0005	5.5s
DeepSeek V3.1	70%	$0.0003	13.7s
Gemini 3 Flash (Preview)	100%	$0.0010	2.0s
Gemini 2.5 Flash (Reasoning)	60%	$0.0017	3.1s
Qwen 3.5 Plus (2026-02-15)	100%	$0.0008	9.9s
Gemma 4 26B (Reasoning)	90%	$0.0004	33.5s
Xiaomi MIMO v2.5 Pro	90%	$0.0021	10.5s
Claude Haiku 4.5	100%	$0.0018	2.1s
GPT-4.1	90%	$0.0028	3.3s
ByteDance Seed 1.6	80%	$0.0024	25.7s
Mistral Large 2	100%	$0.0029	8.3s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
Claude Opus 4.7	100%	100%	100%
Gemini 3 Pro (Preview)	100%	100%	100%
Claude Sonnet 4	100%	100%	100%
Claude Sonnet 4.5	100%	100%	100%
Claude Opus 4	100%	100%	100%
Gemma 4 31B	100%	100%	100%
Qwen 3.5 Plus (2026-02-15)	100%	100%	100%
Gemma 4 26B	100%	100%	100%
Gemini 3 Flash (Preview)	100%	100%	100%
Claude Haiku 4.5	100%	100%	100%
ByteDance Seed 2.0 Lite	100%	100%	100%
Claude 3.7 Sonnet	100%	100%	100%
Mistral Large 2	100%	100%	100%
Gemini 2.5 Flash	100%	100%	100%

	Score	Cost	Speed	Stability
Gemini 2.5 Flash	100%	$0.0008	1.3s	100%
Gemma 4 26B	100%	$0.0002	6.9s	100%
Gemini 3 Flash (Preview)	100%	$0.0010	2.0s	100%
Claude Haiku 4.5	100%	$0.0018	2.1s	100%
Qwen 3.5 Plus (2026-02-15)	100%	$0.0008	9.9s	100%
Gemma 4 31B	100%	$0.0002	17.6s	100%
Mistral Large 2	100%	$0.0029	8.3s	100%
Claude Sonnet 4.6	100%	$0.0054	2.6s	100%
Claude Sonnet 4.5	100%	$0.0054	3.5s	100%
Claude Sonnet 4	100%	$0.0054	4.0s	100%
Claude 3.7 Sonnet	100%	$0.0055	4.7s	100%
Claude Sonnet 4.6 (Reasoning)	100%	$0.0060	3.2s	100%
ByteDance Seed 2.0 Lite	100%	$0.0029	33.8s	100%
Claude Opus 4.6	100%	$0.0091	5.0s	100%
Claude Opus 4.6 (Reasoning)	100%	$0.0098	4.1s	100%
Claude Opus 4.7	100%	$0.013	2.7s	100%
Claude Opus 4.7 (Reasoning)	100%	$0.013	2.7s	100%
Gemini 2.5 Flash Lite (Reasoning)	90%	$0.0005	3.8s	40%
GPT-4.1 Mini	90%	$0.0006	3.8s	40%
GPT-4.1	90%	$0.0028	3.3s	40%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
15	Claude Opus 4.6 (Reasoning)	$0.0098	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemini 3.1 Pro (Preview)	$0.023	20.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Claude Sonnet 4.6 (Reasoning)	$0.0060	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Claude Opus 4.7 (Reasoning)	$0.013	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Claude Opus 4.6	$0.0091	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Claude Sonnet 4.6	$0.0054	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Claude Opus 4.7	$0.013	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3 Pro (Preview)	$0.021	12.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Claude Sonnet 4	$0.0054	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Claude Sonnet 4.5	$0.0054	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Claude Opus 4	$0.027	10.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemma 4 31B	$0.0002	17.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Qwen 3.5 Plus (2026-02-15)	$0.0008	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemma 4 26B	$0.0002	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemini 3 Flash (Preview)	$0.0010	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Claude Haiku 4.5	$0.0018	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	ByteDance Seed 2.0 Lite	$0.0029	33.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Claude 3.7 Sonnet	$0.0055	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Mistral Large 2	$0.0029	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Gemini 2.5 Flash	$0.0008	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Qwen3.6 Max Preview	$0.024	1.4m	40%	100	100	100	100	100	100	100	100	100	0	90%
30	Qwen 3.5 122B	$0.011	25.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
23	Gemma 4 26B (Reasoning)	$0.0004	33.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
20	GPT-4.1	$0.0028	3.3s	40%	100	100	100	100	100	100	100	100	100	0	90%
21	Xiaomi MIMO v2.5 Pro	$0.0021	10.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0005	3.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
24	GPT-4o, May 13th (temp=1)	$0.0057	8.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
19	GPT-4.1 Mini	$0.0006	3.8s	40%	100	100	100	100	100	100	100	100	100	0	90%
34	Gemma 4 31B (Reasoning)	$0.0005	1.2m	20%	100	100	100	100	100	100	100	100	0	0	80%
29	ByteDance Seed 1.6	$0.0024	25.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
28	Gemini 3 Flash (Preview, Reasoning)	$0.0045	7.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
31	GPT-4o, May 13th (temp=0)	$0.0057	8.7s	20%	100	100	100	100	100	100	100	100	0	0	80%
27	DeepSeek V3.2	$0.0002	9.0s	20%	100	100	100	100	100	100	100	100	0	0	80%
49	Z.AI GLM 5.1	$0.0077	38.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
37	Aion 2.0	$0.0021	25.5s	8%	100	100	100	100	100	100	100	0	0	0	70%
32	DeepSeek V3.1	$0.0003	13.7s	8%	100	100	100	100	100	100	100	0	0	0	70%
48	Z.AI GLM 5 Turbo	$0.0055	12.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
141	Qwen 3.5 397B A17B	$0.014	1.8m	2%	100	100	100	100	100	100	0	0	0	0	60%
46	Grok 4.20 (Reasoning)	$0.0040	14.2s	2%	100	100	100	100	100	100	0	0	0	0	60%
41	Z.AI GLM 5	$0.0024	13.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
35	Grok 4.1 Fast	$0.0005	5.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
111	Grok 4	$0.016	21.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
39	Stealth: Hunter Alpha	$0.0000	15.5s	2%	100	100	100	100	100	100	0	0	0	0	60%
38	Gemini 2.5 Flash (Reasoning)	$0.0017	3.1s	2%	100	100	100	100	100	100	0	0	0	0	60%
36	Grok 4 Fast	$0.0005	5.5s	2%	100	100	100	100	100	100	0	0	0	0	60%
33	Stealth: Healer Alpha	$0.0000	4.7s	2%	100	100	100	100	100	100	0	0	0	0	60%
40	GPT-4o, Aug. 6th (temp=0)	$0.0034	3.4s	2%	100	100	100	100	100	100	0	0	0	0	60%
64	Grok 4.3 (Reasoning)	$0.0067	32.0s	0%	100	100	100	100	100	0	0	0	0	0	50%
56	GPT-5.4 (Reasoning)	$0.0083	6.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
62	Qwen 3.5 27B	$0.0063	28.7s	0%	100	100	100	100	100	0	0	0	0	0	50%
57	Claude Opus 4.5	$0.0088	3.9s	0%	100	100	100	100	100	0	0	0	0	0	50%
68	Z.AI GLM 4.6	$0.0039	1.1m	0%	100	100	100	100	100	0	0	0	0	0	50%
47	Xiaomi MIMO v2.5	$0.0017	7.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
43	DeepSeek V3 (2024-12-26)	$0.0004	7.4s	0%	100	100	100	100	100	0	0	0	0	0	50%
44	DeepSeek V4 Pro	$0.0004	9.6s	0%	100	100	100	100	100	0	0	0	0	0	50%
45	DeepSeek V3 (2025-03-24)	$0.0004	10.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
42	Gemma 3 12B	$0.0001	8.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
147	DeepSeek V4 Pro (Reasoning)	$0.0087	3.2m	0%	100	100	100	100	0	0	0	0	0	0	40%
54	Qwen 3.6 35B	$0.0034	18.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
140	Z.AI GLM 4.7	$0.0045	2.0m	0%	100	100	100	100	0	0	0	0	0	0	40%
128	Gemini 2.5 Pro	$0.015	10.8s	0%	100	100	100	100	0	0	0	0	0	0	40%
124	Qwen 3.5 9B	$0.0010	1.6m	0%	100	100	100	100	0	0	0	0	0	0	40%
135	Qwen 3.6 27B	$0.011	45.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
119	DeepSeek V4 Flash (Reasoning)	$0.0003	1.3m	0%	100	100	100	0	0	0	0	0	0	0	30%
53	MiniMax M2.5	$0.0010	10.6s	0%	100	100	100	0	0	0	0	0	0	0	30%
108	Qwen 3.5 35B	$0.0070	21.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
51	Gemini 3.1 Flash Lite (Preview)	$0.0005	1.3s	0%	100	100	100	0	0	0	0	0	0	0	30%
50	Gemini 3.1 Flash Lite	$0.0005	1.2s	0%	100	100	100	0	0	0	0	0	0	0	30%
61	Z.AI GLM 4.7 Flash	$0.0007	29.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
55	GPT-4o, Aug. 6th (temp=1)	$0.0033	3.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
52	Grok 4.3	$0.0012	2.3s	0%	100	100	100	0	0	0	0	0	0	0	30%
126	GPT-5.1	$0.0084	12.7s	0%	100	100	0	0	0	0	0	0	0	0	20%
146	MoonshotAI: Kimi K2.6	$0.011	2.0m	0%	100	100	0	0	0	0	0	0	0	0	20%
133	Qwen 3.5 Plus (2026-04-20)	$0.0068	46.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
117	Grok 4.20 (Beta, Reasoning)	$0.0079	4.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
71	GPT-5.4 (Reasoning, Low)	$0.0051	3.2s	0%	100	100	0	0	0	0	0	0	0	0	20%
136	ByteDance Seed 2.0 Mini	$0.0016	1.5m	0%	100	100	0	0	0	0	0	0	0	0	20%
76	Qwen 3.5 Flash	$0.0017	28.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
59	Qwen3 235B A22B Instruct 2507	$0.0002	8.3s	0%	100	100	0	0	0	0	0	0	0	0	20%
60	Arcee AI: Trinity Large (Preview)	$0.0000	10.4s	0%	100	100	0	0	0	0	0	0	0	0	20%
58	ByteDance Seed 1.6 Flash	$0.0004	6.5s	0%	100	100	0	0	0	0	0	0	0	0	20%
67	Cohere Command R+ (Aug. 2024)	$0.0037	5.7s	0%	100	100	0	0	0	0	0	0	0	0	20%
138	GPT-5.5 (Reasoning)	$0.012	5.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
134	MoonshotAI: Kimi K2.5	$0.0055	40.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
125	Qwen 3.6 Flash	$0.0052	16.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
101	GPT-5.4 Mini (Reasoning)	$0.0033	6.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
106	GPT-5.2	$0.0042	3.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
70	MiniMax M2.7	$0.0010	12.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
66	Gemini 3.1 Flash Lite (Reasoning)	$0.0005	1.9s	0%	100	0	0	0	0	0	0	0	0	0	10%
69	Z.AI GLM 4.5	$0.0008	10.4s	0%	100	0	0	0	0	0	0	0	0	0	10%
144	Stealth: Aurora Alpha	—	1.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
63	Gemini 2.5 Flash Lite	$0.0001	879ms	0%	100	0	0	0	0	0	0	0	0	0	10%
65	Inception Mercury	$0.0002	1.2s	0%	100	0	0	0	0	0	0	0	0	0	10%
129	GPT-5 Mini	$0.0032	19.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	GPT-5.5 (Reasoning, Low)	$0.0095	3.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	GPT-5	$0.017	26.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
143	o4 Mini High	$0.011	25.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
139	GPT-5.5	$0.0097	3.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	o4 Mini	$0.0058	12.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	GPT-OSS 120B	$0.0004	25.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
112	GPT-5.4 Mini (Reasoning, Low)	$0.0019	3.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
94	Mistral Large 3	$0.0006	4.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
109	DeepSeek-V2 Chat	$0.0001	13.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
114	Nemotron 3 Super	$0.0000	18.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	GPT-5.4	$0.0049	3.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
131	Claude 3.5 Sonnet	$0.0055	6.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
103	Grok 4.20 (Beta)	$0.0015	894ms	0%	0	0	0	0	0	0	0	0	0	0	0%
92	Inception Mercury 2	$0.0007	1.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
120	Z.AI GLM 4.5 Air	$0.0009	19.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
115	Hermes 3 405B	$0.0000	18.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
130	GPT-5 Nano	$0.0013	34.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
104	GPT-5.4 Mini	$0.0015	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
107	Mistral Small 4 (Reasoning)	$0.0007	8.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
118	Qwen 3 32B	$0.0005	19.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
86	DeepSeek V4 Flash	$0.0001	3.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
98	Grok 4.20	$0.0011	2.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
88	GPT-5.4 Nano (Reasoning)	$0.0004	1.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	Mistral Large	$0.011	10.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
116	Writer: Palmyra X5	$0.0016	7.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
90	GPT-5.4 Nano (Reasoning, Low)	$0.0004	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
123	GPT-4o Mini (temp=1)	$0.0002	26.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
85	Mistral Small 3.2 24B	$0.0001	3.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
93	Llama 3.1 70B	$0.0006	2.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
96	GPT-4o Mini (temp=0)	$0.0002	7.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
97	Gemma 3 27B	$0.0001	8.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
100	Mistral Medium 3.1	$0.0007	5.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
121	Nemotron 3 Nano	$0.0004	23.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
80	Mistral Small 4	$0.0002	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
99	Qwen 2.5 72B	$0.0003	7.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
105	Llama 3.1 Nemotron 70B	$0.0003	10.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
87	GPT-5.4 Nano	$0.0004	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
83	Mistral Small Creative	$0.0001	2.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
102	Hermes 3 70B	$0.0003	9.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
81	Ministral 3 14B	$0.0001	2.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
82	GPT-4.1 Nano	$0.0001	2.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
77	Ministral 3 8B	$0.0001	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
95	Claude 3 Haiku	$0.0005	5.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
113	WizardLM 2 8x22b	$0.0006	11.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
89	Arcee AI: Trinity Mini	$0.0001	3.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
84	Gemma 3 4B	$0.0000	3.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
72	Ministral 3 3B	$0.0001	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
91	Mistral NeMO	$0.0001	4.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
78	Ministral 8B	$0.0001	2.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
75	Llama 3.1 8B	$0.0001	1.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
74	Ministral 3B	$0.0000	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
73	LFM2 24B	$0.0000	1.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
110	Rocinante 12B	$0.0002	13.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
35.99%

Median	Evaluator	Top 3	Flop 3
20.0%	Matches Regex	100Qwen 3.5 Plus (2026-02-15) 100Claude Opus 4.7 (Reasoning) 100Claude Sonnet 4.6	0Llama 3.1 Nemotron 70B 0GPT-5.4 Nano (Reasoning) 0LFM2 24B

Unattributed dialogue

Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%

Voice/dialogue sheets

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Simple

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Simple (1-shot)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Simple (5-shot)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Multiple speakers

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Unattributed dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	971ms
Llama 3.1 8B	90%	$0.0001	1.2s
Gemini 2.5 Flash Lite	70%	$0.0001	781ms
Inception Mercury	100%	$0.0002	1.0s
Mistral Small 3.2 24B	100%	$0.0001	3.5s
Stealth: Healer Alpha	90%	$0.0000	5.6s
Gemma 4 26B	100%	$0.0001	4.5s
Inception Mercury 2	100%	$0.0005	815ms
Grok 4 Fast	100%	$0.0003	3.2s
Nemotron 3 Super	100%	$0.0000	10.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0005	2.4s
Gemini 3.1 Flash Lite (Preview)	60%	$0.0005	1.2s
Gemini 3.1 Flash Lite	100%	$0.0005	1.8s
ByteDance Seed 1.6 Flash	70%	$0.0003	5.0s
Gemma 3 27B	100%	$0.0001	8.6s
Grok 4.1 Fast	100%	$0.0003	4.0s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	9.1s
Gemma 4 31B	100%	$0.0001	11.6s
Llama 3.1 70B	100%	$0.0005	2.3s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0004	3.4s

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
52	Claude Opus 4.6 (Reasoning)	$0.0080	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
89	Qwen3.6 Max Preview	$0.013	41.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
73	Gemini 3.1 Pro (Preview)	$0.013	12.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Z.AI GLM 5 Turbo	$0.0032	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Sonnet 4.6 (Reasoning)	$0.0092	6.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
57	Grok 4.3 (Reasoning)	$0.0029	21.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	GPT-5.4 (Reasoning)	$0.0056	5.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
65	Claude Opus 4.7 (Reasoning)	$0.011	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
59	GPT-5.5 (Reasoning)	$0.0096	4.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	GPT-5 Mini	$0.0014	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
58	GPT-5.5 (Reasoning, Low)	$0.0093	4.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	GPT-5.1	$0.0042	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Claude Opus 4.6	$0.0079	4.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
67	MoonshotAI: Kimi K2.6	$0.0035	26.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	GPT-5	$0.0081	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
75	Qwen 3.5 397B A17B	$0.0050	36.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
85	Gemma 4 31B (Reasoning)	$0.0004	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Qwen 3.5 122B	$0.0051	12.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Qwen 3.5 Plus (2026-04-20)	$0.0044	30.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Gemma 4 26B (Reasoning)	$0.0003	58.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
64	Grok 4.20 (Beta, Reasoning)	$0.0062	16.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-5.4 (Reasoning, Low)	$0.0048	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Grok 4.20 (Reasoning)	$0.0025	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Z.AI GLM 5	$0.0039	21.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Claude Sonnet 4.6	$0.0047	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	MoonshotAI: Kimi K2.5	$0.0024	18.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen 3.5 27B	$0.0032	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	ByteDance Seed 1.6	$0.0014	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Qwen 3.6 Flash	$0.0030	9.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 Mini (Reasoning)	$0.0020	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
54	o4 Mini High	$0.0049	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	DeepSeek V4 Pro (Reasoning)	$0.0007	18.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
66	Claude Opus 4.7	$0.011	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
62	Qwen 3.6 27B	$0.0043	20.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Claude Opus 4.5	$0.0079	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Grok 4.1 Fast	$0.0003	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Z.AI GLM 4.6	$0.0027	38.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	MiniMax M2.7	$0.0009	8.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Qwen 3.6 35B	$0.0023	12.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	DeepSeek V4 Flash (Reasoning)	$0.0002	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
74	Gemini 3 Pro (Preview)	$0.014	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Claude Sonnet 4	$0.0047	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	MiniMax M2.5	$0.0008	8.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
71	Z.AI GLM 4.7	$0.0020	40.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	GPT-4.1	$0.0024	4.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
81	Gemini 2.5 Pro	$0.017	11.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	o4 Mini	$0.0045	11.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
78	Grok 4	$0.012	18.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen 3.5 35B	$0.0032	10.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Gemma 4 31B	$0.0001	11.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Gemini 2.5 Flash (Reasoning)	$0.0023	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	GPT-OSS 120B	$0.0003	19.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite (Reasoning)	$0.0005	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Qwen 3.5 Flash	$0.0007	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Grok 4 Fast	$0.0003	3.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	Qwen 3.5 9B	$0.0005	40.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Gemma 4 26B	$0.0001	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemini 3.1 Flash Lite	$0.0005	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Gemini 2.5 Flash Lite (Reasoning)	$0.0004	3.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Mistral Large 3	$0.0005	4.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	GPT-4o, May 13th (temp=0)	$0.0047	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Gemini 3 Flash (Preview)	$0.0009	2.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Claude Haiku 4.5	$0.0016	1.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	DeepSeek-V2 Chat	$0.0001	14.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	ByteDance Seed 2.0 Lite	$0.0020	23.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Nemotron 3 Super	$0.0000	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Claude 3.5 Sonnet	$0.0049	6.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0005	815ms	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-4o, May 13th (temp=1)	$0.0047	8.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	971ms	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Claude 3.7 Sonnet	$0.0048	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
47	DeepSeek V4 Pro	$0.0007	19.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	GPT-5 Nano	$0.0006	15.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-4o, Aug. 6th (temp=0)	$0.0030	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0002	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Mistral Small 3.2 24B	$0.0001	3.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Llama 3.1 70B	$0.0005	2.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Gemma 3 27B	$0.0001	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Qwen 2.5 72B	$0.0002	8.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
117	Z.AI GLM 5.1	$0.0052	1.1m	40%	100	100	100	100	100	100	100	100	100	0	90%
82	Gemini 3 Flash (Preview, Reasoning)	$0.0029	5.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
88	Aion 2.0	$0.0015	25.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
79	Xiaomi MIMO v2.5 Pro	$0.0015	7.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
95	Stealth: Hunter Alpha	$0.0000	42.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
77	Stealth: Healer Alpha	$0.0000	5.6s	40%	100	100	100	100	100	100	100	100	100	0	90%
86	Z.AI GLM 4.7 Flash	$0.0005	19.1s	40%	100	100	100	100	100	100	100	100	100	0	90%
76	Gemini 2.5 Flash	$0.0007	1.4s	40%	100	100	100	100	100	100	100	100	100	0	90%
84	Writer: Palmyra X5	$0.0017	12.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
83	Nemotron 3 Nano	$0.0002	16.0s	40%	100	100	100	100	100	100	100	100	100	0	90%
72	Llama 3.1 8B	$0.0001	1.2s	40%	100	100	100	100	100	100	100	100	100	0	90%
91	GPT-4o, Aug. 6th (temp=1)	$0.0030	3.5s	20%	100	100	100	100	100	100	100	100	0	0	80%
87	Mistral Small 4 (Reasoning)	$0.0006	5.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
90	DeepSeek V3 (2025-03-24)	$0.0004	10.3s	20%	100	100	100	100	100	100	100	100	0	0	80%
92	Hermes 3 70B	$0.0002	11.6s	20%	100	100	100	100	100	100	100	100	0	0	80%
97	Z.AI GLM 4.5	$0.0006	8.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
96	Xiaomi MIMO v2.5	$0.0013	5.9s	8%	100	100	100	100	100	100	100	0	0	0	70%
93	Gemini 2.5 Flash Lite	$0.0001	781ms	8%	100	100	100	100	100	100	100	0	0	0	70%
94	ByteDance Seed 1.6 Flash	$0.0003	5.0s	8%	100	100	100	100	100	100	100	0	0	0	70%
113	GPT-5.5	$0.0083	3.0s	2%	100	100	100	100	100	100	0	0	0	0	60%
101	Qwen 3.5 Plus (2026-02-15)	$0.0007	9.6s	2%	100	100	100	100	100	100	0	0	0	0	60%
98	Gemini 3.1 Flash Lite (Preview)	$0.0005	1.2s	2%	100	100	100	100	100	100	0	0	0	0	60%
100	DeepSeek V3 (2024-12-26)	$0.0004	8.3s	2%	100	100	100	100	100	100	0	0	0	0	60%
99	Grok 4.20	$0.0009	2.2s	2%	100	100	100	100	100	100	0	0	0	0	60%
103	Cohere Command R+ (Aug. 2024)	$0.0032	4.9s	2%	100	100	100	100	100	100	0	0	0	0	60%
107	GPT-5.2	$0.0039	3.2s	0%	100	100	100	100	100	0	0	0	0	0	50%
108	DeepSeek V3.1	$0.0003	14.3s	0%	100	100	100	100	100	0	0	0	0	0	50%
105	Qwen 3 32B	$0.0005	10.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
104	Qwen3 235B A22B Instruct 2507	$0.0002	6.5s	0%	100	100	100	100	100	0	0	0	0	0	50%
102	Arcee AI: Trinity Large (Preview)	$0.0000	5.8s	0%	100	100	100	100	100	0	0	0	0	0	50%
110	Rocinante 12B	$0.0002	15.7s	0%	100	100	100	100	100	0	0	0	0	0	50%
116	Claude Sonnet 4.5	$0.0048	3.3s	0%	100	100	100	100	0	0	0	0	0	0	40%
134	ByteDance Seed 2.0 Mini	$0.0005	30.4s	0%	100	100	100	100	0	0	0	0	0	0	40%
115	Z.AI GLM 4.5 Air	$0.0005	14.5s	0%	100	100	100	100	0	0	0	0	0	0	40%
106	DeepSeek V4 Flash	$0.0001	5.0s	0%	100	100	100	100	0	0	0	0	0	0	40%
147	Claude Opus 4	$0.024	6.8s	0%	100	100	100	0	0	0	0	0	0	0	30%
114	GPT-5.4 Mini (Reasoning, Low)	$0.0014	2.5s	0%	100	100	100	0	0	0	0	0	0	0	30%
109	GPT-5.4 Nano (Reasoning, Low)	$0.0003	1.7s	0%	100	100	100	0	0	0	0	0	0	0	30%
111	GPT-5.4 Nano	$0.0003	2.0s	0%	100	100	100	0	0	0	0	0	0	0	30%
112	Arcee AI: Trinity Mini	$0.0001	4.1s	0%	100	100	100	0	0	0	0	0	0	0	30%
120	Grok 4.3	$0.0009	2.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
121	Gemma 3 12B	$0.0000	6.8s	0%	100	0	0	0	0	0	0	0	0	0	10%
118	Mistral Small 4	$0.0002	1.7s	0%	100	0	0	0	0	0	0	0	0	0	10%
119	Mistral NeMO	$0.0001	4.1s	0%	100	0	0	0	0	0	0	0	0	0	10%
143	GPT-5.4	$0.0044	3.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
135	Grok 4.20 (Beta)	$0.0015	1.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	GPT-4.1 Mini	$0.0005	3.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
144	Hermes 3 405B	$0.0000	17.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	GPT-5.4 Mini	$0.0012	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
142	Mistral Large 2	$0.0024	8.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
139	DeepSeek V3.2	$0.0002	6.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	GPT-5.4 Nano (Reasoning)	$0.0003	1.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
146	Mistral Large	$0.0090	10.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	GPT-4o Mini (temp=1)	$0.0002	20.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
131	GPT-4o Mini (temp=0)	$0.0002	3.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
137	Mistral Medium 3.1	$0.0006	4.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
140	Llama 3.1 Nemotron 70B	$0.0002	12.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
124	Mistral Small Creative	$0.0001	1.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
126	Ministral 3 14B	$0.0001	2.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
129	GPT-4.1 Nano	$0.0001	2.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
125	Ministral 3 8B	$0.0001	1.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
136	Claude 3 Haiku	$0.0004	5.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
141	WizardLM 2 8x22b	$0.0004	13.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
130	Gemma 3 4B	$0.0000	3.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	Ministral 3 3B	$0.0001	1.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
128	Ministral 8B	$0.0001	2.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
123	Ministral 3B	$0.0000	1.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
138	LFM2 24B	$0.0000	6.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
71.43%