Language Writing

Can the model generate text in different languages?

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Grok 4.3 (Reasoning)	100%
Claude Sonnet 4.6	100%
o4 Mini	100%
Gemma 4 31B	100%
Gemini 3 Flash (Preview)	100%
DeepSeek-V2 Chat	100%
Stealth: Aurora Alpha	100%
GPT-4o, Aug. 6th (temp=0)	100%
GPT-4o Mini (temp=1)	100%
GPT-4o Mini (temp=0)	100%
GPT-5.4 Mini (Reasoning, Low)	100%
Z.AI GLM 5 Turbo	100%
Z.AI GLM 4.5	100%
Claude Opus 4.7	100%
Inception Mercury 2	100%
o4 Mini High	100%
GPT-4o, Aug. 6th (temp=1)	99%
GPT-5.5 (Reasoning)	99%
GPT-OSS 120B	99%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	2.0s
Inception Mercury	96%	$0.0002	1.5s
GPT-4.1 Nano	93%	$0.0001	4.0s
GPT-4o Mini (temp=0)	100%	$0.0003	4.8s
Mistral NeMO	67%	$0.0001	4.3s
Inception Mercury 2	100%	$0.0006	1.4s
GPT-4.1 Mini	99%	$0.0004	3.4s
GPT-4o Mini (temp=1)	100%	$0.0003	5.6s
Arcee AI: Trinity Mini	81%	$0.0002	15.9s
Claude 3 Haiku	81%	$0.0007	3.8s
Grok 4.3	94%	$0.0009	3.8s
Gemini 3.1 Flash Lite (Preview)	95%	$0.0011	3.7s
Gemini 3.1 Flash Lite	97%	$0.0011	6.2s
Gemini 3.1 Flash Lite (Reasoning)	98%	$0.0011	5.3s
Nemotron 3 Nano	95%	$0.0002	10.8s
DeepSeek V4 Flash (Reasoning)	90%	$0.0002	20.8s
Nemotron 3 Super	98%	$0.0000	21.7s
DeepSeek V4 Flash	87%	$0.0002	12.4s
Mistral Small 3.2 24B	71%	$0.0003	11.0s
DeepSeek-V2 Chat	100%	$0.0001	16.1s

	Score	Consistency	Stability
Qwen3.6 Max Preview	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
o4 Mini	100%	100%	100%
Gemma 4 31B	100%	100%	100%
Gemini 3 Flash (Preview)	100%	100%	100%
DeepSeek-V2 Chat	100%	100%	100%
Stealth: Aurora Alpha	100%	100%	100%
GPT-4o, Aug. 6th (temp=0)	100%	100%	100%
GPT-4o Mini (temp=1)	100%	100%	100%
GPT-4o Mini (temp=0)	100%	100%	100%
GPT-5.4 Mini (Reasoning, Low)	100%	99%	99%
Z.AI GLM 5 Turbo	100%	98%	98%
GPT-5.5 (Reasoning)	99%	98%	98%
Claude Opus 4.7	100%	98%	98%
Z.AI GLM 4.5	100%	97%	97%
o4 Mini High	100%	97%	97%
Inception Mercury 2	100%	96%	96%
Claude Opus 4.5	99%	96%	96%
GPT-5.5	98%	97%	96%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	2.0s	100%
GPT-4o Mini (temp=0)	100%	$0.0003	4.8s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	5.6s	100%
Inception Mercury 2	100%	$0.0006	1.4s	96%
Gemini 3 Flash (Preview)	100%	$0.0020	5.6s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0022	3.5s	99%
DeepSeek-V2 Chat	100%	$0.0001	16.1s	100%
GPT-4.1 Mini	99%	$0.0004	3.4s	93%
GPT-4o, Aug. 6th (temp=0)	100%	$0.0052	6.1s	100%
Z.AI GLM 4.5	100%	$0.0013	14.5s	97%
Z.AI GLM 5 Turbo	100%	$0.0037	14.7s	98%
Hermes 3 405B	99%	$0.0000	21.0s	94%
Gemma 4 31B	100%	$0.0003	32.1s	100%
GPT-5.4 Mini	97%	$0.0020	2.5s	87%
GPT-4o, Aug. 6th (temp=1)	99%	$0.0056	6.5s	94%
GPT-OSS 120B	99%	$0.0003	28.0s	96%
Gemini 3.1 Flash Lite (Reasoning)	98%	$0.0011	5.3s	84%
Nemotron 3 Super	98%	$0.0000	21.7s	91%
o4 Mini	100%	$0.0071	16.7s	100%
GPT-5.4 Nano (Reasoning)	98%	$0.0016	6.1s	83%

Model	Total ▼	Character dialogue (Spanish) in a story	Character dialogue (French) in a story	Character dialogue (German) in a story	Character dialogue (Italian) in a story	Character dialogue (Hindi) in a story
Qwen3.6 Max Preview	100%	100%	100%	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%	100%	100%	100%
o4 Mini	100%	100%	100%	100%	100%	100%
Gemma 4 31B	100%	100%	100%	100%	100%	100%
Gemini 3 Flash (Preview)	100%	100%	100%	100%	100%	100%
DeepSeek-V2 Chat	100%	100%	100%	100%	100%	100%
Stealth: Aurora Alpha	100%	100%	100%	100%	100%	100%
GPT-4o, Aug. 6th (temp=0)	100%	100%	100%	100%	100%	100%
GPT-4o Mini (temp=1)	100%	100%	100%	100%	100%	100%
GPT-4o Mini (temp=0)	100%	100%	100%	100%	100%	100%
GPT-5.4 Mini (Reasoning, Low)	100%	100%	100%	99%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%	100%	99%	100%
Z.AI GLM 4.5	100%	100%	100%	100%	98%	100%
Claude Opus 4.7	100%	99%	100%	99%	100%	100%

Character dialogue (Spanish) in a story

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.7s
Inception Mercury	90%	$0.0002	1.6s
Llama 3.1 8B	78%	$0.0001	3.0s
Ministral 3 3B	60%	$0.0001	2.3s
GPT-4.1 Nano	100%	$0.0001	3.7s
Inception Mercury 2	100%	$0.0005	1.4s
GPT-4o Mini (temp=0)	100%	$0.0002	3.6s
GPT-4o Mini (temp=1)	100%	$0.0003	4.5s
GPT-4.1 Mini	100%	$0.0004	3.4s
Arcee AI: Trinity Mini	85%	$0.0002	5.0s
Grok 4.3	100%	$0.0008	2.8s
Claude 3 Haiku	98%	$0.0007	4.0s
Stealth: Healer Alpha	99%	$0.0000	16.1s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.5s
Nemotron 3 Super	100%	$0.0000	12.5s
Mistral Small 3.2 24B	100%	$0.0003	15.1s
Gemini 3.1 Flash Lite	100%	$0.0010	3.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	3.6s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	13.1s
Gemma 4 26B	100%	$0.0003	28.0s

	Score	Consistency	Stability
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.7s	100%
Inception Mercury 2	100%	$0.0005	1.4s	100%
GPT-4.1 Nano	100%	$0.0001	3.7s	100%
GPT-4o Mini (temp=0)	100%	$0.0002	3.6s	100%
GPT-4.1 Mini	100%	$0.0004	3.4s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	4.5s	100%
Grok 4.3	100%	$0.0008	2.8s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.5s	100%
Gemini 3.1 Flash Lite	100%	$0.0010	3.6s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	3.6s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0020	3.5s	100%
Gemini 3 Flash (Preview)	100%	$0.0019	5.9s	100%
Nemotron 3 Super	100%	$0.0000	12.5s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	13.1s	100%
DeepSeek-V2 Chat	100%	$0.0001	13.9s	100%
GPT-5.4 Nano (Reasoning)	99%	$0.0014	5.3s	98%
GPT-5.4 Nano (Reasoning, Low)	99%	$0.0017	6.4s	98%
Mistral Small 3.2 24B	100%	$0.0003	15.1s	100%
Grok 4.20	100%	$0.0019	9.8s	100%
GPT-OSS 120B	100%	$0.0002	17.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
143	Qwen3.6 Max Preview	$0.033	2.3m	100%	100	100	100	100	100	100%
105	Gemini 3.1 Pro (Preview)	$0.032	32.9s	100%	100	100	100	100	100	100%
25	Z.AI GLM 5 Turbo	$0.0027	10.2s	100%	100	100	100	100	100	100%
103	Grok 4.3 (Reasoning)	$0.013	1.6m	100%	100	100	100	100	100	100%
95	GPT-5.5 (Reasoning)	$0.028	20.1s	100%	100	100	100	100	100	100%
66	GPT-5 Mini	$0.0064	47.9s	100%	100	100	100	100	100	100%
130	MoonshotAI: Kimi K2.6	$0.014	2.5m	100%	100	100	100	100	100	100%
136	GPT-5	$0.041	1.4m	100%	100	100	100	100	100	100%
118	Qwen 3.5 397B A17B	$0.015	2.0m	100%	100	100	100	100	100	100%
47	Gemma 4 31B (Reasoning)	$0.0005	45.7s	100%	100	100	100	100	100	100%
85	Qwen 3.5 Plus (2026-04-20)	$0.0097	1.0m	100%	100	100	100	100	100	100%
37	Gemma 4 26B (Reasoning)	$0.0008	30.9s	100%	100	100	100	100	100	100%
79	Grok 4.20 (Beta, Reasoning)	$0.021	18.1s	100%	100	100	100	100	100	100%
46	GPT-5.4 (Reasoning, Low)	$0.0097	12.9s	100%	100	100	100	100	100	100%
68	Grok 4.20 (Reasoning)	$0.0090	42.4s	100%	100	100	100	100	100	100%
80	Z.AI GLM 5	$0.0062	1.1m	100%	100	100	100	100	100	100%
45	Claude Sonnet 4.6	$0.0095	12.3s	100%	100	100	100	100	100	100%
91	MoonshotAI: Kimi K2.5	$0.0085	1.4m	100%	100	100	100	100	100	100%
82	Qwen 3.5 27B	$0.011	52.2s	100%	100	100	100	100	100	100%
58	ByteDance Seed 1.6	$0.0038	49.6s	100%	100	100	100	100	100	100%
34	Gemini 3 Flash (Preview, Reasoning)	$0.0048	12.0s	100%	100	100	100	100	100	100%
74	DeepSeek V4 Pro (Reasoning)	$0.0033	1.2m	100%	100	100	100	100	100	100%
102	Qwen 3.6 27B	$0.014	1.5m	100%	100	100	100	100	100	100%
67	Claude Opus 4.5	$0.017	14.6s	100%	100	100	100	100	100	100%
55	Qwen 3.6 35B	$0.0053	36.9s	100%	100	100	100	100	100	100%
14	DeepSeek V4 Flash (Reasoning)	$0.0002	13.1s	100%	100	100	100	100	100	100%
96	Gemini 3 Pro (Preview)	$0.028	21.5s	100%	100	100	100	100	100	100%
93	Z.AI GLM 4.7	$0.0051	1.6m	100%	100	100	100	100	100	100%
26	GPT-4.1	$0.0041	5.7s	100%	100	100	100	100	100	100%
39	o4 Mini	$0.0065	14.9s	100%	100	100	100	100	100	100%
78	Grok 4	$0.016	33.3s	100%	100	100	100	100	100	100%
48	Claude Sonnet 4.5	$0.011	12.7s	100%	100	100	100	100	100	100%
108	ByteDance Seed 2.0 Mini	$0.0023	2.4m	100%	100	100	100	100	100	100%
38	Gemma 4 31B	$0.0003	34.2s	100%	100	100	100	100	100	100%
20	GPT-OSS 120B	$0.0002	17.8s	100%	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	3.6s	100%	100	100	100	100	100	100%
22	Z.AI GLM 4.5	$0.0010	15.3s	100%	100	100	100	100	100	100%
8	Gemini 3.1 Flash Lite (Preview)	$0.0011	3.5s	100%	100	100	100	100	100	100%
35	Gemma 4 26B	$0.0003	28.0s	100%	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite	$0.0010	3.6s	100%	100	100	100	100	100	100%
11	GPT-5.4 Mini (Reasoning, Low)	$0.0020	3.5s	100%	100	100	100	100	100	100%
12	Gemini 3 Flash (Preview)	$0.0019	5.9s	100%	100	100	100	100	100	100%
15	DeepSeek-V2 Chat	$0.0001	13.9s	100%	100	100	100	100	100	100%
87	ByteDance Seed 2.0 Lite	$0.0067	1.3m	100%	100	100	100	100	100	100%
13	Nemotron 3 Super	$0.0000	12.5s	100%	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0005	1.4s	100%	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.7s	100%	100	100	100	100	100	100%
21	DeepSeek V3 (2024-12-26)	$0.0006	16.6s	100%	100	100	100	100	100	100%
5	GPT-4.1 Mini	$0.0004	3.4s	100%	100	100	100	100	100	100%
41	Z.AI GLM 4.5 Air	$0.0012	36.3s	100%	100	100	100	100	100	100%
28	Hermes 3 405B	$0.0000	23.1s	100%	100	100	100	100	100	100%
30	GPT-4o, Aug. 6th (temp=1)	$0.0054	6.8s	100%	100	100	100	100	100	100%
27	GPT-4o, Aug. 6th (temp=0)	$0.0051	5.7s	100%	100	100	100	100	100	100%
59	DeepSeek V3.2	$0.0004	1.0m	100%	100	100	100	100	100	100%
19	Grok 4.20	$0.0019	9.8s	100%	100	100	100	100	100	100%
23	Mistral Large	$0.0030	8.8s	100%	100	100	100	100	100	100%
6	GPT-4o Mini (temp=1)	$0.0003	4.5s	100%	100	100	100	100	100	100%
7	Grok 4.3	$0.0008	2.8s	100%	100	100	100	100	100	100%
18	Mistral Small 3.2 24B	$0.0003	15.1s	100%	100	100	100	100	100	100%
4	GPT-4o Mini (temp=0)	$0.0002	3.6s	100%	100	100	100	100	100	100%
3	GPT-4.1 Nano	$0.0001	3.7s	100%	100	100	100	100	100	100%
17	GPT-5.4 Nano (Reasoning, Low)	$0.0017	6.4s	98%	100	100	100	99	98	99%
94	GPT-5.4 (Reasoning)	$0.017	52.4s	97%	100	100	100	100	97	99%
16	GPT-5.4 Nano (Reasoning)	$0.0014	5.3s	98%	100	100	100	98	98	99%
112	Claude Opus 4.7	$0.039	21.3s	97%	100	100	100	100	96	99%
36	MiniMax M2.5	$0.0011	19.9s	97%	100	100	100	100	96	99%
113	Claude Opus 4.6 (Reasoning)	$0.036	35.9s	97%	100	100	100	100	96	99%
63	GPT-5.4	$0.013	20.0s	98%	100	100	100	99	97	99%
76	Claude Sonnet 4.6 (Reasoning)	$0.017	22.4s	97%	100	100	100	100	96	99%
116	GPT-5.1	$0.030	1.0m	98%	100	100	100	98	97	99%
117	Claude Opus 4.7 (Reasoning)	$0.042	19.3s	96%	100	100	100	100	95	99%
56	Qwen 3.6 Flash	$0.0069	27.0s	96%	100	100	100	100	95	99%
98	Gemini 2.5 Pro	$0.026	24.4s	96%	100	100	100	100	94	99%
71	o4 Mini High	$0.011	29.9s	95%	100	100	100	100	94	99%
24	GPT-5.4 Nano	$0.0016	6.5s	97%	100	100	99	98	97	99%
53	Claude 3.5 Sonnet	$0.0090	14.0s	95%	100	100	100	100	94	99%
89	GPT-5.2	$0.020	32.2s	97%	100	99	99	99	97	99%
33	Stealth: Healer Alpha	$0.0000	16.1s	94%	100	100	100	100	93	99%
29	Grok 4.20 (Beta)	$0.0033	2.9s	94%	100	100	100	100	93	99%
31	Gemini 2.5 Flash	$0.0025	6.0s	94%	100	100	100	100	93	99%
40	GPT-5.4 Mini (Reasoning)	$0.0051	9.4s	93%	100	100	100	100	92	98%
86	GPT-5 Nano	$0.0030	1.2m	93%	100	100	100	100	91	98%
61	Qwen 3 32B	$0.0007	47.5s	91%	100	100	100	100	89	98%
111	GPT-5.5	$0.037	24.4s	95%	99	99	97	97	97	98%
64	Qwen 3.5 Flash	$0.0017	43.3s	90%	100	100	100	100	88	98%
32	Claude 3 Haiku	$0.0007	4.0s	90%	100	100	100	100	88	98%
50	GPT-4o, May 13th (temp=1)	$0.0088	8.5s	94%	100	100	100	94	93	97%
52	Gemini 2.5 Flash (Reasoning)	$0.0074	14.5s	93%	100	100	100	95	92	97%
109	GPT-5.5 (Reasoning, Low)	$0.036	24.2s	95%	99	98	97	97	96	97%
129	Claude Opus 4.6	$0.041	36.6s	91%	100	100	96	95	95	97%
43	Stealth: Hunter Alpha	$0.0000	25.0s	92%	100	100	96	95	94	97%
42	Grok 4.1 Fast	$0.0006	11.7s	85%	100	100	100	100	82	96%
49	Gemma 3 27B	$0.0002	24.4s	88%	100	100	94	94	93	96%
70	Claude 3.7 Sonnet	$0.012	14.0s	89%	100	100	100	94	86	96%
99	Z.AI GLM 4.6	$0.0043	1.5m	91%	100	96	96	95	93	96%
88	Qwen 3.5 122B	$0.013	33.9s	87%	100	100	94	94	90	96%
60	Z.AI GLM 5.1	$0.0038	29.9s	90%	100	100	100	90	89	96%
44	Qwen 2.5 72B	$0.0004	17.6s	89%	100	100	100	89	89	96%
65	Gemma 3 12B	$0.0002	32.1s	81%	100	100	100	100	76	95%
72	Claude Sonnet 4	$0.0093	11.2s	83%	100	100	93	92	86	94%
69	DeepSeek V3.1	$0.0006	25.0s	75%	100	100	100	100	68	94%
54	Hermes 3 70B	$0.0003	17.0s	83%	100	100	100	88	80	94%
132	Claude Opus 4	$0.045	22.3s	84%	100	93	93	92	86	93%
57	Nemotron 3 Nano	$0.0002	15.5s	80%	100	100	100	88	75	93%
51	GPT-5.4 Mini	$0.0016	2.6s	79%	100	100	96	82	80	92%
101	Qwen 3.5 35B	$0.0088	30.4s	65%	100	100	100	100	57	91%
106	Qwen 3.5 9B	$0.0010	1.5m	75%	100	100	94	90	73	91%
62	LFM2 24B	$0.0001	10.6s	72%	100	100	89	89	75	91%
73	Inception Mercury	$0.0002	1.6s	60%	100	100	100	100	50	90%
75	Mistral Large 3	$0.0014	17.2s	70%	100	100	93	90	67	90%
100	Aion 2.0	$0.0029	41.3s	64%	100	100	95	94	56	89%
81	GPT-4o, May 13th (temp=0)	$0.0083	9.6s	79%	93	93	92	91	75	89%
84	Llama 3.1 70B	$0.0006	16.4s	66%	100	100	86	75	73	87%
92	Qwen 3.5 Plus (2026-02-15)	$0.0020	28.5s	64%	100	100	100	75	56	86%
77	Grok 4 Fast	$0.0005	7.6s	65%	100	100	89	70	70	86%
83	Arcee AI: Trinity Mini	$0.0002	5.0s	60%	100	100	100	75	50	85%
90	ByteDance Seed 1.6 Flash	$0.0007	14.2s	59%	94	93	89	89	50	83%
97	Claude Haiku 4.5	$0.0037	7.4s	56%	100	100	82	65	63	82%
123	Gemini 2.5 Flash Lite (Reasoning)	$0.0018	22.1s	20%	100	100	100	100	0	80%
120	Xiaomi MIMO v2.5	$0.0020	12.9s	20%	100	100	100	100	0	80%
126	DeepSeek V4 Pro	$0.0011	28.2s	20%	100	100	100	100	0	80%
115	DeepSeek V4 Flash	$0.0002	11.0s	20%	100	100	100	100	0	80%
104	Cohere Command R+ (Aug. 2024)	$0.0063	12.2s	52%	100	100	90	55	53	80%
128	Xiaomi MIMO v2.5 Pro	$0.0034	22.4s	21%	100	100	100	92	0	78%
110	Llama 3.1 8B	$0.0001	3.0s	22%	100	100	100	89	0	78%
107	Arcee AI: Trinity Large (Preview)	$0.0000	10.9s	38%	100	100	62	60	59	76%
121	WizardLM 2 8x22b	$0.0006	10.7s	22%	100	100	100	67	0	73%
119	Gemini 2.5 Flash Lite	$0.0006	5.7s	24%	100	91	87	80	0	72%
131	Mistral Large 2	$0.0041	16.3s	20%	100	100	100	50	0	70%
125	Gemma 3 4B	$0.0001	13.1s	21%	100	100	83	62	0	69%
124	Mistral NeMO	$0.0001	3.7s	18%	100	100	92	40	0	66%
140	Z.AI GLM 4.7 Flash	$0.0011	54.7s	18%	100	100	67	64	0	66%
127	Mistral Medium 3.1	$0.0020	14.4s	31%	100	67	50	50	50	63%
141	Qwen3 235B A22B Instruct 2507	$0.0003	23.6s	2%	100	100	100	0	0	60%
133	Ministral 3 3B	$0.0001	2.3s	2%	100	100	100	0	0	60%
139	MiniMax M2.7	$0.0012	20.6s	3%	100	100	95	0	0	59%
135	Ministral 3 8B	$0.0002	6.2s	4%	100	100	94	0	0	59%
114	Ministral 3B	$0.0000	3.0s	39%	86	57	55	50	46	59%
142	Writer: Palmyra X5	$0.0046	13.5s	4%	100	100	93	0	0	59%
134	DeepSeek V3 (2025-03-24)	$0.0005	4.4s	5%	100	100	88	0	0	57%
122	Rocinante 12B	$0.0003	24.0s	48%	64	64	63	54	33	55%
137	Ministral 8B	$0.0001	3.2s	10%	100	82	59	0	0	48%
144	Mistral Small 4 (Reasoning)	$0.0009	10.6s	0%	100	89	0	0	0	38%
138	Mistral Small 4	$0.0004	6.5s	24%	64	60	58	0	0	36%
145	Mistral Small Creative	$0.0004	6.4s	0%	50	50	0	0	0	20%
146	Ministral 3 14B	$0.0003	9.6s	0%	100	0	0	0	0	20%
147	Llama 3.1 Nemotron 70B	$0.0003	21.5s	0%	50	0	0	0	0	10%
90.28%

Median	Evaluator	Top 3	Flop 3
98.8%	Parse dialogue	100Gemini 3 Flash (Preview) 100Grok 4 100Gemini 3.1 Flash Lite (Reasoning)	10Llama 3.1 Nemotron 70B 20Ministral 3 14B 20Mistral Small Creative

Character dialogue (French) in a story

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.7s
Inception Mercury	100%	$0.0002	1.2s
GPT-4o Mini (temp=0)	100%	$0.0002	4.3s
Mistral NeMO	60%	$0.0001	4.9s
Llama 3.1 8B	78%	$0.0001	4.6s
Inception Mercury 2	100%	$0.0006	1.4s
GPT-4.1 Nano	93%	$0.0001	4.9s
Arcee AI: Trinity Mini	100%	$0.0002	6.1s
GPT-4.1 Mini	96%	$0.0005	3.4s
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s
Grok 4.3	100%	$0.0008	3.5s
DeepSeek V4 Flash	100%	$0.0002	13.2s
DeepSeek V4 Flash (Reasoning)	80%	$0.0002	10.6s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	3.5s
DeepSeek V3 (2025-03-24)	100%	$0.0005	13.9s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.7s
Nemotron 3 Nano	97%	$0.0002	9.9s
Grok 4 Fast	96%	$0.0005	7.0s
Gemma 3 4B	96%	$0.0001	13.9s
DeepSeek-V2 Chat	100%	$0.0001	13.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.1	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.7s	100%
Inception Mercury	100%	$0.0002	1.2s	100%
Inception Mercury 2	100%	$0.0006	1.4s	100%
GPT-4o Mini (temp=0)	100%	$0.0002	4.3s	100%
Arcee AI: Trinity Mini	100%	$0.0002	6.1s	100%
Grok 4.3	100%	$0.0008	3.5s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	3.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.7s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	8.0s	100%
Gemini 3.1 Flash Lite	100%	$0.0011	5.2s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0015	6.1s	100%
DeepSeek-V2 Chat	100%	$0.0001	13.4s	100%
DeepSeek V4 Flash	100%	$0.0002	13.2s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0023	3.4s	100%
Gemini 3 Flash (Preview)	100%	$0.0020	5.5s	100%
GPT-5.4 Nano	100%	$0.0018	6.8s	100%
DeepSeek V3 (2025-03-24)	100%	$0.0005	13.9s	100%
Hermes 3 70B	100%	$0.0003	15.8s	100%
Z.AI GLM 4.5 Air	100%	$0.0007	13.6s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0015	6.2s	99%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
118	Claude Opus 4.6 (Reasoning)	$0.041	36.5s	100%	100	100	100	100	100	100%
135	Qwen3.6 Max Preview	$0.037	2.7m	100%	100	100	100	100	100	100%
115	Gemini 3.1 Pro (Preview)	$0.039	42.3s	100%	100	100	100	100	100	100%
34	Z.AI GLM 5 Turbo	$0.0039	16.3s	100%	100	100	100	100	100	100%
95	Grok 4.3 (Reasoning)	$0.012	1.1m	100%	100	100	100	100	100	100%
104	GPT-5.1	$0.025	44.7s	100%	100	100	100	100	100	100%
112	Claude Opus 4.6	$0.037	35.6s	100%	100	100	100	100	100	100%
137	MoonshotAI: Kimi K2.6	$0.022	4.0m	100%	100	100	100	100	100	100%
132	GPT-5	$0.047	1.4m	100%	100	100	100	100	100	100%
109	Qwen 3.5 397B A17B	$0.015	2.0m	100%	100	100	100	100	100	100%
39	Gemma 4 31B (Reasoning)	$0.0006	38.1s	100%	100	100	100	100	100	100%
82	Qwen 3.5 122B	$0.013	30.1s	100%	100	100	100	100	100	100%
91	Qwen 3.5 Plus (2026-04-20)	$0.010	1.1m	100%	100	100	100	100	100	100%
79	Gemma 4 26B (Reasoning)	$0.0007	1.5m	100%	100	100	100	100	100	100%
96	Grok 4.20 (Beta, Reasoning)	$0.023	16.8s	100%	100	100	100	100	100	100%
72	GPT-5.4 (Reasoning, Low)	$0.012	16.5s	100%	100	100	100	100	100	100%
87	Grok 4.20 (Reasoning)	$0.0098	54.9s	100%	100	100	100	100	100	100%
57	Claude Sonnet 4.6	$0.0097	13.1s	100%	100	100	100	100	100	100%
86	MoonshotAI: Kimi K2.5	$0.0071	1.1m	100%	100	100	100	100	100	100%
81	Qwen 3.5 27B	$0.0094	46.1s	100%	100	100	100	100	100	100%
61	ByteDance Seed 1.6	$0.0039	46.8s	100%	100	100	100	100	100	100%
65	Qwen 3.6 Flash	$0.0079	31.3s	100%	100	100	100	100	100	100%
29	GPT-5.4 Mini (Reasoning)	$0.0048	6.7s	100%	100	100	100	100	100	100%
38	Gemini 3 Flash (Preview, Reasoning)	$0.0052	11.5s	100%	100	100	100	100	100	100%
98	o4 Mini High	$0.019	42.5s	100%	100	100	100	100	100	100%
116	DeepSeek V4 Pro (Reasoning)	$0.0072	3.5m	100%	100	100	100	100	100	100%
106	Claude Opus 4.7	$0.033	15.5s	100%	100	100	100	100	100	100%
100	Qwen 3.6 27B	$0.014	1.3m	100%	100	100	100	100	100	100%
93	Claude Opus 4.5	$0.020	16.5s	100%	100	100	100	100	100	100%
51	Aion 2.0	$0.0030	42.1s	100%	100	100	100	100	100	100%
84	Z.AI GLM 4.6	$0.0043	1.3m	100%	100	100	100	100	100	100%
26	MiniMax M2.5	$0.0011	21.9s	100%	100	100	100	100	100	100%
85	Z.AI GLM 4.7	$0.0056	1.3m	100%	100	100	100	100	100	100%
28	GPT-4.1	$0.0042	8.2s	100%	100	100	100	100	100	100%
50	o4 Mini	$0.0075	16.9s	100%	100	100	100	100	100	100%
88	Grok 4	$0.015	30.2s	100%	100	100	100	100	100	100%
64	Claude Sonnet 4.5	$0.011	12.6s	100%	100	100	100	100	100	100%
35	Xiaomi MIMO v2.5 Pro	$0.0032	20.1s	100%	100	100	100	100	100	100%
21	Stealth: Hunter Alpha	$0.0000	18.6s	100%	100	100	100	100	100	100%
27	Gemma 4 31B	$0.0003	28.0s	100%	100	100	100	100	100	100%
45	Gemini 2.5 Flash (Reasoning)	$0.0071	13.9s	100%	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	3.5s	100%	100	100	100	100	100	100%
24	Z.AI GLM 4.5	$0.0013	16.0s	100%	100	100	100	100	100	100%
8	Gemini 3.1 Flash Lite (Preview)	$0.0011	3.7s	100%	100	100	100	100	100	100%
30	Gemma 4 26B	$0.0003	30.0s	100%	100	100	100	100	100	100%
10	Gemini 3.1 Flash Lite	$0.0011	5.2s	100%	100	100	100	100	100	100%
14	GPT-5.4 Mini (Reasoning, Low)	$0.0023	3.4s	100%	100	100	100	100	100	100%
48	GPT-4o, May 13th (temp=0)	$0.0090	8.2s	100%	100	100	100	100	100	100%
15	Gemini 3 Flash (Preview)	$0.0020	5.5s	100%	100	100	100	100	100	100%
12	DeepSeek-V2 Chat	$0.0001	13.4s	100%	100	100	100	100	100	100%
92	ByteDance Seed 2.0 Lite	$0.0069	1.4m	100%	100	100	100	100	100	100%
74	GPT-5.4	$0.013	18.5s	100%	100	100	100	100	100	100%
54	Claude 3.5 Sonnet	$0.0092	14.4s	100%	100	100	100	100	100	100%
22	Grok 4.20 (Beta)	$0.0033	3.4s	100%	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0006	1.4s	100%	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.7s	100%	100	100	100	100	100	100%
19	Z.AI GLM 4.5 Air	$0.0007	13.6s	100%	100	100	100	100	100	100%
23	Hermes 3 405B	$0.0000	20.9s	100%	100	100	100	100	100	100%
37	GPT-4o, Aug. 6th (temp=1)	$0.0059	6.7s	100%	100	100	100	100	100	100%
32	GPT-4o, Aug. 6th (temp=0)	$0.0051	6.3s	100%	100	100	100	100	100	100%
31	DeepSeek V3.1	$0.0005	29.8s	100%	100	100	100	100	100	100%
13	DeepSeek V4 Flash	$0.0002	13.2s	100%	100	100	100	100	100	100%
17	DeepSeek V3 (2025-03-24)	$0.0005	13.9s	100%	100	100	100	100	100	100%
25	Grok 4.20	$0.0021	12.2s	100%	100	100	100	100	100	100%
11	GPT-5.4 Nano (Reasoning)	$0.0015	6.1s	100%	100	100	100	100	100	100%
2	Inception Mercury	$0.0002	1.2s	100%	100	100	100	100	100	100%
9	GPT-4o Mini (temp=1)	$0.0003	8.0s	100%	100	100	100	100	100	100%
6	Grok 4.3	$0.0008	3.5s	100%	100	100	100	100	100	100%
4	GPT-4o Mini (temp=0)	$0.0002	4.3s	100%	100	100	100	100	100	100%
16	GPT-5.4 Nano	$0.0018	6.8s	100%	100	100	100	100	100	100%
18	Hermes 3 70B	$0.0003	15.8s	100%	100	100	100	100	100	100%
5	Arcee AI: Trinity Mini	$0.0002	6.1s	100%	100	100	100	100	100	100%
89	GPT-5.2	$0.017	25.8s	99%	100	100	100	100	99	100%
20	GPT-5.4 Nano (Reasoning, Low)	$0.0015	6.2s	99%	100	100	100	100	98	100%
107	GPT-5.5 (Reasoning, Low)	$0.031	22.8s	99%	100	100	100	100	98	100%
108	GPT-5.5 (Reasoning)	$0.032	18.5s	98%	100	100	100	100	98	99%
46	Z.AI GLM 5.1	$0.0038	22.9s	97%	100	100	100	100	96	99%
101	Claude Sonnet 4.6 (Reasoning)	$0.021	25.5s	97%	100	100	100	100	96	99%
97	Gemini 2.5 Pro	$0.021	19.5s	96%	100	100	100	100	95	99%
94	GPT-5.4 (Reasoning)	$0.018	27.5s	97%	100	100	100	98	97	99%
36	Xiaomi MIMO v2.5	$0.0022	12.9s	96%	100	100	100	100	95	99%
68	GPT-5 Mini	$0.0061	31.2s	96%	100	100	100	100	94	99%
47	Qwen 3.5 Flash	$0.0017	29.6s	95%	100	100	100	100	94	99%
33	Gemini 2.5 Flash	$0.0028	6.4s	95%	100	100	100	100	94	99%
83	GPT-5 Nano	$0.0027	1.1m	94%	100	100	100	100	93	99%
40	Gemma 3 27B	$0.0003	23.0s	94%	100	100	100	100	93	99%
110	GPT-5.5	$0.035	25.8s	97%	100	99	99	98	97	99%
59	GPT-OSS 120B	$0.0002	46.8s	94%	100	100	100	100	92	98%
76	DeepSeek V3.2	$0.0004	1.1m	94%	100	100	100	100	92	98%
52	Gemini 2.5 Flash Lite (Reasoning)	$0.0022	27.5s	93%	100	100	100	100	92	98%
70	GPT-4o, May 13th (temp=1)	$0.0095	8.6s	93%	100	100	100	100	92	98%
49	Gemma 3 12B	$0.0002	33.8s	93%	100	100	100	100	92	98%
119	Claude Opus 4.7 (Reasoning)	$0.041	18.5s	92%	100	100	100	100	90	98%
105	Gemini 3 Pro (Preview)	$0.026	20.1s	94%	100	100	100	94	94	98%
77	Claude 3.7 Sonnet	$0.011	12.8s	94%	100	100	100	94	94	98%
78	Qwen 3.6 35B	$0.0059	36.1s	94%	100	100	100	94	93	97%
53	Mistral Large	$0.0032	9.5s	89%	100	100	100	100	86	97%
41	Nemotron 3 Nano	$0.0002	9.9s	89%	100	100	100	100	86	97%
62	Nemotron 3 Super	$0.0000	31.0s	88%	100	100	100	100	85	97%
73	Claude Sonnet 4	$0.0085	10.7s	92%	100	100	100	93	91	97%
80	Z.AI GLM 4.7 Flash	$0.0011	1.0m	92%	100	100	100	94	90	97%
43	GPT-4.1 Mini	$0.0005	3.4s	85%	100	100	100	100	82	96%
44	ByteDance Seed 1.6 Flash	$0.0007	14.5s	91%	100	100	100	91	90	96%
56	Gemma 3 4B	$0.0001	13.9s	84%	100	100	100	100	80	96%
55	GPT-5.4 Mini	$0.0018	2.3s	83%	100	100	100	100	79	96%
42	Grok 4 Fast	$0.0005	7.0s	89%	100	100	100	91	88	96%
63	Grok 4.1 Fast	$0.0006	11.6s	82%	100	100	100	100	78	96%
90	DeepSeek V4 Pro	$0.0024	42.3s	80%	100	100	100	100	75	95%
67	Qwen 3.5 Plus (2026-02-15)	$0.0019	25.9s	89%	100	94	94	93	93	95%
58	Mistral Small 4 (Reasoning)	$0.0009	12.8s	85%	100	100	100	92	81	95%
130	Claude Opus 4	$0.044	22.7s	87%	100	94	94	92	89	94%
60	Gemini 2.5 Flash Lite	$0.0006	5.1s	82%	100	100	93	92	83	94%
75	Claude Haiku 4.5	$0.0036	7.3s	82%	100	100	100	91	77	94%
71	Llama 3.1 70B	$0.0007	15.8s	81%	100	100	92	91	85	94%
69	Stealth: Healer Alpha	$0.0000	10.9s	80%	100	100	96	91	77	93%
66	GPT-4.1 Nano	$0.0001	4.9s	79%	100	100	100	90	73	93%
103	Z.AI GLM 5	$0.0055	1.2m	81%	100	94	90	88	86	92%
111	Qwen 3.5 35B	$0.015	37.5s	67%	100	100	100	96	59	91%
120	Qwen 3.5 9B	$0.0015	2.1m	64%	100	96	95	93	56	88%
131	ByteDance Seed 2.0 Mini	$0.0022	2.4m	54%	100	100	100	86	40	85%
99	Arcee AI: Trinity Large (Preview)	$0.0000	8.4s	60%	100	100	91	78	55	85%
102	Mistral Large 3	$0.0015	18.6s	61%	100	92	80	76	67	83%
121	DeepSeek V4 Flash (Reasoning)	$0.0002	10.6s	20%	100	100	100	100	0	80%
127	Mistral Large 2	$0.0042	16.8s	20%	100	100	100	100	0	80%
124	DeepSeek V3 (2024-12-26)	$0.0007	20.7s	21%	100	100	100	94	0	79%
117	Llama 3.1 8B	$0.0001	4.6s	22%	100	100	100	90	0	78%
123	Qwen 3 32B	$0.0005	17.3s	22%	100	100	100	89	0	78%
128	Writer: Palmyra X5	$0.0049	13.2s	22%	100	100	100	86	0	77%
113	Rocinante 12B	$0.0004	29.0s	41%	100	94	67	63	50	75%
114	Mistral Medium 3.1	$0.0019	16.2s	42%	100	75	67	50	50	68%
125	Ministral 8B	$0.0001	2.8s	19%	100	100	73	67	0	68%
122	Cohere Command R+ (Aug. 2024)	$0.0067	13.3s	47%	92	70	65	63	50	68%
129	Ministral 3B	$0.0000	2.3s	18%	100	100	71	50	0	64%
141	MiniMax M2.7	$0.0050	44.3s	17%	100	95	61	50	0	61%
133	Mistral NeMO	$0.0001	4.9s	2%	100	100	100	0	0	60%
126	Claude 3 Haiku	$0.0008	3.8s	29%	100	50	50	50	43	59%
136	Qwen 2.5 72B	$0.0004	20.6s	7%	100	95	85	0	0	56%
139	WizardLM 2 8x22b	$0.0008	16.2s	6%	100	100	71	0	0	54%
138	Ministral 3 8B	$0.0002	6.0s	5%	100	100	50	0	0	50%
134	Mistral Small 4	$0.0005	7.2s	17%	85	71	60	0	0	43%
142	LFM2 24B	$0.0001	11.5s	0%	100	100	0	0	0	40%
143	Mistral Small 3.2 24B	$0.0002	10.9s	0%	100	50	0	0	0	30%
140	Mistral Small Creative	$0.0004	6.2s	26%	50	50	50	0	0	30%
144	Qwen3 235B A22B Instruct 2507	$0.0004	25.2s	0%	100	0	0	0	0	20%
146	Llama 3.1 Nemotron 70B	$0.0003	24.3s	0%	44	0	0	0	0	9%
147	Ministral 3 14B	$0.0002	8.6s	0%	0	0	0	0	0	0%
145	Ministral 3 3B	$0.0001	2.5s	0%	0	0	0	0	0	0%
90.64%

Median	Evaluator	Top 3	Flop 3
99.7%	Parse dialogue	100Gemini 3 Flash (Preview) 100Qwen 3.5 27B 100Claude Opus 4.6	0Ministral 3 3B 0Ministral 3 14B 9Llama 3.1 Nemotron 70B

Character dialogue (German) in a story

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Grok 4.20 (Reasoning)	100%
Claude Sonnet 4.6	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.7s
Inception Mercury	98%	$0.0002	1.5s
GPT-4.1 Nano	92%	$0.0001	2.8s
Inception Mercury 2	100%	$0.0006	1.5s
GPT-4.1 Mini	100%	$0.0004	2.6s
GPT-4o Mini (temp=0)	100%	$0.0002	4.3s
Nemotron 3 Super	98%	$0.0000	9.2s
GPT-4o Mini (temp=1)	100%	$0.0003	5.4s
Gemini 2.5 Flash Lite	98%	$0.0005	4.6s
Arcee AI: Trinity Mini	100%	$0.0004	15.0s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.7s
Gemini 3.1 Flash Lite	100%	$0.0011	3.7s
Grok 4.3	98%	$0.0010	4.3s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	6.3s
Arcee AI: Trinity Large (Preview)	93%	$0.0000	14.1s
Mistral Small 3.2 24B	80%	$0.0003	9.3s
GPT-5.4 Mini	100%	$0.0020	2.4s
Gemini 3 Flash (Preview)	100%	$0.0016	4.6s
Nemotron 3 Nano	100%	$0.0002	10.5s
DeepSeek V4 Flash (Reasoning)	100%	$0.0002	54.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 122B	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.7s	100%
Inception Mercury 2	100%	$0.0006	1.5s	100%
GPT-4.1 Mini	100%	$0.0004	2.6s	100%
GPT-4o Mini (temp=0)	100%	$0.0002	4.3s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	5.4s	100%
Gemini 3.1 Flash Lite	100%	$0.0011	3.7s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0011	3.7s	100%
GPT-5.4 Mini	100%	$0.0020	2.4s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	6.3s	100%
Gemini 3 Flash (Preview)	100%	$0.0016	4.6s	100%
Nemotron 3 Nano	100%	$0.0002	10.5s	100%
Gemini 2.5 Flash	100%	$0.0023	5.4s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0019	7.5s	100%
DeepSeek-V2 Chat	100%	$0.0001	13.8s	100%
Arcee AI: Trinity Mini	100%	$0.0004	15.0s	100%
Z.AI GLM 4.5	100%	$0.0012	12.7s	100%
GPT-5.4 Mini (Reasoning, Low)	99%	$0.0025	4.2s	98%
GPT-5.4 Mini (Reasoning)	100%	$0.0036	4.7s	100%
GPT-5.4 Nano	99%	$0.0018	7.0s	98%
Grok 4.20	100%	$0.0023	11.5s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
113	Claude Opus 4.6 (Reasoning)	$0.039	36.1s	100%	100	100	100	100	100	100%
142	Qwen3.6 Max Preview	$0.034	2.4m	100%	100	100	100	100	100	100%
110	Gemini 3.1 Pro (Preview)	$0.037	38.3s	100%	100	100	100	100	100	100%
48	Z.AI GLM 5.1	$0.0044	28.9s	100%	100	100	100	100	100	100%
33	Z.AI GLM 5 Turbo	$0.0038	16.4s	100%	100	100	100	100	100	100%
92	Grok 4.3 (Reasoning)	$0.011	1.1m	100%	100	100	100	100	100	100%
104	Claude Opus 4.7 (Reasoning)	$0.039	17.6s	100%	100	100	100	100	100	100%
58	GPT-5 Mini	$0.0069	37.2s	100%	100	100	100	100	100	100%
103	Claude Opus 4.6	$0.031	30.9s	100%	100	100	100	100	100	100%
119	MoonshotAI: Kimi K2.6	$0.018	2.0m	100%	100	100	100	100	100	100%
134	GPT-5	$0.046	1.3m	100%	100	100	100	100	100	100%
123	Qwen 3.5 397B A17B	$0.016	2.2m	100%	100	100	100	100	100	100%
78	Gemma 4 31B (Reasoning)	$0.0005	1.3m	100%	100	100	100	100	100	100%
82	Qwen 3.5 122B	$0.013	40.6s	100%	100	100	100	100	100	100%
90	Qwen 3.5 Plus (2026-04-20)	$0.010	1.1m	100%	100	100	100	100	100	100%
69	Gemma 4 26B (Reasoning)	$0.0010	1.1m	100%	100	100	100	100	100	100%
88	Grok 4.20 (Beta, Reasoning)	$0.024	17.0s	100%	100	100	100	100	100	100%
57	GPT-5.4 (Reasoning, Low)	$0.013	17.5s	100%	100	100	100	100	100	100%
81	Grok 4.20 (Reasoning)	$0.0095	49.9s	100%	100	100	100	100	100	100%
49	Claude Sonnet 4.6	$0.0098	12.4s	100%	100	100	100	100	100	100%
86	MoonshotAI: Kimi K2.5	$0.0081	1.1m	100%	100	100	100	100	100	100%
74	Qwen 3.5 27B	$0.0094	43.9s	100%	100	100	100	100	100	100%
66	ByteDance Seed 1.6	$0.0043	52.4s	100%	100	100	100	100	100	100%
18	GPT-5.4 Mini (Reasoning)	$0.0036	4.7s	100%	100	100	100	100	100	100%
50	DeepSeek V4 Pro (Reasoning)	$0.0011	41.8s	100%	100	100	100	100	100	100%
100	Qwen 3.6 27B	$0.013	1.2m	100%	100	100	100	100	100	100%
51	Qwen 3.6 35B	$0.0048	32.4s	100%	100	100	100	100	100	100%
55	DeepSeek V4 Flash (Reasoning)	$0.0002	54.4s	100%	100	100	100	100	100	100%
118	Z.AI GLM 4.7	$0.0052	2.7m	100%	100	100	100	100	100	100%
23	GPT-4.1	$0.0042	6.4s	100%	100	100	100	100	100	100%
47	o4 Mini	$0.0066	17.7s	100%	100	100	100	100	100	100%
89	Grok 4	$0.018	36.4s	100%	100	100	100	100	100	100%
22	Gemma 4 31B	$0.0003	19.3s	100%	100	100	100	100	100	100%
34	Gemini 2.5 Flash (Reasoning)	$0.0057	10.6s	100%	100	100	100	100	100	100%
32	GPT-OSS 120B	$0.0004	26.4s	100%	100	100	100	100	100	100%
9	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	6.3s	100%	100	100	100	100	100	100%
16	Z.AI GLM 4.5	$0.0012	12.7s	100%	100	100	100	100	100	100%
44	Qwen 3.5 Plus (2026-02-15)	$0.0019	32.4s	100%	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite (Preview)	$0.0011	3.7s	100%	100	100	100	100	100	100%
6	Gemini 3.1 Flash Lite	$0.0011	3.7s	100%	100	100	100	100	100	100%
40	GPT-4o, May 13th (temp=0)	$0.0088	7.6s	100%	100	100	100	100	100	100%
10	Gemini 3 Flash (Preview)	$0.0016	4.6s	100%	100	100	100	100	100	100%
14	DeepSeek-V2 Chat	$0.0001	13.8s	100%	100	100	100	100	100	100%
96	ByteDance Seed 2.0 Lite	$0.0072	1.4m	100%	100	100	100	100	100	100%
2	Inception Mercury 2	$0.0006	1.5s	100%	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.7s	100%	100	100	100	100	100	100%
3	GPT-4.1 Mini	$0.0004	2.6s	100%	100	100	100	100	100	100%
30	GPT-4o, Aug. 6th (temp=1)	$0.0057	6.5s	100%	100	100	100	100	100	100%
75	GPT-5 Nano	$0.0028	1.1m	100%	100	100	100	100	100	100%
27	GPT-4o, Aug. 6th (temp=0)	$0.0051	6.8s	100%	100	100	100	100	100	100%
8	GPT-5.4 Mini	$0.0020	2.4s	100%	100	100	100	100	100	100%
31	DeepSeek V3.1	$0.0006	25.6s	100%	100	100	100	100	100	100%
20	Grok 4.20	$0.0023	11.5s	100%	100	100	100	100	100	100%
13	GPT-5.4 Nano (Reasoning)	$0.0019	7.5s	100%	100	100	100	100	100	100%
12	Gemini 2.5 Flash	$0.0023	5.4s	100%	100	100	100	100	100	100%
24	Mistral Large	$0.0032	9.8s	100%	100	100	100	100	100	100%
5	GPT-4o Mini (temp=1)	$0.0003	5.4s	100%	100	100	100	100	100	100%
4	GPT-4o Mini (temp=0)	$0.0002	4.3s	100%	100	100	100	100	100	100%
11	Nemotron 3 Nano	$0.0002	10.5s	100%	100	100	100	100	100	100%
15	Arcee AI: Trinity Mini	$0.0004	15.0s	100%	100	100	100	100	100	100%
64	GPT-5.4	$0.013	19.2s	99%	100	100	100	100	99	100%
80	GPT-5.4 (Reasoning)	$0.016	24.1s	99%	100	100	100	100	98	100%
17	GPT-5.4 Mini (Reasoning, Low)	$0.0025	4.2s	98%	100	100	100	100	97	99%
19	GPT-5.4 Nano	$0.0018	7.0s	98%	100	100	100	98	98	99%
107	GPT-5.5 (Reasoning)	$0.037	24.7s	97%	100	100	99	99	98	99%
106	Claude Opus 4.7	$0.038	18.0s	96%	100	100	100	100	95	99%
93	Claude Sonnet 4.6 (Reasoning)	$0.020	26.2s	96%	100	100	100	100	95	99%
85	Claude Opus 4.5	$0.019	16.4s	96%	100	100	100	100	95	99%
60	Claude 3.7 Sonnet	$0.012	14.4s	96%	100	100	100	100	95	99%
46	Gemini 3 Flash (Preview, Reasoning)	$0.0052	12.3s	95%	100	100	100	100	94	99%
91	o4 Mini High	$0.015	40.2s	95%	100	100	100	100	94	99%
95	Gemini 2.5 Pro	$0.022	21.4s	95%	100	100	100	100	94	99%
77	Qwen 3.5 Flash	$0.0020	59.8s	95%	100	100	100	100	94	99%
109	GPT-5.5	$0.039	26.6s	97%	100	99	99	98	98	99%
39	MiniMax M2.5	$0.0010	21.1s	94%	100	100	100	100	93	99%
35	Mistral Large 3	$0.0013	15.8s	94%	100	100	100	100	93	99%
43	Xiaomi MIMO v2.5 Pro	$0.0031	20.0s	96%	100	100	100	97	96	99%
26	GPT-5.4 Nano (Reasoning, Low)	$0.0019	7.7s	96%	100	100	100	98	95	98%
61	Qwen 3.6 Flash	$0.0068	27.3s	94%	100	100	100	100	92	98%
38	Grok 4.1 Fast	$0.0008	19.0s	93%	100	100	100	100	92	98%
25	Nemotron 3 Super	$0.0000	9.2s	93%	100	100	100	100	92	98%
45	DeepSeek V3.2	$0.0004	24.8s	93%	100	100	100	100	92	98%
108	GPT-5.5 (Reasoning, Low)	$0.036	25.1s	95%	100	100	98	97	97	98%
70	Aion 2.0	$0.0033	45.8s	93%	100	100	100	100	91	98%
112	ByteDance Seed 2.0 Mini	$0.0022	2.4m	93%	100	100	100	100	91	98%
41	Hermes 3 405B	$0.0000	23.7s	93%	100	100	100	100	91	98%
84	GPT-5.2	$0.015	25.0s	96%	100	99	98	97	96	98%
105	GPT-5.1	$0.024	48.9s	92%	100	100	100	100	90	98%
62	Claude 3.5 Sonnet	$0.0100	17.2s	95%	100	100	100	95	94	98%
36	Grok 4.20 (Beta)	$0.0034	3.7s	91%	100	100	100	100	89	98%
37	DeepSeek V3 (2025-03-24)	$0.0006	14.8s	91%	100	100	100	100	89	98%
28	Gemini 2.5 Flash Lite	$0.0005	4.6s	91%	100	100	100	100	89	98%
21	Inception Mercury	$0.0002	1.5s	91%	100	100	100	100	89	98%
29	Grok 4.3	$0.0010	4.3s	91%	100	100	100	100	89	98%
127	Claude Opus 4	$0.048	23.5s	94%	100	100	100	95	93	98%
56	Claude Sonnet 4	$0.0091	11.1s	93%	100	100	100	93	93	97%
98	Qwen 3.5 9B	$0.0010	1.6m	93%	100	100	100	94	91	97%
54	GPT-4o, May 13th (temp=1)	$0.0090	7.0s	92%	100	100	100	93	91	97%
72	Claude Sonnet 4.5	$0.011	12.7s	90%	100	100	95	94	93	96%
53	Xiaomi MIMO v2.5	$0.0026	15.2s	84%	100	100	100	100	80	96%
42	Gemma 3 4B	$0.0001	12.8s	88%	100	100	100	92	86	96%
101	Z.AI GLM 5	$0.0040	1.3m	87%	100	100	95	95	88	96%
83	Gemma 4 26B	$0.0003	46.7s	82%	100	100	100	100	78	96%
68	Gemma 3 27B	$0.0002	37.6s	87%	100	100	100	92	83	95%
71	Gemma 3 12B	$0.0002	34.3s	83%	100	100	91	91	90	94%
52	Grok 4 Fast	$0.0005	7.1s	80%	100	100	91	89	86	93%
79	Llama 3.1 70B	$0.0006	38.2s	82%	100	100	100	83	80	93%
73	Arcee AI: Trinity Large (Preview)	$0.0000	14.1s	71%	100	100	100	100	63	93%
76	DeepSeek V4 Pro	$0.0014	28.8s	81%	100	100	100	83	79	92%
65	Claude Haiku 4.5	$0.0033	7.5s	79%	100	100	94	88	79	92%
59	ByteDance Seed 1.6 Flash	$0.0006	15.7s	80%	100	100	100	80	80	92%
67	GPT-4.1 Nano	$0.0001	2.8s	68%	100	100	100	100	60	92%
63	Stealth: Healer Alpha	$0.0000	14.9s	78%	100	100	100	85	73	92%
87	Z.AI GLM 4.5 Air	$0.0011	22.6s	67%	100	100	100	100	58	92%
99	Z.AI GLM 4.7 Flash	$0.0011	48.9s	70%	100	100	100	88	62	90%
94	Mistral Small 4	$0.0004	6.3s	56%	100	100	80	73	63	83%
102	Stealth: Hunter Alpha	$0.0000	18.6s	54%	100	100	87	67	53	81%
97	LFM2 24B	$0.0001	9.5s	55%	100	100	90	57	57	81%
143	Gemini 3 Pro (Preview)	$0.027	20.7s	20%	100	100	100	100	0	80%
130	Qwen 3.5 35B	$0.0077	25.6s	20%	100	100	100	100	0	80%
120	DeepSeek V3 (2024-12-26)	$0.0006	17.3s	20%	100	100	100	100	0	80%
125	Qwen 3 32B	$0.0005	27.1s	20%	100	100	100	100	0	80%
115	Mistral Small 3.2 24B	$0.0003	9.3s	20%	100	100	100	100	0	80%
121	Gemini 2.5 Flash Lite (Reasoning)	$0.0017	17.3s	22%	100	100	100	90	0	78%
141	Z.AI GLM 4.6	$0.0047	1.3m	21%	100	100	95	94	0	78%
117	DeepSeek V4 Flash	$0.0002	13.3s	21%	100	100	92	92	0	77%
114	Llama 3.1 8B	$0.0001	3.8s	21%	100	100	91	90	0	76%
124	MiniMax M2.7	$0.0012	20.2s	22%	100	100	92	86	0	75%
122	Hermes 3 70B	$0.0002	13.5s	22%	100	100	100	60	0	72%
126	Mistral Small 4 (Reasoning)	$0.0012	17.6s	21%	100	100	98	53	0	70%
129	Rocinante 12B	$0.0004	27.3s	21%	100	100	80	67	0	69%
116	Claude 3 Haiku	$0.0006	3.6s	24%	100	100	50	50	43	69%
111	Cohere Command R+ (Aug. 2024)	$0.0065	16.0s	53%	86	75	70	62	50	68%
140	Mistral Large 2	$0.0040	17.9s	2%	100	100	100	0	0	60%
133	Mistral Medium 3.1	$0.0019	17.0s	13%	100	100	50	50	0	60%
131	Ministral 3 3B	$0.0001	2.8s	5%	100	100	90	0	0	58%
137	Llama 3.1 Nemotron 70B	$0.0003	20.5s	5%	100	100	86	0	0	57%
135	Qwen3 235B A22B Instruct 2507	$0.0003	14.1s	6%	100	100	67	0	0	53%
132	Ministral 8B	$0.0001	4.0s	9%	100	92	69	0	0	52%
138	WizardLM 2 8x22b	$0.0008	16.3s	9%	100	88	63	0	0	50%
128	Ministral 3B	$0.0000	3.7s	29%	67	64	58	58	0	49%
139	Mistral NeMO	$0.0001	4.8s	3%	100	100	33	0	0	47%
144	Qwen 2.5 72B	$0.0004	21.5s	0%	100	100	0	0	0	40%
136	Mistral Small Creative	$0.0004	7.0s	26%	50	50	50	0	0	30%
146	Writer: Palmyra X5	$0.0049	10.6s	0%	100	0	0	0	0	20%
145	Ministral 3 8B	$0.0002	5.3s	0%	68	0	0	0	0	14%
147	Ministral 3 14B	$0.0003	8.5s	0%	0	0	0	0	0	0%
90.45%

Median	Evaluator	Top 3	Flop 3
98.7%	Parse dialogue	100Qwen 3.5 Plus (2026-02-15) 100Grok 4 100Grok 4.3 (Reasoning)	0Ministral 3 14B 14Ministral 3 8B 20Writer: Palmyra X5

Character dialogue (Italian) in a story

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%
MoonshotAI: Kimi K2.5	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%

	Score	Cost	Time
Stealth: Aurora Alpha	100%	—	1.5s
Inception Mercury	100%	$0.0002	1.7s
GPT-4.1 Mini	100%	$0.0004	2.6s
Inception Mercury 2	98%	$0.0006	1.4s
Mistral NeMO	80%	$0.0001	4.5s
GPT-4o Mini (temp=0)	100%	$0.0002	4.6s
GPT-4o Mini (temp=1)	100%	$0.0003	4.4s
Claude 3 Haiku	78%	$0.0005	3.5s
GPT-4.1 Nano	90%	$0.0001	4.6s
Mistral Small 3.2 24B	100%	$0.0003	9.5s
Ministral 3 8B	77%	$0.0002	6.8s
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	6.0s
Grok 4.3	100%	$0.0010	4.5s
Arcee AI: Trinity Mini	60%	$0.0002	7.8s
Gemini 3.1 Flash Lite (Preview)	100%	$0.0012	4.0s
Gemini 3.1 Flash Lite	100%	$0.0011	15.1s
DeepSeek-V2 Chat	100%	$0.0001	12.7s
DeepSeek V4 Flash	98%	$0.0002	11.0s
LFM2 24B	85%	$0.0001	11.7s
Nemotron 3 Nano	87%	$0.0002	9.4s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
Qwen 3.5 397B A17B	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
MoonshotAI: Kimi K2.5	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%

	Score	Cost	Speed	Stability
Stealth: Aurora Alpha	100%	—	1.5s	100%
Inception Mercury	100%	$0.0002	1.7s	100%
GPT-4.1 Mini	100%	$0.0004	2.6s	100%
GPT-4o Mini (temp=1)	100%	$0.0003	4.4s	100%
GPT-4o Mini (temp=0)	100%	$0.0002	4.6s	100%
Grok 4.3	100%	$0.0010	4.5s	100%
Gemini 3.1 Flash Lite (Preview)	100%	$0.0012	4.0s	100%
Gemini 3.1 Flash Lite (Reasoning)	100%	$0.0011	6.0s	100%
GPT-5.4 Mini	100%	$0.0022	2.5s	100%
Mistral Small 3.2 24B	100%	$0.0003	9.5s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0022	3.2s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0017	6.7s	100%
DeepSeek-V2 Chat	100%	$0.0001	12.7s	100%
Gemini 3 Flash (Preview)	100%	$0.0021	6.1s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0015	5.8s	98%
Gemini 2.5 Flash	100%	$0.0026	6.1s	100%
Hermes 3 405B	100%	$0.0000	18.6s	100%
Gemini 3.1 Flash Lite	100%	$0.0011	15.1s	100%
Inception Mercury 2	98%	$0.0006	1.4s	93%
DeepSeek V3.1	100%	$0.0008	17.3s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
114	Claude Opus 4.6 (Reasoning)	$0.039	39.2s	100%	100	100	100	100	100	100%
137	Qwen3.6 Max Preview	$0.035	2.5m	100%	100	100	100	100	100	100%
113	Gemini 3.1 Pro (Preview)	$0.038	42.1s	100%	100	100	100	100	100	100%
85	Grok 4.3 (Reasoning)	$0.011	1.0m	100%	100	100	100	100	100	100%
67	GPT-5.4 (Reasoning)	$0.015	22.5s	100%	100	100	100	100	100	100%
110	Claude Opus 4.7 (Reasoning)	$0.043	20.1s	100%	100	100	100	100	100	100%
53	GPT-5 Mini	$0.0065	32.7s	100%	100	100	100	100	100	100%
108	Claude Opus 4.6	$0.037	35.0s	100%	100	100	100	100	100	100%
129	MoonshotAI: Kimi K2.6	$0.021	2.5m	100%	100	100	100	100	100	100%
107	Qwen 3.5 397B A17B	$0.014	1.9m	100%	100	100	100	100	100	100%
77	Gemma 4 31B (Reasoning)	$0.0005	1.3m	100%	100	100	100	100	100	100%
91	Qwen 3.5 Plus (2026-04-20)	$0.011	1.1m	100%	100	100	100	100	100	100%
60	Gemma 4 26B (Reasoning)	$0.0008	1.0m	100%	100	100	100	100	100	100%
90	Grok 4.20 (Beta, Reasoning)	$0.025	19.7s	100%	100	100	100	100	100	100%
73	Grok 4.20 (Reasoning)	$0.0097	45.2s	100%	100	100	100	100	100	100%
89	Z.AI GLM 5	$0.0067	1.3m	100%	100	100	100	100	100	100%
49	Claude Sonnet 4.6	$0.010	14.3s	100%	100	100	100	100	100	100%
94	MoonshotAI: Kimi K2.5	$0.0088	1.4m	100%	100	100	100	100	100	100%
79	Qwen 3.5 27B	$0.0089	52.5s	100%	100	100	100	100	100	100%
64	ByteDance Seed 1.6	$0.0042	53.2s	100%	100	100	100	100	100	100%
62	Qwen 3.6 Flash	$0.0090	33.5s	100%	100	100	100	100	100	100%
22	GPT-5.4 Mini (Reasoning)	$0.0041	7.6s	100%	100	100	100	100	100	100%
27	Gemini 3 Flash (Preview, Reasoning)	$0.0048	11.4s	100%	100	100	100	100	100	100%
87	o4 Mini High	$0.018	39.4s	100%	100	100	100	100	100	100%
32	DeepSeek V4 Pro (Reasoning)	$0.0010	29.2s	100%	100	100	100	100	100	100%
102	Claude Opus 4.7	$0.035	17.4s	100%	100	100	100	100	100	100%
47	Aion 2.0	$0.0028	39.1s	100%	100	100	100	100	100	100%
56	Z.AI GLM 4.6	$0.0040	44.0s	100%	100	100	100	100	100	100%
118	Z.AI GLM 4.7	$0.0054	2.8m	100%	100	100	100	100	100	100%
23	GPT-4.1	$0.0043	7.5s	100%	100	100	100	100	100	100%
39	o4 Mini	$0.0067	14.4s	100%	100	100	100	100	100	100%
74	Grok 4	$0.014	30.0s	100%	100	100	100	100	100	100%
54	Claude Sonnet 4.5	$0.012	13.9s	100%	100	100	100	100	100	100%
61	Gemma 4 31B	$0.0003	1.1m	100%	100	100	100	100	100	100%
8	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	6.0s	100%	100	100	100	100	100	100%
46	Qwen 3.5 Flash	$0.0021	40.6s	100%	100	100	100	100	100	100%
35	Qwen 3.5 Plus (2026-02-15)	$0.0019	27.1s	100%	100	100	100	100	100	100%
7	Gemini 3.1 Flash Lite (Preview)	$0.0012	4.0s	100%	100	100	100	100	100	100%
38	Gemma 4 26B	$0.0003	35.6s	100%	100	100	100	100	100	100%
18	Gemini 3.1 Flash Lite	$0.0011	15.1s	100%	100	100	100	100	100	100%
11	GPT-5.4 Mini (Reasoning, Low)	$0.0022	3.2s	100%	100	100	100	100	100	100%
37	GPT-4o, May 13th (temp=0)	$0.0084	7.4s	100%	100	100	100	100	100	100%
14	Gemini 3 Flash (Preview)	$0.0021	6.1s	100%	100	100	100	100	100	100%
21	Xiaomi MIMO v2.5	$0.0022	12.9s	100%	100	100	100	100	100	100%
13	DeepSeek-V2 Chat	$0.0001	12.7s	100%	100	100	100	100	100	100%
1	Stealth: Aurora Alpha	—	1.5s	100%	100	100	100	100	100	100%
3	GPT-4.1 Mini	$0.0004	2.6s	100%	100	100	100	100	100	100%
44	Z.AI GLM 4.5 Air	$0.0013	40.3s	100%	100	100	100	100	100	100%
17	Hermes 3 405B	$0.0000	18.6s	100%	100	100	100	100	100	100%
26	GPT-4o, Aug. 6th (temp=1)	$0.0060	6.9s	100%	100	100	100	100	100	100%
75	GPT-5 Nano	$0.0028	1.2m	100%	100	100	100	100	100	100%
24	GPT-4o, Aug. 6th (temp=0)	$0.0053	5.5s	100%	100	100	100	100	100	100%
9	GPT-5.4 Mini	$0.0022	2.5s	100%	100	100	100	100	100	100%
33	Mistral Large 2	$0.0041	18.9s	100%	100	100	100	100	100	100%
20	DeepSeek V3.1	$0.0008	17.3s	100%	100	100	100	100	100	100%
80	DeepSeek V3.2	$0.0005	1.4m	100%	100	100	100	100	100	100%
16	Gemini 2.5 Flash	$0.0026	6.1s	100%	100	100	100	100	100	100%
2	Inception Mercury	$0.0002	1.7s	100%	100	100	100	100	100	100%
12	GPT-5.4 Nano (Reasoning, Low)	$0.0017	6.7s	100%	100	100	100	100	100	100%
4	GPT-4o Mini (temp=1)	$0.0003	4.4s	100%	100	100	100	100	100	100%
6	Grok 4.3	$0.0010	4.5s	100%	100	100	100	100	100	100%
10	Mistral Small 3.2 24B	$0.0003	9.5s	100%	100	100	100	100	100	100%
5	GPT-4o Mini (temp=0)	$0.0002	4.6s	100%	100	100	100	100	100	100%
63	GPT-5.4 (Reasoning, Low)	$0.013	17.3s	99%	100	100	100	100	98	100%
15	GPT-5.4 Nano (Reasoning)	$0.0015	5.8s	98%	100	100	100	100	98	100%
123	GPT-5	$0.038	1.2m	98%	100	100	100	100	98	99%
82	GPT-5.2	$0.018	27.1s	97%	100	100	99	99	98	99%
106	GPT-5.1	$0.029	52.6s	97%	100	100	100	99	97	99%
101	Claude Sonnet 4.6 (Reasoning)	$0.027	34.0s	96%	100	100	100	100	95	99%
42	Z.AI GLM 5 Turbo	$0.0040	18.6s	96%	100	100	100	100	95	99%
34	Stealth: Hunter Alpha	$0.0000	24.0s	96%	100	100	100	100	95	99%
99	Gemini 3 Pro (Preview)	$0.027	23.0s	96%	100	100	100	100	95	99%
98	Gemini 2.5 Pro	$0.026	24.9s	96%	100	100	100	100	95	99%
70	Qwen 3.6 35B	$0.0060	41.8s	96%	100	100	100	100	94	99%
69	GPT-5.4	$0.013	19.1s	96%	100	100	100	99	95	99%
86	Qwen 3.5 9B	$0.0009	1.4m	95%	100	100	100	100	94	99%
59	Z.AI GLM 5.1	$0.0047	32.1s	95%	100	100	100	100	93	99%
76	Claude Opus 4.5	$0.016	13.7s	94%	100	100	100	100	93	99%
78	Qwen 3.5 122B	$0.012	29.9s	96%	100	100	100	96	96	99%
41	MiniMax M2.5	$0.0022	23.4s	96%	100	100	100	97	96	99%
25	DeepSeek V4 Flash (Reasoning)	$0.0003	12.1s	94%	100	100	100	100	92	98%
30	Grok 4.20	$0.0020	10.3s	94%	100	100	100	100	92	98%
43	GPT-OSS 120B	$0.0004	27.5s	93%	100	100	100	100	92	98%
31	Z.AI GLM 4.5	$0.0013	11.8s	93%	100	100	100	100	92	98%
40	Nemotron 3 Super	$0.0000	24.3s	93%	100	100	100	100	92	98%
29	Grok 4.20 (Beta)	$0.0033	3.0s	93%	100	100	100	100	92	98%
103	GPT-5.5 (Reasoning)	$0.034	22.5s	96%	100	99	98	98	96	98%
19	Inception Mercury 2	$0.0006	1.4s	93%	100	100	100	100	91	98%
28	DeepSeek V4 Flash	$0.0002	11.0s	93%	100	100	100	100	91	98%
96	ByteDance Seed 2.0 Lite	$0.0067	1.3m	92%	100	100	100	100	90	98%
112	ByteDance Seed 2.0 Mini	$0.0023	2.4m	91%	100	100	100	100	89	98%
48	Gemini 2.5 Flash Lite (Reasoning)	$0.0019	23.0s	91%	100	100	100	100	89	98%
57	Gemma 3 12B	$0.0002	37.4s	91%	100	100	100	100	89	98%
71	Claude 3.7 Sonnet	$0.013	15.9s	95%	100	100	100	95	94	98%
115	GPT-5.5 (Reasoning, Low)	$0.040	21.0s	95%	99	98	97	97	97	98%
50	MiniMax M2.7	$0.0014	28.7s	93%	100	100	98	96	94	98%
58	Claude Sonnet 4	$0.0087	10.9s	93%	100	100	100	94	92	97%
36	ByteDance Seed 1.6 Flash	$0.0006	12.8s	92%	100	100	100	93	92	97%
111	GPT-5.5	$0.038	25.7s	95%	98	98	97	97	95	97%
52	Grok 4.1 Fast	$0.0005	15.7s	84%	100	100	100	100	80	96%
45	Grok 4 Fast	$0.0006	7.7s	84%	100	100	100	100	80	96%
66	Claude 3.5 Sonnet	$0.0084	15.1s	89%	100	100	100	92	87	96%
55	Mistral Large 3	$0.0015	18.9s	87%	100	100	100	93	83	95%
65	Gemini 2.5 Flash (Reasoning)	$0.0062	12.4s	86%	100	100	95	91	89	95%
81	Xiaomi MIMO v2.5 Pro	$0.0042	25.8s	79%	100	100	100	100	74	95%
51	Gemini 2.5 Flash Lite	$0.0005	4.7s	81%	100	100	92	90	86	93%
68	Claude Haiku 4.5	$0.0036	7.7s	79%	100	100	94	93	78	93%
100	Qwen 3.5 35B	$0.0089	37.0s	74%	100	100	100	95	67	92%
135	Claude Opus 4	$0.049	26.6s	86%	94	93	92	92	85	91%
84	GPT-4.1 Nano	$0.0001	4.6s	60%	100	100	100	100	50	90%
72	Gemma 3 27B	$0.0002	26.2s	85%	93	93	92	86	85	90%
83	Hermes 3 70B	$0.0003	14.9s	68%	100	100	100	91	58	90%
92	Qwen 2.5 72B	$0.0004	18.7s	63%	100	100	100	94	53	89%
97	Mistral Large	$0.0032	10.4s	57%	100	100	100	100	46	89%
138	Qwen 3.6 27B	$0.023	1.9m	68%	100	100	94	88	64	89%
88	Llama 3.1 70B	$0.0007	19.3s	70%	100	100	93	83	67	89%
93	Nemotron 3 Nano	$0.0002	9.4s	61%	100	100	100	83	50	87%
95	LFM2 24B	$0.0001	11.7s	60%	100	100	100	73	50	85%
105	Cohere Command R+ (Aug. 2024)	$0.0054	12.3s	53%	100	100	78	70	60	82%
130	GPT-4o, May 13th (temp=1)	$0.0094	9.5s	20%	100	100	100	100	0	80%
124	DeepSeek V3 (2024-12-26)	$0.0007	21.2s	20%	100	100	100	100	0	80%
133	Qwen 3 32B	$0.0006	50.4s	20%	100	100	100	100	0	80%
117	Mistral NeMO	$0.0001	4.5s	20%	100	100	100	100	0	80%
120	GPT-5.4 Nano	$0.0017	6.7s	21%	100	100	100	97	0	79%
134	DeepSeek V4 Pro	$0.0025	45.2s	21%	100	100	100	93	0	79%
104	Claude 3 Haiku	$0.0005	3.5s	46%	100	100	100	50	40	78%
121	Z.AI GLM 4.7 Flash	$0.0012	49.5s	46%	100	100	95	50	43	78%
119	Ministral 3 8B	$0.0002	6.8s	22%	100	100	100	86	0	77%
125	Stealth: Healer Alpha	$0.0000	25.5s	22%	100	100	100	81	0	76%
127	Mistral Small 4 (Reasoning)	$0.0014	18.6s	23%	100	100	100	73	0	75%
116	Arcee AI: Trinity Large (Preview)	$0.0000	11.5s	36%	100	100	64	58	50	74%
122	Llama 3.1 8B	$0.0002	7.9s	22%	100	97	88	83	0	74%
109	Ministral 3B	$0.0000	2.9s	42%	100	86	64	57	56	73%
126	Gemma 3 4B	$0.0001	13.3s	22%	100	100	85	73	0	71%
128	WizardLM 2 8x22b	$0.0007	13.8s	21%	100	100	100	56	0	71%
131	Llama 3.1 Nemotron 70B	$0.0003	22.6s	20%	100	100	100	50	0	70%
132	Ministral 8B	$0.0001	6.8s	19%	100	91	64	54	0	62%
141	Qwen3 235B A22B Instruct 2507	$0.0005	26.0s	2%	100	100	100	0	0	60%
142	Writer: Palmyra X5	$0.0053	15.9s	2%	100	100	100	0	0	60%
136	Arcee AI: Trinity Mini	$0.0002	7.8s	2%	100	100	100	0	0	60%
140	DeepSeek V3 (2025-03-24)	$0.0005	15.3s	5%	100	100	89	0	0	58%
139	Mistral Small 4	$0.0005	6.4s	16%	85	81	71	0	0	47%
146	Ministral 3 3B	$0.0001	2.8s	0%	100	93	0	0	0	39%
143	Mistral Small Creative	$0.0003	6.2s	15%	92	50	50	0	0	38%
145	Rocinante 12B	$0.0003	18.8s	16%	71	70	43	0	0	37%
144	Mistral Medium 3.1	$0.0019	13.3s	26%	50	50	50	0	0	30%
147	Ministral 3 14B	$0.0003	8.3s	0%	100	50	0	0	0	30%
91.70%

Median	Evaluator	Top 3	Flop 3
98.9%	Parse dialogue	100Gemma 4 26B (Reasoning) 100Grok 4 100Qwen 3.5 27B	30Ministral 3 14B 30Mistral Medium 3.1 37Rocinante 12B

Character dialogue (Hindi) in a story

Language

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.6 Max Preview	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6	100%
o4 Mini High	100%
Claude Opus 4.7	100%
o4 Mini	100%
Gemma 4 31B	100%
GPT-OSS 120B	100%
Z.AI GLM 4.5	100%
GPT-5.4 Mini (Reasoning, Low)	100%
Gemini 3 Flash (Preview)	100%
DeepSeek-V2 Chat	100%
Inception Mercury 2	100%
Stealth: Aurora Alpha	100%
GPT-4.1 Mini	100%
GPT-5 Nano	100%
GPT-4o, Aug. 6th (temp=0)	100%
GPT-5.4 Mini	100%

Language Writing

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Character dialogue (Spanish) in a story

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Character dialogue (French) in a story

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Character dialogue (German) in a story

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Character dialogue (Italian) in a story

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Character dialogue (Hindi) in a story

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)