Parse dialogue

Test: Language Writing

Avg. Score

87.4%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Stealth: Aurora Alpha	100.0%	—	2.0s	100%
2	GPT-4o Mini (temp=0)	100.0%	$0.0003	4.8s	100%
3	GPT-4o Mini (temp=1)	100.0%	$0.0003	5.6s	100%
4	Inception Mercury 2	99.6%	$0.0006	1.4s	96%
5	Gemini 3 Flash (Preview)	100.0%	$0.0020	5.6s	100%
6	GPT-5.4 Mini (Reasoning, Low)	99.9%	$0.0022	3.5s	99%
7	DeepSeek-V2 Chat	100.0%	$0.0001	16.1s	100%
8	GPT-4.1 Mini	99.3%	$0.0004	3.4s	93%
9	GPT-4o, Aug. 6th (temp=0)	100.0%	$0.0052	6.1s	100%
10	Z.AI GLM 4.5	99.7%	$0.0013	14.5s	97%
11	Gemini 3.5 Flash (Reasoning, Minimal)	100.0%	$0.0073	5.3s	100%
12	Z.AI GLM 5 Turbo	99.8%	$0.0037	14.7s	98%
13	Hermes 3 405B	99.1%	$0.0000	21.0s	94%
14	Gemma 4 31B	100.0%	$0.0003	32.1s	100%
15	GPT-5.4 Mini	97.5%	$0.0020	2.5s	87%
16	GPT-4o, Aug. 6th (temp=1)	99.4%	$0.0056	6.5s	94%
17	GPT-OSS 120B	99.4%	$0.0003	28.0s	96%
18	Gemini 3.1 Flash Lite (Reasoning)	98.4%	$0.0011	5.3s	84%
19	Nemotron 3 Super	97.8%	$0.0000	21.7s	91%
20	o4 Mini	100.0%	$0.0071	16.7s	100%
21	GPT-5.4 Nano (Reasoning)	98.0%	$0.0016	6.1s	83%
22	Grok 4.20 (Beta)	97.3%	$0.0034	3.3s	84%
23	Gemini 2.5 Flash	97.5%	$0.0026	6.0s	83%
24	DeepSeek V3.1	98.7%	$0.0007	22.8s	88%
25	Claude Sonnet 4.6	100.0%	$0.010	13.7s	100%
26	Gemini 3.1 Flash Lite	96.8%	$0.0011	6.2s	78%
27	Inception Mercury	95.7%	$0.0002	1.5s	74%
28	Nemotron 3 Nano	95.3%	$0.0002	10.8s	77%
29	GPT-4.1	97.8%	$0.0041	6.8s	79%
30	GPT-4o, May 13th (temp=0)	97.4%	$0.0087	8.0s	89%
31	MiniMax M2.5	97.1%	$0.0013	21.5s	81%
32	Gemini 3.1 Flash Lite (Preview)	95.0%	$0.0011	3.7s	72%
33	Z.AI GLM 5.1	98.1%	$0.0046	30.6s	92%
34	Grok 4.3	94.5%	$0.0009	3.8s	72%
35	Gemini 2.5 Flash (Reasoning)	97.1%	$0.0067	13.1s	86%
36	GPT-5.4 Mini (Reasoning)	96.2%	$0.0046	7.3s	77%
37	GPT-4.1 Nano	92.9%	$0.0001	4.0s	69%
38	GPT-5.4 Nano (Reasoning, Low)	93.7%	$0.0018	7.0s	69%
39	Gemini 3 Flash (Preview, Reasoning)	94.9%	$0.0051	11.8s	74%
40	Grok 4.20	92.7%	$0.0021	10.9s	69%
41	GPT-5 Nano	99.4%	$0.0028	1.2m	96%
42	Claude Opus 4.5	99.3%	$0.019	15.7s	96%
43	Z.AI GLM 4.5 Air	95.1%	$0.0012	30.1s	73%
44	Claude 3.5 Sonnet	96.2%	$0.0095	15.7s	80%
45	Stealth: Hunter Alpha	91.7%	$0.0000	22.8s	69%
46	Gemma 4 26B	94.0%	$0.0003	36.3s	74%
47	GPT-5.4	98.0%	$0.013	19.0s	85%
48	GPT-5 Mini	98.0%	$0.0066	37.2s	82%
49	o4 Mini High	99.5%	$0.015	36.6s	97%
50	Claude Haiku 4.5	88.7%	$0.0037	7.8s	67%
51	Claude 3.7 Sonnet	95.9%	$0.012	14.8s	80%
52	Qwen 3.6 35B	97.1%	$0.0059	38.3s	79%
53	GPT-5.4 (Reasoning, Low)	96.6%	$0.012	16.1s	77%
54	GPT-5.4 Nano	91.6%	$0.0017	6.6s	55%
55	Claude Sonnet 4	92.6%	$0.0092	11.1s	71%
56	Grok 4.1 Fast	87.5%	$0.0007	15.1s	61%
57	Gemma 3 27B	89.4%	$0.0003	27.9s	64%
58	Gemma 3 12B	90.2%	$0.0002	33.9s	66%
59	Qwen 3.5 Plus (2026-02-15)	90.2%	$0.0019	27.2s	65%
60	Gemma 4 26B (Reasoning)	95.4%	$0.0008	58.3s	75%
61	Grok 4 Fast	84.2%	$0.0005	7.6s	56%
62	Grok 4.3 (Reasoning)	100.0%	$0.012	1.2m	100%
63	Llama 3.1 70B	85.4%	$0.0007	20.5s	62%
64	Gemini 2.5 Flash Lite	85.5%	$0.0005	5.1s	53%
65	Stealth: Healer Alpha	86.9%	$0.0000	16.0s	56%
66	Grok 4.20 (Reasoning)	98.2%	$0.0097	49.7s	83%
67	Hermes 3 70B	88.3%	$0.0003	16.6s	54%
68	Mistral Large	87.3%	$0.0032	9.6s	57%
69	GPT-5.2	97.4%	$0.016	26.0s	82%
70	Aion 2.0	92.3%	$0.0030	41.5s	69%
71	Mistral Large 3	84.0%	$0.0014	17.3s	59%
72	Qwen 3.6 Flash	93.7%	$0.0077	30.0s	69%
73	DeepSeek V4 Flash (Reasoning)	89.5%	$0.0002	20.8s	51%
74	Xiaomi MIMO v2.5	87.7%	$0.0023	14.2s	51%
75	Claude 3 Haiku	80.5%	$0.0007	3.8s	50%
76	Gemma 4 31B (Reasoning)	92.6%	$0.0005	1.1m	70%
77	Grok 4.20 (Beta, Reasoning)	98.2%	$0.023	18.2s	82%
78	DeepSeek V4 Flash	87.0%	$0.0002	12.4s	42%
79	Grok 4	96.2%	$0.016	31.8s	74%
80	Claude Sonnet 4.5	89.8%	$0.011	13.2s	62%
81	Qwen 3.5 Flash	88.9%	$0.0019	42.8s	60%
82	ByteDance Seed 1.6 Flash	82.5%	$0.0006	14.6s	48%
83	ByteDance Seed 1.6	91.3%	$0.0040	50.4s	65%
84	GPT-5.4 (Reasoning)	94.8%	$0.017	30.6s	74%
85	GPT-5.5 (Reasoning)	99.4%	$0.033	22.8s	98%
86	Xiaomi MIMO v2.5 Pro	90.4%	$0.0036	22.3s	46%
87	GPT-4o, May 13th (temp=1)	90.0%	$0.0092	8.2s	46%
88	Claude Opus 4.7	99.6%	$0.038	18.6s	98%
89	Qwen 3.5 122B	90.0%	$0.013	35.0s	65%
90	GPT-5.5 (Reasoning, Low)	98.5%	$0.035	23.8s	96%
91	Arcee AI: Trinity Large (Preview)	76.8%	$0.0000	11.2s	38%
92	Qwen 3.5 27B	91.0%	$0.0096	48.7s	63%
93	Gemini 2.5 Flash Lite (Reasoning)	83.7%	$0.0019	23.9s	41%
94	GPT-5.5	98.3%	$0.036	26.1s	96%
95	Gemini 3.5 Flash (Reasoning)	93.8%	$0.026	14.8s	72%
96	MoonshotAI: Kimi K2.5	94.2%	$0.0082	1.2m	68%
97	Arcee AI: Trinity Mini	81.2%	$0.0002	15.9s	32%
98	DeepSeek V4 Pro (Reasoning)	92.0%	$0.0029	1.3m	63%
99	Qwen 3.5 Plus (2026-04-20)	94.3%	$0.011	1.1m	69%
100	Z.AI GLM 4.6	93.2%	$0.0044	1.2m	60%
101	ByteDance Seed 2.0 Lite	93.6%	$0.0069	1.3m	67%
102	Claude Sonnet 4.6 (Reasoning)	95.2%	$0.025	31.1s	72%
103	Z.AI GLM 5	89.1%	$0.0059	1.3m	63%
104	DeepSeek V3.2	90.0%	$0.0004	1.1m	45%
105	Llama 3.1 8B	73.1%	$0.0001	4.6s	26%
106	Gemma 3 4B	74.6%	$0.0001	13.4s	29%
107	Gemini 2.5 Pro	95.1%	$0.024	22.5s	61%
108	GPT-5.1	97.3%	$0.027	52.6s	81%
109	Qwen 3.5 35B	83.9%	$0.010	33.8s	49%
110	Z.AI GLM 4.7 Flash	80.3%	$0.0012	52.0s	45%
111	Qwen 3 32B	79.2%	$0.0006	35.4s	33%
112	Cohere Command R+ (Aug. 2024)	73.2%	$0.0062	13.4s	38%
113	Ministral 3B	59.5%	$0.0000	2.9s	30%
114	Mistral Small 3.2 24B	70.5%	$0.0003	11.0s	20%
115	Claude Opus 4.7 (Reasoning)	97.5%	$0.043	19.7s	81%
116	Qwen 3.5 9B	86.4%	$0.0011	1.6m	51%
117	Mistral Small 4 (Reasoning)	71.1%	$0.0011	15.3s	21%
118	DeepSeek V3 (2025-03-24)	72.8%	$0.0005	14.6s	16%
119	DeepSeek V3 (2024-12-26)	75.8%	$0.0007	19.4s	15%
120	Z.AI GLM 4.7	90.9%	$0.0054	1.9m	64%
121	Qwen 2.5 72B	67.9%	$0.0004	19.8s	20%
122	MiniMax M2.7	69.6%	$0.0021	28.4s	26%
123	Mistral NeMO	66.6%	$0.0001	4.3s	10%
124	DeepSeek V4 Pro	75.6%	$0.0020	35.4s	22%
125	LFM2 24B	64.3%	$0.0001	12.7s	16%
126	Gemini 3.1 Pro (Preview)	94.8%	$0.037	40.3s	71%
127	ByteDance Seed 2.0 Mini	90.2%	$0.0023	2.5m	66%
128	Claude Opus 4.6	92.3%	$0.036	34.3s	67%
129	Mistral Large 2	70.4%	$0.0042	18.6s	16%
130	WizardLM 2 8x22b	61.1%	$0.0008	15.6s	12%
131	Qwen 3.6 27B	88.0%	$0.017	1.5m	60%
132	Ministral 8B	52.8%	$0.0001	6.6s	14%
133	Mistral Small 4	48.9%	$0.0004	6.4s	17%
134	Gemini 3 Pro (Preview)	84.3%	$0.028	21.6s	41%
135	Rocinante 12B	51.9%	$0.0003	22.8s	21%
136	Claude Opus 4.6 (Reasoning)	92.2%	$0.040	38.1s	65%
137	Qwen 3.5 397B A17B	90.0%	$0.015	2.0m	60%
138	Mistral Medium 3.1	49.0%	$0.0020	16.7s	17%
139	Mistral Small Creative	33.7%	$0.0004	6.3s	23%
140	GPT-5	98.0%	$0.044	1.3m	81%
141	Ministral 3 8B	47.9%	$0.0002	6.1s	3%
142	Qwen3.7 Max	94.1%	$0.036	1.3m	68%
143	Qwen3.6 Max Preview	100.0%	$0.036	2.5m	100%
144	Claude Opus 4	86.0%	$0.048	24.7s	61%
145	Ministral 3 3B	36.2%	$0.0001	2.6s	0%
146	Qwen3 235B A22B Instruct 2507	46.7%	$0.0004	22.5s	0%
147	Writer: Palmyra X5	43.2%	$0.0051	13.6s	0%
148	MoonshotAI: Kimi K2.6	93.5%	$0.019	2.9m	65%
149	Llama 3.1 Nemotron 70B	33.6%	$0.0003	22.3s	0%
150	Ministral 3 14B	10.0%	$0.0003	9.0s	0%
87.43%

Individual Scenarios

▼

Character dialogue (French) in a story

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	100.0%
Stealth: Hunter Alpha	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100.0%
Grok 4.20 (Beta)	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V4 Flash	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Nano	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	99	99.8%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	98	99.7%
GPT-5.5 (Reasoning, Low)	100	100	100	100	98	99.6%
GPT-5.5 (Reasoning)	100	100	100	100	98	99.5%
Z.AI GLM 5.1	100	100	100	100	96	99.1%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	96	99.1%
Gemini 2.5 Pro	100	100	100	100	95	99.1%
GPT-5.4 (Reasoning)	100	100	100	98	97	99.0%
Xiaomi MIMO v2.5	100	100	100	100	95	98.9%
GPT-5 Mini	100	100	100	100	94	98.9%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
Gemini 2.5 Flash	100	100	100	100	94	98.8%
GPT-5 Nano	100	100	100	100	93	98.6%
Gemma 3 27B	100	100	100	100	93	98.6%
GPT-5.5	100	99	99	98	97	98.5%
GPT-OSS 120B	100	100	100	100	92	98.5%
DeepSeek V3.2	100	100	100	100	92	98.5%
Gemma 3 12B	100	100	100	100	92	98.3%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	92	98.3%
GPT-4o, May 13th (temp=1)	100	100	100	100	92	98.3%
Claude Opus 4.7 (Reasoning)	100	100	100	100	90	98.1%
Gemini 3 Pro (Preview)	100	100	100	94	94	97.7%
Claude 3.7 Sonnet	100	100	100	94	94	97.7%
Qwen 3.6 35B	100	100	100	94	93	97.5%
Mistral Large	100	100	100	100	86	97.1%
Nemotron 3 Nano	100	100	100	100	86	97.1%
Nemotron 3 Super	100	100	100	100	85	96.9%
Claude Sonnet 4	100	100	100	93	91	96.8%
Z.AI GLM 4.7 Flash	100	100	100	94	90	96.8%
GPT-4.1 Mini	100	100	100	100	82	96.4%
ByteDance Seed 1.6 Flash	100	100	100	91	90	96.2%
Gemma 3 4B	100	100	100	100	80	96.0%
GPT-5.4 Mini	100	100	100	100	79	95.8%
Grok 4 Fast	100	100	100	91	88	95.7%
Grok 4.1 Fast	100	100	100	100	78	95.6%
DeepSeek V4 Pro	100	100	100	100	75	95.0%
Qwen 3.5 Plus (2026-02-15)	100	94	94	93	93	94.8%
Mistral Small 4 (Reasoning)	100	100	100	92	81	94.6%
Claude Opus 4	100	94	94	92	89	93.9%
Gemini 2.5 Flash Lite	100	100	93	92	83	93.8%
Claude Haiku 4.5	100	100	100	91	77	93.6%
Llama 3.1 70B	100	100	92	91	85	93.6%
Stealth: Healer Alpha	100	100	96	91	77	92.9%
GPT-4.1 Nano	100	100	100	90	73	92.5%
Z.AI GLM 5	100	94	90	88	86	91.7%
Qwen 3.5 35B	100	100	100	96	59	90.9%
Qwen 3.5 9B	100	96	95	93	56	87.9%
ByteDance Seed 2.0 Mini	100	100	100	86	40	85.1%
Arcee AI: Trinity Large (Preview)	100	100	91	78	55	84.6%
Mistral Large 3	100	92	80	76	67	83.1%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	0	80.0%
Mistral Large 2	100	100	100	100	0	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	94	0	78.8%
Llama 3.1 8B	100	100	100	90	0	78.0%
Qwen 3 32B	100	100	100	89	0	77.8%
Writer: Palmyra X5	100	100	100	86	0	77.1%
Rocinante 12B	100	94	67	63	50	74.6%
Mistral Medium 3.1	100	75	67	50	50	68.3%
Ministral 8B	100	100	73	67	0	67.9%
Cohere Command R+ (Aug. 2024)	92	70	65	63	50	67.8%
Ministral 3B	100	100	71	50	0	64.3%
MiniMax M2.7	100	95	61	50	0	61.2%
Mistral NeMO	100	100	100	0	0	60.0%
Claude 3 Haiku	100	50	50	50	43	58.6%
Qwen 2.5 72B	100	95	85	0	0	56.0%
WizardLM 2 8x22b	100	100	71	0	0	54.3%
Ministral 3 8B	100	100	50	0	0	50.0%
Mistral Small 4	85	71	60	0	0	43.1%
LFM2 24B	100	100	0	0	0	40.0%
Mistral Small 3.2 24B	100	50	0	0	0	30.0%
Mistral Small Creative	50	50	50	0	0	30.0%
Qwen3 235B A22B Instruct 2507	100	0	0	0	0	20.0%
Llama 3.1 Nemotron 70B	44	0	0	0	0	8.9%
Ministral 3 14B	0	0	0	0	0	0.0%
Ministral 3 3B	0	0	0	0	0	0.0%

▼

Character dialogue (German) in a story

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100.0%
GPT-5.4	100	100	100	100	99	99.8%
GPT-5.4 (Reasoning)	100	100	100	100	98	99.7%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	97	99.5%
GPT-5.4 Nano	100	100	100	98	98	99.3%
GPT-5.5 (Reasoning)	100	100	99	99	98	99.2%
Claude Opus 4.7	100	100	100	100	95	99.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	95	98.9%
Claude Opus 4.5	100	100	100	100	95	98.9%
Claude 3.7 Sonnet	100	100	100	100	95	98.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	94	98.8%
o4 Mini High	100	100	100	100	94	98.8%
Gemini 2.5 Pro	100	100	100	100	94	98.8%
Qwen 3.5 Flash	100	100	100	100	94	98.8%
GPT-5.5	100	99	99	98	98	98.7%
MiniMax M2.5	100	100	100	100	93	98.6%
Mistral Large 3	100	100	100	100	93	98.6%
Xiaomi MIMO v2.5 Pro	100	100	100	97	96	98.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	98	95	98.5%
Qwen 3.6 Flash	100	100	100	100	92	98.5%
Grok 4.1 Fast	100	100	100	100	92	98.3%
Nemotron 3 Super	100	100	100	100	92	98.3%
DeepSeek V3.2	100	100	100	100	92	98.3%
GPT-5.5 (Reasoning, Low)	100	100	98	97	97	98.2%
Aion 2.0	100	100	100	100	91	98.2%
ByteDance Seed 2.0 Mini	100	100	100	100	91	98.2%
Hermes 3 405B	100	100	100	100	91	98.2%
GPT-5.2	100	99	98	97	96	98.1%
GPT-5.1	100	100	100	100	90	97.9%
Claude 3.5 Sonnet	100	100	100	95	94	97.8%
Grok 4.20 (Beta)	100	100	100	100	89	97.8%
DeepSeek V3 (2025-03-24)	100	100	100	100	89	97.8%
Gemini 2.5 Flash Lite	100	100	100	100	89	97.8%
Inception Mercury	100	100	100	100	89	97.8%
Grok 4.3	100	100	100	100	89	97.8%
Claude Opus 4	100	100	100	95	93	97.7%
Claude Sonnet 4	100	100	100	93	93	97.1%
Qwen 3.5 9B	100	100	100	94	91	97.0%
GPT-4o, May 13th (temp=1)	100	100	100	93	91	96.8%
Claude Sonnet 4.5	100	100	95	94	93	96.5%
Xiaomi MIMO v2.5	100	100	100	100	80	96.1%
Gemma 3 4B	100	100	100	92	86	95.6%
Z.AI GLM 5	100	100	95	95	88	95.6%
Gemma 4 26B	100	100	100	100	78	95.6%
Gemma 3 27B	100	100	100	92	83	95.1%
Gemma 3 12B	100	100	91	91	90	94.4%
Grok 4 Fast	100	100	91	89	86	93.1%
Llama 3.1 70B	100	100	100	83	80	92.7%
Arcee AI: Trinity Large (Preview)	100	100	100	100	63	92.6%
DeepSeek V4 Pro	100	100	100	83	79	92.4%
Claude Haiku 4.5	100	100	94	88	79	92.2%
ByteDance Seed 1.6 Flash	100	100	100	80	80	92.0%
GPT-4.1 Nano	100	100	100	100	60	92.0%
Stealth: Healer Alpha	100	100	100	85	73	91.7%
Z.AI GLM 4.5 Air	100	100	100	100	58	91.7%
Z.AI GLM 4.7 Flash	100	100	100	88	62	89.8%
Mistral Small 4	100	100	80	73	63	83.2%
Stealth: Hunter Alpha	100	100	87	67	53	81.3%
LFM2 24B	100	100	90	57	57	80.9%
Gemini 3 Pro (Preview)	100	100	100	100	0	80.0%
Qwen 3.5 35B	100	100	100	100	0	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
Mistral Small 3.2 24B	100	100	100	100	0	80.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	90	0	78.0%
Z.AI GLM 4.6	100	100	95	94	0	77.8%
DeepSeek V4 Flash	100	100	92	92	0	76.8%
Llama 3.1 8B	100	100	91	90	0	76.2%
MiniMax M2.7	100	100	92	86	0	75.5%
Hermes 3 70B	100	100	100	60	0	72.0%
Mistral Small 4 (Reasoning)	100	100	98	53	0	70.2%
Rocinante 12B	100	100	80	67	0	69.3%
Claude 3 Haiku	100	100	50	50	43	68.6%
Cohere Command R+ (Aug. 2024)	86	75	70	62	50	68.5%
Mistral Large 2	100	100	100	0	0	60.0%
Mistral Medium 3.1	100	100	50	50	0	60.0%
Ministral 3 3B	100	100	90	0	0	58.0%
Llama 3.1 Nemotron 70B	100	100	86	0	0	57.1%
Qwen3 235B A22B Instruct 2507	100	100	67	0	0	53.3%
Ministral 8B	100	92	69	0	0	52.2%
WizardLM 2 8x22b	100	88	63	0	0	50.0%
Ministral 3B	67	64	58	58	0	49.3%
Mistral NeMO	100	100	33	0	0	46.7%
Qwen 2.5 72B	100	100	0	0	0	40.0%
Mistral Small Creative	50	50	50	0	0	30.0%
Writer: Palmyra X5	100	0	0	0	0	20.0%
Ministral 3 8B	68	0	0	0	0	13.7%
Ministral 3 14B	0	0	0	0	0	0.0%

▼

Character dialogue (Hindi) in a story

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Nemotron 3 Nano	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99.7%
GPT-5.5	100	100	100	100	98	99.6%
Claude Opus 4.5	100	100	100	100	95	99.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	92	98.5%
Hermes 3 405B	100	100	100	100	88	97.5%
Z.AI GLM 5.1	100	100	100	100	86	97.1%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	86	97.1%
Nemotron 3 Super	100	100	100	90	88	95.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	67	93.3%
Z.AI GLM 4.6	100	100	100	95	67	92.3%
GPT-5.4	100	100	100	100	61	92.2%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	60	92.0%
Grok 4.20 (Beta)	100	100	100	100	60	92.0%
GPT-5.2	100	100	100	100	56	91.2%
GPT-5.4 Nano (Reasoning)	100	100	100	100	56	91.2%
Grok 4.20 (Reasoning)	100	100	100	100	56	91.1%
GPT-5 Mini	100	100	100	100	55	91.0%
Inception Mercury	100	100	100	100	55	90.9%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	54	90.8%
Claude Opus 4.7 (Reasoning)	100	100	100	100	53	90.5%
GPT-5	100	100	100	100	53	90.5%
GPT-5.1	100	100	100	100	51	90.3%
Gemini 2.5 Flash	100	100	100	92	58	90.0%
GPT-4.1 Nano	100	100	100	100	50	90.0%
Qwen 3.6 35B	100	100	100	100	46	89.2%
MiniMax M2.5	100	100	100	93	53	89.2%
GPT-4.1	100	100	100	100	45	89.1%
Claude 3.7 Sonnet	100	100	100	95	50	89.0%
Claude 3.5 Sonnet	100	100	100	94	50	88.8%
Hermes 3 70B	100	100	100	71	60	86.3%
Gemini 3.1 Flash Lite	100	100	100	60	60	84.0%
Z.AI GLM 4.5 Air	100	100	100	67	52	83.8%
GPT-5.4 (Reasoning, Low)	100	100	100	59	57	83.2%
GPT-5.4 Mini (Reasoning)	100	100	100	60	55	82.9%
Claude Haiku 4.5	100	100	100	60	53	82.5%
Grok 4	100	100	100	56	50	81.1%
Stealth: Hunter Alpha	100	100	93	67	45	81.1%
GPT-5.4 Nano	100	100	98	55	50	80.7%
Gemini 2.5 Pro	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	80.0%
DeepSeek V4 Flash	100	100	100	50	50	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	50	47	79.5%
Mistral Small 4 (Reasoning)	100	100	91	50	50	78.2%
Claude Sonnet 4	93	92	92	57	53	77.7%
GPT-4o, May 13th (temp=1)	100	100	100	88	0	77.6%
Gemma 4 26B (Reasoning)	100	100	67	60	58	77.0%
GPT-5.4 (Reasoning)	100	100	65	58	57	76.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	63	58	57	75.6%
Stealth: Healer Alpha	100	90	72	57	57	75.2%
Gemini 3.1 Flash Lite (Preview)	100	100	67	57	50	74.8%
Gemma 4 26B	100	88	70	60	56	74.6%
Grok 4.3	100	100	63	57	53	74.6%
Aion 2.0	100	100	63	60	50	74.5%
Gemini 3.1 Pro (Preview)	100	100	67	53	50	74.0%
Qwen 3.5 Plus (2026-04-20)	100	100	57	50	50	71.4%
Z.AI GLM 4.7 Flash	100	100	57	50	50	71.4%
GPT-5.4 Nano (Reasoning, Low)	100	99	55	53	49	71.1%
MoonshotAI: Kimi K2.5	100	100	54	54	47	71.0%
Gemini 2.5 Flash Lite	93	78	64	60	60	70.9%
Qwen 3.6 Flash	100	100	55	50	50	70.9%
Qwen3.7 Max	100	100	52	50	50	70.5%
ByteDance Seed 2.0 Mini	100	67	67	60	57	70.1%
Qwen 3.5 Plus (2026-02-15)	100	100	54	50	46	70.0%
ByteDance Seed 2.0 Lite	100	100	57	50	43	70.0%
Gemini 3.5 Flash (Reasoning)	100	64	62	62	58	69.1%
DeepSeek V4 Flash (Reasoning)	100	100	50	50	45	69.1%
Cohere Command R+ (Aug. 2024)	100	100	88	55	0	68.4%
MoonshotAI: Kimi K2.6	100	100	50	45	43	67.7%
Gemma 3 27B	100	87	50	50	50	67.3%
Llama 3.1 70B	100	60	57	56	54	65.3%
Gemma 3 12B	100	81	55	53	38	65.2%
Grok 4.20	93	67	62	55	50	65.1%
Qwen 3.5 35B	100	62	58	53	52	65.0%
Gemini 2.5 Flash Lite (Reasoning)	100	67	56	50	50	64.4%
Claude Opus 4.6	100	59	55	54	52	64.0%
Xiaomi MIMO v2.5	95	63	59	50	50	63.2%
Gemma 4 31B (Reasoning)	67	64	64	64	58	63.2%
Claude Opus 4.6 (Reasoning)	100	55	52	52	52	62.0%
Arcee AI: Trinity Mini	100	100	55	50	0	60.9%
Qwen 3 32B	78	63	55	54	54	60.5%
Llama 3.1 8B	71	70	56	54	50	60.2%
DeepSeek V4 Pro (Reasoning)	100	54	50	50	47	60.1%
Qwen 2.5 72B	100	53	48	46	46	58.6%
Z.AI GLM 5	100	50	50	47	44	58.3%
WizardLM 2 8x22b	100	64	63	57	0	56.8%
Qwen 3.5 9B	100	76	58	50	0	56.8%
ByteDance Seed 1.6	63	60	55	55	50	56.3%
Arcee AI: Trinity Large (Preview)	100	100	80	0	0	56.0%
Qwen 3.5 122B	57	56	56	55	55	55.8%
Qwen 3.5 27B	70	56	53	50	47	55.3%
MiniMax M2.7	68	55	55	50	47	54.8%
Z.AI GLM 4.7	58	55	54	54	53	54.6%
Claude Opus 4	78	55	50	47	42	54.3%
Mistral Large 3	60	57	50	50	50	53.4%
DeepSeek V3.2	100	100	67	0	0	53.3%
Ministral 3B	60	53	50	50	50	52.7%
Claude Sonnet 4.5	62	53	50	50	47	52.4%
Grok 4.1 Fast	56	56	50	50	45	51.3%
DeepSeek V3 (2025-03-24)	100	100	56	0	0	51.1%
Qwen 3.6 27B	57	52	50	48	47	50.9%
Grok 4 Fast	57	56	50	45	44	50.5%
Qwen 3.5 397B A17B	53	50	50	50	47	50.1%
Mistral Large	50	50	50	50	50	50.0%
Mistral Small Creative	50	50	50	50	50	50.0%
Qwen 3.5 Flash	53	52	50	47	44	49.4%
Gemini 3 Pro (Preview)	60	56	54	54	0	44.8%
ByteDance Seed 1.6 Flash	58	56	54	53	0	44.2%
Mistral Small 3.2 24B	59	55	50	50	0	42.7%
Mistral Large 2	100	56	55	0	0	42.2%
Gemma 3 4B	58	50	50	45	0	40.8%
DeepSeek V3 (2024-12-26)	100	100	0	0	0	40.0%
Qwen3 235B A22B Instruct 2507	100	100	0	0	0	40.0%
Ministral 3 8B	100	100	0	0	0	40.0%
Mistral Small 4	60	57	56	0	0	34.7%
Ministral 8B	64	56	50	0	0	34.0%
DeepSeek V4 Pro	100	60	0	0	0	32.0%
LFM2 24B	70	57	0	0	0	25.4%
Ministral 3 3B	67	56	0	0	0	24.4%
Mistral Medium 3.1	67	50	0	0	0	23.3%
Rocinante 12B	67	50	0	0	0	23.3%
Llama 3.1 Nemotron 70B	60	50	0	0	0	22.0%
Writer: Palmyra X5	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0.0%

▼

Character dialogue (Italian) in a story

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100.0%
Inception Mercury	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	98	99.7%
GPT-5.4 Nano (Reasoning)	100	100	100	100	98	99.6%
GPT-5	100	100	100	100	98	99.5%
GPT-5.2	100	100	99	99	98	99.1%
GPT-5.1	100	100	100	99	97	99.1%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	95	99.1%
Z.AI GLM 5 Turbo	100	100	100	100	95	99.0%
Stealth: Hunter Alpha	100	100	100	100	95	99.0%
Gemini 3 Pro (Preview)	100	100	100	100	95	98.9%
Gemini 2.5 Pro	100	100	100	100	95	98.9%
Qwen 3.6 35B	100	100	100	100	94	98.9%
GPT-5.4	100	100	100	99	95	98.8%
Qwen 3.5 9B	100	100	100	100	94	98.8%
Z.AI GLM 5.1	100	100	100	100	93	98.7%
Claude Opus 4.5	100	100	100	100	93	98.6%
Qwen 3.5 122B	100	100	100	96	96	98.5%
MiniMax M2.5	100	100	100	97	96	98.5%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	92	98.5%
Grok 4.20	100	100	100	100	92	98.5%
GPT-OSS 120B	100	100	100	100	92	98.3%
Z.AI GLM 4.5	100	100	100	100	92	98.3%
Nemotron 3 Super	100	100	100	100	92	98.3%
Grok 4.20 (Beta)	100	100	100	100	92	98.3%
GPT-5.5 (Reasoning)	100	99	98	98	96	98.2%
Inception Mercury 2	100	100	100	100	91	98.2%
DeepSeek V4 Flash	100	100	100	100	91	98.2%
ByteDance Seed 2.0 Lite	100	100	100	100	90	98.0%
ByteDance Seed 2.0 Mini	100	100	100	100	89	97.8%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	89	97.8%
Gemma 3 12B	100	100	100	100	89	97.8%
Claude 3.7 Sonnet	100	100	100	95	94	97.8%
GPT-5.5 (Reasoning, Low)	99	98	97	97	97	97.5%
MiniMax M2.7	100	100	98	96	94	97.5%
Claude Sonnet 4	100	100	100	94	92	97.2%
ByteDance Seed 1.6 Flash	100	100	100	93	92	96.9%
GPT-5.5	98	98	97	97	95	96.9%
Grok 4.1 Fast	100	100	100	100	80	96.0%
Grok 4 Fast	100	100	100	100	80	96.0%
Claude 3.5 Sonnet	100	100	100	92	87	95.8%
Mistral Large 3	100	100	100	93	83	95.2%
Gemini 2.5 Flash (Reasoning)	100	100	95	91	89	94.9%
Xiaomi MIMO v2.5 Pro	100	100	100	100	74	94.9%
Gemini 2.5 Flash Lite	100	100	92	90	86	93.5%
Claude Haiku 4.5	100	100	94	93	78	93.0%
Qwen 3.5 35B	100	100	100	95	67	92.3%
Claude Opus 4	94	93	92	92	85	91.4%
GPT-4.1 Nano	100	100	100	100	50	90.0%
Gemma 3 27B	93	93	92	86	85	89.9%
Hermes 3 70B	100	100	100	91	58	89.8%
Qwen 2.5 72B	100	100	100	94	53	89.4%
Mistral Large	100	100	100	100	46	89.2%
Qwen 3.6 27B	100	100	94	88	64	89.1%
Llama 3.1 70B	100	100	93	83	67	88.6%
Nemotron 3 Nano	100	100	100	83	50	86.7%
LFM2 24B	100	100	100	73	50	84.5%
Cohere Command R+ (Aug. 2024)	100	100	78	70	60	81.6%
GPT-4o, May 13th (temp=1)	100	100	100	100	0	80.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	0	80.0%
Qwen 3 32B	100	100	100	100	0	80.0%
Mistral NeMO	100	100	100	100	0	80.0%
GPT-5.4 Nano	100	100	100	97	0	79.5%
DeepSeek V4 Pro	100	100	100	93	0	78.6%
Claude 3 Haiku	100	100	100	50	40	78.0%
Z.AI GLM 4.7 Flash	100	100	95	50	43	77.6%
Ministral 3 8B	100	100	100	86	0	77.1%
Stealth: Healer Alpha	100	100	100	81	0	76.2%
Mistral Small 4 (Reasoning)	100	100	100	73	0	74.5%
Arcee AI: Trinity Large (Preview)	100	100	64	58	50	74.4%
Llama 3.1 8B	100	97	88	83	0	73.5%
Ministral 3B	100	86	64	57	56	72.5%
Gemma 3 4B	100	100	85	73	0	71.5%
WizardLM 2 8x22b	100	100	100	56	0	71.1%
Llama 3.1 Nemotron 70B	100	100	100	50	0	70.0%
Ministral 8B	100	91	64	54	0	61.8%
Qwen3 235B A22B Instruct 2507	100	100	100	0	0	60.0%
Writer: Palmyra X5	100	100	100	0	0	60.0%
Arcee AI: Trinity Mini	100	100	100	0	0	60.0%
DeepSeek V3 (2025-03-24)	100	100	89	0	0	57.8%
Mistral Small 4	85	81	71	0	0	47.3%
Ministral 3 3B	100	93	0	0	0	38.6%
Mistral Small Creative	92	50	50	0	0	38.5%
Rocinante 12B	71	70	43	0	0	36.9%
Mistral Medium 3.1	50	50	50	0	0	30.0%
Ministral 3 14B	100	50	0	0	0	30.0%

▼

Character dialogue (Spanish) in a story

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	100	100.0%
GPT-OSS 120B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100.0%
Z.AI GLM 4.5 Air	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100.0%
Grok 4.20	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100.0%
Grok 4.3	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	99	98	99.4%
GPT-5.4 (Reasoning)	100	100	100	100	97	99.3%
GPT-5.4 Nano (Reasoning)	100	100	100	98	98	99.2%
Claude Opus 4.7	100	100	100	100	96	99.2%
MiniMax M2.5	100	100	100	100	96	99.2%
Claude Opus 4.6 (Reasoning)	100	100	100	100	96	99.2%
GPT-5.4	100	100	100	99	97	99.2%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	96	99.1%
GPT-5.1	100	100	100	98	97	99.1%
Claude Opus 4.7 (Reasoning)	100	100	100	100	95	99.0%
Qwen 3.6 Flash	100	100	100	100	95	98.9%
Gemini 2.5 Pro	100	100	100	100	94	98.9%
o4 Mini High	100	100	100	100	94	98.8%
GPT-5.4 Nano	100	100	99	98	97	98.8%
Claude 3.5 Sonnet	100	100	100	100	94	98.8%
GPT-5.2	100	99	99	99	97	98.7%
Stealth: Healer Alpha	100	100	100	100	93	98.6%
Grok 4.20 (Beta)	100	100	100	100	93	98.6%
Gemini 2.5 Flash	100	100	100	100	93	98.6%
GPT-5.4 Mini (Reasoning)	100	100	100	100	92	98.3%
GPT-5 Nano	100	100	100	100	91	98.2%
Qwen 3 32B	100	100	100	100	89	97.8%
GPT-5.5	99	99	97	97	97	97.7%
Qwen 3.5 Flash	100	100	100	100	88	97.5%
Claude 3 Haiku	100	100	100	100	88	97.5%
GPT-4o, May 13th (temp=1)	100	100	100	94	93	97.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	95	92	97.4%
GPT-5.5 (Reasoning, Low)	99	98	97	97	96	97.4%
Claude Opus 4.6	100	100	96	95	95	97.3%
Stealth: Hunter Alpha	100	100	96	95	94	97.1%
Grok 4.1 Fast	100	100	100	100	82	96.4%
Gemma 3 27B	100	100	94	94	93	96.2%
Claude 3.7 Sonnet	100	100	100	94	86	96.0%
Z.AI GLM 4.6	100	96	96	95	93	95.9%
Qwen 3.5 122B	100	100	94	94	90	95.8%
Z.AI GLM 5.1	100	100	100	90	89	95.8%
Qwen 2.5 72B	100	100	100	89	89	95.6%
Gemma 3 12B	100	100	100	100	76	95.3%
Claude Sonnet 4	100	100	93	92	86	94.2%
DeepSeek V3.1	100	100	100	100	68	93.7%
Hermes 3 70B	100	100	100	88	80	93.5%
Claude Opus 4	100	93	93	92	86	92.7%
Nemotron 3 Nano	100	100	100	88	75	92.5%
GPT-5.4 Mini	100	100	96	82	80	91.7%
Qwen 3.5 35B	100	100	100	100	57	91.3%
Qwen 3.5 9B	100	100	94	90	73	91.3%
LFM2 24B	100	100	89	89	75	90.6%
Inception Mercury	100	100	100	100	50	90.0%
Mistral Large 3	100	100	93	90	67	89.9%
Aion 2.0	100	100	95	94	56	89.0%
GPT-4o, May 13th (temp=0)	93	93	92	91	75	88.8%
Llama 3.1 70B	100	100	86	75	73	86.7%
Qwen 3.5 Plus (2026-02-15)	100	100	100	75	56	86.3%
Grok 4 Fast	100	100	89	70	70	85.8%
Arcee AI: Trinity Mini	100	100	100	75	50	85.0%
ByteDance Seed 1.6 Flash	94	93	89	89	50	83.0%
Claude Haiku 4.5	100	100	82	65	63	82.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	0	80.0%
Xiaomi MIMO v2.5	100	100	100	100	0	80.0%
DeepSeek V4 Pro	100	100	100	100	0	80.0%
DeepSeek V4 Flash	100	100	100	100	0	80.0%
Cohere Command R+ (Aug. 2024)	100	100	90	55	53	79.6%
Xiaomi MIMO v2.5 Pro	100	100	100	92	0	78.5%
Llama 3.1 8B	100	100	100	89	0	77.8%
Arcee AI: Trinity Large (Preview)	100	100	62	60	59	76.1%
WizardLM 2 8x22b	100	100	100	67	0	73.3%
Gemini 2.5 Flash Lite	100	91	87	80	0	71.5%
Mistral Large 2	100	100	100	50	0	70.0%
Gemma 3 4B	100	100	83	62	0	69.0%
Mistral NeMO	100	100	92	40	0	66.3%
Z.AI GLM 4.7 Flash	100	100	67	64	0	66.1%
Mistral Medium 3.1	100	67	50	50	50	63.3%
Qwen3 235B A22B Instruct 2507	100	100	100	0	0	60.0%
Ministral 3 3B	100	100	100	0	0	60.0%
MiniMax M2.7	100	100	95	0	0	58.9%
Ministral 3 8B	100	100	94	0	0	58.8%
Ministral 3B	86	57	55	50	46	58.7%
Writer: Palmyra X5	100	100	93	0	0	58.7%
DeepSeek V3 (2025-03-24)	100	100	88	0	0	57.5%
Rocinante 12B	64	64	63	54	33	55.4%
Ministral 8B	100	82	59	0	0	48.2%
Mistral Small 4 (Reasoning)	100	89	0	0	0	37.8%
Mistral Small 4	64	60	58	0	0	36.4%
Mistral Small Creative	50	50	0	0	0	20.0%
Ministral 3 14B	100	0	0	0	0	20.0%
Llama 3.1 Nemotron 70B	50	0	0	0	0	10.0%

Parse dialogue

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Character dialogue (French) in a story

Character dialogue (German) in a story

Character dialogue (Hindi) in a story

Character dialogue (Italian) in a story

Character dialogue (Spanish) in a story