Matches word count

Test: Dialogue tags

Avg. Score

43.3%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5 Mini	95.2%	$0.011	58.5s	58%
2	Claude Opus 4.6	86.8%	$0.014	15.5s	44%
3	Gemini 3.1 Flash Lite (Preview)	78.4%	$0.0007	2.9s	36%
4	Gemini 3.1 Flash Lite (Reasoning)	79.8%	$0.0007	4.2s	33%
5	GPT-4o Mini (temp=0)	77.7%	$0.0003	8.5s	34%
6	Inception Mercury 2	81.6%	$0.0042	6.8s	28%
7	Claude Opus 4.7	74.7%	$0.020	12.0s	36%
8	Claude Sonnet 4.6	70.9%	$0.0079	12.8s	33%
9	Claude Opus 4.7 (Reasoning)	73.0%	$0.020	11.3s	29%
10	Gemini 3.1 Flash Lite	70.4%	$0.0007	5.2s	18%
11	Z.AI GLM 5 Turbo	87.5%	$0.035	1.4m	36%
12	GPT-4o, Aug. 6th (temp=0)	68.9%	$0.0053	6.3s	18%
13	GPT-5	90.1%	$0.053	1.5m	40%
14	MiniMax M2.5	88.9%	$0.017	3.1m	42%
15	MiniMax M2.7	95.0%	$0.023	4.7m	57%
16	Claude Opus 4.5	67.4%	$0.014	14.3s	19%
17	o4 Mini High	88.5%	$0.050	1.9m	40%
18	Qwen3.7 Max	93.1%	$0.074	2.5m	54%
19	Nemotron 3 Super	80.6%	$0.0000	2.8m	29%
20	GPT-4o, Aug. 6th (temp=1)	64.6%	$0.0054	6.3s	12%
21	Gemini 3 Flash (Preview)	59.8%	$0.0015	5.0s	12%
22	Claude Opus 4.6 (Reasoning)	84.2%	$0.080	42.3s	39%
23	Grok 4.20 (Beta)	57.9%	$0.0029	3.2s	12%
24	GPT-4.1	61.4%	$0.0044	7.8s	9%
25	Gemini 3.1 Pro (Preview)	98.7%	$0.157	2.1m	80%
26	Grok 4.20	56.4%	$0.0013	9.3s	12%
27	GPT-4o Mini (temp=1)	59.1%	$0.0003	8.4s	7%
28	Grok 4 Fast	53.3%	$0.0004	6.8s	10%
29	o4 Mini	72.7%	$0.026	1.1m	18%
30	Inception Mercury	57.6%	$0.0006	9.1s	6%
31	Grok 4	60.0%	$0.012	27.3s	13%
32	Gemini 3.5 Flash (Reasoning, Minimal)	50.1%	$0.0041	3.7s	6%
33	DeepSeek V4 Flash	51.0%	$0.0002	14.6s	6%
34	Claude 3.7 Sonnet	50.7%	$0.0085	11.6s	9%
35	GPT-5.4 Nano (Reasoning)	54.7%	$0.0042	21.2s	1%
36	Claude Opus 4	59.0%	$0.044	25.5s	18%
37	Gemini 3 Flash (Preview, Reasoning)	58.0%	$0.019	33.7s	7%
38	Gemini 3.5 Flash (Reasoning)	90.4%	$0.137	56.9s	45%
39	Grok 4.1 Fast	45.4%	$0.0004	10.3s	3%
40	Gemini 2.5 Flash Lite	41.3%	$0.0002	2.6s	5%
41	GPT-OSS 120B	63.7%	$0.0015	1.9m	8%
42	Mistral Medium 3.1	44.0%	$0.0012	13.1s	3%
43	Llama 3.1 70B	40.6%	$0.0005	5.2s	3%
44	Llama 3.1 8B	38.3%	$0.0001	2.0s	1%
45	Claude Haiku 4.5	39.2%	$0.0026	6.6s	2%
46	GPT-4.1 Mini	40.2%	$0.0009	6.9s	1%
47	Qwen 3.6 Flash	53.3%	$0.015	49.1s	5%
48	GPT-5 Nano	59.7%	$0.0040	1.6m	4%
49	GPT-5.4 Mini (Reasoning)	45.3%	$0.0077	9.4s	0%
50	Stealth: Aurora Alpha	67.7%	—	9.2s	9%
51	DeepSeek V3 (2024-12-26)	37.2%	$0.0006	19.3s	3%
52	Claude 3 Haiku	36.0%	$0.0007	4.7s	1%
53	Arcee AI: Trinity Large (Preview)	37.8%	$0.0000	12.2s	1%
54	GPT-4.1 Nano	37.3%	$0.0002	6.0s	0%
55	Hermes 3 405B	35.7%	$0.0000	26.5s	3%
56	GPT-5.4 Nano (Reasoning, Low)	34.5%	$0.0020	10.4s	0%
57	Xiaomi MIMO v2.5	34.3%	$0.0022	12.5s	0%
58	Mistral Small 4	31.2%	$0.0003	5.7s	1%
59	Qwen 3.6 35B	52.8%	$0.013	1.3m	3%
60	GPT-5.4 Mini (Reasoning, Low)	32.9%	$0.0032	4.6s	0%
61	GPT-5.5	47.2%	$0.021	19.2s	0%
62	Mistral Large 3	32.6%	$0.0009	12.1s	0%
63	LFM2 24B	31.4%	$0.0001	12.6s	1%
64	DeepSeek-V2 Chat	36.0%	$0.0002	29.9s	0%
65	DeepSeek V3 (2025-03-24)	33.3%	$0.0006	17.8s	0%
66	Gemini 2.5 Flash	30.2%	$0.0015	4.0s	0%
67	GPT-5.4 Mini	30.5%	$0.0029	4.0s	0%
68	DeepSeek V4 Flash (Reasoning)	34.4%	$0.0002	41.4s	2%
69	GPT-5.4 (Reasoning)	53.9%	$0.030	39.6s	1%
70	GPT-5.1	56.5%	$0.030	52.9s	2%
71	GPT-5.2	53.3%	$0.027	38.3s	0%
72	DeepSeek V3.1	33.2%	$0.0006	28.3s	0%
73	GPT-5.4 (Reasoning, Low)	42.5%	$0.017	23.5s	0%
74	Stealth: Hunter Alpha	29.6%	$0.0000	17.1s	0%
75	GPT-4o, May 13th (temp=1)	34.9%	$0.0088	15.6s	0%
76	Grok 4.3 (Reasoning)	73.5%	$0.037	3.2m	16%
77	Qwen 2.5 72B	27.2%	$0.0003	15.6s	0%
78	GPT-4o, May 13th (temp=0)	31.9%	$0.0090	14.3s	0%
79	DeepSeek V3.2	34.3%	$0.0005	47.8s	0%
80	Stealth: Healer Alpha	27.3%	$0.0000	19.6s	0%
81	Qwen 3.5 Plus (2026-04-20)	56.9%	$0.020	2.2m	7%
82	Qwen 3.5 27B	57.5%	$0.025	1.9m	6%
83	Gemini 3 Pro (Preview)	43.1%	$0.031	23.6s	3%
84	Hermes 3 70B	25.9%	$0.0002	20.8s	0%
85	Z.AI GLM 5.1	77.8%	$0.048	3.9m	24%
86	Mistral Large	33.5%	$0.015	13.3s	0%
87	Gemma 4 26B	23.8%	$0.0002	16.6s	1%
88	GPT-5.5 (Reasoning, Low)	46.0%	$0.033	24.6s	0%
89	Xiaomi MIMO v2.5 Pro	26.2%	$0.0032	20.8s	0%
90	Qwen 3.5 Flash	41.7%	$0.0050	1.4m	0%
91	Mistral Small 3.2 24B	21.1%	$0.0002	9.0s	0%
92	Aion 2.0	25.7%	$0.0016	24.7s	0%
93	Gemma 3 12B	21.3%	$0.0001	11.9s	0%
94	Gemma 4 31B	24.2%	$0.0002	24.3s	0%
95	Gemini 2.5 Flash Lite (Reasoning)	25.2%	$0.0022	24.1s	0%
96	Ministral 8B	18.6%	$0.0000	4.0s	0%
97	Ministral 3 3B	17.2%	$0.0001	2.0s	0%
98	Qwen 3.5 Plus (2026-02-15)	22.7%	$0.0013	22.1s	0%
99	Arcee AI: Trinity Mini	16.2%	$0.0001	5.6s	0%
100	ByteDance Seed 2.0 Lite	26.5%	$0.0036	42.6s	0%
101	Qwen 3.5 35B	46.6%	$0.024	1.3m	1%
102	Claude 3.5 Sonnet	26.4%	$0.0092	32.1s	1%
103	GPT-5.4	24.1%	$0.0096	18.7s	0%
104	Claude Sonnet 4.5	20.8%	$0.0080	11.8s	0%
105	Ministral 3B	13.5%	$0.0000	2.5s	0%
106	Nemotron 3 Nano	70.4%	$0.0042	4.8m	11%
107	GPT-5.4 Nano	14.6%	$0.0011	5.2s	0%
108	Ministral 3 8B	13.5%	$0.0001	3.3s	0%
109	Claude Sonnet 4.6 (Reasoning)	71.3%	$0.117	1.3m	27%
110	Ministral 3 14B	13.8%	$0.0002	6.4s	0%
111	Mistral Small 4 (Reasoning)	18.6%	$0.0019	22.1s	0%
112	GPT-5.5 (Reasoning)	49.5%	$0.049	29.5s	0%
113	Qwen 3.5 122B	47.9%	$0.033	1.3m	2%
114	Z.AI GLM 4.5 Air	15.3%	$0.0007	17.8s	0%
115	Qwen3 235B A22B Instruct 2507	14.4%	$0.0003	18.7s	0%
116	Cohere Command R+ (Aug. 2024)	15.7%	$0.0054	12.4s	0%
117	Writer: Palmyra X5	14.3%	$0.0038	12.6s	0%
118	ByteDance Seed 1.6 Flash	11.7%	$0.0006	12.2s	0%
119	Z.AI GLM 4.5	11.1%	$0.0009	8.9s	0%
120	Grok 4.20 (Reasoning)	48.6%	$0.027	2.0m	4%
121	Claude Sonnet 4	15.1%	$0.0077	11.4s	0%
122	DeepSeek V4 Pro	14.2%	$0.0009	28.7s	0%
123	Z.AI GLM 4.7	40.6%	$0.0069	2.4m	4%
124	Grok 4.20 (Beta, Reasoning)	45.7%	$0.053	38.2s	3%
125	Llama 3.1 Nemotron 70B	9.8%	$0.0002	15.7s	0%
126	Grok 4.3	7.9%	$0.0011	7.2s	0%
127	Qwen 3 32B	10.8%	$0.0005	21.3s	0%
128	Mistral NeMO	6.5%	$0.0001	6.6s	0%
129	Gemini 2.5 Pro	28.2%	$0.029	25.0s	0%
130	Gemma 3 4B	5.3%	$0.0000	5.5s	0%
131	Qwen 3.6 27B	49.1%	$0.029	2.1m	3%
132	Rocinante 12B	9.8%	$0.0003	25.1s	0%
133	ByteDance Seed 1.6	27.5%	$0.0073	1.4m	0%
134	Mistral Small Creative	3.7%	$0.0002	3.8s	0%
135	Z.AI GLM 4.7 Flash	18.3%	$0.0014	1.1m	0%
136	Gemma 3 27B	5.2%	$0.0001	15.7s	0%
137	Gemma 4 26B (Reasoning)	50.9%	$0.0035	3.8m	4%
138	Gemma 4 31B (Reasoning)	52.4%	$0.0024	4.2m	7%
139	Mistral Large 2	2.6%	$0.0031	13.0s	0%
140	Z.AI GLM 5	28.2%	$0.010	1.8m	0%
141	Gemini 2.5 Flash (Reasoning)	12.4%	$0.015	29.3s	0%
142	WizardLM 2 8x22b	0.0%	$0.0007	22.8s	0%
143	MoonshotAI: Kimi K2.5	49.8%	$0.024	3.2m	4%
144	Z.AI GLM 4.6	11.5%	$0.0044	1.3m	0%
145	Qwen 3.5 9B	25.8%	$0.0017	2.5m	0%
146	Qwen3.6 Max Preview	75.1%	$0.072	4.4m	17%
147	DeepSeek V4 Pro (Reasoning)	48.3%	$0.019	3.7m	3%
148	Qwen 3.5 397B A17B	62.6%	$0.039	4.9m	8%
149	ByteDance Seed 2.0 Mini	25.8%	$0.0029	3.3m	0%
150	MoonshotAI: Kimi K2.6	71.5%	$0.054	7.0m	15%
43.32%

Individual Scenarios

dialogue-200

▼

Write 200 words with 10% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	100	99	99.8%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	100	98	99.7%
Claude Opus 4.5	100	100	100	100	100	100	100	99	98	98	99.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	98	96	99.4%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	99	99	94	99.1%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	90	99.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	99	90	99.0%
Claude Opus 4.6	100	100	100	100	100	99	99	99	99	90	98.7%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	99	98	90	98.6%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	99	86	98.4%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	81	98.1%
Claude Opus 4.7 (Reasoning)	100	100	100	100	99	99	99	99	98	86	98.0%
GPT-4.1	100	100	100	100	100	99	99	99	96	86	97.9%
Claude Opus 4.7	100	100	100	99	99	99	99	98	96	90	97.9%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	99	99	99	98	94	90	97.8%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	96	81	97.7%
Gemini 3 Flash (Preview)	100	100	100	100	99	99	98	98	94	90	97.7%
Claude Sonnet 4.6	100	100	99	99	99	99	99	98	94	86	97.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	99	99	99	99	94	75	96.5%
Qwen 3.6 Flash	100	100	100	100	100	100	99	98	96	68	96.0%
GPT-5.5	100	100	100	100	100	99	99	98	86	75	95.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	99	98	60	95.6%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	99	90	86	68	94.3%
Gemma 4 31B	100	100	100	100	99	99	99	96	94	52	94.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	99	94	43	93.6%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	90	43	93.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	98	86	35	91.9%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	99	20	91.9%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	0	90.0%
Inception Mercury	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4	100	100	100	100	100	100	99	96	86	0	88.1%
Grok 4 Fast	100	99	99	98	98	94	94	86	81	14	86.3%
Grok 4.1 Fast	100	100	99	94	94	81	75	75	75	68	86.1%
Claude Opus 4	100	100	100	100	100	99	99	81	68	10	85.6%
Llama 3.1 70B	100	100	98	98	98	94	90	81	68	27	85.4%
Claude Sonnet 4.5	100	100	100	100	96	90	75	68	60	60	85.0%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	100	99	99	96	27	27	84.8%
GPT-4.1 Nano	100	100	100	99	96	86	86	68	60	52	84.8%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	94	81	68	4	84.6%
Claude Haiku 4.5	100	100	100	99	98	96	94	86	60	10	84.2%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	20	20	84.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	96	6	0	80.2%
Qwen 3.5 Flash	100	100	100	100	100	100	100	99	0	0	80.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	43	0	0	74.4%
Grok 4.20 (Beta)	100	100	100	98	96	90	86	52	20	1	74.3%
Qwen 3.5 9B	100	100	100	100	100	99	99	43	0	0	74.1%
Gemini 3 Pro (Preview)	100	100	100	99	96	96	68	43	35	4	74.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	98	94	86	68	60	35	0	74.0%
GPT-4.1 Mini	100	100	99	99	99	86	81	43	27	0	73.6%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	99	94	68	68	52	43	0	72.4%
Claude 3 Haiku	99	99	98	98	96	94	86	43	10	0	72.2%
DeepSeek V4 Flash (Reasoning)	100	100	96	86	81	75	75	60	35	0	70.9%
Z.AI GLM 4.7	100	100	100	100	96	75	68	52	10	0	70.1%
Claude Sonnet 4	100	99	96	90	90	86	68	43	20	6	70.0%
DeepSeek V3 (2025-03-24)	100	99	98	94	90	75	75	60	0	0	69.2%
DeepSeek V4 Flash	100	99	99	99	94	86	68	43	0	0	68.9%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	86	0	0	0	68.6%
Arcee AI: Trinity Large (Preview)	99	99	99	96	94	75	68	27	27	0	68.3%
Llama 3.1 8B	100	100	99	98	96	75	52	6	1	0	62.7%
Qwen 3.5 Plus (2026-02-15)	100	100	96	90	86	75	52	14	1	0	61.5%
DeepSeek V3.1	100	98	96	90	68	60	52	20	1	1	58.7%
GPT-4o, May 13th (temp=1)	100	100	99	96	94	86	6	2	0	0	58.3%
LFM2 24B	100	99	99	75	60	60	60	14	6	0	57.5%
Gemini 2.5 Flash	100	96	94	90	75	43	35	27	2	0	56.3%
Gemma 4 26B	94	90	75	68	68	60	60	35	6	2	55.9%
Gemini 2.5 Pro	99	96	96	90	75	43	27	14	0	0	54.2%
Grok 4.20	100	100	100	99	81	35	20	4	0	0	53.8%
Hermes 3 405B	100	99	90	81	75	68	14	10	0	0	53.8%
Gemma 3 12B	100	94	94	90	68	35	14	14	6	6	52.1%
DeepSeek V3.2	100	100	100	96	75	27	20	0	0	0	51.9%
Ministral 3 3B	100	100	99	98	96	10	0	0	0	0	50.2%
Gemini 2.5 Flash Lite	100	99	99	99	94	0	0	0	0	0	49.1%
GPT-5.4 Mini	100	94	81	81	75	35	14	2	0	0	48.3%
Claude 3.5 Sonnet	100	99	75	68	43	35	27	10	6	0	46.3%
DeepSeek V3 (2024-12-26)	100	100	99	94	27	27	6	0	0	0	45.3%
Z.AI GLM 4.5	94	94	90	75	52	27	14	0	0	0	44.6%
Mistral Large	100	99	98	75	43	27	2	0	0	0	44.5%
GPT-4o, May 13th (temp=0)	99	99	98	81	43	20	0	0	0	0	44.1%
Stealth: Healer Alpha	100	94	81	60	52	52	1	0	0	0	44.0%
Mistral Medium 3.1	100	96	94	86	35	14	6	0	0	0	43.1%
ByteDance Seed 2.0 Mini	99	96	52	52	43	35	35	14	0	0	42.6%
Qwen 2.5 72B	100	100	90	86	35	10	1	0	0	0	42.2%
Hermes 3 70B	100	99	96	86	27	6	2	0	0	0	41.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	94	94	20	4	0	0	0	0	41.2%
DeepSeek-V2 Chat	99	96	94	43	35	35	10	0	0	0	41.2%
GPT-5.4	94	90	68	60	35	27	20	6	2	2	40.5%
ByteDance Seed 2.0 Lite	100	99	90	81	20	6	2	0	0	0	39.9%
Z.AI GLM 5	100	98	86	86	27	1	0	0	0	0	39.9%
Mistral Large 3	100	99	98	96	0	0	0	0	0	0	39.2%
Xiaomi MIMO v2.5	100	96	94	60	27	10	0	0	0	0	38.7%
Xiaomi MIMO v2.5 Pro	100	100	98	75	0	0	0	0	0	0	37.3%
Stealth: Hunter Alpha	99	81	52	43	43	27	0	0	0	0	34.6%
Z.AI GLM 4.5 Air	100	94	60	52	27	0	0	0	0	0	33.4%
DeepSeek V4 Pro	100	96	68	52	6	4	4	0	0	0	32.9%
Mistral Small 3.2 24B	99	86	60	35	14	14	10	0	0	0	31.9%
ByteDance Seed 1.6	100	100	75	27	6	0	0	0	0	0	30.8%
Mistral Small 4	100	100	75	20	0	0	0	0	0	0	29.6%
Mistral Small 4 (Reasoning)	100	99	68	10	0	0	0	0	0	0	27.8%
Ministral 3 8B	100	98	68	0	0	0	0	0	0	0	26.6%
Llama 3.1 Nemotron 70B	100	99	43	10	10	0	0	0	0	0	26.1%
GPT-5.4 Nano	100	94	52	0	0	0	0	0	0	0	24.6%
Gemma 3 4B	100	98	27	6	4	2	0	0	0	0	23.6%
Ministral 3B	94	52	43	20	20	0	0	0	0	0	22.9%
Aion 2.0	100	81	43	4	0	0	0	0	0	0	22.8%
Claude 3.7 Sonnet	68	43	43	27	14	10	6	2	2	0	21.6%
Z.AI GLM 4.7 Flash	100	68	27	0	0	0	0	0	0	0	19.5%
Gemma 3 27B	86	81	14	6	0	0	0	0	0	0	18.9%
Gemini 2.5 Flash (Reasoning)	94	60	27	0	0	0	0	0	0	0	18.1%
Z.AI GLM 4.6	94	52	27	0	0	0	0	0	0	0	17.3%
Mistral NeMO	96	52	0	0	0	0	0	0	0	0	14.8%
ByteDance Seed 1.6 Flash	86	60	0	0	0	0	0	0	0	0	14.7%
Rocinante 12B	98	43	0	0	0	0	0	0	0	0	14.1%
Ministral 8B	99	27	0	0	0	0	0	0	0	0	12.6%
Qwen 3 32B	96	20	0	0	0	0	0	0	0	0	11.6%
Writer: Palmyra X5	86	27	2	0	0	0	0	0	0	0	11.6%
Qwen3 235B A22B Instruct 2507	86	0	0	0	0	0	0	0	0	0	8.7%
Ministral 3 14B	43	10	0	0	0	0	0	0	0	0	5.3%
Mistral Large 2	27	20	1	1	0	0	0	0	0	0	4.9%
Cohere Command R+ (Aug. 2024)	27	4	0	0	0	0	0	0	0	0	3.1%
Mistral Small Creative	4	0	0	0	0	0	0	0	0	0	0.4%
Grok 4.3	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 200 words with 50% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
MiniMax M2.7	100	100	100	100	100	100	100	100	99	99	99.8%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.8%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	99	99	99.8%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	99	99	99.8%
Nemotron 3 Super	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Opus 4.6	100	100	100	100	100	100	100	99	99	99	99.6%
o4 Mini High	100	100	100	100	100	100	100	100	100	96	99.6%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	100	99	96	99.4%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	100	99	96	99.4%
GPT-OSS 120B	100	100	100	100	100	100	100	100	100	94	99.4%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	99	99	96	99.3%
Qwen 3.6 35B	100	100	100	100	100	100	100	99	98	96	99.2%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	90	99.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	99	98	90	98.7%
o4 Mini	100	100	100	100	100	100	100	100	99	86	98.5%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	99	96	90	98.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	99	98	98	94	86	97.5%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	99	99	75	97.2%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	68	96.8%
Gemini 3 Pro (Preview)	100	99	99	99	99	99	96	94	90	90	96.5%
Qwen 3.5 35B	100	100	100	100	100	100	100	99	90	75	96.5%
Qwen 3.5 27B	100	100	100	100	100	100	99	98	90	75	96.2%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	90	68	95.8%
Grok 4.20	100	100	100	100	100	100	99	99	86	68	95.3%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	99	98	90	60	94.7%
Claude Opus 4.5	99	98	98	96	96	94	94	94	90	86	94.4%
Claude Opus 4.7 (Reasoning)	100	99	99	99	98	98	94	90	86	75	93.8%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	75	43	91.8%
GPT-4.1	100	100	100	100	100	99	99	99	99	10	90.5%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.5	100	100	100	100	99	98	98	98	86	20	89.8%
Grok 4.1 Fast	100	100	100	100	100	100	99	99	94	6	89.7%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	90	0	89.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	52	35	88.7%
GPT-4o Mini (temp=0)	100	100	100	99	96	90	86	86	68	60	88.6%
Qwen 3.6 Flash	100	100	100	100	100	96	96	96	94	0	88.2%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	86	68	20	87.5%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	98	90	81	0	87.0%
Claude Opus 4.7	100	99	98	90	90	86	86	81	75	60	86.7%
DeepSeek-V2 Chat	100	100	100	100	100	100	94	86	81	0	86.1%
Claude Sonnet 4.6	99	96	94	90	90	90	86	86	75	52	86.0%
Grok 4.20 (Reasoning)	100	100	100	99	99	96	96	75	75	10	85.0%
Inception Mercury	100	100	100	100	100	99	94	81	75	0	84.9%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	99	96	90	81	75	6	84.8%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	27	10	83.7%
GPT-4.1 Nano	100	100	99	99	96	96	90	86	60	0	82.8%
Arcee AI: Trinity Large (Preview)	100	100	100	94	90	90	86	75	68	20	82.4%
Stealth: Hunter Alpha	100	100	99	99	98	94	86	75	68	0	81.9%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	98	75	43	2	81.8%
MoonshotAI: Kimi K2.5	100	100	100	99	94	90	90	81	60	0	81.5%
Grok 4.20 (Beta)	100	100	100	100	98	94	86	75	52	0	80.5%
DeepSeek V4 Flash	100	99	99	98	98	96	94	60	43	6	79.2%
Gemini 3 Flash (Preview)	99	99	99	98	98	90	90	68	20	14	77.6%
GPT-4.1 Mini	99	98	98	94	90	86	81	81	20	0	74.8%
Claude 3 Haiku	100	100	99	98	81	81	75	60	27	20	74.2%
Z.AI GLM 4.7	100	100	100	100	99	96	96	27	14	0	73.2%
Mistral Medium 3.1	100	100	100	100	100	99	96	14	4	1	71.3%
GPT-5.4 Mini	100	99	94	86	81	81	75	68	20	6	71.1%
Grok 4	100	100	100	100	98	75	60	43	6	4	68.6%
Mistral Large	100	100	100	100	100	100	81	1	0	0	68.2%
DeepSeek V3.2	100	98	94	86	75	68	68	43	35	14	68.1%
GPT-4o, May 13th (temp=1)	100	100	100	99	99	94	75	0	0	0	66.8%
DeepSeek V3 (2024-12-26)	100	100	90	86	81	81	52	43	27	0	66.2%
Qwen 3.5 Flash	100	100	99	99	96	90	60	6	0	0	65.2%
Mistral Large 3	100	99	98	94	81	68	60	52	0	0	65.2%
Llama 3.1 70B	100	98	98	86	86	75	52	35	10	4	64.3%
ByteDance Seed 1.6	100	100	100	100	100	98	43	0	0	0	64.1%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	96	86	68	68	10	6	1	63.5%
Qwen 3.6 27B	100	100	100	100	98	68	52	0	0	0	61.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	99	98	94	86	86	52	2	0	0	61.7%
DeepSeek V3 (2025-03-24)	100	100	100	90	75	60	43	27	20	0	61.7%
Hermes 3 405B	94	81	81	75	75	68	52	43	43	2	61.5%
GPT-4o, May 13th (temp=0)	100	100	99	94	81	68	68	0	0	0	61.1%
Xiaomi MIMO v2.5	100	100	100	100	100	52	35	14	0	0	60.1%
Qwen 3.5 122B	100	100	100	98	98	43	27	27	6	0	59.9%
Llama 3.1 8B	100	99	99	99	99	43	43	14	0	0	59.7%
Claude Opus 4	99	90	86	81	75	75	43	14	2	0	56.7%
Mistral Small 4	100	99	99	98	96	60	10	0	0	0	56.2%
ByteDance Seed 2.0 Mini	100	100	99	96	75	68	0	0	0	0	53.8%
Gemini 2.5 Pro	86	81	81	75	68	52	52	35	0	0	53.2%
Claude Haiku 4.5	90	90	90	81	68	43	20	20	6	0	51.1%
GPT-5.4	98	94	86	81	81	68	0	0	0	0	51.0%
Gemma 4 31B	90	90	86	52	52	52	43	20	14	2	50.3%
Qwen 2.5 72B	100	99	99	98	52	20	14	10	2	0	49.4%
DeepSeek V3.1	100	100	99	81	68	20	20	2	0	0	49.1%
Z.AI GLM 4.6	99	96	94	86	68	20	6	0	0	0	47.0%
Grok 4 Fast	98	96	90	60	35	35	27	0	0	0	44.2%
Mistral Small 3.2 24B	100	100	99	68	60	14	0	0	0	0	44.1%
Gemini 2.5 Flash Lite	100	100	98	75	68	0	0	0	0	0	44.1%
GPT-5.4 Nano	100	98	94	68	60	14	4	0	0	0	43.8%
ByteDance Seed 2.0 Lite	100	100	100	100	0	0	0	0	0	0	40.0%
Z.AI GLM 4.7 Flash	100	100	100	60	27	0	0	0	0	0	38.7%
LFM2 24B	100	90	86	68	20	10	6	2	0	0	38.3%
DeepSeek V4 Flash (Reasoning)	100	99	81	43	27	14	10	1	0	0	37.6%
Stealth: Healer Alpha	99	98	98	60	4	4	0	0	0	0	36.3%
Writer: Palmyra X5	99	98	90	52	10	4	0	0	0	0	35.3%
Gemma 4 26B	90	86	52	43	35	27	10	6	0	0	35.1%
Qwen3 235B A22B Instruct 2507	100	99	75	68	0	0	0	0	0	0	34.3%
Qwen 3.5 Plus (2026-02-15)	100	81	68	35	27	20	0	0	0	0	33.2%
Hermes 3 70B	100	100	43	35	27	20	2	0	0	0	32.8%
Gemini 2.5 Flash Lite (Reasoning)	100	99	60	43	4	0	0	0	0	0	30.7%
DeepSeek V4 Pro	98	96	86	20	6	0	0	0	0	0	30.6%
Z.AI GLM 5	96	94	60	43	10	1	0	0	0	0	30.4%
Aion 2.0	99	94	86	20	0	0	0	0	0	0	29.9%
Claude 3.5 Sonnet	75	68	52	43	35	14	10	0	0	0	29.8%
Claude 3.7 Sonnet	81	60	43	35	27	20	6	4	0	0	27.7%
Gemini 2.5 Flash (Reasoning)	100	98	75	0	0	0	0	0	0	0	27.3%
Ministral 3B	96	86	68	20	0	0	0	0	0	0	27.1%
Z.AI GLM 4.5 Air	98	68	60	27	0	0	0	0	0	0	25.4%
ByteDance Seed 1.6 Flash	100	100	52	0	0	0	0	0	0	0	25.2%
Qwen 3.5 9B	100	68	43	35	0	0	0	0	0	0	24.6%
Gemini 2.5 Flash	100	100	14	10	10	6	0	0	0	0	24.0%
Ministral 8B	96	94	4	0	0	0	0	0	0	0	19.4%
Ministral 3 14B	94	90	0	0	0	0	0	0	0	0	18.4%
Qwen 3 32B	90	68	4	0	0	0	0	0	0	0	16.2%
Mistral Small 4 (Reasoning)	96	43	10	1	0	0	0	0	0	0	15.0%
Claude Sonnet 4.5	52	27	20	20	14	1	1	1	0	0	13.7%
Llama 3.1 Nemotron 70B	100	20	10	0	0	0	0	0	0	0	13.0%
Mistral Small Creative	68	27	27	6	0	0	0	0	0	0	12.9%
Xiaomi MIMO v2.5 Pro	98	27	1	0	0	0	0	0	0	0	12.6%
Rocinante 12B	96	4	0	0	0	0	0	0	0	0	10.0%
Arcee AI: Trinity Mini	100	0	0	0	0	0	0	0	0	0	10.0%
Cohere Command R+ (Aug. 2024)	68	20	10	1	0	0	0	0	0	0	9.9%
Z.AI GLM 4.5	52	20	20	2	1	0	0	0	0	0	9.5%
Gemma 3 12B	81	6	0	0	0	0	0	0	0	0	8.9%
Claude Sonnet 4	43	14	10	6	2	0	0	0	0	0	7.6%
Mistral NeMO	75	0	0	0	0	0	0	0	0	0	7.5%
Grok 4.3	52	2	0	0	0	0	0	0	0	0	5.4%
Ministral 3 3B	14	14	10	6	2	0	0	0	0	0	4.7%
Gemma 3 27B	20	0	0	0	0	0	0	0	0	0	2.0%
Ministral 3 8B	2	0	0	0	0	0	0	0	0	0	0.2%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 200 words with 90% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	99.9%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	99	99	99	99	96	99.2%
MiniMax M2.5	100	100	100	100	100	100	100	100	99	90	99.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	86	98.6%
Inception Mercury 2	100	100	100	100	100	100	100	100	100	86	98.6%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	99	98	94	94	98.4%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	94	90	98.4%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	99	99	96	94	94	98.2%
GPT-5.5	100	100	100	99	99	99	98	96	94	90	97.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	99	99	99	98	96	90	86	96.8%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	68	96.8%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	99	68	96.7%
GPT-4o Mini (temp=0)	100	100	100	100	99	99	98	98	96	68	95.7%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	81	75	95.6%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	98	98	98	96	86	81	95.6%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	75	75	95.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	99	98	96	52	94.4%
GPT-5.5 (Reasoning, Low)	100	100	100	100	99	99	94	90	86	68	93.7%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	90	43	93.4%
GPT-4o, Aug. 6th (temp=1)	100	100	99	99	98	94	90	86	81	81	92.9%
Claude Opus 4.6	100	100	100	100	99	98	90	90	90	60	92.8%
Claude Opus 4.7	99	99	99	96	96	90	90	90	86	68	91.6%
GPT-4.1	100	100	99	99	99	99	99	86	81	52	91.4%
GPT-5	100	100	100	100	100	100	100	100	100	4	90.4%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-OSS 120B	100	100	100	100	100	100	100	99	99	0	89.8%
Claude Opus 4.6 (Reasoning)	100	100	100	99	96	96	90	75	75	60	89.2%
Qwen3.6 Max Preview	100	100	100	100	100	100	98	90	90	0	87.8%
GPT-5.1	100	100	100	100	100	100	100	100	68	6	87.4%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	98	98	96	86	75	20	87.3%
Qwen 3.5 Flash	100	100	100	100	100	98	96	94	81	0	86.8%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	99	99	68	0	86.6%
Gemini 3.1 Flash Lite	100	100	100	100	99	96	90	86	86	1	85.9%
Z.AI GLM 5.1	100	100	100	100	100	99	94	86	35	27	84.1%
Gemma 4 26B (Reasoning)	100	100	100	99	96	96	94	86	43	2	81.6%
Qwen 3.6 27B	100	100	100	100	100	99	99	86	27	0	81.2%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	10	1	81.0%
Nemotron 3 Super	100	100	100	100	100	99	90	60	43	14	80.7%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	94	0	0	79.4%
Qwen 3.5 122B	100	100	100	100	100	100	100	90	0	0	79.0%
Claude Opus 4.7 (Reasoning)	99	94	94	94	90	86	81	60	52	10	76.0%
Z.AI GLM 5 Turbo	100	100	100	100	99	99	81	75	0	0	75.4%
Inception Mercury	100	100	100	100	98	94	86	43	27	4	75.2%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	75	68	52	43	6	74.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	96	90	90	75	60	20	0	73.3%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	60	43	14	0	71.8%
Grok 4.20 (Beta)	100	100	100	100	99	96	86	35	0	0	71.7%
Grok 4	100	100	100	100	99	98	52	52	10	0	71.0%
Qwen 3.5 35B	100	100	100	100	99	94	81	27	4	0	70.5%
MoonshotAI: Kimi K2.5	100	100	100	99	96	96	68	35	10	0	70.3%
Qwen 3.5 Plus (2026-04-20)	100	100	99	98	96	86	86	35	0	0	70.0%
Grok 4.20	100	96	90	90	90	81	68	35	27	20	69.9%
Claude Opus 4.5	99	98	96	90	86	86	86	27	20	4	69.3%
Grok 4.1 Fast	100	100	98	98	90	86	86	27	4	0	68.9%
Grok 4.20 (Beta, Reasoning)	100	100	100	100	99	96	90	0	0	0	68.5%
Claude Opus 4	96	94	90	86	86	75	68	60	10	6	67.2%
o4 Mini	100	100	100	100	100	68	52	27	20	2	66.9%
Grok 4.20 (Reasoning)	100	100	99	99	90	90	52	27	6	1	66.6%
Llama 3.1 70B	100	99	98	94	81	68	52	43	14	0	65.0%
Gemini 3 Flash (Preview)	99	96	86	81	75	75	75	35	14	10	64.7%
GPT-5.4 Mini	100	94	94	90	86	75	68	20	10	0	63.7%
Qwen 3.6 Flash	100	99	99	99	99	86	27	20	0	0	63.1%
DeepSeek V3.2	100	100	98	96	86	75	75	0	0	0	63.0%
GPT-4o, May 13th (temp=1)	100	100	99	96	75	68	68	14	10	0	63.0%
Xiaomi MIMO v2.5 Pro	100	99	99	86	81	60	52	35	0	0	61.3%
DeepSeek V4 Flash	100	99	98	96	96	94	20	10	0	0	61.2%
GPT-5.4 Mini (Reasoning, Low)	100	100	99	68	60	60	52	27	20	14	60.2%
Ministral 8B	100	100	100	96	90	75	35	2	0	0	59.9%
DeepSeek V3.1	100	99	98	94	86	52	35	35	0	0	59.8%
Mistral Small 4 (Reasoning)	100	100	100	100	98	96	0	0	0	0	59.3%
Llama 3.1 8B	100	100	100	94	75	75	35	14	0	0	59.3%
Z.AI GLM 4.7	100	100	96	81	68	60	43	35	0	0	58.4%
Claude Sonnet 4.6	98	68	68	68	60	52	52	35	35	35	57.1%
GPT-4.1 Nano	100	99	94	86	81	43	27	27	4	0	56.2%
Arcee AI: Trinity Large (Preview)	100	90	86	81	75	52	43	20	10	0	55.8%
Gemma 4 31B (Reasoning)	100	99	81	81	75	52	43	14	2	0	54.8%
ByteDance Seed 1.6	99	99	96	86	75	68	14	0	0	0	53.8%
Hermes 3 405B	100	90	81	81	68	52	27	20	14	0	53.4%
Mistral Medium 3.1	100	96	94	60	60	60	52	6	4	0	53.2%
GPT-5.4	100	94	86	75	52	52	52	20	0	0	53.1%
Mistral Large	100	99	94	81	81	75	0	0	0	0	53.1%
Hermes 3 70B	100	100	96	81	52	35	35	27	4	0	53.0%
GPT-4.1 Mini	100	100	98	98	81	35	10	2	0	0	52.3%
Xiaomi MIMO v2.5	99	99	98	86	60	43	2	0	0	0	48.8%
Claude Sonnet 4.6 (Reasoning)	99	94	81	52	43	43	27	20	20	0	48.1%
Claude 3.5 Sonnet	100	86	75	75	52	35	27	27	2	0	48.0%
Gemini 3 Pro (Preview)	100	99	99	96	35	27	10	4	4	0	47.4%
Z.AI GLM 5	100	99	99	90	60	14	4	2	1	0	47.0%
DeepSeek-V2 Chat	100	90	81	75	68	52	0	0	0	0	46.7%
Claude 3 Haiku	100	96	94	75	43	35	14	0	0	0	45.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	52	4	2	0	0	0	45.7%
DeepSeek V3 (2025-03-24)	100	100	100	94	60	2	0	0	0	0	45.6%
DeepSeek V4 Flash (Reasoning)	100	98	96	60	52	43	0	0	0	0	44.9%
Qwen 2.5 72B	100	100	100	99	43	2	1	0	0	0	44.5%
DeepSeek V3 (2024-12-26)	100	100	99	75	52	10	6	0	0	0	44.3%
Mistral Small 4	100	99	94	81	27	20	6	6	4	2	43.9%
Gemini 2.5 Flash Lite	90	75	68	52	43	43	43	20	0	0	43.6%
Grok 4 Fast	100	99	86	60	43	20	20	2	0	0	43.1%
Qwen 3.5 Plus (2026-02-15)	90	81	75	60	52	52	2	2	0	0	41.5%
Claude Haiku 4.5	99	94	75	75	43	10	6	4	0	0	40.6%
Gemini 2.5 Flash	100	99	98	94	6	0	0	0	0	0	39.6%
Gemma 4 26B	100	86	52	43	27	20	20	14	4	2	36.9%
Ministral 3 14B	100	90	86	20	20	20	2	2	1	0	34.2%
Mistral Small 3.2 24B	96	94	81	52	10	6	0	0	0	0	33.9%
LFM2 24B	99	96	60	43	27	0	0	0	0	0	32.6%
Z.AI GLM 4.5 Air	100	100	86	27	4	4	0	0	0	0	32.1%
Stealth: Healer Alpha	100	99	90	27	0	0	0	0	0	0	31.6%
ByteDance Seed 2.0 Lite	99	90	35	35	6	6	4	2	0	0	27.8%
Qwen3 235B A22B Instruct 2507	86	60	52	35	35	1	0	0	0	0	27.0%
Z.AI GLM 4.7 Flash	100	90	75	4	0	0	0	0	0	0	26.9%
Stealth: Hunter Alpha	98	96	68	4	2	1	0	0	0	0	26.9%
Mistral Large 3	99	52	52	52	1	0	0	0	0	0	25.6%
Claude 3.7 Sonnet	90	68	27	20	20	20	4	4	1	0	25.5%
Ministral 3 3B	96	94	27	10	2	0	0	0	0	0	22.8%
DeepSeek V4 Pro	81	75	43	14	1	0	0	0	0	0	21.6%
ByteDance Seed 1.6 Flash	100	86	27	0	0	0	0	0	0	0	21.3%
GPT-5.4 Nano	100	81	10	0	0	0	0	0	0	0	19.2%
Writer: Palmyra X5	99	68	10	4	1	0	0	0	0	0	18.2%
ByteDance Seed 2.0 Mini	75	75	27	4	0	0	0	0	0	0	18.1%
Qwen 3 32B	99	81	0	0	0	0	0	0	0	0	18.1%
Qwen 3.5 9B	100	60	4	2	0	0	0	0	0	0	16.6%
Llama 3.1 Nemotron 70B	98	52	4	0	0	0	0	0	0	0	15.4%
Gemini 2.5 Pro	60	60	10	6	0	0	0	0	0	0	13.6%
Ministral 3B	75	60	0	0	0	0	0	0	0	0	13.5%
Gemini 2.5 Flash Lite (Reasoning)	99	35	1	0	0	0	0	0	0	0	13.5%
Z.AI GLM 4.5	90	27	4	0	0	0	0	0	0	0	12.1%
Aion 2.0	100	10	1	0	0	0	0	0	0	0	11.0%
Ministral 3 8B	100	2	0	0	0	0	0	0	0	0	10.2%
Claude Sonnet 4.5	52	27	6	4	0	0	0	0	0	0	8.9%
Mistral Small Creative	43	35	10	0	0	0	0	0	0	0	8.8%
Grok 4.3	81	2	0	0	0	0	0	0	0	0	8.4%
Gemma 3 12B	35	14	4	0	0	0	0	0	0	0	5.3%
Rocinante 12B	35	14	1	0	0	0	0	0	0	0	5.0%
Z.AI GLM 4.6	43	2	0	0	0	0	0	0	0	0	4.6%
Claude Sonnet 4	20	6	1	1	0	0	0	0	0	0	3.0%
Cohere Command R+ (Aug. 2024)	27	0	0	0	0	0	0	0	0	0	2.7%
Gemma 4 31B	6	2	1	1	0	0	0	0	0	0	1.0%
Gemini 2.5 Flash (Reasoning)	6	4	0	0	0	0	0	0	0	0	1.0%
Mistral Large 2	6	0	0	0	0	0	0	0	0	0	0.6%
Arcee AI: Trinity Mini	6	0	0	0	0	0	0	0	0	0	0.6%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%

dialogue-500

▼

Write 500 words with 30% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	99	99.9%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	20	92.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Sonnet 4.6	100	99	99	96	94	94	90	81	68	60	88.1%
MiniMax M2.5	100	100	100	100	100	96	96	94	90	0	87.6%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	99	96	90	35	35	85.5%
GPT-5 Mini	100	100	100	100	100	100	100	100	14	0	81.4%
GPT-5	100	100	100	100	100	100	100	100	0	0	80.0%
Z.AI GLM 5.1	100	100	100	100	100	100	96	90	4	0	79.0%
Claude 3.7 Sonnet	100	100	99	96	96	90	86	81	14	0	76.4%
Claude Opus 4.5	100	99	98	96	86	81	68	68	60	1	75.7%
Inception Mercury 2	100	100	100	100	99	98	60	35	0	0	69.2%
Gemini 3 Flash (Preview)	100	100	99	99	98	98	81	4	0	0	67.8%
Nemotron 3 Super	100	100	100	100	100	98	75	0	0	0	67.3%
Grok 4.20 (Beta)	100	99	99	98	90	81	43	43	2	0	65.6%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	20	14	0	0	63.4%
o4 Mini	100	100	100	100	90	81	35	20	6	0	63.3%
Grok 4	100	99	99	90	75	60	60	35	14	0	63.3%
Qwen3.6 Max Preview	100	100	100	99	94	81	52	4	0	0	62.9%
Claude Opus 4.7	100	99	94	90	75	68	43	35	14	4	62.3%
GPT-4o, Aug. 6th (temp=0)	99	86	86	86	86	81	75	10	0	0	61.1%
Stealth: Aurora Alpha	100	100	100	100	100	90	20	0	0	0	61.1%
GPT-4o Mini (temp=0)	100	100	90	75	68	60	52	35	27	0	60.8%
Nemotron 3 Nano	100	100	100	100	100	100	0	0	0	0	60.0%
Claude Opus 4.6 (Reasoning)	100	100	99	99	96	86	10	0	0	0	59.1%
Gemini 3.1 Flash Lite (Preview)	99	99	96	86	75	52	35	27	2	0	57.1%
Claude Opus 4.6	100	100	100	99	86	68	6	0	0	0	56.0%
Claude Opus 4.7 (Reasoning)	100	100	96	81	81	52	27	20	0	0	55.8%
Gemini 3.1 Flash Lite (Reasoning)	100	99	96	94	90	43	14	10	6	0	55.3%
Claude Opus 4	94	94	90	81	75	52	20	14	0	0	52.1%
Qwen 3.5 397B A17B	100	99	98	94	52	0	0	0	0	0	44.2%
Mistral Medium 3.1	100	100	100	98	35	0	0	0	0	0	43.3%
Grok 4.20	100	99	86	81	27	27	6	2	2	0	43.2%
Gemma 3 12B	100	99	86	75	60	0	0	0	0	0	42.1%
Grok 4 Fast	100	99	90	86	35	1	0	0	0	0	41.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	98	75	52	35	20	4	4	0	0	38.7%
MoonshotAI: Kimi K2.6	100	100	100	86	0	0	0	0	0	0	38.6%
DeepSeek V4 Flash	100	99	99	86	1	0	0	0	0	0	38.6%
Qwen 3.6 Flash	100	100	98	86	0	0	0	0	0	0	38.4%
Hermes 3 405B	100	90	81	68	20	2	0	0	0	0	36.2%
Qwen 3.5 27B	100	100	99	52	0	0	0	0	0	0	35.1%
Gemini 2.5 Flash Lite	100	99	94	52	6	0	0	0	0	0	35.1%
LFM2 24B	100	100	90	35	10	4	2	0	0	0	34.0%
GPT-5 Nano	100	100	100	35	0	0	0	0	0	0	33.5%
DeepSeek V3 (2024-12-26)	99	98	94	43	0	0	0	0	0	0	33.4%
Arcee AI: Trinity Mini	99	96	68	68	0	0	0	0	0	0	33.2%
Mistral Large 3	86	75	68	43	43	0	0	0	0	0	31.6%
Gemini 3.1 Flash Lite	98	90	68	43	6	4	0	0	0	0	31.0%
Claude Haiku 4.5	100	94	52	43	6	0	0	0	0	0	29.5%
Z.AI GLM 5	100	90	52	52	0	0	0	0	0	0	29.4%
MoonshotAI: Kimi K2.5	100	96	94	0	0	0	0	0	0	0	29.0%
Qwen 3.6 27B	99	99	43	43	0	0	0	0	0	0	28.4%
Gemma 4 31B (Reasoning)	100	81	75	6	0	0	0	0	0	0	26.3%
DeepSeek V4 Flash (Reasoning)	96	81	75	0	0	0	0	0	0	0	25.3%
Ministral 3 8B	100	100	52	0	0	0	0	0	0	0	25.2%
ByteDance Seed 2.0 Lite	100	98	27	20	4	0	0	0	0	0	24.9%
Mistral Small 4	90	75	68	6	0	0	0	0	0	0	24.0%
Z.AI GLM 4.7 Flash	100	86	52	0	0	0	0	0	0	0	23.8%
GPT-OSS 120B	94	75	68	0	0	0	0	0	0	0	23.7%
Cohere Command R+ (Aug. 2024)	96	94	43	0	0	0	0	0	0	0	23.3%
Gemini 3 Flash (Preview, Reasoning)	100	75	43	14	0	0	0	0	0	0	23.3%
ByteDance Seed 2.0 Mini	100	98	14	10	0	0	0	0	0	0	22.2%
Gemini 2.5 Pro	100	75	43	0	0	0	0	0	0	0	21.8%
Inception Mercury	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.1	100	99	0	0	0	0	0	0	0	0	19.9%
Qwen 3.5 122B	100	99	0	0	0	0	0	0	0	0	19.9%
Gemma 4 26B (Reasoning)	100	43	43	10	0	0	0	0	0	0	19.6%
Gemini 2.5 Flash Lite (Reasoning)	100	94	0	0	0	0	0	0	0	0	19.4%
Gemini 2.5 Flash	90	68	20	0	0	0	0	0	0	0	17.9%
Z.AI GLM 4.7	52	43	43	20	14	1	0	0	0	0	17.5%
Qwen 3.5 Flash	68	60	35	0	0	0	0	0	0	0	16.4%
Xiaomi MIMO v2.5 Pro	99	60	4	0	0	0	0	0	0	0	16.3%
Xiaomi MIMO v2.5	94	35	27	0	0	0	0	0	0	0	15.6%
GPT-4o, Aug. 6th (temp=1)	99	43	10	4	0	0	0	0	0	0	15.6%
GPT-4o Mini (temp=1)	81	60	10	0	0	0	0	0	0	0	15.2%
Grok 4.1 Fast	96	43	4	0	0	0	0	0	0	0	14.3%
Qwen 3.5 Plus (2026-04-20)	75	52	10	6	0	0	0	0	0	0	14.3%
Claude 3 Haiku	100	35	2	0	0	0	0	0	0	0	13.7%
Gemini 3 Pro (Preview)	100	35	0	0	0	0	0	0	0	0	13.5%
DeepSeek-V2 Chat	99	20	4	2	0	0	0	0	0	0	12.5%
GPT-4.1	96	27	0	0	0	0	0	0	0	0	12.3%
DeepSeek V4 Pro (Reasoning)	96	20	6	0	0	0	0	0	0	0	12.2%
Gemma 4 26B	60	60	0	0	0	0	0	0	0	0	12.1%
Qwen 3.6 35B	99	20	0	0	0	0	0	0	0	0	11.9%
Ministral 3 3B	99	14	0	0	0	0	0	0	0	0	11.4%
Grok 4.3	100	6	6	0	0	0	0	0	0	0	11.2%
Claude Sonnet 4.5	81	14	10	2	0	0	0	0	0	0	10.7%
Gemma 3 27B	99	6	0	0	0	0	0	0	0	0	10.5%
GPT-5.4 (Reasoning)	100	0	0	0	0	0	0	0	0	0	10.0%
DeepSeek V3.2	100	0	0	0	0	0	0	0	0	0	10.0%
Qwen 3 32B	100	0	0	0	0	0	0	0	0	0	10.0%
Llama 3.1 8B	100	0	0	0	0	0	0	0	0	0	10.0%
Qwen 2.5 72B	94	6	0	0	0	0	0	0	0	0	10.0%
Qwen 3.5 35B	99	0	0	0	0	0	0	0	0	0	9.9%
GPT-4.1 Mini	99	0	0	0	0	0	0	0	0	0	9.9%
Ministral 8B	99	0	0	0	0	0	0	0	0	0	9.9%
GPT-5.2	98	0	0	0	0	0	0	0	0	0	9.8%
Gemini 2.5 Flash (Reasoning)	43	27	20	0	0	0	0	0	0	0	9.1%
Grok 4.20 (Reasoning)	90	0	0	0	0	0	0	0	0	0	9.0%
DeepSeek V3 (2025-03-24)	86	1	0	0	0	0	0	0	0	0	8.7%
Qwen3 235B A22B Instruct 2507	86	0	0	0	0	0	0	0	0	0	8.7%
Hermes 3 70B	86	0	0	0	0	0	0	0	0	0	8.6%
Ministral 3B	86	0	0	0	0	0	0	0	0	0	8.6%
Aion 2.0	75	4	2	1	0	0	0	0	0	0	8.2%
Gemma 3 4B	75	4	0	0	0	0	0	0	0	0	7.9%
Claude Sonnet 4	75	0	0	0	0	0	0	0	0	0	7.5%
Claude 3.5 Sonnet	68	2	0	0	0	0	0	0	0	0	7.0%
Llama 3.1 70B	60	10	0	0	0	0	0	0	0	0	7.0%
Mistral Large	52	10	0	0	0	0	0	0	0	0	6.2%
Grok 4.20 (Beta, Reasoning)	43	14	0	0	0	0	0	0	0	0	5.8%
Ministral 3 14B	52	0	0	0	0	0	0	0	0	0	5.2%
Mistral Small 3.2 24B	43	0	0	0	0	0	0	0	0	0	4.3%
Stealth: Hunter Alpha	43	0	0	0	0	0	0	0	0	0	4.3%
Llama 3.1 Nemotron 70B	43	0	0	0	0	0	0	0	0	0	4.3%
ByteDance Seed 1.6	35	2	0	0	0	0	0	0	0	0	3.7%
Mistral Large 2	20	0	0	0	0	0	0	0	0	0	2.0%
DeepSeek V3.1	14	0	0	0	0	0	0	0	0	0	1.5%
Rocinante 12B	6	0	0	0	0	0	0	0	0	0	0.6%
ByteDance Seed 1.6 Flash	4	0	0	0	0	0	0	0	0	0	0.4%
Mistral Small Creative	2	0	0	0	0	0	0	0	0	0	0.2%
Stealth: Healer Alpha	2	0	0	0	0	0	0	0	0	0	0.2%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.1%
Z.AI GLM 4.6	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 9B	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Large (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 500 words with 50% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	96	99.6%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	96	90	98.6%
Claude Opus 4.6	100	100	100	100	100	100	99	96	96	68	95.8%
MiniMax M2.7	100	100	100	100	100	100	100	100	100	0	90.0%
o4 Mini	100	100	100	100	100	100	100	96	2	0	79.8%
Qwen3.7 Max	100	100	100	100	100	100	100	90	1	0	79.2%
Z.AI GLM 5.1	100	100	100	100	100	94	90	90	14	1	79.0%
Claude Sonnet 4.6 (Reasoning)	100	99	98	90	90	75	60	52	43	20	72.8%
Claude Opus 4.6 (Reasoning)	100	100	100	100	99	98	94	35	0	0	72.6%
o4 Mini High	100	100	100	100	100	100	100	14	0	0	71.4%
MiniMax M2.5	100	100	100	100	100	100	100	6	0	0	70.6%
MoonshotAI: Kimi K2.6	100	100	100	100	100	98	75	27	0	0	70.0%
Claude Opus 4.7	100	100	99	81	68	60	60	52	43	35	70.0%
Nemotron 3 Super	100	100	99	99	98	75	60	20	10	0	66.1%
Claude Opus 4.7 (Reasoning)	100	99	94	90	90	75	75	20	2	1	64.7%
Claude 3.7 Sonnet	100	100	100	99	96	86	20	20	20	0	64.2%
Gemini 3.1 Flash Lite (Preview)	98	98	90	68	68	60	60	52	43	0	63.8%
Claude Sonnet 4.6	96	90	75	75	75	75	68	43	35	0	63.4%
Inception Mercury 2	100	100	100	100	96	94	35	6	0	0	63.1%
GPT-OSS 120B	100	100	100	100	98	68	52	6	0	0	62.4%
Qwen3.6 Max Preview	100	100	100	100	100	94	6	0	0	0	60.0%
GPT-4o Mini (temp=0)	100	99	96	94	81	81	27	4	0	0	58.2%
Grok 4 Fast	100	100	100	100	90	68	20	0	0	0	57.8%
Nemotron 3 Nano	100	100	100	100	75	60	0	0	0	0	53.5%
Gemini 3.1 Flash Lite (Reasoning)	99	98	96	86	81	43	20	10	0	0	53.4%
GPT-4.1	100	100	96	94	86	43	4	4	0	0	52.6%
Gemini 3.1 Flash Lite	100	100	100	75	68	35	27	10	0	0	51.5%
Inception Mercury	100	100	100	100	98	1	0	0	0	0	49.9%
Grok 4	100	96	86	75	75	52	2	0	0	0	48.7%
Claude Opus 4	99	90	68	68	68	52	35	0	0	0	48.1%
Qwen 3.5 Plus (2026-04-20)	100	100	99	99	68	0	0	0	0	0	46.6%
Gemma 4 31B (Reasoning)	100	99	86	86	60	4	0	0	0	0	43.6%
Xiaomi MIMO v2.5	99	98	86	75	68	1	0	0	0	0	42.8%
Gemini 2.5 Flash Lite	100	94	86	68	60	10	6	0	0	0	42.4%
Stealth: Aurora Alpha	100	100	100	94	2	0	0	0	0	0	39.6%
Arcee AI: Trinity Mini	100	100	75	68	35	14	0	0	0	0	39.2%
Aion 2.0	100	99	96	60	20	10	0	0	0	0	38.5%
Qwen 3.5 397B A17B	100	94	86	68	0	0	0	0	0	0	34.8%
GPT-4o, Aug. 6th (temp=1)	100	90	81	52	20	1	0	0	0	0	34.5%
Claude Opus 4.5	98	94	86	43	10	10	2	2	0	0	34.5%
Gemini 2.5 Flash	100	98	81	60	0	0	0	0	0	0	33.9%
Grok 4.3 (Reasoning)	100	99	99	35	0	0	0	0	0	0	33.3%
Grok 4.20	99	99	99	4	0	0	0	0	0	0	30.1%
GPT-5.1	100	100	100	0	0	0	0	0	0	0	30.0%
GPT-5.4 Nano (Reasoning)	100	100	100	0	0	0	0	0	0	0	30.0%
Qwen 3.5 9B	100	100	98	0	0	0	0	0	0	0	29.7%
Grok 4.20 (Beta)	100	99	68	14	10	2	0	0	0	0	29.3%
DeepSeek V4 Flash	100	86	43	35	27	0	0	0	0	0	29.2%
DeepSeek V4 Pro (Reasoning)	100	100	86	0	0	0	0	0	0	0	28.6%
Gemma 4 26B (Reasoning)	100	100	60	20	0	0	0	0	0	0	28.0%
GPT-4o Mini (temp=1)	100	86	81	6	4	0	0	0	0	0	27.7%
Claude Haiku 4.5	99	96	68	10	0	0	0	0	0	0	27.4%
Grok 4.20 (Reasoning)	99	96	75	0	0	0	0	0	0	0	27.1%
Qwen 3.6 35B	100	100	68	0	0	0	0	0	0	0	26.8%
Cohere Command R+ (Aug. 2024)	96	90	75	2	0	0	0	0	0	0	26.4%
DeepSeek V3.1	99	86	75	0	0	0	0	0	0	0	26.1%
Mistral Medium 3.1	100	100	60	0	0	0	0	0	0	0	26.1%
GPT-5 Nano	100	100	43	0	0	0	0	0	0	0	24.4%
Qwen 3.6 27B	100	100	43	0	0	0	0	0	0	0	24.3%
Llama 3.1 8B	96	90	43	2	0	0	0	0	0	0	23.2%
Qwen 3.5 35B	100	81	43	0	0	0	0	0	0	0	22.5%
Gemini 3 Flash (Preview, Reasoning)	90	81	43	0	0	0	0	0	0	0	21.6%
Gemini 2.5 Pro	100	98	10	0	0	0	0	0	0	0	20.7%
Mistral Large	100	100	0	0	0	0	0	0	0	0	20.0%
GPT-5.4 (Reasoning)	100	100	0	0	0	0	0	0	0	0	20.0%
DeepSeek V4 Flash (Reasoning)	90	60	27	14	0	0	0	0	0	0	19.3%
Z.AI GLM 4.7	100	86	6	0	0	0	0	0	0	0	19.2%
Gemini 3 Pro (Preview)	75	60	52	0	0	0	0	0	0	0	18.7%
Gemini 2.5 Flash (Reasoning)	75	68	43	0	0	0	0	0	0	0	18.7%
Hermes 3 70B	68	68	43	0	0	0	0	0	0	0	18.0%
DeepSeek V3 (2024-12-26)	81	35	27	10	0	0	0	0	0	0	15.3%
Mistral Small 4	81	60	10	0	0	0	0	0	0	0	15.1%
MoonshotAI: Kimi K2.5	99	35	14	0	0	0	0	0	0	0	14.8%
Qwen 3.5 27B	96	27	20	0	0	0	0	0	0	0	14.3%
Writer: Palmyra X5	86	52	0	0	0	0	0	0	0	0	13.8%
Llama 3.1 70B	98	35	0	0	0	0	0	0	0	0	13.3%
Grok 4.20 (Beta, Reasoning)	52	35	27	14	0	0	0	0	0	0	12.8%
DeepSeek V3.2	90	35	0	0	0	0	0	0	0	0	12.6%
Gemma 3 12B	100	14	0	0	0	0	0	0	0	0	11.4%
GPT-4.1 Mini	86	27	0	0	0	0	0	0	0	0	11.4%
Rocinante 12B	100	10	0	0	0	0	0	0	0	0	10.9%
Gemini 3.5 Flash (Reasoning, Minimal)	81	27	0	0	0	0	0	0	0	0	10.9%
Mistral Large 3	100	6	2	0	0	0	0	0	0	0	10.8%
Stealth: Hunter Alpha	60	27	20	0	0	0	0	0	0	0	10.8%
DeepSeek V3 (2025-03-24)	99	4	0	0	0	0	0	0	0	0	10.3%
GPT-5.2	100	0	0	0	0	0	0	0	0	0	10.0%
Arcee AI: Trinity Large (Preview)	99	0	0	0	0	0	0	0	0	0	9.9%
Stealth: Healer Alpha	99	0	0	0	0	0	0	0	0	0	9.9%
Grok 4.3	96	2	0	0	0	0	0	0	0	0	9.8%
Ministral 3 3B	98	0	0	0	0	0	0	0	0	0	9.8%
Mistral Small 4 (Reasoning)	94	4	0	0	0	0	0	0	0	0	9.7%
Xiaomi MIMO v2.5 Pro	96	1	0	0	0	0	0	0	0	0	9.7%
DeepSeek-V2 Chat	90	2	0	0	0	0	0	0	0	0	9.3%
Hermes 3 405B	90	0	0	0	0	0	0	0	0	0	9.0%
Gemini 3 Flash (Preview)	75	14	0	0	0	0	0	0	0	0	9.0%
Qwen 3.5 122B	86	1	0	0	0	0	0	0	0	0	8.7%
Qwen 3 32B	86	0	0	0	0	0	0	0	0	0	8.6%
ByteDance Seed 1.6 Flash	86	0	0	0	0	0	0	0	0	0	8.6%
Qwen 3.6 Flash	60	14	10	0	0	0	0	0	0	0	8.4%
ByteDance Seed 2.0 Mini	81	1	0	0	0	0	0	0	0	0	8.2%
Ministral 3 8B	81	0	0	0	0	0	0	0	0	0	8.1%
Grok 4.1 Fast	75	0	0	0	0	0	0	0	0	0	7.5%
Claude 3 Haiku	68	4	0	0	0	0	0	0	0	0	7.2%
Gemini 2.5 Flash Lite (Reasoning)	60	4	1	0	0	0	0	0	0	0	6.5%
LFM2 24B	60	4	0	0	0	0	0	0	0	0	6.4%
Claude Sonnet 4.5	60	2	0	0	0	0	0	0	0	0	6.2%
ByteDance Seed 1.6	52	6	0	0	0	0	0	0	0	0	5.8%
Claude Sonnet 4	27	0	0	0	0	0	0	0	0	0	2.7%
Mistral Small 3.2 24B	27	0	0	0	0	0	0	0	0	0	2.7%
Z.AI GLM 5	14	10	0	0	0	0	0	0	0	0	2.4%
Qwen 3.5 Flash	20	0	0	0	0	0	0	0	0	0	2.0%
ByteDance Seed 2.0 Lite	14	0	0	0	0	0	0	0	0	0	1.4%
Z.AI GLM 4.7 Flash	10	0	0	0	0	0	0	0	0	0	1.0%
Mistral Large 2	10	0	0	0	0	0	0	0	0	0	1.0%
Claude 3.5 Sonnet	2	0	0	0	0	0	0	0	0	0	0.2%
Z.AI GLM 4.5	2	0	0	0	0	0	0	0	0	0	0.2%
GPT-4o, Aug. 6th (temp=0)	1	0	0	0	0	0	0	0	0	0	0.1%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 14B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 Nemotron 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small Creative	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.6	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 500 words with 70% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	0	90.0%
Claude 3.7 Sonnet	100	100	100	100	98	98	86	81	68	60	89.1%
Claude Opus 4.6 (Reasoning)	100	100	99	96	96	94	86	68	68	43	85.1%
MiniMax M2.7	100	100	100	100	100	100	99	99	2	0	80.0%
Qwen3.7 Max	100	100	100	100	100	100	81	68	43	0	79.3%
MiniMax M2.5	100	100	100	100	99	99	96	81	6	0	78.1%
Claude Opus 4.6	100	100	99	99	96	86	81	68	27	20	77.7%
Gemini 3.1 Flash Lite (Reasoning)	99	99	98	90	86	81	75	75	43	4	75.1%
o4 Mini High	100	100	100	100	100	99	68	35	0	0	70.3%
GPT-5	100	100	100	100	100	100	100	0	0	0	70.0%
Nemotron 3 Super	100	100	100	100	100	99	96	1	0	0	69.5%
GPT-4o Mini (temp=0)	100	100	94	90	90	75	68	27	0	0	64.5%
GPT-4o, Aug. 6th (temp=0)	100	100	98	96	60	43	43	43	43	0	62.7%
Inception Mercury 2	100	100	100	100	100	94	2	0	0	0	59.6%
Gemini 3.1 Flash Lite	98	96	96	96	86	68	6	1	0	0	54.7%
Gemini 3.1 Flash Lite (Preview)	100	100	94	60	52	43	43	27	2	0	52.2%
Z.AI GLM 5 Turbo	100	100	100	99	99	2	0	0	0	0	50.0%
Claude Opus 4.7 (Reasoning)	100	98	86	60	52	43	35	20	1	0	49.6%
Grok 4.3 (Reasoning)	100	100	100	100	86	10	0	0	0	0	49.5%
Grok 4 Fast	100	100	100	68	43	27	20	14	0	0	47.3%
Gemini 3.5 Flash (Reasoning)	100	100	99	98	60	10	2	1	0	0	47.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	96	60	10	4	0	0	0	46.9%
Grok 4.20	98	96	94	86	52	35	0	0	0	0	46.1%
Claude Opus 4	99	96	90	43	43	35	27	4	1	0	44.0%
Aion 2.0	100	100	100	68	60	6	0	0	0	0	43.4%
Gemini 3 Flash (Preview)	100	100	81	81	52	4	0	0	0	0	41.9%
Stealth: Healer Alpha	100	99	94	90	35	0	0	0	0	0	41.8%
Qwen3.6 Max Preview	100	100	99	99	4	0	0	0	0	0	40.1%
MoonshotAI: Kimi K2.6	100	100	98	96	4	2	0	0	0	0	39.9%
Claude Opus 4.7	100	90	75	52	20	20	14	14	6	6	39.9%
Gemini 2.5 Flash Lite (Reasoning)	99	96	94	86	20	2	0	0	0	0	39.7%
Nemotron 3 Nano	100	100	100	81	6	0	0	0	0	0	38.7%
Claude Sonnet 4.6	100	52	43	43	35	27	14	14	4	0	33.3%
Gemini 2.5 Flash Lite	100	99	90	43	0	0	0	0	0	0	33.3%
Claude Opus 4.5	90	90	90	14	14	4	4	1	0	0	30.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	0	0	0	0	0	0	0	30.0%
Cohere Command R+ (Aug. 2024)	100	99	52	35	4	1	0	0	0	0	29.0%
DeepSeek V4 Flash	98	81	43	35	20	10	0	0	0	0	28.7%
Z.AI GLM 5.1	100	98	81	6	1	0	0	0	0	0	28.6%
o4 Mini	100	100	75	2	0	0	0	0	0	0	27.7%
Claude 3.5 Sonnet	100	98	75	0	0	0	0	0	0	0	27.3%
Mistral Medium 3.1	99	98	75	1	0	0	0	0	0	0	27.3%
Qwen 3.5 122B	100	98	68	0	0	0	0	0	0	0	26.6%
Stealth: Aurora Alpha	100	81	81	0	0	0	0	0	0	0	26.3%
Grok 4.20 (Beta)	90	68	60	20	20	0	0	0	0	0	25.9%
Qwen 3.6 Flash	100	81	68	6	4	0	0	0	0	0	25.9%
Inception Mercury	100	99	35	20	2	0	0	0	0	0	25.7%
ByteDance Seed 2.0 Lite	98	86	68	0	0	0	0	0	0	0	25.2%
Claude Sonnet 4.6 (Reasoning)	81	43	43	35	20	14	0	0	0	0	23.8%
Gemini 3 Flash (Preview, Reasoning)	100	99	35	0	0	0	0	0	0	0	23.4%
GPT-4.1	99	96	35	4	0	0	0	0	0	0	23.3%
Mistral Large 3	100	98	27	4	2	0	0	0	0	0	23.0%
GPT-4o, May 13th (temp=1)	100	60	52	0	0	0	0	0	0	0	21.2%
GPT-4o Mini (temp=1)	98	98	10	0	0	0	0	0	0	0	20.5%
Grok 4	99	60	35	10	0	0	0	0	0	0	20.4%
DeepSeek-V2 Chat	100	100	2	0	0	0	0	0	0	0	20.2%
Z.AI GLM 5	90	75	20	14	0	0	0	0	0	0	20.0%
Xiaomi MIMO v2.5 Pro	100	100	0	0	0	0	0	0	0	0	20.0%
Ministral 3 14B	99	99	0	0	0	0	0	0	0	0	19.8%
DeepSeek V4 Pro (Reasoning)	100	86	10	0	0	0	0	0	0	0	19.6%
LFM2 24B	99	96	0	0	0	0	0	0	0	0	19.5%
GPT-4.1 Mini	99	96	0	0	0	0	0	0	0	0	19.5%
Stealth: Hunter Alpha	86	68	27	10	0	0	0	0	0	0	19.1%
DeepSeek V3 (2024-12-26)	75	60	43	6	0	0	0	0	0	0	18.5%
Mistral Small 4	94	60	27	2	0	0	0	0	0	0	18.4%
Rocinante 12B	99	81	0	0	0	0	0	0	0	0	18.0%
Qwen 3.5 Plus (2026-04-20)	98	60	20	0	0	0	0	0	0	0	17.8%
Grok 4.20 (Beta, Reasoning)	81	81	10	0	0	0	0	0	0	0	17.2%
Qwen 2.5 72B	99	43	27	2	0	0	0	0	0	0	17.1%
GPT-OSS 120B	96	75	0	0	0	0	0	0	0	0	17.1%
Mistral NeMO	100	68	0	0	0	0	0	0	0	0	16.8%
Llama 3.1 8B	81	35	35	0	0	0	0	0	0	0	15.1%
Arcee AI: Trinity Mini	100	43	0	0	0	0	0	0	0	0	14.3%
Grok 4.3	86	35	6	0	0	0	0	0	0	0	12.7%
Ministral 3 8B	68	27	6	4	0	0	0	0	0	0	10.6%
GPT-5 Nano	100	1	0	0	0	0	0	0	0	0	10.1%
Arcee AI: Trinity Large (Preview)	100	0	0	0	0	0	0	0	0	0	10.0%
Ministral 8B	100	0	0	0	0	0	0	0	0	0	10.0%
Mistral Small 3.2 24B	98	0	0	0	0	0	0	0	0	0	9.8%
Qwen 3.5 9B	96	0	0	0	0	0	0	0	0	0	9.6%
ByteDance Seed 2.0 Mini	96	0	0	0	0	0	0	0	0	0	9.6%
Gemini 2.5 Flash	94	0	0	0	0	0	0	0	0	0	9.4%
Grok 4.20 (Reasoning)	90	2	1	0	0	0	0	0	0	0	9.4%
Mistral Large	60	27	0	0	0	0	0	0	0	0	8.7%
Qwen 3.5 27B	86	1	0	0	0	0	0	0	0	0	8.7%
Llama 3.1 70B	86	0	0	0	0	0	0	0	0	0	8.6%
Ministral 3B	86	0	0	0	0	0	0	0	0	0	8.6%
Gemini 3 Pro (Preview)	86	0	0	0	0	0	0	0	0	0	8.6%
DeepSeek V4 Flash (Reasoning)	68	14	1	0	0	0	0	0	0	0	8.3%
Gemma 3 12B	81	1	0	0	0	0	0	0	0	0	8.2%
Qwen3 235B A22B Instruct 2507	75	2	0	0	0	0	0	0	0	0	7.7%
Mistral Large 2	68	0	0	0	0	0	0	0	0	0	6.8%
Writer: Palmyra X5	68	0	0	0	0	0	0	0	0	0	6.8%
ByteDance Seed 1.6	68	0	0	0	0	0	0	0	0	0	6.8%
Grok 4.1 Fast	60	0	0	0	0	0	0	0	0	0	6.0%
Gemini 2.5 Pro	35	20	2	0	0	0	0	0	0	0	5.7%
Z.AI GLM 4.7	35	10	10	0	0	0	0	0	0	0	5.5%
MoonshotAI: Kimi K2.5	43	0	0	0	0	0	0	0	0	0	4.4%
Ministral 3 3B	43	0	0	0	0	0	0	0	0	0	4.3%
DeepSeek V3 (2025-03-24)	43	0	0	0	0	0	0	0	0	0	4.3%
Qwen 3.6 35B	43	0	0	0	0	0	0	0	0	0	4.3%
DeepSeek V3.1	43	0	0	0	0	0	0	0	0	0	4.3%
Qwen 3.5 397B A17B	35	0	0	0	0	0	0	0	0	0	3.5%
Claude 3 Haiku	27	0	0	0	0	0	0	0	0	0	2.7%
Gemma 4 26B	27	0	0	0	0	0	0	0	0	0	2.7%
Gemma 4 26B (Reasoning)	27	0	0	0	0	0	0	0	0	0	2.7%
Claude Haiku 4.5	20	2	1	0	0	0	0	0	0	0	2.3%
GPT-5.1	14	0	0	0	0	0	0	0	0	0	1.4%
Hermes 3 70B	6	4	2	0	0	0	0	0	0	0	1.2%
Z.AI GLM 4.5 Air	6	1	0	0	0	0	0	0	0	0	0.7%
Hermes 3 405B	4	0	0	0	0	0	0	0	0	0	0.4%
Xiaomi MIMO v2.5	2	0	0	0	0	0	0	0	0	0	0.2%
Qwen 3.5 Plus (2026-02-15)	2	0	0	0	0	0	0	0	0	0	0.2%
DeepSeek V3.2	1	0	0	0	0	0	0	0	0	0	0.1%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3 32B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.6 27B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 Nemotron 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 4	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 35B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 4 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.7 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.6	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small Creative	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.2	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Nano	0	0	0	0	0	0	0	0	0	0	0.0%

Matches word count

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

dialogue-200

Write 200 words with 10% dialogue

Write 200 words with 50% dialogue

Write 200 words with 90% dialogue

dialogue-500

Write 500 words with 30% dialogue

Write 500 words with 50% dialogue

Write 500 words with 70% dialogue