Dialogue to Total Word Ratio

Test: Dialogue tags

Avg. Score

37.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Z.AI GLM 5.2 (Reasoning, High)	81.6%	$0.030	1.6m	39%
2	Z.AI GLM 5 Turbo	82.3%	$0.035	1.4m	38%
3	Gemini 3.1 Pro (Preview)	99.6%	$0.157	2.1m	95%
4	Qwen3.7 Max	89.3%	$0.074	2.5m	56%
5	Inception Mercury 2	57.7%	$0.0042	6.8s	11%
6	GPT-5 Mini	67.3%	$0.011	58.5s	12%
7	Claude Sonnet 4.6	55.4%	$0.0079	12.8s	11%
8	Nemotron 3 Super	74.2%	$0.0000	2.8m	22%
9	GPT-5.5	57.0%	$0.021	19.2s	12%
10	Gemini 3.5 Flash (Reasoning)	90.1%	$0.137	56.9s	54%
11	Gemini 2.5 Flash (Reasoning)	54.5%	$0.015	29.3s	10%
12	Qwen 3.6 Flash	56.5%	$0.015	49.1s	11%
13	GPT-5.4 Nano (Reasoning, Low)	45.8%	$0.0020	10.4s	4%
14	Qwen 3.6 35B	60.0%	$0.013	1.3m	11%
15	GPT-5.4 Nano (Reasoning)	48.6%	$0.0042	21.2s	3%
16	Claude Sonnet 4	44.5%	$0.0077	11.4s	7%
17	o4 Mini	61.7%	$0.026	1.1m	13%
18	Claude Sonnet 4.5	46.4%	$0.0080	11.8s	5%
19	Claude Opus 4.6	49.3%	$0.014	15.5s	6%
20	GPT-5.4 (Reasoning, Low)	52.0%	$0.017	23.5s	6%
21	Z.AI GLM 5.1	83.2%	$0.048	3.9m	42%
22	GPT-OSS 120B	58.3%	$0.0015	1.9m	10%
23	GPT-5.4 (Reasoning)	57.9%	$0.030	39.6s	11%
24	GPT-5	73.4%	$0.053	1.5m	20%
25	Claude Opus 4.5	47.8%	$0.014	14.3s	5%
26	GPT-5.5 (Reasoning)	62.2%	$0.049	29.5s	14%
27	GPT-5.2	55.2%	$0.027	38.3s	9%
28	GPT-5.4	40.3%	$0.0096	18.7s	8%
29	GPT-5.1	58.2%	$0.030	52.9s	11%
30	GPT-4o, Aug. 6th (temp=0)	30.6%	$0.0053	6.3s	12%
31	Grok 4.20 (Reasoning)	64.1%	$0.027	2.0m	16%
32	Gemini 3 Flash (Preview, Reasoning)	51.5%	$0.019	33.7s	4%
33	Claude Haiku 4.5	36.9%	$0.0026	6.6s	0%
34	Gemini 2.5 Flash Lite (Reasoning)	38.3%	$0.0022	24.1s	1%
35	GPT-5.5 (Reasoning, Low)	52.7%	$0.033	24.6s	6%
36	Qwen 3.5 Flash	49.6%	$0.0050	1.4m	5%
37	ByteDance Seed 1.6	49.1%	$0.0073	1.4m	6%
38	GPT-5.4 Mini	32.0%	$0.0029	4.0s	2%
39	Ministral 3 14B	32.5%	$0.0002	6.4s	0%
40	Qwen 3.5 27B	62.1%	$0.025	1.9m	10%
41	Mistral NeMO	32.5%	$0.0001	6.6s	0%
42	Claude Opus 4.6 (Reasoning)	69.3%	$0.080	42.3s	20%
43	Gemma 3 12B	31.1%	$0.0001	11.9s	0%
44	Gemini 2.5 Pro	46.6%	$0.029	25.0s	4%
45	Claude Opus 4.7 (Reasoning)	40.1%	$0.020	11.3s	2%
46	Mistral Small 4 (Reasoning)	32.8%	$0.0019	22.1s	1%
47	Z.AI GLM 4.6	43.6%	$0.0044	1.3m	3%
48	MoonshotAI: Kimi K2.5	66.1%	$0.024	3.2m	18%
49	Mistral Small 4	26.5%	$0.0003	5.7s	0%
50	GPT-5.4 Mini (Reasoning)	29.9%	$0.0077	9.4s	1%
51	Gemma 4 26B (Reasoning)	64.2%	$0.0035	3.8m	14%
52	Gemma 4 26B	27.2%	$0.0002	16.6s	0%
53	ByteDance Seed 2.0 Lite	34.6%	$0.0036	42.6s	1%
54	Grok 4.5 (Reasoning, Low)	37.3%	$0.011	34.2s	0%
55	o4 Mini High	64.0%	$0.050	1.9m	16%
56	Ministral 3B	23.1%	$0.0000	2.5s	0%
57	Qwen 3.5 35B	50.3%	$0.024	1.3m	4%
58	Hermes 3 70B	26.0%	$0.0002	20.8s	0%
59	Llama 3.1 70B	22.3%	$0.0005	5.2s	0%
60	GPT-5.4 Mini (Reasoning, Low)	22.8%	$0.0032	4.6s	1%
61	DeepSeek V3 (2024-12-26)	25.2%	$0.0006	19.3s	0%
62	Mistral Medium 3.1	23.8%	$0.0012	13.1s	0%
63	ByteDance Seed 1.6 Flash	23.2%	$0.0006	12.2s	0%
64	Qwen3 235B A22B Instruct 2507	24.3%	$0.0003	18.7s	0%
65	Z.AI GLM 5	47.3%	$0.010	1.8m	3%
66	DeepSeek-V2 Chat	26.4%	$0.0002	29.9s	0%
67	Qwen 3.5 Plus (2026-02-15)	25.2%	$0.0013	22.1s	0%
68	Qwen 3.5 122B	52.0%	$0.033	1.3m	5%
69	Grok 4.3 (Reasoning)	68.4%	$0.037	3.2m	17%
70	Aion 2.0	25.3%	$0.0016	24.7s	0%
71	Qwen 3 32B	23.5%	$0.0005	21.3s	0%
72	Writer: Palmyra X5	23.6%	$0.0038	12.6s	0%
73	GPT-5.4 Nano	19.9%	$0.0011	5.2s	0%
74	Cydonia 24B V4.1	21.0%	$0.0003	12.0s	0%
75	Mistral Small 3.2 24B	20.3%	$0.0002	9.0s	0%
76	Xiaomi MIMO v2.5 Pro	24.8%	$0.0032	20.8s	0%
77	Gemma 4 31B (Reasoning)	63.0%	$0.0024	4.2m	14%
78	Ministral 3 3B	17.8%	$0.0001	2.0s	0%
79	Claude Sonnet 5	25.1%	$0.0077	13.5s	0%
80	Gemini 2.5 Flash Lite	17.8%	$0.0002	2.6s	0%
81	GPT-4o, Aug. 6th (temp=1)	21.7%	$0.0054	6.3s	0%
82	Ministral 8B	17.9%	$0.0000	4.0s	0%
83	Z.AI GLM 4.5	19.3%	$0.0009	8.9s	0%
84	Ministral 3 8B	17.0%	$0.0001	3.3s	0%
85	Xiaomi MIMO v2.5	20.1%	$0.0022	12.5s	0%
86	Grok 4.3	18.2%	$0.0011	7.2s	0%
87	DeepSeek V3.1	22.5%	$0.0006	28.3s	0%
88	DeepSeek V3 (2025-03-24)	19.8%	$0.0006	17.8s	0%
89	GPT-4o Mini (temp=0)	16.5%	$0.0003	8.5s	0%
90	Claude Opus 4.8 (Reasoning)	30.8%	$0.021	16.2s	0%
91	Mistral Large 2	19.2%	$0.0031	13.0s	0%
92	Gemma 3 4B	15.3%	$0.0000	5.5s	0%
93	Claude Opus 4.8 (Reasoning, Low)	29.7%	$0.021	15.6s	1%
94	Z.AI GLM 4.7	47.5%	$0.0069	2.4m	4%
95	Hermes 3 405B	19.5%	$0.0000	26.5s	0%
96	Qwen 2.5 72B	17.1%	$0.0003	15.6s	0%
97	Gemini 3 Flash (Preview)	15.4%	$0.0015	5.0s	0%
98	ByteDance Seed 2.0 Mini	52.3%	$0.0029	3.3m	7%
99	Cohere Command R+ (Aug. 2024)	18.7%	$0.0054	12.4s	0%
100	Gemma 4 31B	18.2%	$0.0002	24.3s	0%
101	Aion 3.0	36.3%	$0.017	1.0m	0%
102	WizardLM 2 8x22b	17.2%	$0.0007	22.8s	0%
103	GPT-4.1 Nano	13.0%	$0.0002	6.0s	0%
104	Z.AI GLM 4.7 Flash	26.9%	$0.0014	1.1m	0%
105	Gemma 3 27B	13.9%	$0.0001	15.7s	0%
106	GPT-4.1 Mini	12.4%	$0.0009	6.9s	0%
107	DeepSeek V3.2	21.3%	$0.0005	47.8s	0%
108	Mistral Large 3	13.2%	$0.0009	12.1s	0%
109	Arcee AI: Trinity Mini	10.8%	$0.0001	5.6s	0%
110	Claude Opus 4.7	24.2%	$0.020	12.0s	0%
111	Z.AI GLM 4.5 Air	12.8%	$0.0007	17.8s	0%
112	Gemini 2.5 Flash	10.0%	$0.0015	4.0s	0%
113	Aion 3.0 Mini	36.9%	$0.0057	1.9m	0%
114	GPT-5 Nano	32.6%	$0.0040	1.6m	0%
115	Claude Sonnet 5 (Reasoning, Low)	15.7%	$0.0081	14.0s	0%
116	Gemini 3.1 Flash Lite (Reasoning)	8.8%	$0.0007	4.2s	0%
117	GPT-4o Mini (temp=1)	9.5%	$0.0003	8.4s	0%
118	Claude Sonnet 5 (Reasoning)	15.0%	$0.0080	13.4s	0%
119	DeepSeek V4 Flash	10.0%	$0.0002	14.6s	0%
120	MiniMax M2.5	53.9%	$0.017	3.1m	6%
121	Gemini 3.1 Flash Lite (Preview)	7.1%	$0.0007	2.9s	0%
122	Gemini 3.1 Flash Lite	7.6%	$0.0007	5.2s	0%
123	DeepSeek V4 Flash (Reasoning)	15.5%	$0.0002	41.4s	0%
124	MiniMax M3	55.5%	$0.011	3.7m	7%
125	Grok 4.20	7.1%	$0.0013	9.3s	0%
126	Gemini 3.5 Flash (Reasoning, Minimal)	7.1%	$0.0041	3.7s	0%
127	Claude Sonnet 4.6 (Reasoning)	71.1%	$0.117	1.3m	22%
128	DeepSeek V4 Pro	9.2%	$0.0009	28.7s	0%
129	Qwen 3.5 9B	35.6%	$0.0017	2.5m	1%
130	MiniMax M2.7	64.6%	$0.023	4.7m	14%
131	GPT-4.1	4.3%	$0.0044	7.8s	0%
132	Grok 4.5 (Reasoning, High)	60.4%	$0.059	2.5m	7%
133	Qwen 3.5 Plus (2026-04-20)	38.6%	$0.020	2.2m	1%
134	Qwen 3.6 27B	42.1%	$0.029	2.1m	1%
135	Claude Opus 4	25.1%	$0.044	25.5s	0%
136	DeepSeek V4 Pro (Reasoning)	48.2%	$0.019	3.7m	4%
137	MoonshotAI: Kimi K2.6	80.8%	$0.054	7.0m	34%
138	Nemotron 3 Nano	42.3%	$0.0042	4.8m	3%
139	Qwen 3.5 397B A17B	56.2%	$0.039	4.9m	6%
140	Qwen3.6 Max Preview	52.4%	$0.072	4.4m	4%
37.72%

Individual Scenarios

dialogue-200

▼

Write 200 words with 10% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	99	99.9%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	99	99.9%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	99	99.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
GPT-5.1	100	100	100	100	100	100	100	100	100	99	99.9%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	99	99.9%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	98	99.8%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	97	99.7%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	97	99.7%
GPT-5.2	100	100	100	100	100	100	100	100	99	96	99.4%
o4 Mini High	100	100	100	100	100	100	100	100	100	93	99.3%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	99	89	98.7%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	82	98.2%
Z.AI GLM 5	100	100	100	100	100	100	100	95	94	82	97.1%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	70	97.0%
GPT-5.5	100	100	100	100	100	99	99	96	92	82	96.9%
Claude Sonnet 4	100	100	100	99	98	98	94	92	92	91	96.5%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	55	95.5%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	98	79	76	95.3%
Nemotron 3 Nano	100	100	100	100	100	100	100	100	100	52	95.1%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	37	93.7%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	37	93.7%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	99	37	93.6%
MiniMax M2.7	100	100	100	100	100	100	100	100	99	37	93.5%
o4 Mini	100	100	100	100	100	100	100	100	100	32	93.2%
Claude Opus 4.5	100	100	100	100	100	100	95	94	79	65	93.2%
Qwen 3.5 Flash	100	100	100	100	100	100	100	99	95	37	93.1%
ByteDance Seed 2.0 Lite	100	100	100	100	100	99	99	98	92	37	92.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	99	5	90.2%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	2	90.2%
MiniMax M3	100	100	100	100	100	100	100	100	100	0	90.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100	99	0	89.9%
GPT-5.4	100	100	100	99	98	98	91	90	88	34	89.8%
ByteDance Seed 1.6	100	100	100	100	100	100	98	98	57	37	88.9%
Qwen 3.6 Flash	100	100	100	100	100	100	100	99	45	37	88.0%
GPT-OSS 120B	100	100	100	100	100	100	100	96	84	0	87.9%
Claude Opus 4.8 (Reasoning, Low)	100	98	95	95	95	90	83	78	77	65	87.7%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	37	37	87.4%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	37	37	87.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	99	92	83	0	87.3%
Qwen 3.5 9B	100	100	100	100	100	100	100	99	38	37	87.3%
Qwen 3.5 35B	100	100	100	100	100	100	100	94	37	37	86.7%
Gemma 4 26B	100	100	100	100	98	95	92	69	65	37	85.4%
Claude Opus 4.8 (Reasoning)	99	93	87	87	87	83	83	78	78	65	84.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	65	37	37	83.9%
Claude Sonnet 4.5	100	99	97	96	95	93	92	59	52	45	82.9%
Gemini 2.5 Pro	100	100	100	100	100	99	99	99	28	0	82.3%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	99	37	37	37	81.0%
Nemotron 3 Super	100	100	100	100	100	100	100	99	2	2	80.4%
Inception Mercury 2	100	100	100	100	100	100	100	99	0	0	79.8%
Claude Opus 4.7	95	89	84	83	79	79	78	73	67	59	78.6%
Claude Sonnet 4.6	98	98	96	88	85	73	73	60	52	52	77.5%
Claude Opus 4.7 (Reasoning)	100	100	94	94	85	79	67	59	59	1	73.8%
Z.AI GLM 4.7 Flash	100	100	100	97	95	90	84	61	0	0	72.7%
Qwen3 235B A22B Instruct 2507	100	98	97	93	87	84	77	43	37	0	71.5%
Claude Opus 4	100	100	94	92	90	78	70	40	34	0	69.7%
Claude Haiku 4.5	100	100	100	97	96	89	55	49	0	0	68.5%
Claude Opus 4.6	100	100	100	99	99	98	35	17	8	0	65.7%
Z.AI GLM 4.6	100	100	100	100	100	99	21	21	0	0	64.0%
Gemma 3 12B	100	100	98	90	88	82	70	4	0	0	63.3%
Aion 3.0	100	100	100	100	100	54	37	13	0	0	60.4%
Gemma 4 31B	85	83	81	79	66	59	37	37	37	37	60.0%
Mistral Small 4 (Reasoning)	100	99	99	96	94	77	19	3	0	0	58.8%
Aion 2.0	100	100	100	99	96	89	1	1	0	0	58.5%
MiniMax M2.5	100	100	100	99	52	37	37	13	3	0	54.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	53	37	20	0	0	0	51.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	97	93	7	0	0	0	0	49.7%
Gemini 3 Flash (Preview)	99	96	37	37	37	37	37	37	37	37	49.0%
Qwen 3.5 Plus (2026-02-15)	58	58	57	44	37	37	37	37	37	37	43.8%
Gemini 3.1 Flash Lite (Reasoning)	96	37	37	37	37	37	37	37	37	37	42.7%
Gemini 3.1 Flash Lite (Preview)	95	37	37	37	37	37	37	37	37	37	42.7%
Grok 4.3	100	99	74	64	37	32	14	2	0	0	42.1%
Ministral 3 3B	100	96	84	69	41	19	10	0	0	0	41.9%
Writer: Palmyra X5	100	98	94	72	45	1	0	0	0	0	40.9%
Xiaomi MIMO v2.5 Pro	100	100	100	100	0	0	0	0	0	0	40.0%
DeepSeek V3.2	100	100	99	83	1	0	0	0	0	0	38.3%
Gemini 3.1 Flash Lite	37	37	37	37	37	37	37	37	37	37	36.8%
Gemini 2.5 Flash (Reasoning)	100	100	85	51	24	5	0	0	0	0	36.6%
Gemini 3.5 Flash (Reasoning, Minimal)	37	37	37	37	37	37	37	37	37	0	33.1%
Xiaomi MIMO v2.5	100	100	100	1	0	0	0	0	0	0	30.0%
Z.AI GLM 4.5	100	96	80	0	0	0	0	0	0	0	27.6%
Qwen 3 32B	100	100	75	0	0	0	0	0	0	0	27.6%
GPT-5.4 Mini (Reasoning, Low)	100	100	22	21	10	0	0	0	0	0	25.3%
Mistral NeMO	100	99	41	0	0	0	0	0	0	0	24.0%
Claude Sonnet 5	100	30	29	21	19	13	0	0	0	0	21.1%
Mistral Small 4	95	60	29	8	5	0	0	0	0	0	19.7%
Ministral 3 14B	100	45	0	0	0	0	0	0	0	0	14.4%
DeepSeek V3 (2024-12-26)	49	35	0	0	0	0	0	0	0	0	8.4%
GPT-5.4 Nano	67	8	0	0	0	0	0	0	0	0	7.5%
Claude Sonnet 5 (Reasoning, Low)	70	0	0	0	0	0	0	0	0	0	7.0%
GPT-5.4 Mini	62	1	0	0	0	0	0	0	0	0	6.3%
DeepSeek V4 Pro	56	1	0	0	0	0	0	0	0	0	5.7%
GPT-4o, Aug. 6th (temp=1)	45	8	0	0	0	0	0	0	0	0	5.3%
Hermes 3 70B	51	0	0	0	0	0	0	0	0	0	5.1%
Claude Sonnet 5 (Reasoning)	40	0	0	0	0	0	0	0	0	0	4.0%
Cydonia 24B V4.1	34	0	0	0	0	0	0	0	0	0	3.4%
DeepSeek V3 (2025-03-24)	19	4	0	0	0	0	0	0	0	0	2.4%
DeepSeek V4 Flash (Reasoning)	9	8	1	0	0	0	0	0	0	0	1.7%
GPT-4.1 Mini	3	0	0	0	0	0	0	0	0	0	0.3%
GPT-4.1	1	1	0	0	0	0	0	0	0	0	0.2%
Grok 4.20	2	0	0	0	0	0	0	0	0	0	0.2%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 405B	0	0	0	0	0	0	0	0	0	0	0.0%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3B	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Medium 3.1	0	0	0	0	0	0	0	0	0	0	0.0%
Llama 3.1 70B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Small 3.2 24B	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.1	0	0	0	0	0	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 200 words with 50% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	99	99.9%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	99.9%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	99	99.9%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	97	99.7%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	97	99.7%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	99	99	99	99.6%
Qwen 3.5 27B	100	100	100	100	100	100	100	99	99	98	99.6%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	98	94	99.2%
Qwen 3.5 35B	100	100	100	100	100	100	100	99	97	89	98.5%
Qwen 3.5 122B	100	100	100	100	100	100	99	99	95	85	97.9%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	99	99	97	93	90	97.8%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	99	66	96.5%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	98	61	95.8%
MiniMax M2.5	100	100	100	100	100	100	100	100	100	52	95.2%
Inception Mercury 2	100	100	100	100	100	100	100	100	96	52	94.8%
GPT-OSS 120B	100	100	100	100	100	100	100	99	99	41	94.0%
GPT-5.5	100	100	100	100	100	100	99	93	88	52	93.1%
MiniMax M2.7	100	100	100	100	100	100	100	100	98	23	92.1%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100	100	100	100	0	90.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	99	0	89.9%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	100	100	99	0	89.9%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	99	0	89.8%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	98	98	0	89.7%
Gemini 2.5 Pro	100	100	100	100	99	97	94	88	71	45	89.2%
GPT-5.1	100	100	100	100	100	100	100	100	92	0	89.2%
Grok 4.20 (Reasoning)	100	100	100	100	100	100	93	85	80	32	89.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	99	99	98	98	78	0	87.2%
Claude Opus 4.6 (Reasoning)	100	100	100	99	99	98	97	92	23	0	80.8%
GPT-5.2	100	100	100	100	100	100	99	64	41	0	80.3%
GPT-5 Mini	100	100	100	100	100	100	100	100	0	0	80.0%
Z.AI GLM 4.6	100	100	100	100	99	98	86	77	37	0	79.7%
Nemotron 3 Super	100	100	100	100	100	99	99	99	0	0	79.6%
Z.AI GLM 5	100	100	100	100	99	97	87	81	32	0	79.5%
o4 Mini	100	100	100	100	100	100	100	88	0	0	78.8%
Z.AI GLM 4.7	100	100	100	100	100	96	94	94	2	0	78.5%
GPT-5.4 (Reasoning, Low)	100	100	100	100	99	99	93	79	6	5	78.1%
Mistral Small 4	100	100	100	98	93	84	79	61	28	0	74.2%
Mistral Small 4 (Reasoning)	100	100	100	100	98	97	88	42	13	1	74.0%
Qwen 3.6 Flash	100	100	100	100	100	96	93	43	3	0	73.5%
Qwen 3.5 Flash	100	100	100	100	97	90	71	62	14	0	73.4%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	99	90	37	6	0	73.2%
GPT-4o, Aug. 6th (temp=0)	100	100	97	90	79	72	59	41	41	31	71.1%
o4 Mini High	100	100	100	100	100	99	97	0	0	0	69.6%
Ministral 3 14B	100	100	100	97	96	79	79	21	8	1	68.0%
Claude Sonnet 4.6	100	100	100	100	100	90	54	32	2	0	67.8%
ByteDance Seed 1.6 Flash	100	99	99	99	97	90	81	8	4	1	67.8%
Qwen 3.6 27B	100	100	99	99	91	77	73	32	6	0	67.7%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	99	67	0	0	0	66.6%
MiniMax M3	100	100	100	100	100	85	60	0	0	0	64.4%
ByteDance Seed 2.0 Mini	100	100	100	99	97	81	38	20	3	0	63.9%
Nemotron 3 Nano	100	100	99	96	88	46	44	30	0	0	60.3%
Aion 3.0	100	100	100	100	100	97	0	0	0	0	59.7%
Cohere Command R+ (Aug. 2024)	100	100	98	85	73	71	63	4	0	0	59.3%
GPT-5.4	100	100	100	87	85	66	28	23	0	0	58.8%
Hermes 3 70B	100	100	94	83	80	60	50	9	1	1	57.8%
Claude Opus 4.6	100	100	100	100	87	86	1	1	0	0	57.5%
ByteDance Seed 1.6	100	97	94	94	83	40	40	1	0	0	55.0%
GPT-5.4 Mini (Reasoning)	100	99	96	92	75	41	23	0	0	0	52.7%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	0	0	0	0	0	50.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	99	45	13	7	0	0	0	46.4%
Claude Haiku 4.5	100	100	94	85	59	18	0	0	0	0	45.7%
Qwen 3 32B	100	99	87	81	43	19	10	1	0	0	44.0%
Qwen 3.5 9B	100	100	84	75	67	3	1	0	0	0	43.0%
Mistral Large 3	100	100	91	76	32	23	4	0	0	0	42.6%
Hermes 3 405B	98	97	96	64	28	28	0	0	0	0	41.0%
Claude Opus 4.5	100	93	92	68	40	3	0	0	0	0	39.5%
Aion 3.0 Mini	100	100	100	91	4	0	0	0	0	0	39.5%
Claude Sonnet 4	100	99	80	45	38	11	3	1	0	0	37.6%
Ministral 3B	100	92	73	66	37	0	0	0	0	0	36.8%
DeepSeek V3 (2025-03-24)	100	89	86	35	26	21	2	0	0	0	35.8%
Ministral 3 8B	100	78	68	66	14	13	11	2	0	0	35.2%
Claude Opus 4.7 (Reasoning)	87	68	66	60	32	1	0	0	0	0	31.3%
Mistral Medium 3.1	100	98	70	27	12	2	0	0	0	0	31.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	3	3	0	0	0	0	0	30.5%
DeepSeek V3 (2024-12-26)	92	85	54	37	22	3	0	0	0	0	29.3%
GPT-5 Nano	100	100	92	0	0	0	0	0	0	0	29.2%
ByteDance Seed 2.0 Lite	100	94	53	41	0	0	0	0	0	0	28.8%
GPT-5.4 Mini (Reasoning, Low)	100	64	37	28	25	3	0	0	0	0	25.7%
GPT-4o, Aug. 6th (temp=1)	100	89	65	1	0	0	0	0	0	0	25.6%
Mistral NeMO	100	79	39	31	2	1	0	0	0	0	25.2%
WizardLM 2 8x22b	80	56	41	41	16	6	2	0	0	0	24.2%
Z.AI GLM 4.7 Flash	80	64	55	28	0	0	0	0	0	0	22.7%
Claude Sonnet 4.5	99	95	13	11	1	0	0	0	0	0	22.0%
Grok 4.5 (Reasoning, Low)	100	100	0	0	0	0	0	0	0	0	20.0%
Xiaomi MIMO v2.5	100	98	0	0	0	0	0	0	0	0	19.8%
Llama 3.1 70B	86	64	33	3	2	0	0	0	0	0	18.8%
Claude Sonnet 5 (Reasoning, Low)	99	69	1	0	0	0	0	0	0	0	16.9%
Ministral 3 3B	100	68	0	0	0	0	0	0	0	0	16.8%
GPT-5.4 Mini	100	38	14	11	1	1	0	0	0	0	16.5%
Xiaomi MIMO v2.5 Pro	97	67	0	0	0	0	0	0	0	0	16.4%
Mistral Large 2	98	27	6	2	0	0	0	0	0	0	13.3%
DeepSeek V4 Pro	100	28	0	0	0	0	0	0	0	0	12.8%
GPT-4.1 Mini	99	14	0	0	0	0	0	0	0	0	11.4%
Gemini 3.5 Flash (Reasoning, Minimal)	49	47	0	0	0	0	0	0	0	0	9.6%
Z.AI GLM 4.5 Air	96	0	0	0	0	0	0	0	0	0	9.6%
GPT-5.4 Nano	73	11	0	0	0	0	0	0	0	0	8.5%
DeepSeek V3.1	40	23	8	4	0	0	0	0	0	0	7.5%
Gemini 2.5 Flash Lite	64	9	0	0	0	0	0	0	0	0	7.2%
Ministral 8B	33	17	3	0	0	0	0	0	0	0	5.3%
Aion 2.0	47	0	0	0	0	0	0	0	0	0	4.7%
Z.AI GLM 4.5	24	4	1	0	0	0	0	0	0	0	2.9%
Qwen 2.5 72B	25	0	0	0	0	0	0	0	0	0	2.5%
Claude Opus 4.7	16	0	0	0	0	0	0	0	0	0	1.6%
Claude Opus 4.8 (Reasoning, Low)	11	1	0	0	0	0	0	0	0	0	1.2%
Gemini 3 Flash (Preview)	7	0	0	0	0	0	0	0	0	0	0.7%
Writer: Palmyra X5	6	1	0	0	0	0	0	0	0	0	0.7%
Gemma 3 12B	2	1	0	0	0	0	0	0	0	0	0.3%
Mistral Small 3.2 24B	1	0	0	0	0	0	0	0	0	0	0.1%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%
Cydonia 24B V4.1	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.2	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 200 words with 90% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 2.5 Flash Lite	100	100	100	100	100	100	99	99	99	97	99.4%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	99	99	95	99.2%
DeepSeek-V2 Chat	100	100	99	99	99	98	98	98	97	97	98.6%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	86	98.5%
Mistral NeMO	100	100	100	100	100	100	99	98	95	92	98.3%
Grok 4.3 (Reasoning)	100	100	100	100	99	98	97	97	96	95	98.2%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	79	97.9%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	99	93	83	97.4%
Claude Sonnet 4.6	100	100	100	100	100	99	98	98	93	86	97.4%
Claude Opus 4.7 (Reasoning)	100	100	96	95	95	95	95	94	94	92	95.7%
Claude Haiku 4.5	100	100	100	100	100	99	99	99	89	69	95.5%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	98	97	92	63	95.0%
Claude Opus 4.6	100	100	100	100	99	99	98	94	80	73	94.2%
Claude Sonnet 4.5	100	99	99	99	98	97	97	91	87	73	94.2%
Grok 4.5 (Reasoning, High)	100	100	100	99	96	94	94	88	79	79	92.9%
Gemma 3 12B	100	100	100	100	100	100	100	98	89	31	91.7%
Gemma 3 4B	100	100	100	100	100	100	99	96	85	37	91.6%
Grok 4.20 (Reasoning)	99	99	98	97	96	93	85	84	82	75	90.9%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	99	99	98	91	82	37	90.6%
GPT-5.5 (Reasoning)	100	100	100	99	98	97	96	96	79	37	90.2%
Writer: Palmyra X5	100	100	100	100	100	100	100	99	98	0	89.6%
Z.AI GLM 5	100	100	99	97	97	94	92	82	69	67	89.6%
Qwen 3.5 27B	100	100	100	100	100	100	99	99	88	0	88.5%
Gemma 4 26B (Reasoning)	100	100	100	99	99	99	95	81	67	37	87.5%
Gemini 2.5 Flash (Reasoning)	100	100	99	99	99	98	98	76	70	37	87.5%
Grok 4.5 (Reasoning, Low)	100	100	100	100	99	97	96	96	70	17	87.4%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	94	86	81	9	87.0%
Claude Opus 4.5	100	99	99	99	99	97	97	94	85	0	86.9%
Z.AI GLM 4.6	100	100	100	100	96	96	93	87	37	37	84.6%
Nemotron 3 Super	100	100	100	100	99	99	98	78	68	0	84.1%
DeepSeek V3.2	100	100	100	100	99	97	95	75	37	37	83.9%
Qwen3.7 Max	100	100	100	94	88	88	66	66	66	66	83.5%
Gemma 3 27B	100	100	100	98	98	98	89	78	37	37	83.4%
Gemini 2.5 Flash Lite (Reasoning)	100	99	99	97	93	83	80	80	63	37	83.1%
DeepSeek V3.1	100	100	100	100	100	98	94	65	37	37	82.9%
Claude Opus 4.8 (Reasoning)	100	99	94	94	94	91	67	66	65	52	82.2%
Z.AI GLM 5.2 (Reasoning, High)	100	100	96	95	95	90	74	67	53	51	82.1%
GPT-5.4 Mini	100	100	100	96	93	92	91	71	53	24	82.0%
Qwen 3.6 35B	100	100	100	97	96	95	93	67	66	0	81.4%
GPT-5.4 (Reasoning, Low)	100	100	99	99	98	96	66	66	52	37	81.3%
Qwen 3.5 122B	100	100	100	100	95	90	87	84	52	0	80.8%
MiniMax M2.7	100	100	100	99	99	97	96	92	0	0	78.3%
Gemini 3.5 Flash (Reasoning)	100	100	99	96	84	79	79	79	67	0	78.1%
Gemma 4 26B	100	99	99	99	98	96	74	37	37	37	77.6%
MiniMax M3	100	100	100	100	99	98	72	37	37	32	77.5%
Qwen 3.5 Flash	100	100	100	100	100	98	97	77	0	0	77.2%
GPT-5.2	99	97	97	96	96	93	78	66	37	0	75.9%
Qwen3.6 Max Preview	100	100	100	100	100	100	66	52	37	0	75.4%
Aion 2.0	100	100	100	94	86	83	77	65	30	17	75.2%
Claude Opus 4	100	100	98	93	92	80	74	37	37	37	74.7%
Qwen 3.5 35B	100	100	100	99	98	96	83	66	0	0	74.2%
Z.AI GLM 5.1	100	97	96	69	67	66	66	65	65	51	74.1%
Claude Sonnet 5	100	100	98	97	84	53	51	51	51	50	73.6%
Qwen 3.5 397B A17B	100	100	100	99	99	96	66	66	0	0	72.7%
Z.AI GLM 4.5	100	100	100	100	100	97	37	37	37	20	72.6%
GPT-5.4 (Reasoning)	100	99	97	97	87	78	51	37	37	37	72.1%
GPT-OSS 120B	98	97	97	97	94	88	84	63	0	0	72.0%
Cydonia 24B V4.1	100	98	98	97	93	93	77	37	16	3	71.2%
Gemini 2.5 Pro	100	100	100	98	90	56	53	37	37	37	70.6%
Qwen3 235B A22B Instruct 2507	100	100	100	100	99	97	37	37	37	0	70.6%
Claude Opus 4.8 (Reasoning, Low)	93	78	78	68	67	66	66	66	66	52	70.0%
Aion 3.0	100	100	97	95	70	69	56	37	37	37	69.7%
Qwen 2.5 72B	100	100	100	100	100	100	59	38	0	0	69.6%
Qwen 3.6 Flash	100	100	100	93	75	65	59	52	37	6	68.7%
Inception Mercury 2	99	99	98	95	90	88	84	23	0	0	67.5%
Qwen 3.5 Plus (2026-02-15)	100	100	97	96	95	37	37	37	37	37	67.3%
GPT-5.1	100	99	97	80	78	70	37	37	37	37	67.1%
Gemma 4 31B (Reasoning)	97	90	88	80	68	67	54	53	37	37	67.1%
Xiaomi MIMO v2.5 Pro	100	100	98	93	87	70	37	37	37	0	65.8%
GPT-5.5	100	100	99	98	67	37	37	37	37	37	64.7%
Z.AI GLM 5 Turbo	100	100	100	73	67	58	56	37	37	0	62.6%
GPT-5.5 (Reasoning, Low)	100	100	99	96	95	51	44	37	1	0	62.3%
Aion 3.0 Mini	100	100	100	99	81	68	37	37	0	0	62.1%
GPT-4.1 Nano	100	99	99	98	98	89	37	0	0	0	62.0%
Xiaomi MIMO v2.5	99	99	96	95	93	92	37	0	0	0	61.1%
Grok 4.3	100	96	95	95	60	50	37	37	29	0	60.0%
ByteDance Seed 1.6	100	100	100	99	97	97	6	0	0	0	59.9%
DeepSeek V4 Flash	100	97	87	82	37	37	37	37	37	37	58.7%
Mistral Small 3.2 24B	99	97	97	95	87	83	26	1	0	0	58.5%
DeepSeek V3 (2024-12-26)	100	100	100	99	90	50	41	3	0	0	58.4%
Z.AI GLM 4.7 Flash	100	100	100	95	37	37	37	37	37	0	57.9%
Gemini 2.5 Flash	100	99	97	58	37	37	37	37	37	37	57.6%
Z.AI GLM 4.7	100	98	96	95	37	37	37	37	37	0	57.3%
Llama 3.1 70B	100	98	93	92	37	37	37	37	37	5	57.1%
DeepSeek V4 Pro (Reasoning)	100	100	83	65	37	37	37	37	37	37	56.9%
GPT-5.4 Nano (Reasoning)	100	100	94	86	61	40	37	0	0	0	51.7%
Gemini 3 Flash (Preview, Reasoning)	100	97	97	78	72	67	0	0	0	0	51.1%
Claude Sonnet 5 (Reasoning, Low)	69	68	67	67	54	37	37	37	37	37	50.9%
Z.AI GLM 4.5 Air	100	100	99	91	80	37	0	0	0	0	50.7%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	96	54	37	20	0	0	0	50.6%
GPT-5.4 Mini (Reasoning)	94	86	69	55	52	46	37	37	23	0	49.8%
Ministral 8B	99	99	97	95	56	37	13	0	0	0	49.6%
Claude Opus 4.7	100	100	37	37	37	37	37	37	37	37	49.4%
Gemma 4 31B	92	71	70	37	37	37	37	37	37	37	49.0%
o4 Mini High	98	96	78	63	53	52	37	7	0	0	48.3%
DeepSeek V3 (2025-03-24)	100	94	73	65	49	45	42	0	0	0	46.7%
Arcee AI: Trinity Mini	99	93	78	66	55	24	23	13	11	0	46.1%
GPT-5.4 Mini (Reasoning, Low)	99	99	89	76	37	33	19	6	2	0	45.9%
Ministral 3B	100	93	92	60	43	37	30	0	0	0	45.4%
o4 Mini	100	100	92	65	46	28	9	1	0	0	44.0%
GPT-5.4 Nano	100	95	50	37	37	37	37	37	9	0	43.8%
Mistral Large 2	100	99	98	73	48	15	3	1	1	0	43.8%
Claude Sonnet 4	96	37	37	37	37	37	37	37	37	37	42.8%
GPT-4o Mini (temp=1)	92	37	37	37	37	37	37	37	37	37	42.3%
Gemini 3 Flash (Preview)	88	37	37	37	37	37	37	37	37	37	41.9%
Mistral Medium 3.1	100	99	83	61	32	29	6	6	0	0	41.6%
Claude Sonnet 5 (Reasoning)	84	37	37	37	37	37	37	37	37	37	41.5%
ByteDance Seed 2.0 Mini	100	100	99	98	0	0	0	0	0	0	39.7%
Grok 4.20	100	37	37	37	37	37	37	37	37	0	39.4%
Qwen 3.5 9B	100	100	79	66	46	0	0	0	0	0	39.1%
Qwen 3.6 27B	100	100	80	65	38	0	0	0	0	0	38.3%
GPT-5.4	37	37	37	37	37	37	37	37	37	37	36.8%
GPT-4o, Aug. 6th (temp=0)	37	37	37	37	37	37	37	37	37	37	36.8%
DeepSeek V4 Pro	37	37	37	37	37	37	37	37	37	37	36.8%
GPT-4.1 Mini	37	37	37	37	37	37	37	37	37	37	36.8%
GPT-4o, Aug. 6th (temp=1)	37	37	37	37	37	37	37	37	37	37	36.8%
Qwen 3.5 Plus (2026-04-20)	98	93	84	82	0	0	0	0	0	0	35.7%
GPT-5	100	94	78	37	37	1	0	0	0	0	34.6%
GPT-5 Nano	96	96	96	26	0	0	0	0	0	0	31.5%
Hermes 3 70B	100	94	74	29	1	0	0	0	0	0	29.8%
ByteDance Seed 2.0 Lite	97	93	82	12	0	0	0	0	0	0	28.5%
GPT-4.1	37	37	37	37	37	37	37	0	0	0	25.8%
MiniMax M2.5	100	100	37	17	0	0	0	0	0	0	25.4%
GPT-5 Mini	100	100	44	1	0	0	0	0	0	0	24.5%
Hermes 3 405B	96	90	30	20	2	0	0	0	0	0	23.9%
Qwen 3 32B	94	74	15	13	8	7	0	0	0	0	21.1%
WizardLM 2 8x22b	100	88	12	9	1	1	0	0	0	0	21.0%
Nemotron 3 Nano	74	73	0	0	0	0	0	0	0	0	14.7%
Mistral Small 4 (Reasoning)	97	21	1	0	0	0	0	0	0	0	11.8%
ByteDance Seed 1.6 Flash	28	28	26	25	0	0	0	0	0	0	10.8%
Cohere Command R+ (Aug. 2024)	63	20	1	0	0	0	0	0	0	0	8.4%
Ministral 3 3B	43	35	1	0	0	0	0	0	0	0	7.8%
Ministral 3 14B	35	13	4	3	0	0	0	0	0	0	5.5%
Mistral Large 3	44	0	0	0	0	0	0	0	0	0	4.4%
Mistral Small 4	37	3	0	0	0	0	0	0	0	0	4.0%
Ministral 3 8B	9	0	0	0	0	0	0	0	0	0	0.9%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%

dialogue-500

▼

Write 500 words with 30% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	99	94	99.3%
Z.AI GLM 5.1	100	100	100	99	99	99	98	88	87	69	94.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	88	43	93.0%
GPT-5 Mini	100	100	100	99	94	92	92	86	85	79	92.6%
GPT-5	100	100	100	100	100	100	100	90	77	10	87.7%
o4 Mini	100	100	100	100	96	95	87	72	63	21	83.3%
MoonshotAI: Kimi K2.6	100	100	100	99	93	83	82	80	65	28	83.0%
Claude Sonnet 4.6 (Reasoning)	99	99	96	95	90	84	73	72	48	28	78.4%
Grok 4.3 (Reasoning)	100	100	100	100	99	93	86	66	38	0	78.1%
Claude Opus 4.6 (Reasoning)	100	100	99	96	88	76	71	66	48	17	76.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	99	92	83	77	6	0	75.6%
Nemotron 3 Super	100	100	98	96	91	90	87	87	0	0	74.9%
o4 Mini High	100	100	100	100	98	79	79	50	0	0	70.6%
Gemma 4 26B (Reasoning)	100	99	95	89	83	75	54	42	15	0	65.4%
Gemma 4 31B (Reasoning)	98	97	97	80	76	69	60	16	5	0	59.8%
MiniMax M2.5	100	99	99	98	98	97	4	2	0	0	59.8%
Gemini 2.5 Flash (Reasoning)	99	99	99	94	81	57	29	13	0	0	57.3%
Qwen 3.5 27B	99	98	98	92	91	48	24	17	2	0	57.0%
Qwen 3.6 Flash	100	100	99	87	55	50	38	15	0	0	54.4%
Grok 4.5 (Reasoning, High)	100	100	99	81	79	66	0	0	0	0	52.5%
Grok 4.20 (Reasoning)	95	95	76	66	60	51	27	13	11	0	49.5%
Nemotron 3 Nano	100	99	71	65	65	63	26	1	0	0	49.1%
Inception Mercury 2	99	96	89	72	44	38	15	9	9	0	47.1%
ByteDance Seed 2.0 Mini	100	76	71	63	59	52	24	13	11	2	46.9%
Gemini 3 Flash (Preview, Reasoning)	100	98	93	90	81	0	0	0	0	0	46.1%
MoonshotAI: Kimi K2.5	100	94	77	75	55	53	1	0	0	0	45.6%
GPT-5.5	96	92	88	70	48	33	12	4	3	0	44.6%
Claude Sonnet 4	100	99	88	85	33	19	15	0	0	0	44.0%
MiniMax M3	100	99	98	70	65	0	0	0	0	0	43.2%
MiniMax M2.7	100	88	83	64	36	33	23	0	0	0	42.6%
Qwen 3.6 35B	100	93	86	66	16	7	3	0	0	0	37.2%
Qwen 3.5 Flash	97	94	91	84	0	0	0	0	0	0	36.7%
ByteDance Seed 2.0 Lite	90	82	65	63	49	9	0	0	0	0	35.8%
DeepSeek V4 Pro (Reasoning)	100	100	89	42	0	0	0	0	0	0	33.1%
Z.AI GLM 4.7	100	86	57	39	38	6	0	0	0	0	32.6%
GPT-OSS 120B	99	98	51	36	33	0	0	0	0	0	31.7%
GPT-5.1	100	95	70	42	4	3	0	0	0	0	31.5%
Claude Opus 4.6	100	86	54	44	9	2	2	1	1	0	29.9%
Ministral 3 14B	100	86	81	21	3	0	0	0	0	0	29.1%
Claude Opus 4.5	97	92	40	35	20	4	0	0	0	0	28.7%
Qwen 3.5 122B	99	83	79	15	6	0	0	0	0	0	28.3%
Qwen 3.5 397B A17B	96	95	35	30	5	0	0	0	0	0	26.1%
Qwen 3.5 Plus (2026-04-20)	99	98	33	22	3	0	0	0	0	0	25.6%
ByteDance Seed 1.6	90	71	48	19	9	5	4	4	0	0	25.0%
Aion 3.0 Mini	96	92	53	4	1	0	0	0	0	0	24.6%
GPT-5.5 (Reasoning)	98	47	35	26	12	4	1	0	0	0	22.3%
GPT-5.5 (Reasoning, Low)	79	76	52	4	1	0	0	0	0	0	21.2%
GPT-5.4 (Reasoning)	100	49	35	13	2	1	1	0	0	0	20.0%
Gemini 2.5 Pro	98	93	3	1	0	0	0	0	0	0	19.5%
Ministral 8B	99	81	1	0	0	0	0	0	0	0	18.1%
Claude Opus 4.7 (Reasoning)	97	82	0	0	0	0	0	0	0	0	17.9%
GPT-5.4 (Reasoning, Low)	49	39	31	30	21	0	0	0	0	0	17.0%
Mistral NeMO	89	53	12	3	1	0	0	0	0	0	15.8%
Grok 4.5 (Reasoning, Low)	77	70	10	0	0	0	0	0	0	0	15.6%
GPT-5.4	93	50	5	3	1	1	0	0	0	0	15.3%
GPT-5.4 Nano (Reasoning, Low)	75	35	23	8	5	5	1	0	0	0	15.3%
Xiaomi MIMO v2.5 Pro	92	50	4	2	0	0	0	0	0	0	14.7%
GPT-5 Nano	54	49	40	3	1	0	0	0	0	0	14.7%
Hermes 3 70B	82	63	1	0	0	0	0	0	0	0	14.7%
Claude Sonnet 4.6	87	25	16	10	6	0	0	0	0	0	14.4%
Gemini 2.5 Flash Lite (Reasoning)	78	34	15	11	1	0	0	0	0	0	13.9%
Claude Opus 4.7	98	36	1	0	0	0	0	0	0	0	13.6%
Claude Sonnet 4.5	73	23	22	12	3	0	0	0	0	0	13.3%
Z.AI GLM 5	81	45	4	0	0	0	0	0	0	0	13.1%
GPT-5.2	88	34	0	0	0	0	0	0	0	0	12.2%
Ministral 3 3B	93	12	5	5	3	0	0	0	0	0	11.8%
Qwen 3.6 27B	94	19	0	0	0	0	0	0	0	0	11.4%
Claude Opus 4.8 (Reasoning)	98	12	2	0	0	0	0	0	0	0	11.2%
WizardLM 2 8x22b	98	4	3	1	0	0	0	0	0	0	10.6%
Z.AI GLM 4.6	99	7	1	0	0	0	0	0	0	0	10.6%
Qwen 3.5 35B	88	6	2	0	0	0	0	0	0	0	9.7%
Claude Opus 4.8 (Reasoning, Low)	34	20	14	14	6	3	3	0	0	0	9.4%
Aion 3.0	86	7	0	0	0	0	0	0	0	0	9.3%
GPT-5.4 Mini	57	24	9	3	0	0	0	0	0	0	9.2%
Cydonia 24B V4.1	92	0	0	0	0	0	0	0	0	0	9.2%
Qwen 3.5 Plus (2026-02-15)	52	33	0	0	0	0	0	0	0	0	8.6%
Qwen3.6 Max Preview	81	0	0	0	0	0	0	0	0	0	8.1%
Mistral Small 4	65	7	0	0	0	0	0	0	0	0	7.2%
Qwen 3.5 9B	42	20	5	0	0	0	0	0	0	0	6.6%
Mistral Small 4 (Reasoning)	35	24	6	0	0	0	0	0	0	0	6.4%
GPT-5.4 Nano	50	7	5	2	0	0	0	0	0	0	6.4%
Hermes 3 405B	61	0	0	0	0	0	0	0	0	0	6.1%
GPT-4o, Aug. 6th (temp=1)	57	0	0	0	0	0	0	0	0	0	5.8%
Mistral Small 3.2 24B	52	3	0	0	0	0	0	0	0	0	5.5%
Ministral 3B	43	5	1	0	0	0	0	0	0	0	5.0%
Mistral Medium 3.1	48	0	0	0	0	0	0	0	0	0	4.8%
GPT-5.4 Mini (Reasoning, Low)	35	1	0	0	0	0	0	0	0	0	3.7%
GPT-4.1 Mini	22	14	0	0	0	0	0	0	0	0	3.6%
DeepSeek V3 (2025-03-24)	24	0	0	0	0	0	0	0	0	0	2.4%
GPT-5.4 Nano (Reasoning)	14	1	0	0	0	0	0	0	0	0	1.5%
Claude Sonnet 5 (Reasoning, Low)	10	0	0	0	0	0	0	0	0	0	1.0%
Qwen 3 32B	4	1	0	0	0	0	0	0	0	0	0.5%
Llama 3.1 70B	3	1	0	0	0	0	0	0	0	0	0.4%
Z.AI GLM 4.7 Flash	2	0	0	0	0	0	0	0	0	0	0.2%
Claude Haiku 4.5	2	0	0	0	0	0	0	0	0	0	0.2%
Qwen 2.5 72B	1	1	0	0	0	0	0	0	0	0	0.2%
ByteDance Seed 1.6 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 5	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Sonnet 5 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5.4 Mini (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.1	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 3 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3 (2024-12-26)	0	0	0	0	0	0	0	0	0	0	0.0%
Xiaomi MIMO v2.5	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.2	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 3	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Aion 2.0	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 500 words with 50% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	97	95	77	96.9%
MoonshotAI: Kimi K2.6	100	100	100	99	96	95	93	88	86	71	92.7%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	85	29	91.3%
GPT-5	100	100	100	100	100	100	100	99	97	0	89.5%
Z.AI GLM 5.1	100	100	100	99	97	95	95	91	58	0	83.5%
Qwen3.7 Max	100	100	100	100	100	100	100	71	27	9	80.7%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	99	95	89	80	77	53	0	79.4%
GPT-5 Mini	100	100	100	99	71	58	43	0	0	0	57.1%
MiniMax M2.5	100	100	100	99	88	51	26	0	0	0	56.3%
MoonshotAI: Kimi K2.5	99	99	90	79	50	49	47	32	15	0	56.0%
o4 Mini	100	100	99	90	75	42	32	0	0	0	53.8%
MiniMax M2.7	100	99	98	97	73	66	1	0	0	0	53.5%
Ministral 3 14B	100	97	95	93	81	58	1	0	0	0	52.7%
Gemma 4 31B (Reasoning)	100	96	96	95	94	16	10	4	0	0	51.2%
Inception Mercury 2	100	100	89	85	80	33	2	0	0	0	48.8%
Nemotron 3 Super	100	98	90	77	65	53	1	0	0	0	48.4%
Claude Opus 4.6	88	85	83	78	47	43	28	1	0	0	45.5%
o4 Mini High	100	90	82	82	44	23	0	0	0	0	42.1%
Grok 4.3 (Reasoning)	95	93	84	48	47	41	5	0	0	0	41.3%
Claude Opus 4.5	98	97	64	55	41	33	0	0	0	0	38.7%
ByteDance Seed 2.0 Mini	98	89	87	37	33	23	11	0	0	0	38.0%
Qwen 3.6 35B	100	91	72	51	38	25	2	0	0	0	37.9%
GPT-5.4 Nano (Reasoning, Low)	98	82	64	52	43	13	11	0	0	0	36.2%
Gemini 2.5 Flash (Reasoning)	100	100	96	34	20	8	2	0	0	0	36.0%
Claude Sonnet 4	96	94	89	45	9	8	3	2	0	0	34.6%
Ministral 8B	96	78	71	59	39	2	0	0	0	0	34.6%
Claude Sonnet 4.6	97	88	59	30	26	20	6	6	4	3	33.8%
ByteDance Seed 1.6 Flash	87	79	47	36	32	26	26	1	0	0	33.4%
Grok 4.20 (Reasoning)	100	100	84	25	18	2	0	0	0	0	32.9%
Claude Opus 4.6 (Reasoning)	95	72	61	56	33	7	1	0	0	0	32.6%
Nemotron 3 Nano	100	97	91	37	0	0	0	0	0	0	32.5%
Qwen 3.5 9B	96	79	78	42	17	7	6	0	0	0	32.4%
GPT-5.4 Mini	100	95	40	37	30	11	9	0	0	0	32.2%
GPT-5.1	100	98	81	30	3	0	0	0	0	0	31.2%
GPT-5.4 Nano (Reasoning)	97	86	51	44	20	10	2	1	0	0	31.2%
Claude Sonnet 4.5	96	92	90	27	1	0	0	0	0	0	30.6%
Qwen 3.6 27B	97	84	66	58	0	0	0	0	0	0	30.5%
WizardLM 2 8x22b	100	83	65	42	7	6	1	0	0	0	30.3%
GPT-4o, Aug. 6th (temp=0)	88	76	74	60	0	0	0	0	0	0	29.9%
GPT-5.4 (Reasoning)	100	67	60	20	19	15	8	1	0	0	29.1%
Ministral 3 3B	96	87	51	44	6	0	0	0	0	0	28.5%
Claude Sonnet 4.6 (Reasoning)	100	95	56	10	8	8	2	1	1	1	28.1%
Gemma 4 26B (Reasoning)	82	82	71	31	4	2	0	0	0	0	27.3%
MiniMax M3	100	95	73	2	0	0	0	0	0	0	27.0%
Qwen 3.6 Flash	97	90	39	14	12	11	6	0	0	0	27.0%
GPT-5 Nano	100	77	50	42	0	0	0	0	0	0	26.9%
GPT-OSS 120B	100	99	45	14	4	0	0	0	0	0	26.1%
GPT-5.5 (Reasoning, Low)	97	54	52	24	22	2	2	0	0	0	25.3%
Hermes 3 70B	93	83	44	26	2	0	0	0	0	0	25.0%
Hermes 3 405B	98	76	62	9	2	1	1	0	0	0	24.9%
Qwen3.6 Max Preview	100	82	67	0	0	0	0	0	0	0	24.9%
DeepSeek V4 Pro (Reasoning)	100	96	48	0	0	0	0	0	0	0	24.4%
GPT-5.4	100	84	28	28	1	0	0	0	0	0	24.1%
GPT-5.4 Nano	100	73	38	28	0	0	0	0	0	0	23.9%
GPT-5.5 (Reasoning)	95	89	20	20	9	3	1	1	1	0	23.9%
Ministral 3B	97	96	32	6	6	2	0	0	0	0	23.9%
Ministral 3 8B	93	80	59	2	0	0	0	0	0	0	23.4%
ByteDance Seed 1.6	97	65	44	13	5	3	3	1	0	0	23.0%
Mistral Large 2	100	95	9	9	7	0	0	0	0	0	21.9%
Qwen 3.5 35B	96	90	33	1	0	0	0	0	0	0	21.9%
Gemini 3 Flash (Preview, Reasoning)	97	88	33	0	0	0	0	0	0	0	21.7%
Mistral NeMO	64	62	44	40	5	3	0	0	0	0	21.7%
Qwen 3.5 Plus (2026-04-20)	92	72	37	15	0	0	0	0	0	0	21.6%
GPT-5.2	98	74	34	5	0	0	0	0	0	0	21.0%
ByteDance Seed 2.0 Lite	73	51	44	31	10	0	0	0	0	0	21.0%
Gemini 2.5 Flash Lite (Reasoning)	100	77	28	0	0	0	0	0	0	0	20.5%
DeepSeek V3 (2024-12-26)	97	93	4	0	0	0	0	0	0	0	19.5%
Cydonia 24B V4.1	99	92	0	0	0	0	0	0	0	0	19.2%
Qwen 3.5 397B A17B	84	78	24	1	0	0	0	0	0	0	18.7%
Qwen 3 32B	100	49	26	10	2	0	0	0	0	0	18.6%
Mistral Small 3.2 24B	86	75	10	3	0	0	0	0	0	0	17.4%
Mistral Small 4	95	78	0	0	0	0	0	0	0	0	17.3%
Qwen 3.5 27B	99	72	1	0	0	0	0	0	0	0	17.1%
Z.AI GLM 4.7	97	32	30	7	0	0	0	0	0	0	16.7%
GPT-5.4 (Reasoning, Low)	94	23	16	15	12	4	0	0	0	0	16.5%
Grok 4.5 (Reasoning, High)	86	63	3	3	0	0	0	0	0	0	15.5%
Cohere Command R+ (Aug. 2024)	79	65	4	1	0	0	0	0	0	0	14.9%
GPT-5.5	64	31	27	23	3	0	0	0	0	0	14.8%
GPT-4o, Aug. 6th (temp=1)	93	30	10	2	0	0	0	0	0	0	13.5%
Gemini 2.5 Pro	67	34	13	3	0	0	0	0	0	0	11.9%
Mistral Small 4 (Reasoning)	100	13	0	0	0	0	0	0	0	0	11.3%
Aion 3.0	100	0	0	0	0	0	0	0	0	0	10.0%
Gemini 3.1 Flash Lite (Reasoning)	99	1	0	0	0	0	0	0	0	0	10.0%
Z.AI GLM 4.5	93	0	0	0	0	0	0	0	0	0	9.3%
GPT-4.1 Mini	60	15	11	4	3	0	0	0	0	0	9.2%
Mistral Large 3	50	31	0	0	0	0	0	0	0	0	8.2%
Claude Sonnet 5 (Reasoning)	60	21	0	0	0	0	0	0	0	0	8.2%
DeepSeek V3 (2025-03-24)	64	13	1	1	0	0	0	0	0	0	8.0%
Llama 3.1 70B	67	8	0	0	0	0	0	0	0	0	7.5%
Qwen 3.5 Flash	67	1	0	0	0	0	0	0	0	0	6.8%
Xiaomi MIMO v2.5 Pro	66	1	0	0	0	0	0	0	0	0	6.7%
Qwen 2.5 72B	27	25	10	0	0	0	0	0	0	0	6.2%
Qwen 3.5 122B	32	12	7	0	0	0	0	0	0	0	5.1%
Mistral Medium 3.1	48	1	0	0	0	0	0	0	0	0	4.9%
GPT-5.4 Mini (Reasoning, Low)	43	3	2	0	0	0	0	0	0	0	4.8%
Z.AI GLM 5	22	15	8	1	0	0	0	0	0	0	4.6%
Claude Opus 4	32	0	0	0	0	0	0	0	0	0	3.2%
GPT-5.4 Mini (Reasoning)	17	12	0	0	0	0	0	0	0	0	2.9%
GPT-4.1 Nano	23	0	0	0	0	0	0	0	0	0	2.4%
Qwen 3.5 Plus (2026-02-15)	7	1	0	0	0	0	0	0	0	0	0.8%
Claude Sonnet 5 (Reasoning, Low)	8	0	0	0	0	0	0	0	0	0	0.8%
Claude Sonnet 5	7	1	0	0	0	0	0	0	0	0	0.8%
Gemini 3.1 Flash Lite	7	0	0	0	0	0	0	0	0	0	0.7%
Claude Haiku 4.5	5	1	0	0	0	0	0	0	0	0	0.6%
Z.AI GLM 4.7 Flash	4	0	0	0	0	0	0	0	0	0	0.4%
Z.AI GLM 4.6	2	1	0	0	0	0	0	0	0	0	0.3%
Xiaomi MIMO v2.5	2	0	0	0	0	0	0	0	0	0	0.2%
Claude Opus 4.7 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
Writer: Palmyra X5	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5 Air	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.1	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen3 235B A22B Instruct 2507	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.5 (Reasoning, Low)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.8 (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Aion 3.0 Mini	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Opus 4.7	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Flash (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash Lite	0	0	0	0	0	0	0	0	0	0	0.0%
Aion 2.0	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.3	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 26B	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V3.2	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 27B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Grok 4.20	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%

▼

Write 500 words with 70% dialogue

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	99	99.9%
Nemotron 3 Super	100	100	100	100	99	96	92	51	44	0	78.1%
Qwen3.7 Max	100	100	100	96	96	76	71	70	60	9	77.8%
Gemini 3.5 Flash (Reasoning)	100	100	100	96	79	71	68	41	10	0	66.4%
Mistral Medium 3.1	100	95	91	91	89	46	42	38	14	0	60.5%
DeepSeek-V2 Chat	100	87	80	79	79	68	38	33	21	10	59.6%
Claude Sonnet 5	98	97	87	80	77	67	29	15	0	0	55.0%
o4 Mini High	100	100	91	74	66	57	23	20	11	0	54.3%
Z.AI GLM 5.2 (Reasoning, High)	99	82	76	76	73	70	51	0	0	0	52.6%
Z.AI GLM 5 Turbo	100	99	99	90	70	38	7	1	0	0	50.5%
Llama 3.1 70B	99	95	94	91	91	23	5	2	0	0	49.9%
GPT-5 Mini	100	100	100	99	99	0	0	0	0	0	49.8%
Z.AI GLM 5.1	97	89	86	85	80	49	1	0	0	0	48.6%
GPT-5.5 (Reasoning)	96	94	71	63	57	44	40	3	1	0	46.9%
GPT-5.4 Mini	99	98	82	77	46	24	16	8	8	0	45.8%
GPT-4o, Aug. 6th (temp=0)	100	93	67	40	40	40	40	35	1	1	45.6%
DeepSeek V3.1	99	98	89	79	42	19	8	7	1	0	44.2%
GPT-4o, Aug. 6th (temp=1)	100	89	88	85	71	0	0	0	0	0	43.3%
ByteDance Seed 1.6	100	97	86	81	54	10	0	0	0	0	43.0%
Ministral 3 8B	98	81	55	54	42	42	24	20	10	1	42.8%
GPT-5.2	92	90	85	81	53	10	6	5	1	0	42.2%
Claude Sonnet 4.6	100	100	84	54	32	22	15	3	2	0	41.2%
Mistral Small 3.2 24B	98	92	76	71	56	5	3	0	0	0	40.0%
GPT-5	100	85	71	58	38	24	10	0	0	0	38.5%
GPT-OSS 120B	100	96	81	48	29	20	3	2	2	0	38.1%
Mistral Small 4	97	69	66	57	52	23	1	1	0	0	36.6%
Claude Sonnet 5 (Reasoning)	99	90	59	50	30	25	4	4	4	0	36.5%
Mistral Large 2	99	98	89	34	17	9	8	5	0	0	35.9%
Claude Sonnet 4.5	93	84	75	35	34	33	2	0	0	0	35.6%
DeepSeek V3 (2024-12-26)	96	59	57	38	32	31	27	11	5	0	35.5%
Mistral Small 4 (Reasoning)	97	90	48	41	37	32	3	0	0	0	34.8%
MiniMax M2.5	97	80	67	54	16	13	2	0	0	0	32.7%
GPT-5.4 Mini (Reasoning, Low)	100	80	64	47	9	7	5	3	0	0	31.6%
Gemma 3 12B	77	72	69	41	37	10	6	3	1	0	31.5%
MiniMax M3	99	92	77	31	7	0	0	0	0	0	30.7%
GPT-5.1	99	82	64	34	10	7	4	1	0	0	30.1%
DeepSeek V4 Pro (Reasoning)	99	90	62	35	7	2	0	0	0	0	29.5%
Cohere Command R+ (Aug. 2024)	88	65	59	49	25	9	0	0	0	0	29.5%
Qwen 3 32B	98	95	79	14	6	1	0	0	0	0	29.4%
GPT-5.4 (Reasoning, Low)	100	98	45	45	2	1	1	0	0	0	29.2%
GPT-5.4 Nano	99	73	65	32	16	6	0	0	0	0	29.0%
Qwen3.6 Max Preview	100	99	85	0	0	0	0	0	0	0	28.4%
GPT-5.5	97	85	65	32	1	0	0	0	0	0	28.1%
Claude Opus 4.6 (Reasoning)	86	83	77	17	11	6	0	0	0	0	28.0%
MiniMax M2.7	96	87	58	37	1	0	0	0	0	0	27.8%
Ministral 3B	86	74	48	36	30	1	0	0	0	0	27.5%
Claude Sonnet 4.6 (Reasoning)	93	79	35	34	16	10	6	1	0	0	27.5%
Qwen 3.6 Flash	82	65	53	43	32	0	0	0	0	0	27.5%
ByteDance Seed 1.6 Flash	97	90	72	12	0	0	0	0	0	0	27.2%
ByteDance Seed 2.0 Mini	100	100	37	20	10	0	0	0	0	0	26.7%
GPT-5.4 (Reasoning)	75	56	42	30	27	23	8	1	0	0	26.2%
Ministral 3 14B	93	77	48	21	13	0	0	0	0	0	25.2%
Mistral Large 3	53	51	47	42	40	10	0	0	0	0	24.3%
Qwen 2.5 72B	93	70	31	24	23	1	0	0	0	0	24.3%
Hermes 3 70B	89	79	46	15	9	0	0	0	0	0	23.9%
DeepSeek V3 (2025-03-24)	98	98	12	11	10	5	2	0	0	0	23.5%
GPT-5.4 Mini (Reasoning)	85	73	50	11	5	4	3	1	0	0	23.2%
Cydonia 24B V4.1	95	68	43	12	10	2	2	1	0	0	23.2%
MoonshotAI: Kimi K2.6	89	46	30	27	14	10	9	0	0	0	22.5%
Gemini 2.5 Flash (Reasoning)	88	70	27	16	9	7	5	2	0	0	22.5%
Grok 4.20 (Reasoning)	79	67	59	20	0	0	0	0	0	0	22.4%
Z.AI GLM 4.6	81	60	41	29	10	1	0	0	0	0	22.1%
Claude Opus 4.7 (Reasoning)	84	71	36	24	2	2	1	1	0	0	22.0%
Hermes 3 405B	88	71	31	21	0	0	0	0	0	0	21.1%
Qwen 3.5 397B A17B	94	81	15	7	1	0	0	0	0	0	19.9%
Qwen 3.6 35B	100	59	39	0	0	0	0	0	0	0	19.7%
Arcee AI: Trinity Mini	98	75	8	5	1	0	0	0	0	0	18.7%
Claude Sonnet 5 (Reasoning, Low)	84	45	22	11	9	4	1	1	0	0	17.8%
GPT-5.4 Nano (Reasoning)	99	69	2	2	1	0	0	0	0	0	17.3%
GPT-5.4	89	42	16	8	8	5	2	2	1	0	17.2%
o4 Mini	89	57	12	12	1	0	0	0	0	0	17.1%
WizardLM 2 8x22b	98	38	26	6	0	0	0	0	0	0	16.8%
Z.AI GLM 4.5 Air	95	68	4	1	0	0	0	0	0	0	16.8%
MoonshotAI: Kimi K2.5	95	29	16	15	11	0	0	0	0	0	16.7%
Gemini 2.5 Flash Lite (Reasoning)	88	74	0	0	0	0	0	0	0	0	16.3%
Grok 4.3 (Reasoning)	99	19	17	14	6	1	0	0	0	0	15.6%
Gemma 4 26B (Reasoning)	92	54	7	0	0	0	0	0	0	0	15.3%
GPT-4o Mini (temp=1)	99	48	0	0	0	0	0	0	0	0	14.7%
GPT-4.1 Nano	48	30	29	25	2	1	0	0	0	0	13.5%
Aion 2.0	96	22	10	7	0	0	0	0	0	0	13.5%
GPT-4.1 Mini	96	23	4	3	2	1	0	0	0	0	12.9%
GPT-5.4 Nano (Reasoning, Low)	100	19	4	0	0	0	0	0	0	0	12.3%
Claude Sonnet 4	99	11	6	2	0	0	0	0	0	0	11.8%
Grok 4.5 (Reasoning, High)	99	13	2	0	0	0	0	0	0	0	11.4%
Claude Haiku 4.5	84	13	7	3	2	1	1	0	0	0	11.1%
Qwen 3.6 27B	93	8	7	0	0	0	0	0	0	0	10.8%
Qwen 3.5 27B	51	34	16	4	3	0	0	0	0	0	10.7%
Qwen 3.5 35B	79	15	8	4	0	0	0	0	0	0	10.6%
Qwen 3.5 Flash	59	44	0	0	0	0	0	0	0	0	10.3%
Writer: Palmyra X5	97	3	0	0	0	0	0	0	0	0	10.1%
Mistral NeMO	87	10	0	0	0	0	0	0	0	0	9.7%
Claude Opus 4.8 (Reasoning, Low)	84	5	2	2	2	1	0	0	0	0	9.7%
GPT-5.5 (Reasoning, Low)	72	10	10	4	0	0	0	0	0	0	9.6%
Xiaomi MIMO v2.5	79	10	3	3	1	0	0	0	0	0	9.6%
Aion 3.0	89	0	0	0	0	0	0	0	0	0	8.9%
Gemini 3.1 Flash Lite	83	0	0	0	0	0	0	0	0	0	8.3%
Inception Mercury 2	32	29	17	2	0	0	0	0	0	0	8.0%
Z.AI GLM 4.7 Flash	76	0	0	0	0	0	0	0	0	0	7.6%
Claude Opus 4.8 (Reasoning)	48	13	7	4	3	0	0	0	0	0	7.5%
Grok 4.3	63	6	0	0	0	0	0	0	0	0	7.0%
Gemini 2.5 Pro	34	27	0	0	0	0	0	0	0	0	6.2%
Aion 3.0 Mini	48	8	1	0	0	0	0	0	0	0	5.7%
DeepSeek V3.2	32	12	5	2	1	1	1	0	0	0	5.4%
Xiaomi MIMO v2.5 Pro	39	9	4	0	0	0	0	0	0	0	5.2%
Qwen 3.5 9B	49	1	0	0	0	0	0	0	0	0	5.0%
Grok 4.5 (Reasoning, Low)	35	5	1	0	0	0	0	0	0	0	4.0%
Z.AI GLM 4.5	28	8	0	0	0	0	0	0	0	0	3.6%
Qwen3 235B A22B Instruct 2507	29	6	0	0	0	0	0	0	0	0	3.5%
Claude Opus 4.6	32	1	1	0	0	0	0	0	0	0	3.3%
Claude Opus 4	19	13	0	0	0	0	0	0	0	0	3.1%
Grok 4.20	22	8	2	0	0	0	0	0	0	0	3.1%
Gemini 2.5 Flash	26	0	0	0	0	0	0	0	0	0	2.7%
Claude Opus 4.7	9	7	4	3	0	0	0	0	0	0	2.3%
Nemotron 3 Nano	23	0	0	0	0	0	0	0	0	0	2.3%
DeepSeek V4 Flash	11	0	0	0	0	0	0	0	0	0	1.1%
Qwen 3.5 Plus (2026-04-20)	10	0	0	0	0	0	0	0	0	0	1.0%
Gemini 3 Flash (Preview)	7	1	0	0	0	0	0	0	0	0	0.9%
DeepSeek V4 Flash (Reasoning)	4	3	1	0	0	0	0	0	0	0	0.7%
ByteDance Seed 2.0 Lite	7	0	0	0	0	0	0	0	0	0	0.7%
Gemma 4 26B	4	0	0	0	0	0	0	0	0	0	0.4%
Gemma 3 27B	3	0	0	0	0	0	0	0	0	0	0.3%
Ministral 3 3B	2	0	0	0	0	0	0	0	0	0	0.2%
Gemini 2.5 Flash Lite	1	1	0	0	0	0	0	0	0	0	0.2%
Qwen 3.5 122B	1	0	0	0	0	0	0	0	0	0	0.1%
Claude Opus 4.5	1	0	0	0	0	0	0	0	0	0	0.1%
Z.AI GLM 4.7	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek V4 Pro	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 5	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 3.5 Plus (2026-02-15)	0	0	0	0	0	0	0	0	0	0	0.0%
Ministral 8B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4.1	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 3 4B	0	0	0	0	0	0	0	0	0	0	0.0%
Gemma 4 31B (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3 Flash (Preview, Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-5 Nano	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.5 Flash (Reasoning, Minimal)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Gemini 3.1 Flash Lite (Reasoning)	0	0	0	0	0	0	0	0	0	0	0.0%

Dialogue to Total Word Ratio

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

dialogue-200

Write 200 words with 10% dialogue

Write 200 words with 50% dialogue

Write 200 words with 90% dialogue

dialogue-500

Write 500 words with 30% dialogue

Write 500 words with 50% dialogue

Write 500 words with 70% dialogue