Creative Writing

18 scenarios across 6 subcategories. 146 models scored.

Subcategories

Subcategory	Avg Score	Best Model	Best Score
AI-isms	82.84%	ByteDance Seed 2.0 Lite	93.39%
Prose Variety	68.36%	Writer: Palmyra X5	83.01%
Dialogue	80.23%	GPT-5.6 Sol	97.84%
Purple Prose	89.13%	GPT-5.6 Sol (Reasoning)	99.20%
Mechanical Style	86.84%	GPT-5.6 Sol (Reasoning)	99.81%
Clichés	78.71%	o4 Mini High	90.38%

Model Leaderboard

All models ranked by their Creative Writing category score.

#	Model	Creative Writing	AI-isms	Prose Variety	Dialogue	Purple Prose	Mechanical Style	Clichés	Overall
1	GPT-5.4 (Reasoning)	91.17%	91.56%	79.74%	93.69%	97.55%	97.97%	86.52%	93.85%
2	GPT-5.6 Sol	91.04%	92.68%	72.39%	97.84%	98.82%	99.63%	84.87%	90.76%
3	GPT-5.6 Sol (Reasoning)	91.03%	92.56%	73.84%	97.62%	99.20%	99.81%	83.12%	95.15%
4	GPT-5.4	90.94%	91.06%	81.26%	94.79%	96.74%	97.49%	84.30%	84.31%
5	GPT-5.6 Terra	90.92%	92.94%	73.87%	96.90%	98.78%	99.54%	83.46%	88.23%
6	GPT-5.6 Terra (Reasoning)	90.72%	92.93%	74.76%	94.42%	98.50%	99.04%	84.66%	92.49%
7	GPT-5.4 (Reasoning, Low)	90.51%	91.02%	80.88%	92.18%	96.68%	97.75%	84.51%	90.91%
8	GPT-5.5	90.39%	91.50%	76.57%	95.32%	98.39%	99.17%	81.40%	89.37%
9	GPT-5.5 (Reasoning)	90.26%	92.18%	75.69%	94.90%	98.18%	99.27%	81.35%	93.72%
10	GPT-5.5 (Reasoning, Low)	90.24%	91.49%	77.34%	96.25%	98.18%	99.26%	78.89%	92.51%
11	GPT-5.6 Luna (Reasoning)	90.10%	92.47%	72.24%	94.84%	98.87%	99.54%	82.62%	90.61%
12	GPT-5.6 Luna	89.69%	91.99%	71.83%	95.55%	98.25%	99.39%	81.14%	85.06%
13	GPT-5.4 Mini (Reasoning)	88.66%	90.82%	74.97%	90.04%	94.24%	98.70%	83.22%	89.82%
14	Qwen3.6 Max Preview	88.42%	83.61%	67.96%	91.85%	98.07%	99.15%	89.87%	93.72%
15	GPT-5.4 Mini	88.10%	89.64%	75.74%	90.45%	94.65%	98.21%	79.92%	80.45%
16	GPT-5.4 Mini (Reasoning, Low)	87.72%	89.64%	74.97%	89.66%	95.16%	98.16%	78.74%	83.57%
17	Grok 4.5 (Reasoning, Low)	87.45%	88.61%	73.15%	91.72%	95.00%	89.93%	86.31%	90.94%
18	Grok 4.5 (Reasoning, High)	87.43%	88.48%	74.99%	92.01%	93.96%	89.17%	85.97%	94.12%
19	GPT-5.1	87.20%	88.21%	73.76%	87.44%	93.57%	93.87%	86.39%	90.73%
20	Qwen 3.5 397B A17B	86.93%	84.94%	68.63%	92.54%	94.84%	97.50%	83.12%	91.09%
21	GPT-5	86.87%	92.05%	62.58%	91.30%	92.06%	93.65%	89.59%	91.48%
22	Grok 4.20 (Reasoning)	86.25%	84.92%	74.25%	83.26%	94.23%	92.86%	87.99%	90.87%
23	Qwen 3.6 Flash	86.02%	82.10%	67.13%	86.74%	96.80%	97.83%	85.50%	89.31%
24	Qwen 3.6 35B	85.97%	81.28%	65.03%	89.07%	96.65%	97.44%	86.36%	87.66%
25	Claude Opus 4.8 (Reasoning, Low)	85.86%	90.38%	74.07%	87.92%	94.06%	85.67%	83.05%	91.89%
26	MoonshotAI: Kimi K2.6	85.47%	86.79%	68.21%	92.60%	95.55%	91.73%	77.97%	92.57%
27	Gemini 3.1 Pro (Preview)	85.44%	80.73%	63.42%	87.20%	95.06%	97.27%	88.95%	94.08%
28	Qwen3.7 Max	85.39%	82.38%	61.91%	88.93%	95.46%	96.29%	87.36%	94.55%
29	Claude Opus 4.8 (Reasoning)	85.25%	89.74%	72.75%	86.50%	93.97%	84.99%	83.58%	92.33%
30	Qwen 3.5 Plus (2026-04-20)	85.18%	82.23%	64.62%	85.08%	97.91%	96.76%	84.50%	89.79%
31	Grok 4.3 (Reasoning)	85.11%	85.99%	58.99%	90.45%	94.05%	93.58%	87.57%	90.99%
32	Qwen3 235B A22B Instruct 2507	84.81%	82.49%	81.37%	87.23%	95.70%	79.99%	82.05%	78.07%
33	Claude Opus 4.7	84.74%	90.95%	75.05%	88.63%	91.45%	80.25%	82.11%	89.90%
34	Claude Opus 4.7 (Reasoning)	84.73%	91.22%	72.71%	88.14%	92.86%	79.84%	83.59%	92.53%
35	Z.AI GLM 5 Turbo	84.66%	86.97%	75.38%	93.23%	87.80%	86.19%	78.37%	93.29%
36	Aion 3.0	84.64%	87.34%	72.32%	93.98%	92.17%	85.58%	76.47%	88.78%
37	Aion 3.0 Mini	84.60%	86.04%	71.45%	92.64%	90.67%	85.99%	80.84%	83.69%
38	MiniMax M3	84.57%	89.40%	70.33%	93.86%	90.97%	84.36%	78.49%	90.45%
39	Claude Opus 4.6 (Reasoning)	84.55%	88.14%	75.04%	93.56%	91.88%	82.92%	75.75%	95.06%
40	Grok 4.3	84.51%	84.86%	62.78%	87.13%	95.49%	91.18%	85.60%	78.00%
41	Qwen 3.5 9B	84.35%	87.56%	53.95%	91.95%	96.66%	96.17%	79.82%	84.05%
42	Claude Sonnet 4.5	84.19%	84.67%	78.05%	89.63%	89.39%	86.97%	76.41%	87.54%
43	Z.AI GLM 5.1	84.05%	85.25%	75.67%	92.52%	89.65%	83.70%	77.47%	93.74%
44	Writer: Palmyra X5	83.95%	82.97%	83.01%	84.42%	94.98%	79.92%	78.38%	78.11%
45	Z.AI GLM 5.2 (Reasoning, High)	83.92%	88.16%	73.96%	93.65%	90.45%	83.05%	74.28%	93.41%
46	Qwen 3.5 Flash	83.81%	84.96%	58.83%	87.13%	94.71%	95.18%	82.05%	85.66%
47	Claude Opus 4	83.79%	82.47%	77.58%	89.08%	90.42%	84.86%	78.30%	87.22%
48	DeepSeek V4 Pro	83.70%	85.40%	73.07%	91.48%	91.83%	83.03%	77.40%	82.05%
49	Z.AI GLM 5	83.63%	84.90%	77.33%	88.46%	88.49%	83.75%	78.86%	89.60%
50	Claude Opus 4.6	83.59%	88.68%	74.14%	92.37%	91.07%	82.67%	72.59%	92.31%
51	Qwen 3.5 35B	83.51%	85.05%	58.12%	89.61%	93.58%	93.58%	81.11%	87.01%
52	Grok 4.20	83.44%	83.35%	74.09%	77.13%	90.27%	89.30%	86.50%	81.21%
53	DeepSeek V4 Flash	83.42%	86.21%	69.82%	88.48%	90.79%	85.70%	79.51%	82.02%
54	Claude Sonnet 4.6	83.31%	87.17%	72.52%	95.20%	90.14%	78.39%	76.43%	90.66%
55	Claude Sonnet 4.6 (Reasoning)	83.09%	88.70%	71.90%	94.92%	89.19%	78.68%	75.13%	93.64%
56	DeepSeek V4 Flash (Reasoning)	83.03%	86.00%	70.46%	88.10%	92.27%	81.27%	80.09%	88.06%
57	Qwen 3.5 122B	83.02%	84.79%	56.46%	86.76%	94.27%	95.52%	80.31%	90.32%
58	DeepSeek V4 Pro (Reasoning)	82.99%	86.09%	73.38%	84.25%	91.70%	84.41%	78.10%	89.28%
59	Qwen 3.6 27B	82.81%	80.96%	63.42%	78.25%	96.75%	96.84%	80.66%	88.33%
60	o4 Mini High	82.72%	77.81%	63.78%	78.26%	97.56%	88.52%	90.38%	88.78%
61	Claude Sonnet 5	82.58%	89.56%	73.22%	91.19%	81.40%	82.26%	77.86%	87.34%
62	Qwen 3.5 27B	82.54%	84.16%	54.98%	88.67%	94.46%	94.50%	78.44%	90.05%
63	ByteDance Seed 2.0 Lite	82.35%	93.39%	58.28%	85.96%	90.78%	89.48%	76.22%	84.27%
64	DeepSeek V3 (2025-03-24)	82.34%	81.15%	73.86%	83.31%	95.33%	79.89%	80.49%	79.93%
65	o4 Mini	82.04%	78.02%	63.95%	78.87%	97.30%	87.50%	86.60%	86.56%
66	Mistral Large 2	81.86%	81.31%	72.75%	83.10%	91.94%	80.68%	81.36%	81.50%
67	Claude Opus 4.5	81.71%	84.65%	76.11%	88.91%	83.27%	83.45%	73.89%	89.60%
68	MiniMax M2.7	81.70%	85.80%	72.16%	88.91%	83.74%	84.86%	74.72%	86.23%
69	Mistral Medium 3.1	81.70%	82.67%	74.30%	81.51%	94.59%	77.16%	79.96%	76.08%
70	Mistral Small 4 (Reasoning)	81.67%	81.83%	77.22%	85.39%	90.49%	79.13%	75.97%	79.48%
71	ByteDance Seed 1.6 Flash	81.51%	90.73%	70.46%	79.96%	95.11%	77.28%	75.52%	70.92%
72	Claude Sonnet 5 (Reasoning, Low)	81.43%	89.01%	74.99%	87.10%	82.23%	81.53%	73.75%	90.16%
73	MoonshotAI: Kimi K2.5	81.35%	84.62%	70.84%	86.21%	93.06%	86.00%	67.36%	90.86%
74	Claude Sonnet 5 (Reasoning)	81.31%	89.71%	72.46%	87.18%	82.55%	81.18%	74.78%	90.40%
75	Qwen 3 32B	81.30%	82.63%	71.76%	78.83%	93.62%	79.28%	81.72%	79.37%
76	GPT-4.1	81.24%	82.39%	69.77%	76.96%	93.57%	80.93%	83.80%	86.82%
77	MiniMax M2.5	81.21%	86.13%	73.63%	88.93%	84.71%	78.48%	75.41%	86.71%
78	Mistral Large 3	81.21%	81.25%	72.38%	80.22%	92.61%	80.06%	80.74%	84.29%
79	Mistral Small 4	81.12%	80.83%	75.37%	82.49%	93.71%	78.11%	76.23%	75.23%
80	Xiaomi MIMO v2.5 Pro	81.08%	83.10%	68.44%	79.81%	92.48%	86.42%	76.24%	86.05%
81	Gemini 2.5 Pro	81.03%	78.06%	62.91%	77.40%	90.00%	90.61%	87.21%	88.44%
82	GPT-5.4 Nano (Reasoning)	80.97%	86.40%	69.53%	85.05%	84.09%	88.12%	72.62%	80.02%
83	GPT-5.4 Nano (Reasoning, Low)	80.93%	86.94%	71.57%	83.10%	84.72%	88.80%	70.47%	77.46%
84	Hermes 3 405B	80.92%	78.30%	69.94%	68.75%	93.61%	92.33%	82.60%	80.80%
85	GPT-5.4 Nano	80.50%	86.04%	71.90%	83.18%	83.70%	88.53%	69.68%	72.16%
86	GPT-5 Mini	80.48%	89.87%	60.91%	85.94%	83.16%	84.52%	78.48%	91.31%
87	GPT-5.2	80.36%	88.60%	67.99%	80.71%	87.55%	90.94%	66.36%	89.45%
88	Aion 2.0	80.24%	81.95%	64.90%	76.51%	89.80%	86.75%	81.53%	86.66%
89	ByteDance Seed 2.0 Mini	80.11%	90.38%	59.35%	81.36%	87.57%	80.08%	81.90%	85.69%
90	DeepSeek V3.2	79.95%	80.86%	66.11%	73.33%	90.65%	87.42%	81.32%	82.22%
91	Gemini 3.5 Flash (Reasoning)	79.87%	82.33%	66.61%	67.65%	91.71%	89.17%	81.76%	93.35%
92	Claude Sonnet 4	79.21%	79.20%	76.88%	82.84%	78.57%	84.00%	73.80%	87.64%
93	Xiaomi MIMO v2.5	79.16%	82.45%	66.42%	77.40%	88.79%	82.42%	77.49%	83.95%
94	Ministral 3 14B	79.11%	80.51%	74.94%	74.59%	92.74%	73.18%	78.70%	70.45%
95	WizardLM 2 8x22b	79.06%	80.21%	65.28%	77.45%	85.19%	86.84%	79.40%	71.45%
96	Claude Haiku 4.5	78.96%	84.13%	75.25%	82.25%	81.79%	78.41%	71.93%	83.36%
97	Z.AI GLM 4.7	78.89%	83.61%	61.49%	71.01%	91.38%	84.23%	81.62%	87.67%
98	Z.AI GLM 4.6	78.86%	79.06%	63.85%	74.32%	84.37%	87.76%	83.84%	87.64%
99	Gemma 3 27B	78.79%	75.45%	71.72%	64.44%	88.37%	88.98%	83.82%	75.70%
100	Gemini 3.5 Flash (Reasoning, Minimal)	78.55%	82.60%	68.64%	63.97%	88.91%	86.81%	80.34%	85.88%
101	ByteDance Seed 1.6	78.43%	87.67%	57.70%	85.62%	87.01%	74.93%	77.64%	89.59%
102	Gemma 4 31B (Reasoning)	78.13%	78.69%	60.53%	80.03%	85.05%	84.94%	79.53%	89.64%
103	DeepSeek V3 (2024-12-26)	77.88%	76.53%	66.31%	69.79%	91.42%	83.43%	79.81%	82.62%
104	Cohere Command R+ (Aug. 2024)	77.70%	76.55%	71.05%	64.24%	87.40%	89.16%	77.80%	67.04%
105	Gemini 2.5 Flash	77.57%	73.23%	65.37%	70.64%	83.37%	94.77%	78.05%	80.61%
106	DeepSeek V3.1	77.45%	78.57%	62.92%	68.61%	86.19%	84.49%	83.91%	82.35%
107	Hermes 3 70B	77.41%	77.97%	73.70%	59.25%	87.04%	88.06%	78.42%	69.74%
108	Z.AI GLM 4.7 Flash	77.36%	83.78%	61.69%	69.49%	89.60%	78.53%	81.09%	82.21%
109	Ministral 3 8B	77.26%	78.74%	70.61%	72.81%	90.74%	74.38%	76.24%	69.98%
110	DeepSeek-V2 Chat	77.20%	75.84%	66.87%	66.95%	91.52%	82.94%	79.10%	84.09%
111	Qwen 3.5 Plus (2026-02-15)	77.07%	81.88%	67.63%	61.06%	87.42%	92.52%	71.92%	86.17%
112	Ministral 8B	76.87%	78.83%	69.62%	76.29%	89.29%	73.33%	73.81%	63.77%
113	Mistral NeMO	76.72%	73.01%	59.98%	67.00%	89.84%	94.70%	75.80%	63.80%
114	Z.AI GLM 4.5	76.56%	80.07%	68.98%	73.22%	81.73%	83.00%	72.34%	84.95%
115	Gemma 4 26B (Reasoning)	76.38%	76.28%	59.82%	81.41%	78.14%	82.87%	79.74%	89.02%
116	Gemini 3.1 Flash Lite (Reasoning)	76.31%	78.50%	59.35%	81.09%	80.96%	78.50%	79.50%	85.91%
117	Gemini 2.5 Flash (Reasoning)	76.30%	71.84%	66.66%	65.33%	81.71%	94.83%	77.43%	84.14%
118	Gemini 3.1 Flash Lite	76.01%	78.59%	58.53%	78.90%	82.35%	77.70%	79.97%	85.09%
119	Gemini 3 Flash (Preview, Reasoning)	75.87%	82.18%	61.94%	69.48%	78.95%	81.52%	81.18%	89.93%
120	Gemini 3.1 Flash Lite (Preview)	75.78%	78.70%	59.92%	75.91%	82.09%	78.41%	79.66%	85.41%
121	Gemma 4 31B	75.59%	79.15%	62.09%	70.38%	83.35%	81.81%	76.74%	85.23%
122	GPT-4o, Aug. 6th (temp=1)	75.50%	71.49%	73.05%	59.42%	87.96%	80.80%	80.25%	81.28%
123	Ministral 3B	75.49%	76.30%	67.17%	75.29%	90.17%	73.22%	70.80%	59.25%
124	Ministral 3 3B	75.45%	75.23%	65.17%	74.49%	89.60%	77.57%	70.63%	65.02%
125	Gemma 3 12B	75.38%	72.08%	71.52%	54.87%	86.76%	84.22%	82.85%	76.07%
126	Gemma 4 26B	75.17%	77.47%	59.55%	73.77%	77.99%	81.90%	80.33%	84.89%
127	Qwen 2.5 72B	75.16%	73.92%	60.17%	64.34%	84.37%	95.34%	72.84%	73.17%
128	Gemini 2.5 Flash Lite	75.05%	71.91%	66.56%	62.67%	79.16%	93.78%	76.25%	79.91%
129	Gemini 3 Flash (Preview)	75.04%	83.34%	61.35%	64.78%	84.15%	76.32%	80.32%	85.47%
130	Z.AI GLM 4.5 Air	74.61%	80.00%	67.71%	65.43%	81.79%	84.17%	68.55%	80.74%
131	GPT-4.1 Mini	74.52%	72.34%	68.20%	57.72%	87.91%	80.59%	80.38%	81.40%
132	GPT-4o Mini (temp=1)	74.37%	70.73%	71.50%	53.50%	91.21%	81.11%	78.20%	77.82%
133	Cydonia 24B V4.1	74.19%	77.25%	78.35%	62.72%	77.12%	77.93%	71.78%	72.68%
134	Arcee AI: Trinity Mini	74.01%	75.18%	56.69%	63.42%	85.69%	83.32%	79.76%	67.68%
135	GPT-4o, Aug. 6th (temp=0)	73.65%	72.11%	58.95%	63.20%	84.90%	93.39%	69.33%	82.18%
136	GPT-4o Mini (temp=0)	73.10%	70.53%	59.43%	56.91%	88.83%	92.33%	70.56%	76.86%
137	Llama 3.1 70B	72.78%	74.82%	65.53%	70.76%	71.74%	82.99%	70.83%	77.41%
138	Gemma 3 4B	72.10%	69.45%	68.92%	52.95%	83.05%	78.08%	80.17%	66.33%
139	Mistral Small 3.2 24B	71.87%	72.69%	47.89%	68.93%	84.70%	88.45%	68.55%	77.36%
140	GPT-4.1 Nano	71.81%	68.54%	67.03%	55.61%	82.65%	76.30%	80.71%	69.90%
141	Gemini 2.5 Flash Lite (Reasoning)	71.64%	71.77%	65.69%	65.73%	72.59%	87.33%	66.75%	83.10%
142	Nemotron 3 Super	69.75%	76.58%	57.81%	67.38%	70.69%	81.62%	64.41%	81.69%
143	Inception Mercury 2	68.31%	74.37%	50.37%	59.94%	67.97%	89.69%	67.53%	81.99%
144	GPT-OSS 120B	67.85%	75.69%	50.96%	55.74%	70.06%	84.17%	70.48%	84.81%
145	GPT-5 Nano	67.04%	84.30%	60.85%	62.32%	66.77%	77.89%	50.07%	80.16%
146	Nemotron 3 Nano	65.87%	74.00%	52.17%	60.70%	59.84%	84.19%	64.30%	74.50%