AI-isms

Subcategory of Creative Writing. 146 models scored.

Model Leaderboard

All models ranked by their AI-isms subcategory score.

#	Model	AI-isms	Creative Writing	Overall
1	ByteDance Seed 2.0 Lite	93.39%	82.35%	84.27%
2	GPT-5.6 Terra	92.94%	90.92%	88.23%
3	GPT-5.6 Terra (Reasoning)	92.93%	90.72%	92.49%
4	GPT-5.6 Sol	92.68%	91.04%	90.76%
5	GPT-5.6 Sol (Reasoning)	92.56%	91.03%	95.15%
6	GPT-5.6 Luna (Reasoning)	92.47%	90.10%	90.61%
7	GPT-5.5 (Reasoning)	92.18%	90.26%	93.72%
8	GPT-5	92.05%	86.87%	91.48%
9	GPT-5.6 Luna	91.99%	89.69%	85.06%
10	GPT-5.4 (Reasoning)	91.56%	91.17%	93.85%
11	GPT-5.5	91.50%	90.39%	89.37%
12	GPT-5.5 (Reasoning, Low)	91.49%	90.24%	92.51%
13	Claude Opus 4.7 (Reasoning)	91.22%	84.73%	92.53%
14	GPT-5.4	91.06%	90.94%	84.31%
15	GPT-5.4 (Reasoning, Low)	91.02%	90.51%	90.91%
16	Claude Opus 4.7	90.95%	84.74%	89.90%
17	GPT-5.4 Mini (Reasoning)	90.82%	88.66%	89.82%
18	ByteDance Seed 1.6 Flash	90.73%	81.51%	70.92%
19	ByteDance Seed 2.0 Mini	90.38%	80.11%	85.69%
20	Claude Opus 4.8 (Reasoning, Low)	90.38%	85.86%	91.89%
21	GPT-5 Mini	89.87%	80.48%	91.31%
22	Claude Opus 4.8 (Reasoning)	89.74%	85.25%	92.33%
23	Claude Sonnet 5 (Reasoning)	89.71%	81.31%	90.40%
24	GPT-5.4 Mini	89.64%	88.10%	80.45%
25	GPT-5.4 Mini (Reasoning, Low)	89.64%	87.72%	83.57%
26	Claude Sonnet 5	89.56%	82.58%	87.34%
27	MiniMax M3	89.40%	84.57%	90.45%
28	Claude Sonnet 5 (Reasoning, Low)	89.01%	81.43%	90.16%
29	Claude Sonnet 4.6 (Reasoning)	88.70%	83.09%	93.64%
30	Claude Opus 4.6	88.68%	83.59%	92.31%
31	Grok 4.5 (Reasoning, Low)	88.61%	87.45%	90.94%
32	GPT-5.2	88.60%	80.36%	89.45%
33	Grok 4.5 (Reasoning, High)	88.48%	87.43%	94.12%
34	GPT-5.1	88.21%	87.20%	90.73%
35	Z.AI GLM 5.2 (Reasoning, High)	88.16%	83.92%	93.41%
36	Claude Opus 4.6 (Reasoning)	88.14%	84.55%	95.06%
37	ByteDance Seed 1.6	87.67%	78.43%	89.59%
38	Qwen 3.5 9B	87.56%	84.35%	84.05%
39	Aion 3.0	87.34%	84.64%	88.78%
40	Claude Sonnet 4.6	87.17%	83.31%	90.66%
41	Z.AI GLM 5 Turbo	86.97%	84.66%	93.29%
42	GPT-5.4 Nano (Reasoning, Low)	86.94%	80.93%	77.46%
43	MoonshotAI: Kimi K2.6	86.79%	85.47%	92.57%
44	GPT-5.4 Nano (Reasoning)	86.40%	80.97%	80.02%
45	DeepSeek V4 Flash	86.21%	83.42%	82.02%
46	MiniMax M2.5	86.13%	81.21%	86.71%
47	DeepSeek V4 Pro (Reasoning)	86.09%	82.99%	89.28%
48	Aion 3.0 Mini	86.04%	84.60%	83.69%
49	GPT-5.4 Nano	86.04%	80.50%	72.16%
50	DeepSeek V4 Flash (Reasoning)	86.00%	83.03%	88.06%
51	Grok 4.3 (Reasoning)	85.99%	85.11%	90.99%
52	MiniMax M2.7	85.80%	81.70%	86.23%
53	DeepSeek V4 Pro	85.40%	83.70%	82.05%
54	Z.AI GLM 5.1	85.25%	84.05%	93.74%
55	Qwen 3.5 35B	85.05%	83.51%	87.01%
56	Qwen 3.5 Flash	84.96%	83.81%	85.66%
57	Qwen 3.5 397B A17B	84.94%	86.93%	91.09%
58	Grok 4.20 (Reasoning)	84.92%	86.25%	90.87%
59	Z.AI GLM 5	84.90%	83.63%	89.60%
60	Grok 4.3	84.86%	84.51%	78.00%
61	Qwen 3.5 122B	84.79%	83.02%	90.32%
62	Claude Sonnet 4.5	84.67%	84.19%	87.54%
63	Claude Opus 4.5	84.65%	81.71%	89.60%
64	MoonshotAI: Kimi K2.5	84.62%	81.35%	90.86%
65	GPT-5 Nano	84.30%	67.04%	80.16%
66	Qwen 3.5 27B	84.16%	82.54%	90.05%
67	Claude Haiku 4.5	84.13%	78.96%	83.36%
68	Z.AI GLM 4.7 Flash	83.78%	77.36%	82.21%
69	Qwen3.6 Max Preview	83.61%	88.42%	93.72%
70	Z.AI GLM 4.7	83.61%	78.89%	87.67%
71	Grok 4.20	83.35%	83.44%	81.21%
72	Gemini 3 Flash (Preview)	83.34%	75.04%	85.47%
73	Xiaomi MIMO v2.5 Pro	83.10%	81.08%	86.05%
74	Writer: Palmyra X5	82.97%	83.95%	78.11%
75	Mistral Medium 3.1	82.67%	81.70%	76.08%
76	Qwen 3 32B	82.63%	81.30%	79.37%
77	Gemini 3.5 Flash (Reasoning, Minimal)	82.60%	78.55%	85.88%
78	Qwen3 235B A22B Instruct 2507	82.49%	84.81%	78.07%
79	Claude Opus 4	82.47%	83.79%	87.22%
80	Xiaomi MIMO v2.5	82.45%	79.16%	83.95%
81	GPT-4.1	82.39%	81.24%	86.82%
82	Qwen3.7 Max	82.38%	85.39%	94.55%
83	Gemini 3.5 Flash (Reasoning)	82.33%	79.87%	93.35%
84	Qwen 3.5 Plus (2026-04-20)	82.23%	85.18%	89.79%
85	Gemini 3 Flash (Preview, Reasoning)	82.18%	75.87%	89.93%
86	Qwen 3.6 Flash	82.10%	86.02%	89.31%
87	Aion 2.0	81.95%	80.24%	86.66%
88	Qwen 3.5 Plus (2026-02-15)	81.88%	77.07%	86.17%
89	Mistral Small 4 (Reasoning)	81.83%	81.67%	79.48%
90	Mistral Large 2	81.31%	81.86%	81.50%
91	Qwen 3.6 35B	81.28%	85.97%	87.66%
92	Mistral Large 3	81.25%	81.21%	84.29%
93	DeepSeek V3 (2025-03-24)	81.15%	82.34%	79.93%
94	Qwen 3.6 27B	80.96%	82.81%	88.33%
95	DeepSeek V3.2	80.86%	79.95%	82.22%
96	Mistral Small 4	80.83%	81.12%	75.23%
97	Gemini 3.1 Pro (Preview)	80.73%	85.44%	94.08%
98	Ministral 3 14B	80.51%	79.11%	70.45%
99	WizardLM 2 8x22b	80.21%	79.06%	71.45%
100	Z.AI GLM 4.5	80.07%	76.56%	84.95%
101	Z.AI GLM 4.5 Air	80.00%	74.61%	80.74%
102	Claude Sonnet 4	79.20%	79.21%	87.64%
103	Gemma 4 31B	79.15%	75.59%	85.23%
104	Z.AI GLM 4.6	79.06%	78.86%	87.64%
105	Ministral 8B	78.83%	76.87%	63.77%
106	Ministral 3 8B	78.74%	77.26%	69.98%
107	Gemini 3.1 Flash Lite (Preview)	78.70%	75.78%	85.41%
108	Gemma 4 31B (Reasoning)	78.69%	78.13%	89.64%
109	Gemini 3.1 Flash Lite	78.59%	76.01%	85.09%
110	DeepSeek V3.1	78.57%	77.45%	82.35%
111	Gemini 3.1 Flash Lite (Reasoning)	78.50%	76.31%	85.91%
112	Hermes 3 405B	78.30%	80.92%	80.80%
113	Gemini 2.5 Pro	78.06%	81.03%	88.44%
114	o4 Mini	78.02%	82.04%	86.56%
115	Hermes 3 70B	77.97%	77.41%	69.74%
116	o4 Mini High	77.81%	82.72%	88.78%
117	Gemma 4 26B	77.47%	75.17%	84.89%
118	Cydonia 24B V4.1	77.25%	74.19%	72.68%
119	Nemotron 3 Super	76.58%	69.75%	81.69%
120	Cohere Command R+ (Aug. 2024)	76.55%	77.70%	67.04%
121	DeepSeek V3 (2024-12-26)	76.53%	77.88%	82.62%
122	Ministral 3B	76.30%	75.49%	59.25%
123	Gemma 4 26B (Reasoning)	76.28%	76.38%	89.02%
124	DeepSeek-V2 Chat	75.84%	77.20%	84.09%
125	GPT-OSS 120B	75.69%	67.85%	84.81%
126	Gemma 3 27B	75.45%	78.79%	75.70%
127	Ministral 3 3B	75.23%	75.45%	65.02%
128	Arcee AI: Trinity Mini	75.18%	74.01%	67.68%
129	Llama 3.1 70B	74.82%	72.78%	77.41%
130	Inception Mercury 2	74.37%	68.31%	81.99%
131	Nemotron 3 Nano	74.00%	65.87%	74.50%
132	Qwen 2.5 72B	73.92%	75.16%	73.17%
133	Gemini 2.5 Flash	73.23%	77.57%	80.61%
134	Mistral NeMO	73.01%	76.72%	63.80%
135	Mistral Small 3.2 24B	72.69%	71.87%	77.36%
136	GPT-4.1 Mini	72.34%	74.52%	81.40%
137	GPT-4o, Aug. 6th (temp=0)	72.11%	73.65%	82.18%
138	Gemma 3 12B	72.08%	75.38%	76.07%
139	Gemini 2.5 Flash Lite	71.91%	75.05%	79.91%
140	Gemini 2.5 Flash (Reasoning)	71.84%	76.30%	84.14%
141	Gemini 2.5 Flash Lite (Reasoning)	71.77%	71.64%	83.10%
142	GPT-4o, Aug. 6th (temp=1)	71.49%	75.50%	81.28%
143	GPT-4o Mini (temp=1)	70.73%	74.37%	77.82%
144	GPT-4o Mini (temp=0)	70.53%	73.10%	76.86%
145	Gemma 3 4B	69.45%	72.10%	66.33%
146	GPT-4.1 Nano	68.54%	71.81%	69.90%