Horror: alone in an eerie place at night

Bad Writing Habits

Detects common prose quality anti-patterns in AI-generated creative writing, including passive voice, past progressive overuse, weak dialogue tags, filter words, purple prose, cliches, AI-ism words/adverbs/names, and more.

Creative Writing Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.5 (Reasoning, Low)	89%
GPT-5.4 (Reasoning)	88%
GPT-5.4	88%
Qwen3.6 Max Preview	88%
GPT-5.5 (Reasoning)	88%
GPT-5.4 (Reasoning, Low)	86%
GPT-5.4 Mini	86%
GPT-5.5	86%
Qwen 3.5 397B A17B	86%
GPT-5.4 Mini (Reasoning, Low)	86%
GPT-5.4 Mini (Reasoning)	85%
DeepSeek V3 (2025-03-24)	85%
Gemini 3.1 Pro (Preview)	85%
Claude Opus 4.5	84%
Claude Sonnet 5	83%
Z.AI GLM 5 Turbo	83%
Claude Sonnet 4.6 (Reasoning)	83%
Qwen 3.6 Flash	83%
Claude Opus 4.6 (Reasoning)	83%
GPT-5	83%

	Score	Cost	Time
DeepSeek V3 (2025-03-24)	85%	$0.0011	25.4s
GPT-5.4 Mini (Reasoning, Low)	86%	$0.013	15.6s
GPT-5.4 Mini (Reasoning)	85%	$0.015	18.0s
Qwen 3.6 35B	83%	$0.0063	47.2s
GPT-5.4 Mini	86%	$0.013	15.9s
Qwen 3.5 Flash	81%	$0.0015	28.4s
DeepSeek V4 Flash	83%	$0.0006	28.0s
Z.AI GLM 5	82%	$0.0072	59.0s
Mistral Small 4	83%	$0.0012	21.9s
Mistral NeMO	77%	$0.0003	10.0s
Qwen 3.5 397B A17B	86%	$0.017	1.7m
Z.AI GLM 5 Turbo	83%	$0.0066	34.0s
Qwen 3.6 Flash	83%	$0.0095	43.2s
Mistral Small 4 (Reasoning)	80%	$0.0021	28.9s
DeepSeek V4 Flash (Reasoning)	81%	$0.0005	26.0s
Qwen 3.5 9B	79%	$0.0006	53.5s
Ministral 3 3B	77%	$0.0003	7.5s
Gemma 3 12B	78%	$0.0002	36.7s
MiniMax M3	83%	$0.0029	1.9m
Ministral 8B	78%	$0.0002	11.1s

	Score	Consistency	Stability
Qwen3.6 Max Preview	88%	98%	86%
GPT-5.4	88%	97%	86%
GPT-5.5 (Reasoning, Low)	89%	96%	85%
GPT-5.5 (Reasoning)	88%	95%	83%
GPT-5.4 Mini (Reasoning)	85%	97%	83%
GPT-5.4 (Reasoning)	88%	95%	82%
GPT-5.5	86%	95%	82%
GPT-5.4 (Reasoning, Low)	86%	95%	82%
GPT-5.4 Mini	86%	96%	82%
GPT-5.4 Mini (Reasoning, Low)	86%	95%	82%
Qwen 3.5 397B A17B	86%	95%	81%
Claude Opus 4.6 (Reasoning)	83%	97%	80%
DeepSeek V3 (2025-03-24)	85%	94%	80%
Claude Opus 4.6	82%	96%	80%
GPT-5.1	83%	95%	79%
Claude Opus 4.5	84%	94%	79%
MoonshotAI: Kimi K2.6	82%	96%	79%
GPT-5	83%	96%	79%
Qwen 3.5 Flash	81%	95%	79%
Claude Sonnet 4.6 (Reasoning)	83%	93%	78%

	Score	Cost	Speed	Stability
GPT-5.4 Mini (Reasoning)	85%	$0.015	18.0s	83%
GPT-5.4 Mini	86%	$0.013	15.9s	82%
GPT-5.4 Mini (Reasoning, Low)	86%	$0.013	15.6s	82%
DeepSeek V3 (2025-03-24)	85%	$0.0011	25.4s	80%
Mistral Small 4	83%	$0.0012	21.9s	78%
DeepSeek V4 Flash	83%	$0.0006	28.0s	77%
Qwen 3.5 Flash	81%	$0.0015	28.4s	79%
GPT-5.4	88%	$0.048	1.4m	86%
Z.AI GLM 5 Turbo	83%	$0.0066	34.0s	78%
DeepSeek V4 Flash (Reasoning)	81%	$0.0005	26.0s	77%
Qwen 3.6 35B	83%	$0.0063	47.2s	78%
Qwen 3.5 397B A17B	86%	$0.017	1.7m	81%
Claude Sonnet 5	83%	$0.022	32.4s	77%
Qwen 3.6 Flash	83%	$0.0095	43.2s	75%
Ministral 3 14B	78%	$0.0005	13.1s	74%
Z.AI GLM 5	82%	$0.0072	59.0s	76%
Mistral Large 2	81%	$0.0094	25.1s	75%
Mistral Small 4 (Reasoning)	80%	$0.0021	28.9s	74%
Writer: Palmyra X5	81%	$0.011	22.8s	73%
Claude Sonnet 4.6 (Reasoning)	83%	$0.035	50.5s	78%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
106	GPT-5.5 (Reasoning, Low)	$0.151	2.1m	85%	91	91	89	87	86	89%
55	GPT-5.4 (Reasoning)	$0.074	2.1m	82%	93	88	87	87	86	88%
8	GPT-5.4	$0.048	1.4m	86%	90	89	89	87	86	88%
44	Qwen3.6 Max Preview	$0.043	3.2m	86%	89	89	88	88	86	88%
105	GPT-5.5 (Reasoning)	$0.144	1.8m	83%	91	89	88	85	85	88%
24	GPT-5.4 (Reasoning, Low)	$0.055	1.4m	82%	90	89	86	85	82	86%
2	GPT-5.4 Mini	$0.013	15.9s	82%	89	88	85	85	84	86%
110	GPT-5.5	$0.141	1.5m	82%	90	87	87	86	82	86%
12	Qwen 3.5 397B A17B	$0.017	1.7m	81%	89	87	86	86	81	86%
3	GPT-5.4 Mini (Reasoning, Low)	$0.013	15.6s	82%	88	88	86	85	82	86%
1	GPT-5.4 Mini (Reasoning)	$0.015	18.0s	83%	87	86	86	86	82	85%
4	DeepSeek V3 (2025-03-24)	$0.0011	25.4s	80%	90	87	85	82	82	85%
71	Gemini 3.1 Pro (Preview)	$0.076	1.4m	78%	90	86	83	82	82	85%
35	Claude Opus 4.5	$0.056	50.8s	79%	88	87	84	82	80	84%
13	Claude Sonnet 5	$0.022	32.4s	77%	90	85	83	80	79	83%
9	Z.AI GLM 5 Turbo	$0.0066	34.0s	78%	89	83	82	82	80	83%
20	Claude Sonnet 4.6 (Reasoning)	$0.035	50.5s	78%	88	85	84	81	78	83%
14	Qwen 3.6 Flash	$0.0095	43.2s	75%	90	87	82	79	77	83%
66	Claude Opus 4.6 (Reasoning)	$0.075	1.3m	80%	86	83	83	82	82	83%
100	GPT-5	$0.067	2.5m	79%	86	85	82	82	80	83%
29	MiniMax M3	$0.0029	1.9m	77%	88	86	83	80	79	83%
6	DeepSeek V4 Flash	$0.0006	28.0s	77%	89	84	83	81	79	83%
59	GPT-5.1	$0.056	1.4m	79%	87	84	83	81	80	83%
5	Mistral Small 4	$0.0012	21.9s	78%	86	84	82	81	80	83%
11	Qwen 3.6 35B	$0.0063	47.2s	78%	87	87	86	78	76	83%
16	Z.AI GLM 5	$0.0072	59.0s	76%	88	87	84	78	76	82%
22	Z.AI GLM 5.1	$0.0092	1.5m	78%	87	83	83	82	78	82%
67	Claude Opus 4.6	$0.072	1.2m	80%	85	84	83	82	79	82%
86	MoonshotAI: Kimi K2.6	$0.030	3.0m	79%	84	84	82	81	79	82%
7	Qwen 3.5 Flash	$0.0015	28.4s	79%	84	83	83	78	78	81%
19	Writer: Palmyra X5	$0.011	22.8s	73%	90	80	80	80	78	81%
53	Claude Opus 4.7	$0.054	27.1s	76%	85	84	81	80	77	81%
95	Qwen3.7 Max	$0.051	1.8m	75%	87	82	80	79	78	81%
32	Claude Sonnet 4.6	$0.029	41.9s	77%	85	82	81	80	77	81%
21	GPT-4.1	$0.016	32.8s	75%	86	83	81	79	75	81%
131	DeepSeek V4 Pro (Reasoning)	$0.036	4.9m	72%	89	84	81	76	75	81%
10	DeepSeek V4 Flash (Reasoning)	$0.0005	26.0s	77%	83	82	80	80	78	81%
28	Gemini 2.5 Flash	$0.0055	11.3s	70%	89	84	78	77	76	81%
43	Qwen3 235B A22B Instruct 2507	$0.0011	1.1m	73%	88	83	80	77	75	81%
17	Mistral Large 2	$0.0094	25.1s	75%	87	81	80	79	76	81%
36	Qwen 3 32B	$0.0014	47.4s	72%	87	83	79	76	76	80%
27	GPT-4o, Aug. 6th (temp=1)	$0.017	31.8s	75%	84	82	80	78	76	80%
108	Qwen 3.5 Plus (2026-04-20)	$0.014	1.9m	67%	94	81	80	76	70	80%
18	Mistral Small 4 (Reasoning)	$0.0021	28.9s	74%	85	81	80	79	73	80%
25	Mistral Medium 3.1	$0.0043	34.7s	74%	84	83	79	77	76	80%
84	Grok 4.3 (Reasoning)	$0.017	2.4m	76%	83	81	79	79	76	80%
83	Claude Opus 4.8 (Reasoning)	$0.057	38.3s	73%	86	83	80	77	72	80%
31	Grok 4.20 (Reasoning)	$0.011	1.0m	77%	82	81	80	79	77	80%
89	DeepSeek V3.2	$0.0011	3.2m	76%	83	80	79	78	78	80%
79	Claude Opus 4.8 (Reasoning, Low)	$0.059	39.2s	74%	84	79	79	77	76	79%
49	GPT-5.4 Nano (Reasoning, Low)	$0.0054	20.0s	70%	85	83	77	76	73	79%
63	Claude Sonnet 4.5	$0.027	35.1s	73%	85	80	79	77	73	79%
61	Gemini 2.5 Pro	$0.035	37.1s	75%	82	81	80	77	75	79%
50	Qwen 3.5 9B	$0.0006	53.5s	73%	83	83	82	77	69	79%
128	Claude Opus 4	$0.156	1.2m	75%	82	79	78	78	77	79%
57	Grok 4.20	$0.0083	51.2s	72%	84	83	80	76	70	79%
15	Ministral 3 14B	$0.0005	13.1s	74%	82	80	78	77	75	78%
30	Xiaomi MIMO v2.5	$0.0054	32.6s	75%	82	80	80	76	74	78%
42	o4 Mini High	$0.018	29.8s	75%	81	81	78	76	76	78%
38	Qwen 3.5 35B	$0.0078	27.8s	73%	83	78	78	78	74	78%
56	Grok 4.3	$0.0055	31.3s	70%	86	79	77	77	72	78%
47	MiniMax M2.5	$0.0027	33.4s	72%	84	80	78	77	72	78%
33	ByteDance Seed 1.6 Flash	$0.0011	28.6s	73%	83	80	78	76	74	78%
80	Qwen 3.6 27B	$0.017	1.7m	74%	83	80	79	75	74	78%
96	GPT-5.2	$0.054	1.5m	76%	80	79	78	77	77	78%
23	Ministral 8B	$0.0002	11.1s	73%	84	79	79	76	72	78%
39	Gemma 3 12B	$0.0002	36.7s	73%	81	81	80	80	69	78%
54	Ministral 3 8B	$0.0004	8.4s	68%	87	80	76	76	71	78%
98	ByteDance Seed 2.0 Lite	$0.013	2.4m	74%	80	80	78	78	73	78%
45	Mistral Large 3	$0.0022	23.7s	71%	84	79	76	76	74	78%
46	Qwen 3.5 122B	$0.011	27.0s	73%	81	80	77	76	74	78%
62	Claude Sonnet 4	$0.027	41.6s	75%	81	80	78	76	75	78%
52	MoonshotAI: Kimi K2.5	$0.010	1.1m	76%	79	79	79	78	74	78%
99	Hermes 3 70B	$0.0006	32.2s	61%	91	85	74	69	69	78%
85	Claude Sonnet 5 (Reasoning, Low)	$0.022	32.1s	67%	88	81	79	75	66	78%
34	GPT-5.4 Nano	$0.0056	21.3s	74%	81	78	77	77	76	78%
78	DeepSeek V4 Pro	$0.0018	57.1s	67%	86	81	75	75	71	78%
26	Ministral 3 3B	$0.0003	7.5s	73%	81	80	80	77	69	77%
103	Claude Opus 4.7 (Reasoning)	$0.057	28.0s	70%	82	82	77	75	70	77%
75	Xiaomi MIMO v2.5 Pro	$0.0072	48.6s	68%	83	82	75	74	73	77%
41	Gemini 3.5 Flash (Reasoning, Minimal)	$0.019	13.7s	75%	80	79	77	76	75	77%
65	Qwen 3.5 27B	$0.0090	46.7s	71%	84	80	80	71	71	77%
69	Gemma 3 27B	$0.0004	47.6s	69%	85	78	75	75	73	77%
48	Mistral NeMO	$0.0003	10.0s	70%	84	83	81	69	68	77%
64	GPT-5 Mini	$0.0098	41.5s	72%	81	80	77	74	72	77%
40	GPT-5.4 Nano (Reasoning)	$0.0051	18.9s	73%	80	78	78	77	71	77%
90	Gemini 3.5 Flash (Reasoning)	$0.039	23.7s	69%	85	80	78	71	71	77%
77	Claude Haiku 4.5	$0.0096	20.7s	66%	88	80	78	74	65	77%
70	Z.AI GLM 5.2 (Reasoning, High)	$0.0099	55.3s	72%	82	81	80	72	69	77%
37	Gemini 2.5 Flash Lite	$0.0007	8.7s	72%	82	78	77	74	72	76%
74	MiniMax M2.7	$0.0044	56.7s	70%	83	77	76	74	70	76%
88	Hermes 3 405B	$0.0018	1.3m	69%	85	78	77	71	69	76%
60	GPT-4o Mini (temp=1)	$0.0011	28.0s	71%	81	76	76	73	73	76%
94	Aion 2.0	$0.0051	1.3m	69%	81	77	74	74	71	75%
82	DeepSeek V3.1	$0.0019	1.5m	72%	78	78	77	74	70	75%
51	Ministral 3B	$0.0001	4.2s	71%	78	78	76	76	69	75%
101	DeepSeek V3 (2024-12-26)	$0.0017	45.8s	64%	86	75	73	72	69	75%
117	Cohere Command R+ (Aug. 2024)	$0.021	1.2m	68%	80	79	74	73	69	75%
109	DeepSeek-V2 Chat	$0.0017	39.2s	63%	85	79	71	71	68	75%
121	Z.AI GLM 4.7	$0.0086	2.1m	69%	78	78	73	72	72	75%
81	o4 Mini	$0.013	21.1s	69%	81	75	74	73	69	74%
93	Gemma 4 31B (Reasoning)	$0.0010	1.6m	72%	76	75	75	75	70	74%
73	Qwen 3.5 Plus (2026-02-15)	$0.0052	30.7s	70%	78	74	73	73	73	74%
68	Gemini 3 Flash (Preview)	$0.0064	17.3s	70%	77	76	73	73	71	74%
104	Claude Sonnet 5 (Reasoning)	$0.022	31.4s	67%	79	79	74	72	68	74%
116	Z.AI GLM 4.6	$0.0055	41.3s	63%	84	75	71	70	70	74%
72	GPT-4.1 Mini	$0.0026	19.2s	69%	79	78	76	71	67	74%
124	Gemini 3 Pro (Preview)	$0.049	50.2s	69%	79	75	74	73	69	74%
58	Arcee AI: Trinity Mini	$0.0003	9.5s	71%	75	75	74	73	71	74%
112	Gemma 4 31B	$0.0008	1.4m	68%	79	76	74	70	69	74%
137	ByteDance Seed 2.0 Mini	$0.0043	4.8m	67%	80	80	78	66	64	74%
91	Gemini 3.1 Flash Lite	$0.0028	8.9s	64%	84	72	72	71	68	73%
119	Qwen 2.5 72B	$0.0006	31.0s	61%	82	77	69	69	67	73%
102	Cydonia 24B V4.1	$0.0011	47.3s	67%	77	76	73	72	65	73%
125	Llama 3.1 70B	$0.0007	30.9s	59%	84	77	69	68	64	72%
76	Gemini 3.1 Flash Lite (Reasoning)	$0.0027	8.8s	68%	77	75	73	69	68	72%
118	Z.AI GLM 4.5	$0.0049	44.0s	64%	79	72	70	70	69	72%
87	Gemma 3 4B	$0.0001	17.2s	67%	77	72	71	70	68	72%
97	Gemini 2.5 Flash Lite (Reasoning)	$0.0022	21.1s	66%	78	72	71	70	68	72%
115	Gemini 2.5 Flash (Reasoning)	$0.013	25.6s	66%	78	76	74	67	64	72%
111	Gemini 3 Flash (Preview, Reasoning)	$0.0097	24.1s	67%	74	73	70	69	68	71%
122	Z.AI GLM 4.7 Flash	$0.0015	1.2m	67%	76	71	71	69	67	71%
92	GPT-4.1 Nano	$0.0006	10.6s	67%	75	72	71	68	67	71%
138	Mistral Small 3.2 24B	$0.0039	4.0m	61%	79	73	72	70	57	70%
113	GPT-4o, Aug. 6th (temp=0)	$0.016	19.1s	68%	72	72	72	67	66	70%
114	Llama 3.1 Nemotron 70B	$0.0022	33.4s	67%	73	72	71	69	65	70%
134	Gemma 4 26B (Reasoning)	$0.0010	3.6m	66%	74	70	70	68	66	70%
107	WizardLM 2 8x22b	$0.0016	23.4s	68%	70	69	69	69	66	69%
120	GPT-4o Mini (temp=0)	$0.0011	26.5s	65%	74	71	70	66	63	69%
130	ByteDance Seed 1.6	$0.013	2.5m	66%	71	70	68	67	67	68%
123	Gemini 3.1 Flash Lite (Preview)	$0.0027	8.8s	64%	70	69	66	66	65	67%
126	Z.AI GLM 4.5 Air	$0.0029	57.2s	61%	74	68	67	63	62	67%
132	GPT-5 Nano	$0.0044	1.5m	61%	72	66	66	65	60	66%
129	Nemotron 3 Super	$0.0000	1.0m	60%	68	68	63	62	61	64%
133	Gemma 4 26B	$0.0007	49.6s	57%	70	68	62	62	59	64%
136	GPT-OSS 120B	$0.0014	1.1m	58%	65	64	61	60	59	62%
127	Inception Mercury 2	$0.0029	7.7s	59%	64	62	61	61	58	61%
135	Nemotron 3 Nano	$0.0007	43.9s	57%	65	63	60	59	56	61%
77.40%

Median	Evaluator	Top 3	Flop 3
75.1%	"Not X but Y" pattern overuse	100Ministral 3 3B 100Claude Sonnet 5 100WizardLM 2 8x22b	0GPT-5 Nano 0GPT-5 Mini 6Nemotron 3 Nano
85.8%	Adverb-first sentence starts	100GPT-4.1 Nano 100Gemini 2.5 Flash (Reasoning) 100Gemma 4 31B (Reasoning)	17Inception Mercury 2 18Qwen 2.5 72B 23WizardLM 2 8x22b
80.0%	Adverbs in dialogue tags	100Qwen 3.6 Flash 100DeepSeek V3.2 100Qwen 3.5 Plus (2026-02-15)	31Claude Opus 4.8 (Reasoning, Low) 40GPT-4o, Aug. 6th (temp=1) 40Ministral 3 14B
85.2%	AI-ism adverb frequency	97Qwen 3.5 9B 97ByteDance Seed 1.6 97o4 Mini High	63Claude Sonnet 4.6 68Cydonia 24B V4.1 68GPT-4.1 Nano
100.0%	AI-ism character names	100Mistral Large 3 100DeepSeek V4 Pro (Reasoning) 100GPT-5.4	96DeepSeek V4 Pro 96Grok 4.20 (Reasoning) 96Claude Sonnet 4.5
100.0%	AI-ism location names	100DeepSeek V3.1 100Arcee AI: Trinity Mini 100Claude Sonnet 5	96Qwen 3 32B
24.5%	AI-ism word frequency	73GPT-5 69ByteDance Seed 2.0 Mini 69MiniMax M3	0GPT-4.1 Mini 0DeepSeek-V2 Chat 0Inception Mercury 2
100.0%	Cliché density	100GPT-5 Mini 100Claude Opus 4.8 (Reasoning) 100DeepSeek V3.2	60GPT-4.1 Nano 67Llama 3.1 70B 73GPT-4o, Aug. 6th (temp=0)
41.4%	Dialogue tag variety (said vs. fancy)	100MiniMax M3 100Ministral 3 3B 100Qwen 3.5 35B	0Nemotron 3 Super 0Gemini 3.1 Flash Lite (Preview) 0Gemini 2.5 Flash (Reasoning)
5.5%	Em-dash & semicolon overuse	100Qwen3.7 Max 100GPT-5.4 Mini 100Qwen3.6 Max Preview	0Claude Opus 4.6 (Reasoning) 0Gemini 3.1 Flash Lite (Preview) 0GPT-5 Mini
100.0%	Emotion telling (show vs. tell)	100GPT-5 Nano 100MiniMax M2.7 100ByteDance Seed 1.6 Flash	94Llama 3.1 70B 94GPT-4o Mini (temp=0) 95GPT-4o, Aug. 6th (temp=0)
90.8%	Filter word density	100GPT-5.1 100Claude Sonnet 4.6 (Reasoning) 100Claude Opus 4.8 (Reasoning, Low)	0GPT-OSS 120B 0Inception Mercury 2 0Nemotron 3 Nano
100.0%	Gibberish response detection	100Mistral Small 4 100GPT-5.4 Mini (Reasoning) 100Xiaomi MIMO v2.5 Pro	79Qwen 2.5 72B 80ByteDance Seed 2.0 Lite 98Llama 3.1 Nemotron 70B
100.0%	Markdown formatting overuse	100Qwen 3.5 Flash 100DeepSeek V4 Flash (Reasoning) 100Gemma 4 31B	83Mistral Medium 3.1 86ByteDance Seed 1.6 Flash 86Qwen3 235B A22B Instruct 2507
100.0%	Missing dialogue indicators (quotation marks)	100Cohere Command R+ (Aug. 2024) 100DeepSeek V3 (2024-12-26) 100Qwen 2.5 72B	77Z.AI GLM 4.6 78Gemma 3 27B 80Mistral Small 3.2 24B
99.3%	Name drop frequency	100MiniMax M2.5 100GPT-5.4 Mini (Reasoning) 100Gemini 2.5 Pro	54Qwen 2.5 72B 57GPT-5.5 (Reasoning, Low) 57GPT-5.5 (Reasoning)
64.8%	Narrator intent-glossing	100o4 Mini High 100DeepSeek V3 (2025-03-24) 100GPT-5.5	0Inception Mercury 2 0Nemotron 3 Nano 0Nemotron 3 Super
100.0%	Overuse of "that" (subordinate clause padding)	100Gemini 3.5 Flash (Reasoning, Minimal) 100GPT-5.5 (Reasoning, Low) 100GPT-5.4 Mini	60ByteDance Seed 1.6 60Claude Sonnet 5 (Reasoning) 65GPT-5 Nano
100.0%	Paragraph length variance	100Gemini 3 Flash (Preview) 100Claude Sonnet 5 (Reasoning, Low) 100Z.AI GLM 5	6Arcee AI: Trinity Mini 22Grok 4.3 (Reasoning) 29GPT-5 Nano
96.1%	Passive voice overuse	100Grok 4.3 (Reasoning) 100o4 Mini High 100GPT-5.5 (Reasoning)	73ByteDance Seed 1.6 75ByteDance Seed 2.0 Mini 86GPT-OSS 120B
74.1%	Past progressive (was/were + -ing) overuse	100GPT-5.1 100GPT-5.5 (Reasoning, Low) 100GPT-5	1Qwen3.7 Max 2Gemma 4 31B 2Gemini 3.5 Flash (Reasoning)
77.9%	Pronoun-first sentence starts	100Claude Opus 4.5 100GPT-5.4 (Reasoning) 100GPT-5.5 (Reasoning)	7Mistral Small 3.2 24B 13Gemini 3.1 Flash Lite 22Gemma 4 26B
94.1%	Purple prose (modifier overload)	100Nemotron 3 Nano 100Nemotron 3 Super 100Qwen 2.5 72B	79Gemini 2.5 Flash (Reasoning) 79GPT-5.4 (Reasoning) 79GPT-4.1 Nano
100.0%	Repeated phrase echo	100Claude Sonnet 4.6 100Claude Sonnet 5 100DeepSeek V3 (2024-12-26)	—
100.0%	Sentence length variance	100Ministral 3 14B 100Xiaomi MIMO v2.5 Pro 100Claude Sonnet 5	70GPT-4o, Aug. 6th (temp=0) 81WizardLM 2 8x22b 92Cohere Command R+ (Aug. 2024)
40.1%	Sentence opener variety	71GPT-4o, Aug. 6th (temp=1) 70GPT-4o Mini (temp=1) 70Llama 3.1 Nemotron 70B	25Mistral Small 3.2 24B 27GPT-5 Nano 30Qwen 3.5 35B
58.6%	Subject-first sentence starts	100Qwen3 235B A22B Instruct 2507 100GPT-5.4 100Writer: Palmyra X5	0Inception Mercury 2 2GPT-OSS 120B 8Qwen 2.5 72B
53.6%	Subordinate conjunction sentence starts	100GPT-5.4 98Z.AI GLM 4.7 94Writer: Palmyra X5	0Ministral 3B 0Qwen 2.5 72B 0Claude Opus 4
51.5%	Technical jargon density	99Qwen 2.5 72B 97GPT-5.5 (Reasoning, Low) 97GPT-5.5	0Inception Mercury 2 0GPT-5 Nano 0Nemotron 3 Nano
73.7%	Useless dialogue additions	100Claude Sonnet 4.6 (Reasoning) 100Claude Sonnet 5 100Claude Opus 4.7	0Inception Mercury 2 0GPT-4o Mini (temp=0) 0Z.AI GLM 4.5 Air

Bad Writing Habits

Horror: alone in an eerie place at night

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)