Fantasy: entering an ancient ruin

Bad Writing Habits

Detects common prose quality anti-patterns in AI-generated creative writing, including passive voice, past progressive overuse, weak dialogue tags, filter words, purple prose, cliches, AI-ism words/adverbs/names, and more.

Creative Writing Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.4	90%
GPT-5.4 (Reasoning)	90%
GPT-5.4 (Reasoning, Low)	90%
GPT-5.5 (Reasoning, Low)	89%
GPT-5.5	88%
GPT-5.5 (Reasoning)	88%
GPT-5.1	87%
Grok 4.20 (Reasoning)	87%
Qwen 3.6 35B	86%
GPT-5.4 Mini	86%
Qwen 3.5 397B A17B	86%
Qwen 3.6 Flash	85%
Grok 4.5 (Reasoning, Low)	85%
GPT-5.4 Mini (Reasoning)	85%
Claude Opus 4.6 (Reasoning)	84%
GPT-5.4 Mini (Reasoning, Low)	84%
Grok 4.3 (Reasoning)	84%
Qwen3.6 Max Preview	84%
Gemini 3.1 Pro (Preview)	83%
Qwen3.7 Max	83%

	Score	Cost	Time
Gemini 3.1 Flash Lite	83%	$0.0027	8.5s
GPT-5.4 Mini	86%	$0.013	15.7s
Qwen 3.6 35B	86%	$0.0073	53.2s
Qwen 3.6 Flash	85%	$0.0094	36.5s
Gemini 3.1 Flash Lite (Reasoning)	82%	$0.0028	9.1s
GPT-5.4 Mini (Reasoning, Low)	84%	$0.014	15.9s
GPT-5.4	90%	$0.042	1.3m
Grok 4.5 (Reasoning, Low)	85%	$0.017	52.9s
Gemini 3.1 Flash Lite (Preview)	81%	$0.0027	8.1s
Qwen 3.5 9B	82%	$0.0009	1.3m
Grok 4.20 (Reasoning)	87%	$0.022	1.9m
Qwen 3.5 397B A17B	86%	$0.010	3.1m
GPT-5.4 Mini (Reasoning)	85%	$0.020	37.9s
Qwen 3.5 Flash	82%	$0.0039	1.1m
Z.AI GLM 5.2 (Reasoning, High)	81%	$0.0093	54.6s
GPT-5.4 (Reasoning, Low)	90%	$0.049	1.2m
Grok 4.3	81%	$0.0071	37.4s
DeepSeek V4 Pro	82%	$0.0067	1.6m
Qwen3 235B A22B Instruct 2507	80%	$0.0010	41.5s
Qwen 3.5 122B	81%	$0.015	43.6s

	Score	Cost	Speed	Stability
GPT-5.4	90%	$0.042	1.3m	86%
GPT-5.4 Mini	86%	$0.013	15.7s	82%
GPT-5.4 (Reasoning, Low)	90%	$0.049	1.2m	88%
Qwen 3.6 Flash	85%	$0.0094	36.5s	82%
Qwen 3.6 35B	86%	$0.0073	53.2s	80%
Grok 4.20 (Reasoning)	87%	$0.022	1.9m	85%
GPT-5.4 Mini (Reasoning, Low)	84%	$0.014	15.9s	79%
Gemini 3.1 Flash Lite (Preview)	81%	$0.0027	8.1s	80%
Grok 4.5 (Reasoning, Low)	85%	$0.017	52.9s	80%
GPT-5.4 Mini (Reasoning)	85%	$0.020	37.9s	80%
GPT-5.1	87%	$0.049	1.5m	86%
Gemini 3.1 Flash Lite	83%	$0.0027	8.5s	77%
Gemini 3.1 Flash Lite (Reasoning)	82%	$0.0028	9.1s	77%
Qwen 3.5 Flash	82%	$0.0039	1.1m	81%
GPT-5.4 (Reasoning)	90%	$0.074	2.2m	87%
Qwen3 235B A22B Instruct 2507	80%	$0.0010	41.5s	78%
Qwen 3.5 9B	82%	$0.0009	1.3m	79%
Grok 4.3	81%	$0.0071	37.4s	77%
Qwen 3.5 122B	81%	$0.015	43.6s	79%
Qwen 3.5 35B	83%	$0.019	1.2m	80%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
1	GPT-5.4	$0.042	1.3m	86%	94	92	91	89	86	90%
15	GPT-5.4 (Reasoning)	$0.074	2.2m	87%	94	90	90	89	89	90%
3	GPT-5.4 (Reasoning, Low)	$0.049	1.2m	88%	91	91	90	89	88	90%
50	GPT-5.5 (Reasoning, Low)	$0.129	1.7m	85%	93	89	89	88	86	89%
61	GPT-5.5	$0.132	1.8m	85%	91	89	87	87	87	88%
39	GPT-5.5 (Reasoning)	$0.127	1.7m	87%	89	88	88	88	88	88%
11	GPT-5.1	$0.049	1.5m	86%	89	89	88	86	86	87%
6	Grok 4.20 (Reasoning)	$0.022	1.9m	85%	89	89	88	85	85	87%
5	Qwen 3.6 35B	$0.0073	53.2s	80%	91	89	87	83	81	86%
2	GPT-5.4 Mini	$0.013	15.7s	82%	88	87	86	86	82	86%
22	Qwen 3.5 397B A17B	$0.010	3.1m	82%	89	86	85	84	84	86%
4	Qwen 3.6 Flash	$0.0094	36.5s	82%	88	87	86	83	83	85%
9	Grok 4.5 (Reasoning, Low)	$0.017	52.9s	80%	90	86	84	84	83	85%
10	GPT-5.4 Mini (Reasoning)	$0.020	37.9s	80%	88	87	84	84	81	85%
49	Claude Opus 4.6 (Reasoning)	$0.080	1.3m	80%	88	86	85	84	79	84%
7	GPT-5.4 Mini (Reasoning, Low)	$0.014	15.9s	79%	89	86	84	83	79	84%
35	Grok 4.3 (Reasoning)	$0.030	3.0m	81%	87	86	86	83	79	84%
71	Qwen3.6 Max Preview	$0.048	3.4m	79%	88	84	84	82	80	84%
110	Gemini 3.1 Pro (Preview)	$0.131	1.7m	81%	85	84	83	83	82	83%
86	Qwen3.7 Max	$0.071	2.5m	78%	88	84	83	81	80	83%
21	Grok 4.5 (Reasoning, High)	$0.027	1.3m	81%	85	85	85	82	79	83%
20	Qwen 3.5 35B	$0.019	1.2m	80%	85	84	84	83	78	83%
41	Claude Opus 4.8 (Reasoning, Low)	$0.066	40.9s	78%	87	84	82	81	79	83%
12	Gemini 3.1 Flash Lite	$0.0027	8.5s	77%	89	84	84	78	78	83%
89	GPT-5	$0.064	2.2m	77%	87	84	82	82	77	82%
37	Qwen 3.5 Plus (2026-04-20)	$0.019	1.9m	76%	87	85	83	79	77	82%
23	DeepSeek V4 Pro	$0.0067	1.6m	78%	84	84	83	83	76	82%
135	MoonshotAI: Kimi K2.6	$0.055	7.8m	79%	84	83	83	82	78	82%
17	Qwen 3.5 9B	$0.0009	1.3m	79%	85	84	83	79	78	82%
13	Gemini 3.1 Flash Lite (Reasoning)	$0.0028	9.1s	77%	86	85	83	78	76	82%
14	Qwen 3.5 Flash	$0.0039	1.1m	81%	82	82	82	82	80	82%
115	ByteDance Seed 2.0 Mini	$0.0048	5.2m	73%	88	85	81	80	75	81%
19	Qwen 3.5 122B	$0.015	43.6s	79%	83	82	82	81	78	81%
18	Grok 4.3	$0.0071	37.4s	77%	85	83	82	79	78	81%
64	Claude Opus 4.8 (Reasoning)	$0.066	40.2s	76%	85	84	80	79	78	81%
73	Qwen 3.6 27B	$0.032	2.9m	77%	84	83	82	82	74	81%
26	Claude Sonnet 5 (Reasoning)	$0.026	32.7s	75%	86	84	81	78	77	81%
8	Gemini 3.1 Flash Lite (Preview)	$0.0027	8.1s	80%	82	82	81	81	80	81%
47	Claude Sonnet 4.6 (Reasoning)	$0.044	55.0s	76%	84	83	80	78	78	81%
55	Claude Opus 4.7	$0.064	30.5s	77%	83	83	81	79	78	81%
24	o4 Mini High	$0.025	47.7s	79%	82	82	81	80	78	81%
85	Claude Opus 4.6	$0.073	1.1m	76%	85	81	81	80	76	81%
25	Z.AI GLM 5.2 (Reasoning, High)	$0.0093	54.6s	75%	86	84	83	76	75	81%
69	ByteDance Seed 2.0 Lite	$0.014	2.6m	74%	87	83	82	79	72	80%
16	Qwen3 235B A22B Instruct 2507	$0.0010	41.5s	78%	82	81	80	80	78	80%
94	Claude Opus 4.7 (Reasoning)	$0.075	32.6s	73%	87	83	81	77	73	80%
27	Qwen 3.5 27B	$0.016	1.3m	77%	82	81	81	81	76	80%
46	Qwen 3 32B	$0.0016	1.0m	70%	86	85	78	77	73	80%
83	MiniMax M3	$0.0057	2.9m	72%	86	83	81	77	71	79%
30	Aion 3.0	$0.023	1.1m	78%	80	80	80	80	77	79%
51	Z.AI GLM 5	$0.0078	1.3m	72%	87	80	80	77	73	79%
36	Aion 3.0 Mini	$0.0047	1.0m	74%	84	82	80	77	73	79%
75	Claude Opus 4.5	$0.061	46.8s	75%	82	81	80	77	74	79%
62	Claude Sonnet 4.6	$0.027	34.0s	72%	84	84	80	73	73	79%
29	ByteDance Seed 1.6 Flash	$0.0013	29.3s	73%	84	80	78	76	75	79%
56	Mistral Large 2	$0.014	33.3s	71%	85	79	76	76	75	78%
121	Gemini 3.5 Flash (Reasoning)	$0.097	49.9s	74%	82	81	79	77	73	78%
33	GPT-5.4 Nano	$0.0058	20.5s	73%	82	80	77	76	75	78%
68	Z.AI GLM 4.7	$0.010	1.7m	72%	83	79	77	76	76	78%
60	Grok 4.20	$0.0093	46.5s	71%	85	81	80	76	68	78%
44	Claude Sonnet 5	$0.025	30.9s	75%	81	78	78	77	76	78%
40	Writer: Palmyra X5	$0.011	20.8s	72%	84	80	79	75	73	78%
78	o4 Mini	$0.017	33.9s	68%	88	78	76	75	73	78%
34	GPT-5.4 Nano (Reasoning)	$0.0066	26.7s	74%	81	80	77	76	74	78%
59	GPT-4.1	$0.018	49.3s	73%	81	81	78	74	74	78%
28	Mistral Small 4	$0.0013	17.2s	74%	81	79	77	76	73	77%
31	GPT-5.4 Nano (Reasoning, Low)	$0.0058	22.7s	74%	80	77	77	77	74	77%
77	Z.AI GLM 5.1	$0.012	1.4m	71%	84	78	77	74	73	77%
32	DeepSeek V3 (2025-03-24)	$0.0013	43.2s	74%	80	80	79	74	73	77%
91	Gemma 4 26B (Reasoning)	$0.0010	3.1m	74%	80	80	79	75	72	77%
138	Claude Opus 4	$0.172	1.1m	74%	80	78	78	77	72	77%
106	WizardLM 2 8x22b	$0.0024	2.6m	69%	83	80	77	75	70	77%
58	Gemini 3 Flash (Preview, Reasoning)	$0.017	38.5s	73%	80	79	77	76	73	77%
53	Gemini 3.5 Flash (Reasoning, Minimal)	$0.018	11.2s	72%	80	79	76	76	73	77%
38	DeepSeek V4 Flash (Reasoning)	$0.0007	33.6s	74%	80	78	76	76	74	77%
119	MoonshotAI: Kimi K2.5	$0.020	3.7m	73%	79	79	76	75	75	77%
42	Z.AI GLM 5 Turbo	$0.0071	31.2s	73%	79	77	76	75	75	77%
84	MiniMax M2.5	$0.0027	41.6s	66%	86	79	76	76	66	76%
45	Mistral Medium 3.1	$0.0042	23.7s	72%	80	79	77	74	73	76%
113	Gemma 4 31B (Reasoning)	$0.0013	1.8m	66%	88	76	76	75	67	76%
90	Hermes 3 405B	$0.0028	42.7s	66%	88	78	76	72	68	76%
97	Gemini 2.5 Pro	$0.032	33.0s	70%	81	80	75	73	72	76%
67	Claude Sonnet 5 (Reasoning, Low)	$0.026	31.8s	73%	79	78	76	74	73	76%
43	Gemma 4 26B	$0.0009	43.8s	74%	78	77	76	75	74	76%
81	Gemini 3 Flash (Preview)	$0.0079	19.9s	67%	83	79	73	73	71	76%
63	Xiaomi MIMO v2.5 Pro	$0.0078	50.3s	72%	79	78	77	73	71	76%
95	Z.AI GLM 4.6	$0.0066	52.5s	67%	84	78	74	73	70	76%
72	Claude Haiku 4.5	$0.0097	18.3s	68%	82	78	74	73	71	76%
114	ByteDance Seed 1.6	$0.014	2.7m	72%	78	78	75	74	73	76%
126	DeepSeek V4 Pro (Reasoning)	$0.020	3.3m	71%	80	79	77	72	70	76%
48	Mistral Small 4 (Reasoning)	$0.0019	23.3s	72%	78	78	76	73	73	76%
54	Mistral Large 3	$0.0029	34.0s	72%	78	77	76	75	71	76%
65	DeepSeek V4 Flash	$0.0005	24.2s	69%	80	79	74	73	72	75%
92	DeepSeek V3 (2024-12-26)	$0.0021	1.1m	68%	82	76	74	74	70	75%
57	Ministral 3 14B	$0.0006	12.0s	70%	79	78	75	72	72	75%
76	Gemma 4 31B	$0.0009	1.6m	72%	79	76	75	73	73	75%
52	Gemma 3 4B	$0.0002	18.6s	71%	78	77	75	73	72	75%
128	GPT-5.2	$0.054	1.4m	69%	79	78	73	72	71	75%
105	GPT-5 Mini	$0.010	1.1m	68%	80	79	75	72	67	75%
99	Cohere Command R+ (Aug. 2024)	$0.016	27.7s	68%	79	78	73	72	69	74%
104	Claude Sonnet 4.5	$0.032	35.4s	70%	78	75	74	72	72	74%
66	GPT-4o Mini (temp=1)	$0.0011	34.3s	71%	77	76	75	73	70	74%
100	Xiaomi MIMO v2.5	$0.0057	34.1s	66%	83	77	75	70	66	74%
87	Gemma 3 27B	$0.0005	1.5m	72%	76	75	74	73	72	74%
88	Gemma 3 12B	$0.0005	35.1s	68%	79	75	74	73	67	74%
133	DeepSeek V3.1	$0.0014	2.4m	62%	84	76	71	68	67	73%
74	Gemini 2.5 Flash (Reasoning)	$0.010	20.0s	71%	75	75	73	72	71	73%
79	Qwen 2.5 72B	$0.0010	46.0s	71%	76	74	73	72	71	73%
82	Ministral 3 8B	$0.0005	7.1s	68%	78	75	73	73	67	73%
70	Gemini 2.5 Flash	$0.0045	9.4s	71%	75	74	74	71	70	73%
108	DeepSeek V3.2	$0.0012	1.1m	68%	79	74	73	70	69	73%
93	Llama 3.1 70B	$0.0012	23.2s	68%	77	76	73	69	68	73%
101	Qwen 3.5 Plus (2026-02-15)	$0.0058	31.5s	68%	78	72	72	71	69	73%
96	Ministral 8B	$0.0003	6.6s	66%	79	73	71	70	69	72%
109	Aion 2.0	$0.0064	1.3m	70%	75	73	73	73	67	72%
103	DeepSeek-V2 Chat	$0.0024	1.3m	70%	74	74	73	71	69	72%
80	Gemini 2.5 Flash Lite	$0.0008	7.1s	69%	75	73	72	71	69	72%
122	GPT-4o, Aug. 6th (temp=0)	$0.047	28.4s	70%	74	73	73	72	68	72%
102	Hermes 3 70B	$0.0010	42.9s	68%	75	74	71	70	70	72%
116	Mistral NeMO	$0.0005	8.0s	63%	81	71	70	69	67	72%
124	MiniMax M2.7	$0.0048	1.0m	65%	79	72	71	70	66	72%
98	Ministral 3B	$0.0001	3.1s	67%	77	73	72	69	66	71%
107	GPT-4.1 Nano	$0.0007	15.3s	66%	76	74	74	72	61	71%
129	Z.AI GLM 4.5 Air	$0.0032	1.2m	63%	77	76	68	68	67	71%
125	Claude Sonnet 4	$0.028	39.4s	67%	75	74	72	69	67	71%
111	Cydonia 24B V4.1	$0.0012	41.9s	67%	76	74	72	68	67	71%
117	Ministral 3 3B	$0.0003	3.0s	63%	77	76	70	67	65	71%
112	GPT-4o Mini (temp=0)	$0.0012	37.2s	67%	74	74	72	68	66	71%
118	Z.AI GLM 4.7 Flash	$0.0016	39.8s	65%	75	73	70	69	65	71%
123	GPT-4o, Aug. 6th (temp=1)	$0.017	15.8s	65%	75	72	70	68	67	70%
120	Z.AI GLM 4.5	$0.0057	50.2s	67%	72	71	69	69	67	70%
127	GPT-4.1 Mini	$0.0030	26.7s	63%	76	73	70	66	62	69%
137	Nemotron 3 Super	$0.0000	2.3m	57%	79	69	65	64	64	68%
130	Arcee AI: Trinity Mini	$0.0003	9.2s	61%	74	69	66	65	65	68%
132	Gemini 2.5 Flash Lite (Reasoning)	$0.0028	33.0s	64%	68	68	67	64	63	66%
131	Inception Mercury 2	$0.0028	6.7s	64%	67	66	65	65	65	65%
134	GPT-OSS 120B	$0.0010	1.2m	62%	69	67	66	63	60	65%
136	Nemotron 3 Nano	$0.0013	1.2m	62%	68	66	66	62	61	64%
140	Mistral Small 3.2 24B	$0.0049	3.1m	57%	69	67	61	61	61	64%
139	GPT-5 Nano	$0.0044	1.4m	61%	64	64	64	62	59	62%
77.38%

Median	Evaluator	Top 3	Flop 3
80.0%	"Not X but Y" pattern overuse	100Z.AI GLM 5 Turbo 100o4 Mini High 100Qwen 3.5 27B	0GPT-5 Nano 6Gemini 2.5 Flash Lite (Reasoning) 9Claude Sonnet 4.5
45.6%	Adverb-first sentence starts	98GPT-5.4 98Claude Sonnet 5 (Reasoning) 97GPT-5.4 Mini	0Arcee AI: Trinity Mini 0GPT-OSS 120B 0Llama 3.1 70B
100.0%	Adverbs in dialogue tags	100Claude Opus 4.6 100o4 Mini 100Qwen 2.5 72B	25Hermes 3 70B 38GPT-5 Nano 44Claude Sonnet 4.6
91.2%	AI-ism adverb frequency	99GPT-5 99GPT-5.1 99MoonshotAI: Kimi K2.6	51Mistral Small 3.2 24B 60GPT-4.1 Nano 65Hermes 3 70B
100.0%	AI-ism character names	100Z.AI GLM 5 100Z.AI GLM 4.5 100Qwen 3.5 35B	92GPT-5.4 92DeepSeek V4 Flash 96Gemini 2.5 Pro
100.0%	AI-ism location names	100DeepSeek V3 (2024-12-26) 100DeepSeek V3.2 100DeepSeek V3.1	96o4 Mini High
27.5%	AI-ism word frequency	74GPT-5.5 71GPT-5.4 (Reasoning) 69Claude Opus 4.7	0GPT-4o Mini (temp=0) 0Gemini 2.5 Flash (Reasoning) 0Gemma 4 26B (Reasoning)
100.0%	Cliché density	100Z.AI GLM 5 100GPT-5.4 Mini (Reasoning) 100Claude Sonnet 4.6	47Mistral Small 3.2 24B 60Nemotron 3 Nano 67Mistral NeMO
61.2%	Dialogue tag variety (said vs. fancy)	100Gemini 3.1 Flash Lite (Reasoning) 100Z.AI GLM 5.1 100Gemma 4 26B	0Gemma 4 31B 0GPT-4o Mini (temp=0) 0Cydonia 24B V4.1
21.1%	Em-dash & semicolon overuse	100Gemini 3.1 Pro (Preview) 100Qwen 3.5 35B 100Qwen 3.5 27B	0Claude Sonnet 4.5 0DeepSeek V4 Pro (Reasoning) 0Mistral Medium 3.1
100.0%	Emotion telling (show vs. tell)	100MoonshotAI: Kimi K2.6 100MiniMax M2.5 100Qwen 3.5 122B	36GPT-4o, Aug. 6th (temp=0) 55Llama 3.1 70B 74Mistral Small 3.2 24B
94.7%	Filter word density	100Claude Opus 4.6 100Ministral 3 14B 100Qwen 3.5 Flash	8Nemotron 3 Nano 11Llama 3.1 70B 13Z.AI GLM 4.5
100.0%	Gibberish response detection	100GPT-5 Mini 100Qwen 3.5 122B 100Qwen 3.6 35B	91DeepSeek V3 (2025-03-24) 97Llama 3.1 70B 99MiniMax M2.5
100.0%	Markdown formatting overuse	100Z.AI GLM 4.7 100Qwen 3.5 Plus (2026-02-15) 100Cydonia 24B V4.1	33Ministral 8B 60Mistral Medium 3.1 71Ministral 3 8B
100.0%	Missing dialogue indicators (quotation marks)	100Qwen3 235B A22B Instruct 2507 100GPT-5.4 Mini 100GPT-5.4 Nano (Reasoning, Low)	60Qwen 3.6 35B 77Qwen 3.5 35B 80Qwen 3.5 122B
64.6%	Name drop frequency	96Claude Sonnet 4.6 94Nemotron 3 Nano 93Z.AI GLM 4.6	3GPT-5.2 6Qwen 3.5 27B 15GPT-5.4 Nano (Reasoning)
55.4%	Narrator intent-glossing	100Qwen3.6 Max Preview 100Gemini 3.1 Pro (Preview) 100Qwen 3.5 Plus (2026-04-20)	0Z.AI GLM 4.5 0Claude Sonnet 5 (Reasoning, Low) 0GPT-OSS 120B
100.0%	Overuse of "that" (subordinate clause padding)	100GPT-5.4 Nano 100Claude Opus 4.6 100Qwen 2.5 72B	78ByteDance Seed 2.0 Lite 80Llama 3.1 70B 89Ministral 3B
100.0%	Paragraph length variance	100GPT-5.2 100Claude Sonnet 4.6 (Reasoning) 100Writer: Palmyra X5	41Arcee AI: Trinity Mini 51Mistral Small 3.2 24B 52Inception Mercury 2
99.0%	Passive voice overuse	100o4 Mini High 100MoonshotAI: Kimi K2.6 100GPT-5.4 Nano	85DeepSeek V3.1 91Gemini 2.5 Pro 92ByteDance Seed 2.0 Lite
100.0%	Past progressive (was/were + -ing) overuse	100Gemma 4 31B 100Ministral 8B 100Ministral 3B	50Z.AI GLM 4.7 Flash 69Claude Haiku 4.5 76Ministral 3 14B
100.0%	Pronoun-first sentence starts	100Aion 3.0 100Nemotron 3 Nano 100Grok 4.3	47Mistral NeMO 54Mistral Small 3.2 24B 74Qwen 3.5 9B
96.4%	Purple prose (modifier overload)	100Qwen 3.5 9B 100GPT-4o, Aug. 6th (temp=0) 100Inception Mercury 2	81Gemini 3.1 Pro (Preview) 81Gemini 3.5 Flash (Reasoning) 82Gemini 3.5 Flash (Reasoning, Minimal)
100.0%	Repeated phrase echo	100Writer: Palmyra X5 100Xiaomi MIMO v2.5 Pro 100Qwen 3.5 9B	—
100.0%	Sentence length variance	100GPT-5.4 Mini (Reasoning, Low) 100Ministral 3B 100GPT-5.4 Nano (Reasoning)	83Nemotron 3 Nano 86GPT-4o, Aug. 6th (temp=1) 90Inception Mercury 2
55.3%	Sentence opener variety	91GPT-4o Mini (temp=1) 89Claude Sonnet 5 (Reasoning, Low) 85Cydonia 24B V4.1	30GPT-5 Nano 34Nemotron 3 Nano 37Qwen 3.5 35B
28.9%	Subject-first sentence starts	83Hermes 3 70B 77Qwen3 235B A22B Instruct 2507 76GPT-5.4	0ByteDance Seed 1.6 0Inception Mercury 2 0Arcee AI: Trinity Mini
20.0%	Subordinate conjunction sentence starts	74Gemini 3.1 Flash Lite 71Gemma 3 4B 71Z.AI GLM 4.5 Air	0Ministral 3 3B 0DeepSeek V4 Pro (Reasoning) 0Qwen 3.5 Plus (2026-04-20)
46.1%	Technical jargon density	100GPT-5.5 (Reasoning) 100Qwen 3.5 122B 100Gemini 3.1 Pro (Preview)	0GPT-5 Nano 0Gemini 3.5 Flash (Reasoning, Minimal) 0GPT-OSS 120B
61.2%	Useless dialogue additions	100DeepSeek V3 (2025-03-24) 100Grok 4.20 (Reasoning) 100Qwen 3.6 Flash	0DeepSeek-V2 Chat 0Qwen 3.5 Plus (2026-02-15) 0Qwen 2.5 72B

Bad Writing Habits

Fantasy: entering an ancient ruin

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)