Dialogue tags

Various tasks related to dialogue tags in text.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	99%
Z.AI GLM 5 Turbo	87%
GPT-5	84%
Z.AI GLM 5.1	83%
GPT-5 Mini	83%
MiniMax M2.7	81%
Claude Opus 4.6 (Reasoning)	80%
MoonshotAI: Kimi K2.6	80%
o4 Mini High	79%
Grok 4.3 (Reasoning)	75%
Claude Sonnet 4.6 (Reasoning)	75%
Nemotron 3 Super	74%
MiniMax M2.5	74%
Claude Opus 4.6	73%
Inception Mercury 2	71%
Qwen3.6 Max Preview	69%
o4 Mini	68%
Claude Sonnet 4.6	67%
Qwen 3.5 27B	66%
Qwen 3.5 397B A17B	65%

	Score	Cost	Time
GPT-5 Mini	83%	$0.0096	52.2s
Z.AI GLM 5 Turbo	87%	$0.030	1.3m
Inception Mercury 2	71%	$0.0037	6.1s
GPT-5	84%	$0.049	1.4m
Qwen 3.5 27B	66%	$0.023	1.8m
Claude Opus 4.6	73%	$0.013	14.7s
GPT-5.4 (Reasoning)	62%	$0.027	36.1s
GPT-5.5 (Reasoning)	62%	$0.043	26.8s
Gemini 3 Flash (Preview, Reasoning)	61%	$0.017	30.3s
Nemotron 3 Super	74%	$0.0000	2.5m
Qwen 3.6 35B	63%	$0.012	1.2m
Claude Opus 4.6 (Reasoning)	80%	$0.070	37.7s
Gemini 3.1 Pro (Preview)	99%	$0.135	1.9m
o4 Mini High	79%	$0.045	1.8m
Grok 4.3 (Reasoning)	75%	$0.035	3.0m
GPT-5.1	63%	$0.027	47.2s
Claude Sonnet 4.6	67%	$0.0074	12.1s
Z.AI GLM 5.1	83%	$0.042	3.5m
GPT-5.5	59%	$0.019	17.7s
GPT-5.2	60%	$0.024	34.2s

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	99%	90%	90%
GPT-5 Mini	83%	48%	48%
Z.AI GLM 5 Turbo	87%	48%	48%
o4 Mini High	79%	47%	45%
MiniMax M2.7	81%	45%	45%
Claude Opus 4.6 (Reasoning)	80%	45%	44%
GPT-5	84%	43%	43%
Z.AI GLM 5.1	83%	43%	43%
MoonshotAI: Kimi K2.6	80%	41%	41%
Claude Sonnet 4.6 (Reasoning)	75%	40%	38%
Claude Opus 4.6	73%	42%	35%
Claude Sonnet 4.6	67%	50%	35%
Nemotron 3 Super	74%	36%	34%
MiniMax M2.5	74%	43%	33%
Grok 4.3 (Reasoning)	75%	33%	33%
Inception Mercury 2	71%	38%	31%
Qwen3.6 Max Preview	69%	27%	25%
o4 Mini	68%	32%	23%
Gemini 3.1 Flash Lite (Reasoning)	52%	46%	23%
Claude Opus 4.7 (Reasoning)	63%	37%	23%

	Score	Cost	Speed	Stability
GPT-5 Mini	83%	$0.0096	52.2s	48%
Inception Mercury 2	71%	$0.0037	6.1s	31%
Z.AI GLM 5 Turbo	87%	$0.030	1.3m	48%
Claude Opus 4.6	73%	$0.013	14.7s	35%
Claude Sonnet 4.6	67%	$0.0074	12.1s	35%
GPT-5	84%	$0.049	1.4m	43%
Gemini 3.1 Flash Lite (Reasoning)	52%	$0.0006	4.1s	23%
Gemini 3.1 Pro (Preview)	99%	$0.135	1.9m	90%
Gemini 3.1 Flash Lite (Preview)	51%	$0.0006	2.7s	23%
Nemotron 3 Super	74%	$0.0000	2.5m	34%
Claude Opus 4.5	64%	$0.013	13.5s	19%
GPT-4o Mini (temp=0)	55%	$0.0003	7.8s	19%
Claude Opus 4.7 (Reasoning)	63%	$0.019	10.6s	23%
GPT-4o, Aug. 6th (temp=0)	57%	$0.0049	6.0s	18%
o4 Mini High	79%	$0.045	1.8m	45%
Claude Opus 4.6 (Reasoning)	80%	$0.070	37.7s	44%
Gemini 3.1 Flash Lite	48%	$0.0006	4.7s	19%
GPT-4o, Aug. 6th (temp=1)	51%	$0.0050	6.0s	17%
Claude Opus 4.7	57%	$0.019	11.3s	20%
o4 Mini	68%	$0.023	58.0s	23%

		Ungrouped	dialogue-200	dialogue-500
Gemini 3.1 Pro (Preview)	99%	100%	100%	100%	99%	96%	100%	100%
Z.AI GLM 5 Turbo	87%	100%	100%	98%	69%	97%	95%	50%
GPT-5	84%	100%	100%	95%	63%	84%	95%	54%
Z.AI GLM 5.1	83%	100%	100%	98%	79%	86%	81%	39%
GPT-5 Mini	83%	90%	100%	90%	62%	87%	79%	70%
MiniMax M2.7	81%	86%	97%	96%	89%	71%	72%	54%
Claude Opus 4.6 (Reasoning)	80%	100%	100%	90%	94%	68%	53%	57%
MoonshotAI: Kimi K2.6	80%	100%	100%	86%	98%	61%	81%	31%
o4 Mini High	79%	96%	100%	85%	74%	80%	57%	62%
Grok 4.3 (Reasoning)	75%	100%	94%	95%	97%	71%	37%	33%
Claude Sonnet 4.6 (Reasoning)	75%	96%	99%	99%	72%	82%	50%	26%
Nemotron 3 Super	74%	56%	90%	90%	82%	71%	57%	74%
MiniMax M2.5	74%	86%	76%	98%	62%	74%	63%	55%
Claude Opus 4.6	73%	100%	82%	79%	94%	43%	71%	41%
Inception Mercury 2	71%	80%	90%	97%	83%	58%	56%	34%

Write 200 words with 10% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	100%
GPT-5	100%
Claude Opus 4.6 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.4 (Reasoning)	100%
GPT-5.1	100%
GPT-5.4 Nano (Reasoning)	100%
Qwen 3.5 397B A17B	100%
MoonshotAI: Kimi K2.6	100%
GPT-5.2	100%
Gemini 3 Flash (Preview, Reasoning)	100%
o4 Mini High	100%
Z.AI GLM 5.1	100%
Claude Sonnet 4.6 (Reasoning)	99%
Gemma 4 31B (Reasoning)	99%
MoonshotAI: Kimi K2.5	97%
Grok 4.20 (Reasoning)	97%
GPT-5 Nano	97%
Qwen 3.5 122B	97%

	Score	Cost	Time
Stealth: Aurora Alpha	89%	—	7.4s
Inception Mercury	85%	$0.0002	8.2s
Inception Mercury 2	90%	$0.0025	4.0s
GPT-5.4 Nano (Reasoning)	100%	$0.0041	24.5s
Claude Opus 4.5	96%	$0.0077	9.3s
GPT-5.5	96%	$0.0087	8.9s
Claude Haiku 4.5	76%	$0.0016	4.4s
GPT-OSS 120B	89%	$0.0015	1.5m
Claude Opus 4.6	82%	$0.0079	9.7s
GPT-5 Mini	100%	$0.0088	45.8s
GPT-5.4 Nano (Reasoning, Low)	81%	$0.0025	15.4s
Claude Sonnet 4	83%	$0.0046	7.5s
Qwen 3.6 35B	89%	$0.0075	53.0s
GPT-5.2	100%	$0.026	29.9s
Qwen 3.6 Flash	92%	$0.015	46.1s
o4 Mini	97%	$0.022	55.0s
Gemini 3 Flash (Preview, Reasoning)	100%	$0.025	40.7s
GPT-5.4 (Reasoning, Low)	91%	$0.025	23.9s
Nemotron 3 Super	90%	$0.0000	2.0m
GPT-5.4 (Reasoning)	100%	$0.034	38.8s

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5.1	100%	100%	100%
GPT-5.4 Nano (Reasoning)	100%	99%	99%
Qwen 3.5 397B A17B	100%	99%	99%
MoonshotAI: Kimi K2.6	100%	99%	99%
GPT-5.2	100%	99%	99%
Gemini 3 Flash (Preview, Reasoning)	100%	99%	99%
o4 Mini High	100%	98%	98%
Z.AI GLM 5.1	100%	97%	97%
Claude Sonnet 4.6 (Reasoning)	99%	95%	95%
Gemma 4 31B (Reasoning)	99%	94%	94%
Grok 4.20 (Reasoning)	97%	90%	90%
GPT-5.5	96%	91%	90%
Claude Opus 4.5	96%	89%	88%
MoonshotAI: Kimi K2.5	97%	87%	86%

	Score	Cost	Speed	Stability
GPT-5.4 Nano (Reasoning)	100%	$0.0041	24.5s	99%
GPT-5 Mini	100%	$0.0088	45.8s	100%
GPT-5.5	96%	$0.0087	8.9s	90%
Claude Opus 4.5	96%	$0.0077	9.3s	88%
GPT-5.2	100%	$0.026	29.9s	99%
Gemini 3 Flash (Preview, Reasoning)	100%	$0.025	40.7s	99%
GPT-5.4 (Reasoning)	100%	$0.034	38.8s	100%
GPT-5.1	100%	$0.032	49.0s	100%
Z.AI GLM 5 Turbo	100%	$0.026	1.1m	100%
Claude Opus 4.7	88%	$0.011	7.5s	82%
Claude Sonnet 4.6	87%	$0.0045	8.0s	71%
o4 Mini High	100%	$0.036	1.5m	98%
GPT-5	100%	$0.046	1.3m	100%
o4 Mini	97%	$0.022	55.0s	80%
Inception Mercury 2	90%	$0.0025	4.0s	60%
Grok 4.20 (Reasoning)	97%	$0.022	1.7m	90%
Claude Sonnet 4	83%	$0.0046	7.5s	64%
Claude Sonnet 4.5	84%	$0.0046	7.8s	62%
Claude Opus 4.7 (Reasoning)	86%	$0.011	7.2s	63%
Qwen 3.6 Flash	92%	$0.015	46.1s	69%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
47	Gemini 3.1 Pro (Preview)	$0.106	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Z.AI GLM 5 Turbo	$0.026	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-5	$0.046	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Claude Opus 4.6 (Reasoning)	$0.116	52.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	GPT-5 Mini	$0.0088	45.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 (Reasoning)	$0.034	38.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.1	$0.032	49.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	GPT-5.4 Nano (Reasoning)	$0.0041	24.5s	99%	100	100	100	100	100	100	100	100	100	99	100%
65	Qwen 3.5 397B A17B	$0.042	5.3m	99%	100	100	100	100	100	100	100	100	100	99	100%
76	MoonshotAI: Kimi K2.6	$0.041	5.9m	99%	100	100	100	100	100	100	100	100	100	98	100%
5	GPT-5.2	$0.026	29.9s	99%	100	100	100	100	100	100	100	100	99	98	100%
6	Gemini 3 Flash (Preview, Reasoning)	$0.025	40.7s	99%	100	100	100	100	100	100	100	100	99	98	100%
12	o4 Mini High	$0.036	1.5m	98%	100	100	100	100	100	100	100	100	100	96	100%
50	Z.AI GLM 5.1	$0.039	3.8m	97%	100	100	100	100	100	100	100	100	100	95	100%
86	Claude Sonnet 4.6 (Reasoning)	$0.176	1.7m	95%	100	100	100	100	100	100	100	100	100	91	99%
60	Gemma 4 31B (Reasoning)	$0.0036	5.8m	94%	100	100	100	100	100	100	100	100	98	91	99%
44	MoonshotAI: Kimi K2.5	$0.027	3.0m	86%	100	100	100	100	100	100	100	99	97	77	97%
16	Grok 4.20 (Reasoning)	$0.022	1.7m	90%	100	100	100	100	100	100	99	95	93	84	97%
22	GPT-5 Nano	$0.0051	2.1m	81%	100	100	100	100	100	100	100	100	100	68	97%
21	Qwen 3.5 122B	$0.035	1.2m	83%	100	100	100	100	100	100	100	99	97	72	97%
39	MiniMax M2.7	$0.013	2.8m	81%	100	100	100	100	100	100	100	100	99	68	97%
14	o4 Mini	$0.022	55.0s	80%	100	100	100	100	100	100	100	100	100	66	97%
3	GPT-5.5	$0.0087	8.9s	90%	100	100	100	100	100	98	96	93	91	86	96%
4	Claude Opus 4.5	$0.0077	9.3s	88%	100	100	100	100	99	99	98	97	89	82	96%
41	Qwen 3.6 27B	$0.029	2.1m	78%	100	100	100	100	100	100	100	100	100	64	96%
35	Qwen 3.5 27B	$0.026	1.8m	76%	100	100	100	100	100	100	100	100	99	60	96%
30	GPT-5.5 (Reasoning)	$0.050	24.8s	70%	100	100	100	100	100	100	100	100	100	51	95%
36	Grok 4.3 (Reasoning)	$0.022	1.8m	75%	100	100	100	100	100	100	100	100	68	68	94%
82	Qwen3.6 Max Preview	$0.067	3.7m	75%	100	100	100	100	100	100	100	100	68	68	94%
49	Nemotron 3 Nano	$0.0026	2.8m	68%	100	100	100	100	100	100	100	100	76	50	93%
28	Grok 4.20 (Beta, Reasoning)	$0.043	28.1s	71%	100	100	100	100	100	100	99	98	64	64	92%
55	Gemma 4 26B (Reasoning)	$0.0040	3.8m	71%	100	100	100	100	100	100	97	91	84	52	92%
20	Qwen 3.6 Flash	$0.015	46.1s	69%	100	100	100	100	99	99	99	98	68	56	92%
27	GPT-5.5 (Reasoning, Low)	$0.041	20.8s	68%	100	100	100	100	100	100	100	100	60	60	92%
40	GPT-5.4 (Reasoning, Low)	$0.025	23.9s	52%	100	100	100	100	100	100	99	99	93	20	91%
45	Nemotron 3 Super	$0.0000	2.0m	61%	100	100	100	100	100	100	100	100	51	51	90%
15	Inception Mercury 2	$0.0025	4.0s	60%	100	100	100	100	100	100	100	99	50	50	90%
23	Stealth: Aurora Alpha	—	7.4s	66%	100	100	100	100	100	100	100	76	68	50	89%
38	GPT-OSS 120B	$0.0015	1.5m	61%	100	100	100	100	100	100	98	92	50	50	89%
52	Qwen 3.5 Plus (2026-04-20)	$0.023	2.4m	71%	100	100	100	100	99	97	87	68	68	68	89%
26	Qwen 3.6 35B	$0.0075	53.0s	62%	100	100	100	100	100	100	95	83	68	40	89%
10	Claude Opus 4.7	$0.011	7.5s	82%	93	92	92	91	89	89	89	86	82	80	88%
11	Claude Sonnet 4.6	$0.0045	8.0s	71%	99	99	98	94	89	86	85	76	75	73	87%
48	Qwen 3.5 Flash	$0.0060	1.7m	58%	100	100	100	100	100	100	100	68	50	48	87%
19	Claude Opus 4.7 (Reasoning)	$0.011	7.2s	63%	100	100	96	96	89	86	83	80	79	51	86%
31	Inception Mercury	$0.0002	8.2s	46%	100	100	100	100	100	100	100	86	50	18	85%
61	Z.AI GLM 4.7	$0.010	2.7m	59%	100	100	100	100	98	87	84	76	55	50	85%
18	Claude Sonnet 4.5	$0.0046	7.8s	62%	100	97	96	91	86	82	80	80	76	52	84%
68	Qwen 3.5 35B	$0.028	1.9m	45%	100	100	100	100	100	100	98	68	50	18	83%
17	Claude Sonnet 4	$0.0046	7.5s	64%	95	95	95	94	92	92	83	72	60	53	83%
25	Claude Opus 4.6	$0.0079	9.7s	57%	100	100	100	99	99	95	68	58	54	49	82%
62	DeepSeek V4 Pro (Reasoning)	$0.0047	2.3m	51%	100	100	100	100	100	100	83	50	49	38	82%
32	GPT-5.4 Nano (Reasoning, Low)	$0.0025	15.4s	52%	100	100	100	100	99	91	72	50	50	46	81%
80	Qwen 3.5 9B	$0.0021	3.2m	46%	100	100	100	100	100	99	72	68	50	19	81%
51	Claude Opus 4	$0.025	18.4s	49%	100	96	95	95	85	73	70	67	55	41	78%
29	Gemma 4 31B	$0.0001	17.6s	59%	91	90	89	83	79	68	68	68	66	65	77%
46	Claude Haiku 4.5	$0.0016	4.4s	43%	100	100	99	96	95	94	68	50	32	30	76%
67	MiniMax M2.5	$0.0091	1.6m	41%	100	100	100	100	76	68	68	56	50	42	76%
53	GPT-5.4 Mini (Reasoning)	$0.013	16.8s	41%	100	100	100	100	77	68	60	50	50	50	75%
37	Gemini 3 Flash (Preview)	$0.0008	3.1s	52%	99	95	68	68	68	68	68	67	67	64	73%
34	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	2.2s	56%	98	68	68	68	68	68	68	68	68	68	71%
70	Gemini 3 Pro (Preview)	$0.031	21.8s	32%	100	100	100	98	68	68	66	52	40	20	71%
33	Gemini 3.1 Flash Lite (Preview)	$0.0004	2.0s	56%	98	68	68	68	68	68	68	68	68	68	71%
77	ByteDance Seed 2.0 Mini	$0.0024	2.6m	48%	98	94	76	76	72	68	67	57	50	50	71%
43	Gemma 4 26B	$0.0001	6.8s	50%	96	88	84	82	80	78	64	51	49	37	71%
79	Z.AI GLM 5	$0.0082	1.4m	33%	99	93	93	91	64	50	50	50	48	47	68%
64	Gemini 2.5 Pro	$0.020	17.2s	36%	100	97	95	71	64	57	51	50	50	48	68%
24	Gemini 3.1 Flash Lite	$0.0004	5.2s	68%	68	68	68	68	68	68	68	68	68	67	68%
69	ByteDance Seed 2.0 Lite	$0.0033	38.7s	27%	99	99	95	91	60	53	51	50	46	18	66%
54	GPT-5.4	$0.0045	9.5s	40%	94	92	84	63	62	60	53	51	47	46	65%
94	ByteDance Seed 1.6	$0.0075	1.4m	25%	100	100	87	53	50	50	49	49	42	18	60%
75	Gemma 3 12B	$0.0001	6.2s	20%	97	94	90	83	82	67	44	9	7	3	58%
66	Qwen 3.5 Plus (2026-02-15)	$0.0007	12.0s	36%	74	72	72	68	66	56	44	36	19	18	53%
59	GPT-4o, Aug. 6th (temp=1)	$0.0031	3.9s	44%	68	54	50	50	50	50	50	49	49	47	52%
74	GPT-5.4 Mini (Reasoning, Low)	$0.0020	3.6s	30%	99	60	50	50	49	47	43	35	34	28	50%
56	GPT-4o Mini (temp=0)	$0.0002	5.4s	49%	50	50	50	50	50	50	50	49	49	45	49%
57	GPT-4o Mini (temp=1)	$0.0002	4.8s	48%	50	50	50	50	50	50	50	50	49	43	49%
58	GPT-4.1	$0.0025	5.5s	48%	51	50	50	50	50	50	50	49	48	44	49%
78	Grok 4.1 Fast	$0.0003	9.0s	28%	100	50	50	47	47	41	38	38	38	34	48%
63	GPT-4o, Aug. 6th (temp=0)	$0.0031	4.2s	44%	50	50	50	50	50	50	50	49	49	30	48%
90	Z.AI GLM 4.7 Flash	$0.0013	56.4s	31%	80	55	50	50	50	49	48	45	34	0	46%
97	Ministral 3 3B	$0.0000	1.3s	9%	98	98	92	70	50	34	9	5	5	0	46%
93	Gemini 2.5 Flash Lite (Reasoning)	$0.0012	13.0s	16%	96	95	60	53	52	50	47	0	0	0	45%
96	DeepSeek V3.2	$0.0005	29.1s	19%	99	92	50	50	50	48	38	14	10	1	45%
81	Grok 4	$0.0086	19.5s	35%	50	50	50	50	50	50	50	48	43	0	44%
99	Mistral Small 4 (Reasoning)	$0.0025	28.0s	17%	100	81	59	50	50	48	43	2	0	0	43%
73	Grok 4 Fast	$0.0003	5.0s	36%	50	50	49	49	49	47	47	43	41	7	43%
72	Llama 3.1 70B	$0.0003	3.7s	37%	50	50	49	49	49	47	45	41	34	14	43%
71	GPT-4.1 Nano	$0.0001	3.6s	38%	50	50	50	49	48	43	43	34	30	26	42%
87	Arcee AI: Trinity Large (Preview)	$0.0000	6.7s	24%	91	49	49	49	47	38	34	23	14	14	41%
104	Aion 2.0	$0.0014	21.8s	12%	100	91	72	49	48	44	2	0	0	0	41%
113	Z.AI GLM 4.6	$0.0043	1.2m	20%	97	76	50	50	50	50	24	11	0	0	41%
89	Qwen3 235B A22B Instruct 2507	$0.0002	9.6s	23%	92	50	49	47	43	42	39	21	18	0	40%
102	Claude 3.5 Sonnet	$0.0048	13.3s	17%	97	71	50	43	43	41	38	5	3	0	39%
111	Xiaomi MIMO v2.5 Pro	$0.0059	26.8s	11%	100	100	50	50	49	38	0	0	0	0	39%
83	Grok 4.20 (Beta)	$0.0017	2.2s	30%	50	50	50	49	48	45	43	26	10	1	37%
84	GPT-4.1 Mini	$0.0005	3.7s	30%	50	50	50	50	49	43	42	22	14	0	37%
91	DeepSeek V4 Flash (Reasoning)	$0.0001	26.4s	29%	50	50	48	44	41	41	38	30	18	4	36%
100	Z.AI GLM 4.5	$0.0006	6.0s	16%	87	76	55	47	45	38	14	0	0	0	36%
85	Claude 3 Haiku	$0.0004	3.0s	30%	49	49	49	49	48	47	43	22	5	0	36%
92	DeepSeek V3 (2025-03-24)	$0.0003	12.3s	26%	56	50	50	49	45	38	38	30	2	0	36%
101	LFM2 24B	$0.0000	7.0s	17%	79	64	50	49	38	30	30	7	3	0	35%
88	DeepSeek V4 Flash	$0.0001	5.8s	28%	50	50	50	50	47	43	34	22	0	0	34%
116	Xiaomi MIMO v2.5	$0.0035	17.0s	4%	98	97	63	50	30	5	0	0	0	0	34%
109	Mistral Large	$0.0090	7.8s	15%	85	59	55	52	49	22	8	7	0	0	34%
98	GPT-4o, May 13th (temp=1)	$0.0050	13.1s	26%	50	50	50	48	47	43	34	3	0	0	32%
106	Stealth: Hunter Alpha	$0.0000	11.2s	16%	85	50	44	41	34	26	22	22	0	0	32%
95	Llama 3.1 8B	$0.0001	1.4s	25%	52	50	50	49	48	38	26	3	1	0	32%
108	DeepSeek V3.1	$0.0003	22.7s	20%	50	49	48	45	34	30	26	10	1	1	29%
105	Gemini 2.5 Flash	$0.0008	2.3s	19%	50	48	47	45	38	22	18	14	1	0	28%
118	Gemini 2.5 Flash (Reasoning)	$0.011	19.6s	15%	64	50	50	43	30	26	12	0	0	0	27%
103	GPT-5.4 Mini	$0.0014	2.3s	23%	50	47	41	41	38	38	18	1	0	0	27%
110	Grok 4.20	$0.0008	4.9s	16%	50	50	50	49	41	18	11	2	0	0	27%
107	Hermes 3 405B	$0.0000	16.5s	21%	50	50	45	41	38	34	7	5	0	0	27%
117	DeepSeek V3 (2024-12-26)	$0.0004	11.6s	8%	74	50	50	47	17	14	14	3	0	0	27%
115	Writer: Palmyra X5	$0.0023	14.1s	13%	66	50	49	47	36	14	1	0	0	0	26%
112	Mistral Small 4	$0.0002	3.8s	15%	53	50	48	40	38	15	4	0	0	0	25%
114	Gemini 2.5 Flash Lite	$0.0001	1.5s	12%	50	50	50	49	47	0	0	0	0	0	25%
120	Stealth: Healer Alpha	$0.0000	34.3s	17%	50	47	41	31	26	26	14	1	0	0	23%
125	Hermes 3 70B	$0.0002	13.2s	4%	75	50	48	43	14	3	1	0	0	0	23%
123	GPT-4o, May 13th (temp=0)	$0.0052	9.1s	9%	50	49	49	41	22	10	0	0	0	0	22%
122	Mistral Medium 3.1	$0.0007	7.6s	7%	50	48	47	43	18	7	3	0	0	0	22%
126	Rocinante 12B	$0.0002	15.4s	6%	50	49	49	45	22	0	0	0	0	0	22%
124	Qwen 2.5 72B	$0.0002	9.9s	6%	50	50	45	43	18	5	1	0	0	0	21%
119	Grok 4.3	$0.0006	3.4s	11%	50	50	37	32	18	16	7	1	0	0	21%
121	DeepSeek-V2 Chat	$0.0001	17.3s	11%	50	48	47	22	18	18	5	0	0	0	21%
130	Mistral Large 3	$0.0005	7.6s	0%	50	49	49	48	0	0	0	0	0	0	20%
132	Qwen 3 32B	$0.0004	14.8s	0%	98	50	38	10	0	0	0	0	0	0	20%
129	Mistral NeMO	$0.0001	5.4s	0%	69	50	50	26	0	0	0	0	0	0	19%
135	DeepSeek V4 Pro	$0.0006	24.2s	1%	62	51	48	26	3	2	2	0	0	0	19%
131	Z.AI GLM 4.5 Air	$0.0006	18.0s	4%	50	47	30	26	14	0	0	0	0	0	17%
133	GPT-5.4 Nano	$0.0004	2.7s	0%	59	50	47	4	0	0	0	0	0	0	16%
127	Mistral Small 3.2 24B	$0.0001	6.5s	5%	50	43	30	18	7	7	5	0	0	0	16%
128	Claude 3.7 Sonnet	$0.0043	7.3s	8%	41	34	22	22	14	7	5	3	1	1	15%
136	Ministral 3 8B	$0.0001	2.6s	0%	50	49	34	0	0	0	0	0	0	0	13%
138	Llama 3.1 Nemotron 70B	$0.0001	11.6s	1%	50	49	22	5	5	0	0	0	0	0	13%
137	Gemma 3 4B	$0.0000	3.2s	1%	50	49	14	3	2	1	0	0	0	0	12%
134	Ministral 3B	$0.0000	1.9s	4%	47	26	22	10	10	0	0	0	0	0	11%
139	Ministral 3 14B	$0.0001	3.5s	0%	50	22	22	5	0	0	0	0	0	0	10%
140	Gemma 3 27B	$0.0001	8.4s	0%	43	41	7	3	0	0	0	0	0	0	9%
142	ByteDance Seed 1.6 Flash	$0.0005	9.8s	0%	43	30	0	0	0	0	0	0	0	0	7%
141	Ministral 8B	$0.0000	2.7s	0%	49	14	0	0	0	0	0	0	0	0	6%
144	Mistral Large 2	$0.0017	7.5s	0%	14	10	1	1	0	0	0	0	0	0	2%
146	Cohere Command R+ (Aug. 2024)	$0.0034	8.5s	0%	14	2	0	0	0	0	0	0	0	0	2%
143	Mistral Small Creative	$0.0001	2.3s	0%	2	0	0	0	0	0	0	0	0	0	0%
147	WizardLM 2 8x22b	$0.0005	14.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
145	Arcee AI: Trinity Mini	$0.0001	5.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
57.50%

Median	Evaluator	Top 3	Flop 3
49.7%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 100Z.AI GLM 5.1 100Z.AI GLM 5 Turbo	0GPT-4.1 Nano 0GPT-4o Mini (temp=0) 0Arcee AI: Trinity Mini
73.6%	Matches word count	100Gemini 3.1 Pro (Preview) 100GPT-5.1 100Z.AI GLM 5 Turbo	0Arcee AI: Trinity Mini 0WizardLM 2 8x22b 0Grok 4.3

Write 200 words with 50% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
GPT-5.4 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
Qwen 3.6 35B	100%
Qwen 3.5 397B A17B	99%
Claude Sonnet 4.6 (Reasoning)	99%
Z.AI GLM 5 Turbo	98%
GPT-5.5 (Reasoning, Low)	98%
Z.AI GLM 5.1	98%
Qwen 3.5 27B	98%
MiniMax M2.5	98%
Qwen 3.5 35B	97%
Inception Mercury 2	97%
GPT-OSS 120B	97%
MiniMax M2.7	96%
Gemma 4 31B (Reasoning)	96%
GPT-5	95%
Qwen3.6 Max Preview	95%
Grok 4.3 (Reasoning)	95%
GPT-5.4 Nano (Reasoning)	95%

	Score	Cost	Time
Inception Mercury 2	97%	$0.0031	5.3s
Stealth: Aurora Alpha	85%	—	7.2s
GPT-5.5	91%	$0.0094	8.9s
GPT-5.4 Nano (Reasoning)	95%	$0.0072	34.0s
GPT-5.4 Nano (Reasoning, Low)	80%	$0.0027	15.2s
GPT-5 Mini	90%	$0.0084	50.9s
Claude Opus 4.6 (Reasoning)	90%	$0.034	20.9s
GPT-OSS 120B	97%	$0.0012	2.6m
GPT-5.4 (Reasoning, Low)	83%	$0.018	19.5s
Gemini 3 Flash (Preview, Reasoning)	87%	$0.024	39.7s
Claude Opus 4.6	79%	$0.0081	9.6s
Qwen 3.6 35B	100%	$0.015	1.3m
GPT-5.4 (Reasoning)	100%	$0.042	47.1s
GPT-5.1	95%	$0.038	1.1m
GPT-5.5 (Reasoning, Low)	98%	$0.041	23.6s
Nemotron 3 Super	90%	$0.0000	2.7m
GPT-4o, Aug. 6th (temp=0)	83%	$0.0031	4.0s
Z.AI GLM 5 Turbo	98%	$0.028	1.3m
GPT-5.2	90%	$0.038	48.2s
o4 Mini	89%	$0.027	1.1m

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	99%	99%
Qwen 3.6 35B	100%	99%	99%
GPT-5.5 (Reasoning, Low)	98%	96%	95%
Claude Sonnet 4.6 (Reasoning)	99%	96%	95%
Qwen 3.5 397B A17B	99%	92%	92%
Qwen 3.5 27B	98%	92%	92%
Qwen 3.5 35B	97%	91%	91%
Z.AI GLM 5 Turbo	98%	90%	90%
Z.AI GLM 5.1	98%	90%	90%
Inception Mercury 2	97%	86%	86%
MiniMax M2.5	98%	86%	86%
GPT-OSS 120B	97%	83%	83%
Gemma 4 31B (Reasoning)	96%	82%	82%
MiniMax M2.7	96%	77%	77%
GPT-5.5	91%	75%	74%
Grok 4.20 (Beta, Reasoning)	91%	72%	71%
GPT-5.1	95%	70%	70%
GPT-5.4 Nano (Reasoning)	95%	70%	70%

	Score	Cost	Speed	Stability
Inception Mercury 2	97%	$0.0031	5.3s	86%
Qwen 3.6 35B	100%	$0.015	1.3m	99%
GPT-5.5 (Reasoning, Low)	98%	$0.041	23.6s	95%
GPT-5.4 (Reasoning)	100%	$0.042	47.1s	100%
GPT-5.5	91%	$0.0094	8.9s	74%
GPT-5.4 Nano (Reasoning)	95%	$0.0072	34.0s	70%
Z.AI GLM 5 Turbo	98%	$0.028	1.3m	90%
GPT-4o, Aug. 6th (temp=0)	83%	$0.0031	4.0s	62%
Qwen 3.5 35B	97%	$0.032	1.7m	91%
Qwen 3.5 27B	98%	$0.028	2.0m	92%
GPT-OSS 120B	97%	$0.0012	2.6m	83%
GPT-5.5 (Reasoning)	100%	$0.083	39.8s	99%
GPT-5 Mini	90%	$0.0084	50.9s	60%
Claude Opus 4.6 (Reasoning)	90%	$0.034	20.9s	64%
GPT-5.4 Nano (Reasoning, Low)	80%	$0.0027	15.2s	52%
GPT-5.4 (Reasoning, Low)	83%	$0.018	19.5s	59%
Z.AI GLM 5.1	98%	$0.036	2.5m	90%
GPT-5.1	95%	$0.038	1.1m	70%
Claude Sonnet 4.6	77%	$0.0048	7.9s	48%
Claude Opus 4.6	79%	$0.0081	9.6s	49%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
32	Gemini 3.1 Pro (Preview)	$0.111	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 (Reasoning)	$0.042	47.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.5 (Reasoning)	$0.083	39.8s	99%	100	100	100	100	100	100	100	100	100	99	100%
2	Qwen 3.6 35B	$0.015	1.3m	99%	100	100	100	100	100	100	100	99	99	98	100%
51	Qwen 3.5 397B A17B	$0.043	5.0m	92%	100	100	100	100	100	100	100	100	99	87	99%
76	Claude Sonnet 4.6 (Reasoning)	$0.152	1.7m	95%	100	100	100	100	100	99	99	99	97	93	99%
7	Z.AI GLM 5 Turbo	$0.028	1.3m	90%	100	100	100	100	100	100	100	100	99	83	98%
3	GPT-5.5 (Reasoning, Low)	$0.041	23.6s	95%	100	100	100	99	99	99	98	97	95	95	98%
17	Z.AI GLM 5.1	$0.036	2.5m	90%	100	100	100	100	100	100	100	100	97	83	98%
10	Qwen 3.5 27B	$0.028	2.0m	92%	100	100	100	100	100	100	100	98	94	87	98%
24	MiniMax M2.5	$0.018	3.4m	86%	100	100	100	100	100	100	100	100	100	76	98%
9	Qwen 3.5 35B	$0.032	1.7m	91%	100	100	100	100	100	100	100	95	94	86	97%
1	Inception Mercury 2	$0.0031	5.3s	86%	100	100	100	100	100	100	100	98	95	76	97%
11	GPT-OSS 120B	$0.0012	2.6m	83%	100	100	100	100	100	100	100	99	97	71	97%
36	MiniMax M2.7	$0.020	4.0m	77%	100	100	100	100	100	100	100	99	99	62	96%
62	Gemma 4 31B (Reasoning)	$0.0034	6.4m	82%	100	100	100	100	100	100	100	100	88	71	96%
26	GPT-5	$0.046	1.2m	70%	100	100	100	100	100	100	100	100	100	50	95%
102	Qwen3.6 Max Preview	$0.076	4.4m	70%	100	100	100	100	100	100	100	100	100	50	95%
48	Grok 4.3 (Reasoning)	$0.040	3.2m	70%	100	100	100	100	100	100	100	100	100	50	95%
6	GPT-5.4 Nano (Reasoning)	$0.0072	34.0s	70%	100	100	100	100	100	100	100	100	99	50	95%
18	GPT-5.1	$0.038	1.1m	70%	100	100	100	100	100	100	100	100	96	50	95%
5	GPT-5.5	$0.0094	8.9s	74%	100	100	100	100	99	99	93	90	76	60	91%
21	Grok 4.20 (Beta, Reasoning)	$0.051	35.2s	71%	100	100	100	100	99	98	91	87	86	53	91%
23	GPT-5.2	$0.038	48.2s	67%	100	100	100	100	100	100	99	82	71	50	90%
14	Claude Opus 4.6 (Reasoning)	$0.034	20.9s	64%	100	100	100	99	99	99	98	95	61	50	90%
13	GPT-5 Mini	$0.0084	50.9s	60%	100	100	100	100	100	100	100	100	50	50	90%
31	Nemotron 3 Super	$0.0000	2.7m	60%	100	100	100	100	100	99	99	98	50	50	90%
110	Gemma 4 26B (Reasoning)	$0.0044	5.8m	40%	100	100	100	100	100	100	100	100	95	0	89%
27	o4 Mini	$0.027	1.1m	61%	100	100	100	100	100	99	94	93	50	50	89%
44	MoonshotAI: Kimi K2.5	$0.024	3.2m	67%	100	100	100	97	95	94	90	80	80	50	89%
41	Grok 4.20 (Reasoning)	$0.032	2.3m	63%	100	100	98	98	96	90	88	88	66	47	87%
22	Gemini 3 Flash (Preview, Reasoning)	$0.024	39.7s	59%	100	100	100	100	100	100	100	64	54	50	87%
95	MoonshotAI: Kimi K2.6	$0.039	3.9m	55%	100	100	100	100	100	99	98	72	51	38	86%
25	Stealth: Aurora Alpha	—	7.2s	54%	100	100	100	100	99	99	98	50	50	50	85%
47	o4 Mini High	$0.039	1.6m	54%	100	100	100	100	99	99	98	50	50	50	85%
16	GPT-5.4 (Reasoning, Low)	$0.018	19.5s	59%	100	100	100	100	99	96	67	66	53	52	83%
8	GPT-4o, Aug. 6th (temp=0)	$0.0031	4.0s	62%	100	100	99	90	89	86	71	71	64	60	83%
55	Qwen 3.5 Plus (2026-04-20)	$0.022	2.3m	49%	100	100	100	100	99	95	84	50	50	34	81%
30	Qwen 3.6 Flash	$0.018	57.0s	54%	100	100	100	98	97	94	69	52	50	48	81%
15	GPT-5.4 Nano (Reasoning, Low)	$0.0027	15.2s	52%	100	100	100	100	99	95	59	53	50	45	80%
59	Qwen 3.5 122B	$0.042	1.5m	48%	100	100	100	99	98	72	64	63	51	43	79%
20	Claude Opus 4.6	$0.0081	9.6s	49%	100	100	100	100	93	93	51	51	49	49	79%
19	Claude Sonnet 4.6	$0.0048	7.9s	48%	98	97	95	95	94	76	70	59	45	39	77%
29	GPT-5.4 Mini (Reasoning)	$0.014	16.0s	46%	100	99	98	96	88	70	62	50	50	50	76%
90	Z.AI GLM 4.7	$0.0090	3.1m	39%	100	100	100	100	98	95	54	50	48	14	76%
39	Gemini 3 Pro (Preview)	$0.031	21.0s	44%	100	100	99	99	90	82	49	48	45	45	76%
94	Nemotron 3 Nano	$0.0031	3.8m	41%	100	100	100	98	73	72	65	50	50	44	75%
28	Inception Mercury	$0.0002	9.8s	41%	100	100	99	97	87	77	50	47	41	40	74%
50	Gemini 2.5 Pro	$0.036	29.5s	47%	93	90	89	84	76	73	67	60	44	36	71%
80	Qwen 3.5 Flash	$0.0067	2.0m	31%	100	100	100	97	95	57	45	39	31	30	69%
147	DeepSeek V4 Pro (Reasoning)	$0.030	5.5m	26%	100	100	100	100	60	50	50	50	43	34	69%
40	GPT-4o, May 13th (temp=0)	$0.0051	9.6s	33%	100	97	83	82	81	72	64	50	41	1	67%
42	Claude Opus 4.5	$0.0084	9.8s	33%	99	95	93	79	67	49	48	48	47	45	67%
38	Mistral Small 4	$0.0002	3.5s	31%	98	95	89	80	79	64	55	50	42	0	65%
113	Qwen 3.6 27B	$0.032	2.3m	26%	100	99	96	86	84	75	50	39	16	3	65%
83	GPT-5 Nano	$0.0039	1.6m	28%	100	100	96	50	50	50	50	50	50	50	65%
89	Z.AI GLM 4.6	$0.0057	1.6m	26%	100	98	86	84	65	60	52	50	39	0	63%
46	GPT-4o, Aug. 6th (temp=1)	$0.0032	4.0s	30%	100	95	82	50	50	50	50	50	50	49	63%
49	Claude Opus 4.7 (Reasoning)	$0.012	7.6s	34%	93	80	79	79	54	50	50	49	49	43	63%
63	Mistral Large	$0.0086	8.2s	21%	100	99	91	86	80	59	57	51	0	0	62%
45	Grok 4.1 Fast	$0.0003	8.4s	30%	98	94	81	69	64	60	53	50	50	3	62%
91	ByteDance Seed 1.6	$0.0088	1.6m	29%	99	91	70	69	69	51	50	50	47	0	60%
120	ByteDance Seed 2.0 Mini	$0.0032	3.5m	23%	100	97	87	59	53	52	50	50	41	0	59%
78	Gemini 2.5 Flash (Reasoning)	$0.013	21.0s	23%	100	98	77	50	50	50	50	50	49	0	57%
114	Z.AI GLM 5	$0.016	2.6m	28%	96	80	72	55	50	49	47	44	40	16	55%
57	GPT-5.4	$0.0049	10.0s	29%	99	87	61	52	50	50	43	41	34	33	55%
60	Mistral Large 3	$0.0005	7.3s	24%	100	99	58	50	49	45	41	38	32	26	54%
73	Hermes 3 405B	$0.0000	17.9s	22%	96	85	82	55	54	51	41	26	22	1	51%
66	LFM2 24B	$0.0000	7.0s	25%	95	94	59	50	50	47	39	34	27	18	51%
54	Mistral Medium 3.1	$0.0006	8.3s	31%	85	64	57	54	51	51	50	50	50	1	51%
33	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	3.1s	50%	50	50	50	50	50	50	50	50	50	49	50%
34	Gemini 3.1 Flash Lite (Preview)	$0.0004	2.1s	49%	50	50	50	50	50	50	50	50	49	48	50%
35	Gemini 3.1 Flash Lite	$0.0004	4.4s	49%	50	50	50	50	50	50	50	50	49	48	50%
37	GPT-4o Mini (temp=1)	$0.0002	5.0s	49%	50	50	50	50	50	50	50	49	49	45	49%
77	Llama 3.1 8B	$0.0001	1.4s	18%	99	99	61	53	50	50	49	22	7	0	49%
53	DeepSeek V3 (2025-03-24)	$0.0004	11.2s	35%	72	63	56	55	51	50	50	43	38	10	49%
75	Claude Haiku 4.5	$0.0016	4.3s	21%	92	88	70	60	60	45	34	22	12	0	48%
61	DeepSeek V3 (2024-12-26)	$0.0004	11.9s	31%	70	68	64	56	51	50	41	41	37	0	48%
43	Grok 4.20	$0.0008	5.5s	45%	50	50	50	50	50	50	50	50	43	34	48%
58	Arcee AI: Trinity Large (Preview)	$0.0000	11.0s	33%	85	50	50	50	47	45	43	38	34	28	47%
92	ByteDance Seed 1.6 Flash	$0.0007	13.5s	14%	100	99	76	50	49	45	41	4	2	0	47%
82	Hermes 3 70B	$0.0001	13.6s	23%	100	64	58	54	52	47	42	25	10	2	45%
56	GPT-4.1	$0.0026	5.0s	36%	50	50	50	50	50	50	50	49	49	5	45%
74	GPT-5.4 Mini (Reasoning, Low)	$0.0022	3.3s	26%	82	64	61	55	52	50	43	34	5	1	45%
87	Mistral Small 4 (Reasoning)	$0.0012	16.0s	22%	98	72	54	50	50	49	44	21	7	1	44%
52	GPT-4o Mini (temp=0)	$0.0002	5.1s	40%	50	50	50	49	48	45	43	43	34	30	44%
64	Claude Opus 4.7	$0.012	7.9s	40%	50	49	49	45	45	45	43	43	41	30	44%
72	Claude 3 Haiku	$0.0004	3.1s	26%	74	71	61	51	49	41	41	30	14	10	44%
79	GPT-5.4 Mini	$0.0014	2.2s	24%	90	69	49	47	44	43	41	34	10	10	44%
88	Ministral 3 14B	$0.0001	3.2s	19%	95	86	50	50	49	48	40	10	4	0	43%
81	GPT-4.1 Mini	$0.0005	5.1s	23%	98	50	49	49	47	45	41	41	10	0	43%
67	DeepSeek-V2 Chat	$0.0001	18.5s	35%	50	50	50	50	50	50	47	43	41	0	43%
85	GPT-4o, May 13th (temp=1)	$0.0051	8.9s	25%	88	50	50	50	50	49	47	44	0	0	43%
68	Stealth: Hunter Alpha	$0.0000	11.8s	34%	53	50	50	50	49	49	47	38	34	0	42%
86	Llama 3.1 70B	$0.0003	3.5s	21%	92	66	50	45	43	38	34	26	18	5	42%
65	GPT-4.1 Nano	$0.0001	3.4s	34%	50	50	50	49	48	48	45	43	30	0	41%
70	Grok 4.20 (Beta)	$0.0018	2.2s	33%	50	50	50	50	49	47	43	38	26	0	40%
84	Xiaomi MIMO v2.5	$0.0027	13.8s	28%	66	57	50	50	50	50	50	26	0	0	40%
69	DeepSeek V4 Flash	$0.0001	5.1s	34%	50	49	49	49	49	48	47	30	22	3	40%
71	Gemini 3 Flash (Preview)	$0.0009	3.2s	33%	50	50	49	49	49	45	45	34	10	10	39%
100	Gemini 2.5 Flash Lite (Reasoning)	$0.0018	19.6s	18%	99	50	50	50	50	30	28	24	4	0	39%
96	Cohere Command R+ (Aug. 2024)	$0.0035	7.3s	23%	71	50	50	49	46	42	36	2	0	0	35%
109	ByteDance Seed 2.0 Lite	$0.0024	28.3s	12%	100	70	50	50	47	27	0	0	0	0	34%
99	Grok 4	$0.0082	19.1s	27%	50	50	50	50	49	38	30	22	3	2	34%
104	DeepSeek V3.2	$0.0008	59.4s	26%	50	49	47	43	38	34	34	22	18	7	34%
129	Qwen 3.5 9B	$0.0016	2.3m	20%	67	59	51	50	42	34	34	0	0	0	34%
98	Ministral 3B	$0.0000	1.5s	20%	76	50	48	47	46	34	18	0	0	0	32%
93	Grok 4 Fast	$0.0003	4.8s	25%	49	49	48	46	45	30	21	18	8	5	32%
108	Qwen 3.5 Plus (2026-02-15)	$0.0008	12.7s	10%	100	60	50	42	34	18	14	2	0	0	32%
97	Stealth: Healer Alpha	$0.0000	10.3s	24%	52	50	50	49	44	38	31	2	2	2	32%
105	Mistral Small Creative	$0.0001	2.3s	13%	83	53	50	49	46	14	14	1	0	0	31%
130	Z.AI GLM 4.7 Flash	$0.0022	1.6m	12%	82	64	53	50	30	28	0	0	0	0	31%
101	Qwen 3 32B	$0.0003	14.1s	24%	56	50	50	46	44	40	10	7	0	0	30%
116	Claude Opus 4	$0.026	16.8s	24%	49	45	43	41	38	38	22	7	1	0	28%
106	DeepSeek V3.1	$0.0003	14.7s	16%	61	50	50	41	34	20	14	10	3	0	28%
103	GPT-5.4 Nano	$0.0004	2.3s	19%	50	49	47	44	34	30	6	2	0	0	26%
112	Qwen 2.5 72B	$0.0001	8.2s	12%	50	50	49	49	26	13	10	7	5	0	26%
111	Gemini 2.5 Flash Lite	$0.0001	1.6s	10%	66	50	50	49	38	4	0	0	0	0	26%
107	Gemma 4 31B	$0.0001	14.6s	18%	45	45	43	26	26	26	22	10	7	1	25%
121	Claude Sonnet 4	$0.0046	7.2s	7%	71	53	45	23	20	7	5	1	0	0	23%
115	Mistral Small 3.2 24B	$0.0001	5.6s	11%	50	50	49	34	30	7	0	0	0	0	22%
122	DeepSeek V4 Pro	$0.0007	17.6s	8%	50	49	48	43	24	3	0	0	0	0	22%
117	Claude 3.5 Sonnet	$0.0050	17.4s	15%	46	40	34	27	26	18	15	1	0	0	21%
118	Rocinante 12B	$0.0003	23.5s	12%	48	44	40	25	23	17	2	0	0	0	20%
124	DeepSeek V4 Flash (Reasoning)	$0.0001	21.3s	6%	50	50	41	22	14	7	5	1	0	0	19%
128	Writer: Palmyra X5	$0.0022	6.8s	2%	50	49	45	29	5	2	0	0	0	0	18%
125	Claude Sonnet 4.5	$0.0049	7.6s	6%	55	50	26	14	10	10	7	5	1	0	18%
123	Ministral 3 8B	$0.0001	2.5s	5%	50	39	34	33	8	7	6	1	0	0	18%
119	Gemma 4 26B	$0.0001	10.6s	11%	45	43	26	22	18	14	5	3	0	0	18%
133	Z.AI GLM 4.5 Air	$0.0004	15.3s	0%	82	49	30	14	0	0	0	0	0	0	17%
138	Aion 2.0	$0.0013	20.6s	0%	73	47	43	10	0	0	0	0	0	0	17%
132	Qwen3 235B A22B Instruct 2507	$0.0002	13.3s	0%	50	50	38	34	0	0	0	0	0	0	17%
131	Mistral NeMO	$0.0000	3.5s	0%	53	50	40	19	1	0	0	0	0	0	16%
127	Llama 3.1 Nemotron 70B	$0.0001	9.1s	4%	50	39	36	17	12	1	0	0	0	0	15%
139	Xiaomi MIMO v2.5 Pro	$0.0015	12.3s	0%	62	49	34	1	0	0	0	0	0	0	15%
126	Claude 3.7 Sonnet	$0.0050	6.8s	9%	41	30	22	18	14	10	3	2	1	0	14%
136	Ministral 8B	$0.0000	3.9s	1%	48	47	16	8	2	2	0	0	0	0	12%
137	WizardLM 2 8x22b	$0.0004	14.0s	4%	40	28	21	20	8	3	1	0	0	0	12%
134	Gemini 2.5 Flash	$0.0008	2.4s	2%	50	50	7	5	5	3	0	0	0	0	12%
135	Ministral 3 3B	$0.0000	1.3s	3%	50	34	7	7	5	3	1	0	0	0	11%
141	Mistral Large 2	$0.0018	6.7s	0%	49	14	3	1	0	0	0	0	0	0	7%
140	Z.AI GLM 4.5	$0.0005	5.7s	1%	26	12	10	10	2	1	1	0	0	0	6%
142	Arcee AI: Trinity Mini	$0.0001	5.2s	0%	50	0	0	0	0	0	0	0	0	0	5%
143	Gemma 3 12B	$0.0001	6.5s	0%	41	4	1	0	0	0	0	0	0	0	5%
144	Grok 4.3	$0.0006	3.5s	0%	26	1	0	0	0	0	0	0	0	0	3%
146	Gemma 3 27B	$0.0001	10.1s	0%	10	0	0	0	0	0	0	0	0	0	1%
145	Gemma 3 4B	$0.0000	3.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
54.16%

Median	Evaluator	Top 3	Flop 3
41.0%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 100GPT-5.4 (Reasoning) 100Qwen 3.5 397B A17B	0Gemini 3.1 Flash Lite (Preview) 0Gemini 3.1 Flash Lite (Reasoning) 0Gemma 3 4B
68.2%	Matches word count	100Gemini 3.1 Pro (Preview) 100GPT-5 Nano 100GPT-5.1	0WizardLM 2 8x22b 0Gemma 3 4B 0Mistral Large 2

Write 200 words with 90% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	99%
MoonshotAI: Kimi K2.6	98%
GPT-4o Mini (temp=0)	97%
Grok 4.3 (Reasoning)	97%
Claude Opus 4.6 (Reasoning)	94%
Claude Opus 4.6	94%
GPT-5.5 (Reasoning)	93%
Qwen 3.5 27B	93%
MiniMax M2.7	89%
GPT-5.2	88%
Claude Opus 4.7 (Reasoning)	86%
Gemma 4 26B (Reasoning)	85%
Qwen 3.5 397B A17B	84%
Inception Mercury 2	83%
GPT-5.4 (Reasoning)	83%
Nemotron 3 Super	82%
Qwen 3.5 Flash	82%
Qwen3.6 Max Preview	82%
Qwen 3.6 35B	81%
GPT-5.5	81%

	Score	Cost	Time
GPT-4o Mini (temp=0)	97%	$0.0002	4.6s
Claude Opus 4.6	94%	$0.0084	10.9s
Claude Opus 4.6 (Reasoning)	94%	$0.011	11.8s
Inception Mercury 2	83%	$0.0027	4.1s
DeepSeek V3.2	73%	$0.0002	23.1s
GPT-OSS 120B	81%	$0.0013	56.3s
Claude Opus 4.5	78%	$0.0085	9.8s
Claude Opus 4.7 (Reasoning)	86%	$0.013	7.2s
Qwen 3.5 Flash	82%	$0.0057	1.4m
Nemotron 3 Super	82%	$0.0000	1.2m
Qwen 3.6 35B	81%	$0.011	51.9s
DeepSeek-V2 Chat	73%	$0.0001	20.6s
Gemini 3 Flash (Preview, Reasoning)	74%	$0.014	23.7s
Qwen 3.5 27B	93%	$0.024	1.6m
GPT-5.4 (Reasoning, Low)	78%	$0.013	16.2s
GPT-5.5 (Reasoning, Low)	78%	$0.015	12.4s
GPT-5.5 (Reasoning)	93%	$0.054	27.7s
GPT-5.4 (Reasoning)	83%	$0.024	30.0s
Grok 4	78%	$0.0083	19.1s
MiniMax M2.7	89%	$0.015	2.5m

	Score	Consistency	Stability
MoonshotAI: Kimi K2.6	98%	95%	94%
Gemini 3.1 Pro (Preview)	99%	94%	94%
GPT-4o Mini (temp=0)	97%	91%	90%
Grok 4.3 (Reasoning)	97%	89%	88%
Claude Opus 4.6 (Reasoning)	94%	85%	83%
Claude Opus 4.6	94%	84%	82%
GPT-5.5 (Reasoning)	93%	80%	79%
Qwen 3.5 27B	93%	71%	70%
Claude Opus 4.7 (Reasoning)	86%	74%	68%
GPT-4o, Aug. 6th (temp=0)	68%	99%	67%
GPT-5.2	88%	69%	67%
Gemma 4 26B (Reasoning)	85%	66%	62%
GPT-4o, Aug. 6th (temp=1)	65%	93%	61%
MiniMax M2.7	89%	61%	60%
Claude Sonnet 4.6	77%	81%	60%
GPT-5.4 (Reasoning)	83%	62%	57%
Claude Opus 4.5	78%	62%	57%
Qwen 3.5 397B A17B	84%	64%	57%
Inception Mercury 2	83%	61%	56%
Qwen3.6 Max Preview	82%	62%	55%

	Score	Cost	Speed	Stability
GPT-4o Mini (temp=0)	97%	$0.0002	4.6s	90%
Claude Opus 4.6	94%	$0.0084	10.9s	82%
Claude Opus 4.6 (Reasoning)	94%	$0.011	11.8s	83%
Claude Opus 4.7 (Reasoning)	86%	$0.013	7.2s	68%
Inception Mercury 2	83%	$0.0027	4.1s	56%
GPT-4o, Aug. 6th (temp=0)	68%	$0.0032	4.0s	67%
Claude Sonnet 4.6	77%	$0.0050	8.7s	60%
Claude Opus 4.5	78%	$0.0085	9.8s	57%
Grok 4.3 (Reasoning)	97%	$0.028	2.2m	88%
GPT-4o, Aug. 6th (temp=1)	65%	$0.0032	4.1s	61%
GPT-5.5	81%	$0.0098	9.6s	51%
Gemini 2.5 Flash Lite	72%	$0.0001	1.7s	51%
GPT-5.5 (Reasoning)	93%	$0.054	27.7s	79%
GPT-4o Mini (temp=1)	68%	$0.0002	4.4s	53%
Grok 4	78%	$0.0083	19.1s	52%
GPT-5.2	88%	$0.032	39.2s	67%
GPT-5.4 Mini	73%	$0.0015	2.3s	46%
Qwen 3.5 27B	93%	$0.024	1.6m	70%
GPT-5.4 (Reasoning, Low)	78%	$0.013	16.2s	53%
Nemotron 3 Super	82%	$0.0000	1.2m	54%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
84	Gemini 3.1 Pro (Preview)	$0.117	1.7m	94%	100	100	100	100	100	100	100	100	100	89	99%
92	MoonshotAI: Kimi K2.6	$0.038	5.5m	94%	100	100	100	100	100	99	97	96	96	91	98%
1	GPT-4o Mini (temp=0)	$0.0002	4.6s	90%	100	100	100	100	100	99	99	98	97	84	97%
9	Grok 4.3 (Reasoning)	$0.028	2.2m	88%	100	100	100	100	99	99	99	98	87	85	97%
3	Claude Opus 4.6 (Reasoning)	$0.011	11.8s	83%	100	100	100	100	98	98	95	88	81	80	94%
2	Claude Opus 4.6	$0.0084	10.9s	82%	100	100	100	99	99	96	95	85	82	79	94%
13	GPT-5.5 (Reasoning)	$0.054	27.7s	79%	100	100	100	100	99	98	98	89	83	68	93%
18	Qwen 3.5 27B	$0.024	1.6m	70%	100	100	100	100	99	99	97	95	94	50	93%
43	MiniMax M2.7	$0.015	2.5m	60%	100	100	100	100	99	99	98	96	50	50	89%
16	GPT-5.2	$0.032	39.2s	67%	100	99	99	98	98	96	89	83	68	50	88%
4	Claude Opus 4.7 (Reasoning)	$0.013	7.2s	68%	97	95	94	94	93	91	88	78	76	53	86%
45	Gemma 4 26B (Reasoning)	$0.0034	2.9m	62%	100	100	99	98	95	93	80	68	62	50	85%
137	Qwen 3.5 397B A17B	$0.043	5.2m	57%	100	100	100	98	91	87	83	83	50	50	84%
5	Inception Mercury 2	$0.0027	4.1s	56%	99	99	99	98	94	92	88	62	50	50	83%
24	GPT-5.4 (Reasoning)	$0.024	30.0s	57%	100	100	99	99	93	89	71	68	68	40	83%
20	Nemotron 3 Super	$0.0000	1.2m	54%	100	100	100	99	95	84	79	71	50	46	82%
29	Qwen 3.5 Flash	$0.0057	1.4m	52%	100	100	100	99	99	95	87	50	50	41	82%
129	Qwen3.6 Max Preview	$0.058	3.5m	55%	100	100	99	95	95	83	76	68	50	50	82%
25	Qwen 3.6 35B	$0.011	51.9s	52%	100	100	100	99	98	83	83	51	50	48	81%
11	GPT-5.5	$0.0098	9.6s	51%	100	100	100	98	82	68	68	66	65	64	81%
32	GPT-OSS 120B	$0.0013	56.3s	37%	99	99	98	98	97	94	92	82	50	0	81%
63	Qwen 3.5 122B	$0.034	1.4m	52%	100	100	100	94	93	92	76	50	50	45	80%
65	Z.AI GLM 5.1	$0.021	2.1m	53%	99	98	93	83	83	83	82	79	48	43	79%
60	Grok 4.20 (Reasoning)	$0.022	1.7m	52%	100	98	98	92	92	86	76	56	49	41	79%
48	MoonshotAI: Kimi K2.5	$0.013	1.8m	54%	100	98	97	92	91	84	68	55	52	50	79%
15	Grok 4	$0.0083	19.1s	52%	100	99	94	90	84	76	74	63	55	48	78%
8	Claude Opus 4.5	$0.0085	9.8s	57%	96	95	93	93	92	91	63	60	49	49	78%
22	GPT-5.5 (Reasoning, Low)	$0.015	12.4s	50%	100	98	98	97	93	75	67	52	51	50	78%
19	GPT-5.4 (Reasoning, Low)	$0.013	16.2s	53%	100	100	88	83	83	83	76	76	51	40	78%
40	GPT-5.1	$0.020	33.6s	45%	100	100	98	89	74	68	68	68	68	38	77%
7	Claude Sonnet 4.6	$0.0050	8.7s	60%	99	84	84	83	75	73	73	67	67	67	77%
23	GPT-5.4 Nano (Reasoning)	$0.0038	20.7s	46%	100	100	97	86	80	70	68	50	50	50	75%
71	o4 Mini High	$0.033	1.3m	49%	99	98	89	82	77	76	68	53	50	50	74%
31	Gemini 3 Flash (Preview, Reasoning)	$0.014	23.7s	46%	100	98	96	89	86	79	50	49	49	43	74%
33	DeepSeek V3.2	$0.0002	23.1s	34%	99	99	98	98	93	88	75	49	18	18	73%
17	GPT-5.4 Mini	$0.0015	2.3s	46%	100	93	92	84	83	64	59	58	50	46	73%
21	DeepSeek-V2 Chat	$0.0001	20.6s	48%	99	94	89	87	83	76	50	50	49	49	73%
98	Qwen 3.5 35B	$0.026	1.2m	32%	100	100	98	96	90	83	64	50	43	0	72%
41	Claude Sonnet 4.6 (Reasoning)	$0.018	17.0s	44%	100	97	90	75	72	63	60	56	53	50	72%
12	Gemini 2.5 Flash Lite	$0.0001	1.7s	51%	95	88	84	76	72	72	72	59	50	49	72%
35	DeepSeek V3.1	$0.0003	13.8s	32%	100	99	98	97	67	65	62	59	50	18	71%
51	Claude Opus 4	$0.027	19.9s	45%	94	93	86	85	80	80	65	52	51	21	71%
27	Claude Opus 4.7	$0.013	7.8s	48%	100	95	68	68	66	66	64	64	62	52	70%
26	Grok 4.1 Fast	$0.0003	7.5s	41%	99	93	85	82	72	66	64	53	51	29	69%
107	Grok 4.20 (Beta, Reasoning)	$0.048	37.1s	32%	100	99	96	94	93	50	50	50	31	30	69%
49	Z.AI GLM 5 Turbo	$0.010	24.8s	37%	100	100	86	83	68	66	59	50	49	28	69%
14	GPT-4o Mini (temp=1)	$0.0002	4.4s	53%	95	68	68	68	68	68	68	67	66	44	68%
59	Z.AI GLM 5	$0.0055	55.8s	35%	100	97	93	83	80	52	48	46	42	42	68%
34	Claude Haiku 4.5	$0.0016	4.6s	35%	99	97	88	87	71	53	52	50	44	39	68%
6	GPT-4o, Aug. 6th (temp=0)	$0.0032	4.0s	67%	68	68	68	68	68	68	68	68	68	66	68%
46	DeepSeek V4 Flash (Reasoning)	$0.0001	1.0m	43%	99	95	80	75	71	66	50	50	50	41	68%
64	Qwen 3.6 Flash	$0.012	36.4s	34%	100	96	80	76	75	68	60	51	50	3	66%
131	DeepSeek V4 Pro (Reasoning)	$0.021	2.9m	31%	100	95	92	83	66	64	56	49	28	18	65%
10	GPT-4o, Aug. 6th (temp=1)	$0.0032	4.1s	61%	68	68	68	68	67	65	64	62	59	59	65%
42	Xiaomi MIMO v2.5 Pro	$0.0017	12.1s	37%	96	93	75	75	68	68	50	49	43	18	64%
55	Inception Mercury	$0.0002	4.7s	24%	98	93	91	91	63	50	50	50	45	2	63%
36	Claude 3.7 Sonnet	$0.0049	7.2s	42%	95	84	64	60	60	59	52	52	50	50	63%
123	GPT-5	$0.041	1.2m	27%	100	97	89	68	68	51	50	50	50	2	63%
78	GPT-5 Mini	$0.0082	43.0s	30%	100	100	72	50	50	50	50	50	50	50	62%
105	MiniMax M2.5	$0.0088	1.8m	31%	100	100	64	59	50	50	50	50	50	50	62%
30	GPT-4o, May 13th (temp=0)	$0.0049	7.3s	48%	68	68	68	68	68	68	68	68	52	18	62%
37	Llama 3.1 70B	$0.0003	3.6s	37%	87	83	68	68	68	67	65	57	44	2	61%
91	Gemma 4 31B (Reasoning)	$0.0013	1.7m	37%	86	83	81	74	68	52	48	44	44	28	61%
44	GPT-5.4 Mini (Reasoning)	$0.0042	5.3s	39%	97	77	73	73	68	62	50	40	35	33	61%
109	GPT-5 Nano	$0.0043	1.8m	23%	98	98	98	50	50	50	50	50	50	13	61%
62	DeepSeek V4 Flash	$0.0001	8.4s	24%	98	97	90	89	68	68	28	23	18	18	60%
128	Qwen 3.6 27B	$0.024	1.7m	21%	100	93	90	82	68	50	50	50	14	0	60%
72	GPT-4.1 Nano	$0.0001	3.8s	18%	100	99	96	92	63	58	41	22	18	2	59%
28	GPT-4.1	$0.0026	4.9s	50%	68	68	68	68	68	59	50	49	44	43	59%
87	Z.AI GLM 4.7	$0.0033	1.0m	31%	96	84	78	68	66	59	50	40	18	18	58%
61	Gemma 4 26B	$0.0001	11.1s	29%	98	93	75	63	60	59	51	28	26	20	57%
75	Qwen 2.5 72B	$0.0001	8.7s	20%	100	100	79	72	50	50	50	50	20	0	57%
111	ByteDance Seed 1.6	$0.0056	1.1m	15%	100	99	96	84	56	50	43	40	0	0	57%
52	Arcee AI: Trinity Large (Preview)	$0.0000	8.4s	34%	97	75	67	60	60	50	50	45	38	26	57%
121	Stealth: Aurora Alpha	—	4.8s	22%	95	94	77	72	62	59	56	50	0	0	56%
103	o4 Mini	$0.015	32.9s	23%	100	96	82	60	55	50	40	34	24	14	55%
79	Xiaomi MIMO v2.5	$0.0009	6.4s	20%	97	95	80	68	62	51	49	48	0	0	55%
74	Ministral 8B	$0.0000	2.5s	21%	95	95	78	68	51	50	49	44	18	0	55%
50	Grok 4.20	$0.0008	5.4s	37%	91	68	66	64	64	64	52	32	28	18	55%
73	Qwen 3.5 Plus (2026-02-15)	$0.0008	12.7s	26%	89	87	80	75	64	49	44	19	18	18	54%
70	Writer: Palmyra X5	$0.0023	6.5s	26%	100	84	55	52	51	50	50	50	49	0	54%
81	Stealth: Hunter Alpha	$0.0000	11.4s	22%	98	92	80	50	50	49	48	38	20	7	53%
56	Gemini 3 Flash (Preview)	$0.0010	3.4s	34%	92	68	62	59	56	56	56	36	26	23	53%
53	GPT-5.4 Mini (Reasoning, Low)	$0.0017	3.0s	38%	70	68	68	66	63	57	53	39	35	10	53%
120	Qwen 3.5 Plus (2026-04-20)	$0.012	1.3m	19%	96	92	91	50	50	48	43	41	18	0	53%
90	Grok 4.20 (Beta)	$0.0017	1.9s	18%	100	99	68	67	50	50	48	43	0	0	53%
136	Nemotron 3 Nano	$0.0024	3.5m	27%	87	86	50	50	50	50	50	50	50	0	52%
54	Claude Sonnet 4.5	$0.0049	7.7s	41%	75	57	53	50	50	50	49	49	47	36	52%
99	DeepSeek V3 (2024-12-26)	$0.0004	12.3s	15%	100	100	88	70	50	48	26	25	6	0	51%
94	Claude 3.5 Sonnet	$0.0051	18.3s	25%	92	91	65	56	56	44	32	32	19	18	51%
67	GPT-4o, May 13th (temp=1)	$0.0051	8.8s	34%	68	68	68	66	56	52	52	26	23	18	50%
39	Mistral NeMO	$0.0000	3.5s	49%	50	50	50	50	50	50	50	49	47	46	49%
38	Gemini 3.1 Flash Lite (Preview)	$0.0004	2.0s	49%	50	50	50	50	50	50	50	48	47	47	49%
77	Qwen3 235B A22B Instruct 2507	$0.0001	8.8s	27%	80	67	67	62	50	50	48	44	19	0	49%
66	Gemini 2.5 Flash	$0.0009	2.7s	31%	68	68	67	65	50	50	49	29	21	18	49%
58	Gemma 3 12B	$0.0001	7.2s	38%	67	57	51	50	50	50	50	50	44	16	49%
88	Gemini 2.5 Flash Lite (Reasoning)	$0.0024	21.8s	28%	99	58	50	50	49	46	42	40	32	18	48%
76	GPT-5.4 Nano (Reasoning, Low)	$0.0017	8.9s	29%	100	52	50	50	50	50	49	36	27	18	48%
47	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	2.1s	46%	50	50	50	50	49	49	49	48	43	41	48%
95	Mistral Medium 3.1	$0.0006	5.2s	20%	91	80	79	50	48	42	33	30	17	2	47%
82	Mistral Small 3.2 24B	$0.0001	5.6s	26%	95	55	54	48	48	48	47	41	26	1	46%
85	DeepSeek V3 (2025-03-24)	$0.0004	11.6s	27%	86	71	53	50	50	50	47	32	22	0	46%
57	Gemma 3 4B	$0.0000	3.1s	40%	50	50	50	50	50	50	50	48	43	18	46%
93	GPT-5.4	$0.0049	10.3s	29%	68	65	62	56	44	44	44	28	18	18	45%
102	Z.AI GLM 4.6	$0.0035	1.1m	35%	68	51	50	50	50	48	48	43	18	18	45%
86	GPT-4.1 Mini	$0.0005	4.6s	26%	68	68	67	67	59	36	23	19	18	18	45%
83	Gemini 2.5 Flash (Reasoning)	$0.010	18.3s	39%	53	50	50	50	49	49	49	38	37	18	44%
80	Aion 2.0	$0.0010	15.2s	34%	59	55	51	50	47	43	42	39	32	15	43%
97	Llama 3.1 Nemotron 70B	$0.0001	9.3s	25%	96	50	50	50	50	49	44	23	18	0	43%
68	Gemini 3.1 Flash Lite	$0.0004	2.0s	35%	50	50	50	50	50	48	45	43	43	1	43%
108	Z.AI GLM 4.7 Flash	$0.0010	58.4s	26%	95	56	52	50	50	47	18	18	18	18	42%
96	Z.AI GLM 4.5	$0.0005	5.8s	25%	94	64	50	50	50	50	20	18	18	10	42%
116	Gemini 2.5 Pro	$0.026	21.5s	28%	80	57	55	53	49	45	28	18	18	18	42%
69	Gemma 3 27B	$0.0001	9.2s	37%	50	50	50	49	49	49	45	39	18	18	42%
101	Hermes 3 70B	$0.0001	13.4s	24%	78	67	64	50	50	48	28	27	2	0	41%
89	Z.AI GLM 4.5 Air	$0.0005	14.1s	31%	63	52	50	50	50	47	43	40	18	0	41%
110	Stealth: Healer Alpha	$0.0000	27.3s	19%	93	64	62	48	43	43	18	16	3	0	39%
100	Hermes 3 405B	$0.0000	19.1s	29%	60	55	51	51	45	41	34	26	14	10	39%
115	Mistral Small 4 (Reasoning)	$0.0024	24.5s	17%	98	60	50	50	49	48	0	0	0	0	36%
104	Grok 4.3	$0.0007	4.8s	25%	59	51	48	48	47	30	25	19	15	0	34%
112	Grok 4 Fast	$0.0003	4.9s	16%	77	56	51	43	31	25	18	11	11	2	33%
117	GPT-5.4 Nano	$0.0005	4.9s	13%	68	59	50	47	25	23	18	18	4	0	31%
106	Llama 3.1 8B	$0.0001	1.4s	21%	62	50	50	50	38	38	18	7	0	0	31%
118	Ministral 3B	$0.0000	1.5s	13%	84	50	46	30	30	21	18	15	0	0	29%
113	LFM2 24B	$0.0000	8.2s	19%	62	50	40	38	31	30	27	14	0	0	29%
122	DeepSeek V4 Pro	$0.0006	13.2s	13%	59	56	40	26	19	19	18	18	18	18	29%
147	ByteDance Seed 2.0 Mini	$0.0032	3.7m	8%	87	63	50	49	38	2	0	0	0	0	29%
133	Gemini 3 Pro (Preview)	$0.022	18.6s	19%	50	50	50	49	48	18	14	5	2	2	29%
130	ByteDance Seed 2.0 Lite	$0.0028	33.5s	13%	64	59	50	50	45	9	3	2	0	0	28%
114	Claude 3 Haiku	$0.0004	2.9s	18%	50	50	48	47	38	22	18	7	1	0	28%
146	Qwen 3.5 9B	$0.0022	3.3m	13%	80	52	50	40	33	23	1	0	0	0	28%
119	Mistral Large	$0.0088	7.5s	23%	50	50	47	41	41	38	12	0	0	0	28%
126	Gemma 4 31B	$0.0001	27.8s	16%	46	35	35	21	19	19	18	18	18	18	25%
125	Mistral Small 4	$0.0002	3.4s	10%	51	50	47	41	19	14	10	3	3	2	24%
124	Arcee AI: Trinity Mini	$0.0001	4.5s	13%	50	49	39	33	27	12	11	7	5	0	23%
127	Claude Sonnet 4	$0.0047	7.2s	15%	49	28	21	19	19	19	19	18	18	18	23%
132	Mistral Large 2	$0.0018	8.2s	9%	50	49	49	39	24	7	2	1	1	0	22%
134	Ministral 3 14B	$0.0001	6.9s	6%	50	47	43	28	10	10	7	3	1	1	20%
138	Qwen 3 32B	$0.0004	16.9s	3%	57	47	45	37	7	4	0	0	0	0	20%
139	Rocinante 12B	$0.0001	13.3s	3%	49	49	46	18	7	5	0	0	0	0	18%
141	ByteDance Seed 1.6 Flash	$0.0003	7.7s	0%	63	56	28	14	0	0	0	0	0	0	16%
140	Ministral 3 3B	$0.0000	1.3s	0%	68	48	22	14	1	0	0	0	0	0	15%
135	Mistral Large 3	$0.0006	7.8s	8%	49	26	26	26	22	1	0	0	0	0	15%
143	WizardLM 2 8x22b	$0.0004	16.4s	0%	50	44	6	4	1	0	0	0	0	0	11%
142	Mistral Small Creative	$0.0001	2.2s	1%	47	23	18	5	4	0	0	0	0	0	10%
145	Cohere Command R+ (Aug. 2024)	$0.0037	8.3s	0%	31	14	10	1	0	0	0	0	0	0	6%
144	Ministral 3 8B	$0.0001	2.5s	0%	54	1	0	0	0	0	0	0	0	0	6%
56.08%

Median	Evaluator	Top 3	Flop 3
58.4%	Dialogue to Total Word Ratio	100Claude 3.7 Sonnet 99Gemini 2.5 Flash Lite 99GPT-4o Mini (temp=0)	0Gemini 3.1 Flash Lite (Preview) 0Gemini 3.1 Flash Lite 0Gemini 3.1 Flash Lite (Reasoning)
59.3%	Matches word count	100GPT-5.2 100Gemini 3.1 Pro (Preview) 100GPT-5 Mini	0Gemma 3 4B 0Mistral NeMO 0WizardLM 2 8x22b

Write 500 words with 30% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Z.AI GLM 5 Turbo	97%
Gemini 3.1 Pro (Preview)	96%
GPT-5 Mini	87%
Z.AI GLM 5.1	86%
GPT-5	84%
Claude Sonnet 4.6 (Reasoning)	82%
o4 Mini High	80%
MiniMax M2.5	74%
o4 Mini	73%
MiniMax M2.7	71%
Nemotron 3 Super	71%
Grok 4.3 (Reasoning)	71%
Claude Opus 4.6 (Reasoning)	68%
MoonshotAI: Kimi K2.6	61%
Inception Mercury 2	58%
Nemotron 3 Nano	55%
Claude Opus 4.5	52%
Claude Sonnet 4.6	51%
Stealth: Aurora Alpha	51%
Qwen 3.6 Flash	46%

	Score	Cost	Time
GPT-5 Mini	87%	$0.013	1.1m
Z.AI GLM 5 Turbo	97%	$0.053	2.2m
GPT-5	84%	$0.074	2.0m
MiniMax M2.5	74%	$0.024	3.9m
o4 Mini High	80%	$0.066	2.5m
Gemini 3.1 Pro (Preview)	96%	$0.176	2.3m
Inception Mercury 2	58%	$0.0064	10.9s
Nemotron 3 Super	71%	$0.0000	4.5m
Grok 4.3 (Reasoning)	71%	$0.047	3.7m
Gemini 3 Flash (Preview)	34%	$0.0021	6.8s
Claude Sonnet 4.6	51%	$0.011	17.5s
o4 Mini	73%	$0.043	1.7m
Claude Opus 4.5	52%	$0.018	19.6s
Claude Opus 4.6	43%	$0.019	21.0s
Claude 3.7 Sonnet	38%	$0.012	15.7s
Grok 4.20 (Beta)	33%	$0.0040	4.0s
Z.AI GLM 5.1	86%	$0.067	5.9m
GPT-4o, Aug. 6th (temp=0)	31%	$0.0070	8.1s
Claude Opus 4.7	38%	$0.027	15.6s
Claude Opus 4.7 (Reasoning)	37%	$0.027	14.7s

	Score	Consistency	Stability
Z.AI GLM 5 Turbo	97%	83%	83%
Gemini 3.1 Pro (Preview)	96%	76%	76%
GPT-5 Mini	87%	59%	57%
Z.AI GLM 5.1	86%	57%	56%
Claude Sonnet 4.6 (Reasoning)	82%	58%	55%
o4 Mini High	80%	47%	45%
MiniMax M2.7	71%	63%	43%
Claude Sonnet 4.6	51%	81%	41%
o4 Mini	73%	55%	39%
GPT-5	84%	36%	36%
Claude Opus 4.5	52%	69%	35%
Grok 4.3 (Reasoning)	71%	48%	34%
MiniMax M2.5	74%	34%	33%
Nemotron 3 Super	71%	36%	32%
Claude Opus 4.7	38%	76%	32%
Claude 3.7 Sonnet	38%	65%	30%
Claude Opus 4.6 (Reasoning)	68%	33%	28%
Gemini 3 Flash (Preview)	34%	56%	27%
Grok 4.20 (Beta)	33%	62%	27%
Inception Mercury 2	58%	45%	26%

	Score	Cost	Speed	Stability
Z.AI GLM 5 Turbo	97%	$0.053	2.2m	83%
GPT-5 Mini	87%	$0.013	1.1m	57%
Gemini 3.1 Pro (Preview)	96%	$0.176	2.3m	76%
Claude Sonnet 4.6	51%	$0.011	17.5s	41%
o4 Mini	73%	$0.043	1.7m	39%
Inception Mercury 2	58%	$0.0064	10.9s	26%
Claude Opus 4.5	52%	$0.018	19.6s	35%
o4 Mini High	80%	$0.066	2.5m	45%
GPT-5	84%	$0.074	2.0m	36%
Claude 3.7 Sonnet	38%	$0.012	15.7s	30%
Gemini 3 Flash (Preview)	34%	$0.0021	6.8s	27%
Claude Opus 4.7	38%	$0.027	15.6s	32%
Z.AI GLM 5.1	86%	$0.067	5.9m	56%
Grok 4.20 (Beta)	33%	$0.0040	4.0s	27%
MiniMax M2.5	74%	$0.024	3.9m	33%
Nemotron 3 Super	71%	$0.0000	4.5m	32%
GPT-4o, Aug. 6th (temp=0)	31%	$0.0070	8.1s	26%
Claude Opus 4.6	43%	$0.019	21.0s	20%
GPT-4o Mini (temp=0)	30%	$0.0005	10.8s	22%
Grok 4.3 (Reasoning)	71%	$0.047	3.7m	34%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
1	Z.AI GLM 5 Turbo	$0.053	2.2m	83%	100	100	100	100	100	100	100	100	94	71	97%
3	Gemini 3.1 Pro (Preview)	$0.176	2.3m	76%	100	100	100	100	100	100	100	100	100	60	96%
2	GPT-5 Mini	$0.013	1.1m	57%	100	100	100	100	97	96	96	89	50	42	87%
13	Z.AI GLM 5.1	$0.067	5.9m	56%	100	100	100	100	99	98	95	84	46	43	86%
9	GPT-5	$0.074	2.0m	36%	100	100	100	100	100	100	100	95	39	5	84%
63	Claude Sonnet 4.6 (Reasoning)	$0.297	3.3m	55%	100	98	98	97	95	92	86	59	53	42	82%
8	o4 Mini High	$0.066	2.5m	45%	100	100	100	100	99	90	90	50	50	25	80%
15	MiniMax M2.5	$0.024	3.9m	33%	100	99	99	98	97	96	52	50	46	0	74%
5	o4 Mini	$0.043	1.7m	39%	100	100	100	91	77	65	61	58	43	39	73%
68	MiniMax M2.7	$0.041	8.5m	43%	100	94	91	82	68	66	61	50	50	50	71%
16	Nemotron 3 Super	$0.0000	4.5m	32%	100	100	95	94	93	87	50	48	44	0	71%
20	Grok 4.3 (Reasoning)	$0.047	3.7m	34%	100	99	96	93	83	60	57	50	50	19	71%
139	Claude Opus 4.6 (Reasoning)	$0.275	2.0m	28%	100	100	99	96	87	83	38	36	24	13	68%
146	MoonshotAI: Kimi K2.6	$0.071	7.6m	23%	100	100	100	57	50	46	42	41	40	32	61%
6	Inception Mercury 2	$0.0064	10.9s	26%	100	98	72	69	62	54	49	38	36	5	58%
145	Nemotron 3 Nano	$0.0069	8.0m	16%	100	100	86	82	63	50	33	33	0	0	55%
7	Claude Opus 4.5	$0.018	19.6s	35%	94	54	52	51	50	49	49	49	43	30	52%
4	Claude Sonnet 4.6	$0.011	17.5s	41%	74	55	55	53	53	50	48	47	45	34	51%
35	Stealth: Aurora Alpha	—	15.6s	17%	94	92	80	77	53	50	39	25	0	0	51%
26	Qwen 3.6 Flash	$0.018	56.9s	11%	99	99	87	50	50	28	25	19	7	0	46%
29	Qwen 3.5 27B	$0.028	2.4m	23%	96	75	58	51	50	49	46	24	12	0	46%
56	Gemma 4 31B (Reasoning)	$0.0023	3.7m	13%	99	89	76	48	43	34	30	8	3	0	43%
18	Claude Opus 4.6	$0.019	21.0s	20%	93	72	61	51	50	50	48	4	1	1	43%
40	Gemma 4 26B (Reasoning)	$0.0035	4.0m	23%	95	59	50	50	48	46	43	27	8	0	43%
10	Claude 3.7 Sonnet	$0.012	15.7s	30%	50	50	50	48	48	45	43	41	7	0	38%
12	Claude Opus 4.7	$0.027	15.6s	32%	51	50	50	47	45	38	34	25	22	18	38%
140	MoonshotAI: Kimi K2.5	$0.031	4.2m	6%	98	97	84	39	27	27	0	0	0	0	37%
21	Claude Opus 4.7 (Reasoning)	$0.027	14.7s	23%	75	50	50	48	41	41	41	14	10	0	37%
144	Qwen3.6 Max Preview	$0.084	5.0m	25%	67	50	50	50	49	47	41	2	0	0	36%
147	Qwen 3.5 397B A17B	$0.040	5.2m	6%	98	96	50	47	26	17	15	3	0	0	35%
31	Gemini 3 Flash (Preview, Reasoning)	$0.019	36.3s	6%	100	82	71	47	40	7	0	0	0	0	35%
41	ByteDance Seed 2.0 Mini	$0.0031	3.5m	24%	57	55	51	38	36	35	29	26	12	6	35%
11	Gemini 3 Flash (Preview)	$0.0021	6.8s	27%	50	50	49	49	49	49	41	2	0	0	34%
25	Gemini 2.5 Flash (Reasoning)	$0.019	37.0s	22%	60	50	50	47	41	29	28	22	7	0	33%
14	Grok 4.20 (Beta)	$0.0040	4.0s	27%	50	50	49	49	45	41	22	22	1	0	33%
24	Grok 4	$0.015	35.4s	22%	50	49	49	45	38	30	30	18	7	0	32%
17	GPT-4o, Aug. 6th (temp=0)	$0.0070	8.1s	26%	50	43	43	43	43	41	38	5	0	0	31%
19	GPT-4o Mini (temp=0)	$0.0005	10.8s	22%	50	50	45	38	34	30	26	18	14	0	30%
27	ByteDance Seed 2.0 Lite	$0.0053	1.0m	22%	53	50	47	46	41	31	25	10	0	0	30%
61	Grok 4.20 (Reasoning)	$0.028	2.1m	14%	93	48	38	33	30	26	13	7	5	0	29%
22	Gemini 3.1 Flash Lite (Preview)	$0.0009	3.7s	20%	49	49	48	43	38	26	18	14	1	0	29%
95	GPT-OSS 120B	$0.0013	2.8m	6%	97	83	38	26	18	16	0	0	0	0	28%
23	Gemini 3.1 Flash Lite (Reasoning)	$0.0009	9.9s	19%	50	50	48	47	45	22	7	5	3	0	28%
30	Qwen 3.5 Flash	$0.0041	1.2m	20%	49	47	46	42	34	30	18	0	0	0	27%
38	Claude Opus 4	$0.060	31.2s	20%	47	47	45	41	38	26	10	7	0	0	26%
36	Claude Sonnet 4	$0.011	15.3s	6%	82	50	49	42	17	9	8	0	0	0	26%
80	GPT-5.1	$0.039	1.1m	4%	100	52	48	35	21	2	0	0	0	0	26%
102	Z.AI GLM 4.7	$0.0076	3.4m	14%	60	50	45	29	25	22	19	1	0	0	25%
28	Mistral Large	$0.022	19.4s	20%	49	49	45	36	35	32	0	0	0	0	25%
50	Qwen 3.6 35B	$0.016	1.4m	11%	53	50	49	47	33	8	3	2	0	0	25%
47	GPT-5 Nano	$0.0037	1.5m	9%	74	50	50	27	20	18	2	0	0	0	24%
66	Qwen 3.5 122B	$0.033	1.5m	13%	50	50	49	41	40	8	3	0	0	0	24%
39	Mistral Medium 3.1	$0.0017	23.5s	4%	74	50	50	49	18	0	0	0	0	0	24%
143	DeepSeek V4 Pro (Reasoning)	$0.0094	3.3m	1%	92	60	50	21	3	0	0	0	0	0	23%
42	GPT-5.5	$0.033	29.2s	13%	48	46	44	35	24	16	6	2	2	0	22%
69	Grok 4.20 (Beta, Reasoning)	$0.057	37.9s	12%	49	49	43	31	25	15	6	0	0	0	22%
33	Grok 4.20	$0.0018	13.9s	8%	50	50	43	41	14	14	3	1	1	0	22%
44	Inception Mercury	$0.0013	14.1s	2%	100	58	36	11	10	0	0	0	0	0	22%
55	Z.AI GLM 5	$0.013	1.7m	15%	50	45	41	26	26	23	2	0	0	0	21%
32	Hermes 3 405B	$0.0000	38.3s	12%	50	45	41	34	30	10	1	0	0	0	21%
34	Gemma 3 12B	$0.0001	17.2s	9%	50	49	43	38	30	0	0	0	0	0	21%
79	Gemini 2.5 Pro	$0.030	27.1s	0%	86	68	50	2	0	0	0	0	0	0	21%
37	Grok 4 Fast	$0.0005	7.2s	5%	50	49	45	43	18	1	0	0	0	0	21%
105	Qwen 3.5 Plus (2026-04-20)	$0.020	2.2m	9%	54	49	38	26	17	14	1	0	0	0	20%
141	Qwen 3.6 27B	$0.031	2.3m	2%	97	49	22	22	10	0	0	0	0	0	20%
48	DeepSeek V4 Flash	$0.0002	12.7s	0%	50	50	49	43	1	0	0	0	0	0	19%
46	Gemini 2.5 Flash Lite	$0.0003	3.6s	1%	50	50	47	26	3	0	0	0	0	0	18%
45	Ministral 3 14B	$0.0002	7.6s	4%	50	43	41	26	11	1	0	0	0	0	17%
51	LFM2 24B	$0.0001	18.0s	2%	50	50	45	18	5	2	1	0	0	0	17%
62	DeepSeek V3 (2024-12-26)	$0.0008	24.8s	0%	50	49	47	22	0	0	0	0	0	0	17%
59	Gemini 2.5 Flash Lite (Reasoning)	$0.0031	37.7s	4%	50	48	39	17	7	5	0	0	0	0	17%
52	Arcee AI: Trinity Mini	$0.0002	6.1s	0%	50	48	34	34	0	0	0	0	0	0	17%
54	Claude 3 Haiku	$0.0009	6.5s	0%	79	66	15	3	1	0	0	0	0	0	17%
43	Mistral Large 3	$0.0012	16.2s	7%	43	38	34	22	22	0	0	0	0	0	16%
57	Mistral Small 4	$0.0004	7.2s	1%	70	45	34	3	3	0	0	0	0	0	16%
67	Xiaomi MIMO v2.5 Pro	$0.0039	26.4s	1%	49	46	30	25	2	2	1	0	0	0	16%
53	Gemini 3.1 Flash Lite	$0.0009	8.3s	1%	49	45	34	22	3	2	0	0	0	0	16%
115	GPT-5.4 (Reasoning)	$0.028	42.0s	0%	75	50	18	6	1	0	0	0	0	0	15%
58	Claude Haiku 4.5	$0.0036	8.4s	1%	50	47	26	22	3	1	0	0	0	0	15%
104	ByteDance Seed 1.6	$0.0068	1.3m	2%	53	45	24	10	4	2	2	2	1	0	14%
49	GPT-4o, May 13th (temp=0)	$0.013	23.0s	9%	45	23	22	16	15	10	8	3	1	0	14%
60	Ministral 8B	$0.0001	5.5s	0%	49	49	41	0	0	0	0	0	0	0	14%
130	Gemini 3 Pro (Preview)	$0.039	31.4s	0%	50	45	27	18	0	0	0	0	0	0	14%
71	DeepSeek V4 Flash (Reasoning)	$0.0002	18.5s	0%	48	41	38	0	0	0	0	0	0	0	13%
64	Ministral 3 8B	$0.0001	4.4s	0%	50	50	26	0	0	0	0	0	0	0	13%
101	Z.AI GLM 4.7 Flash	$0.0013	1.0m	0%	50	43	26	1	0	0	0	0	0	0	12%
70	Claude Sonnet 4.5	$0.011	15.4s	4%	42	37	19	11	6	5	1	0	0	0	12%
77	Cohere Command R+ (Aug. 2024)	$0.0073	17.8s	0%	48	47	22	0	0	0	0	0	0	0	12%
78	Hermes 3 70B	$0.0004	30.2s	0%	43	41	31	1	0	0	0	0	0	0	12%
65	Ministral 3 3B	$0.0001	2.5s	1%	52	46	13	3	2	0	0	0	0	0	12%
116	GPT-5.5 (Reasoning)	$0.034	27.6s	3%	49	23	17	13	6	2	1	0	0	0	11%
126	GPT-5.2	$0.022	37.6s	0%	49	44	17	0	0	0	0	0	0	0	11%
73	GPT-4o, Aug. 6th (temp=1)	$0.0077	8.8s	1%	49	29	22	5	2	0	0	0	0	0	11%
134	GPT-5.5 (Reasoning, Low)	$0.035	31.3s	0%	39	38	26	2	0	0	0	0	0	0	11%
86	GPT-4o, May 13th (temp=1)	$0.013	19.4s	1%	47	31	13	6	4	0	0	0	0	0	10%
137	Qwen 3.5 35B	$0.021	1.1m	0%	94	3	1	0	0	0	0	0	0	0	10%
74	Gemini 2.5 Flash	$0.0021	5.4s	0%	45	34	10	0	0	0	0	0	0	0	9%
87	GPT-5.4 (Reasoning, Low)	$0.016	26.8s	4%	25	20	15	15	10	0	0	0	0	0	8%
75	Mistral NeMO	$0.0001	8.5s	0%	44	26	6	2	0	0	0	0	0	0	8%
83	Xiaomi MIMO v2.5	$0.0019	12.6s	0%	47	18	14	0	0	0	0	0	0	0	8%
113	GPT-5.4	$0.014	27.0s	0%	47	25	2	2	1	0	0	0	0	0	8%
72	GPT-5.4 Nano (Reasoning, Low)	$0.0017	7.2s	2%	37	17	12	4	3	3	1	0	0	0	8%
81	GPT-4o Mini (temp=1)	$0.0005	10.5s	0%	41	30	5	0	0	0	0	0	0	0	8%
84	Grok 4.1 Fast	$0.0005	13.1s	0%	48	22	2	0	0	0	0	0	0	0	7%
76	Ministral 3B	$0.0000	3.4s	0%	65	3	0	0	0	0	0	0	0	0	7%
85	GPT-4.1 Mini	$0.0014	9.7s	0%	50	11	7	0	0	0	0	0	0	0	7%
111	DeepSeek-V2 Chat	$0.0002	41.2s	0%	49	10	2	1	0	0	0	0	0	0	6%
93	GPT-4.1	$0.0064	10.6s	0%	48	14	0	0	0	0	0	0	0	0	6%
103	Gemma 4 26B	$0.0002	31.2s	0%	30	30	0	0	0	0	0	0	0	0	6%
88	Grok 4.3	$0.0016	10.9s	0%	50	3	3	0	0	0	0	0	0	0	6%
89	DeepSeek V3 (2025-03-24)	$0.0007	14.5s	0%	43	13	0	0	0	0	0	0	0	0	6%
82	Llama 3.1 8B	$0.0001	2.4s	0%	53	2	0	0	0	0	0	0	0	0	5%
138	Z.AI GLM 4.6	$0.0045	1.3m	0%	50	3	0	0	0	0	0	0	0	0	5%
107	WizardLM 2 8x22b	$0.0008	31.8s	0%	49	2	2	0	0	0	0	0	0	0	5%
108	Qwen 3 32B	$0.0006	31.7s	0%	50	2	0	0	0	0	0	0	0	0	5%
98	Gemma 3 27B	$0.0002	22.6s	0%	49	3	0	0	0	0	0	0	0	0	5%
99	Qwen 2.5 72B	$0.0004	23.1s	0%	47	3	1	0	0	0	0	0	0	0	5%
129	DeepSeek V3.2	$0.0006	48.1s	0%	50	0	0	0	0	0	0	0	0	0	5%
92	Mistral Small 3.2 24B	$0.0002	14.4s	0%	26	22	1	0	0	0	0	0	0	0	5%
94	GPT-5.4 Mini	$0.0046	6.1s	0%	28	12	4	2	0	0	0	0	0	0	5%
112	Rocinante 12B	$0.0004	32.6s	0%	43	3	0	0	0	0	0	0	0	0	5%
100	Qwen3 235B A22B Instruct 2507	$0.0003	21.2s	0%	43	0	0	0	0	0	0	0	0	0	4%
97	Arcee AI: Trinity Large (Preview)	$0.0000	15.9s	0%	43	0	0	0	0	0	0	0	0	0	4%
121	Qwen 3.5 Plus (2026-02-15)	$0.0020	33.3s	0%	26	17	0	0	0	0	0	0	0	0	4%
119	Aion 2.0	$0.0019	31.7s	0%	38	2	1	1	0	0	0	0	0	0	4%
90	Gemma 3 4B	$0.0001	8.3s	0%	38	2	0	0	0	0	0	0	0	0	4%
91	Llama 3.1 70B	$0.0006	7.2s	0%	30	5	1	0	0	0	0	0	0	0	4%
136	Claude 3.5 Sonnet	$0.014	46.8s	0%	34	1	1	1	0	0	0	0	0	0	4%
142	Qwen 3.5 9B	$0.0011	1.6m	0%	21	10	2	0	0	0	0	0	0	0	3%
124	Mistral Small 4 (Reasoning)	$0.0024	28.0s	0%	18	12	3	0	0	0	0	0	0	0	3%
96	GPT-5.4 Nano	$0.0018	7.3s	0%	25	3	2	1	0	0	0	0	0	0	3%
117	Stealth: Hunter Alpha	$0.0000	22.2s	0%	22	0	0	0	0	0	0	0	0	0	2%
118	Llama 3.1 Nemotron 70B	$0.0003	23.4s	0%	22	0	0	0	0	0	0	0	0	0	2%
106	GPT-5.4 Mini (Reasoning, Low)	$0.0044	5.9s	0%	18	1	0	0	0	0	0	0	0	0	2%
128	Mistral Large 2	$0.0044	18.8s	0%	10	0	0	0	0	0	0	0	0	0	1%
125	Stealth: Healer Alpha	$0.0000	22.0s	0%	8	1	0	0	0	0	0	0	0	0	1%
110	GPT-5.4 Nano (Reasoning)	$0.0018	8.5s	0%	7	0	0	0	0	0	0	0	0	0	1%
135	DeepSeek V3.1	$0.0007	45.3s	0%	7	0	0	0	0	0	0	0	0	0	1%
123	ByteDance Seed 1.6 Flash	$0.0006	14.5s	0%	2	0	0	0	0	0	0	0	0	0	0%
109	Mistral Small Creative	$0.0003	5.4s	0%	1	0	0	0	0	0	0	0	0	0	0%
131	Gemma 4 31B	$0.0002	26.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	Z.AI GLM 4.5	$0.0013	12.1s	0%	0	0	0	0	0	0	0	0	0	0	0%
133	Writer: Palmyra X5	$0.0053	22.0s	0%	0	0	0	0	0	0	0	0	0	0	0%
120	GPT-5.4 Mini (Reasoning)	$0.0046	5.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
127	Z.AI GLM 4.5 Air	$0.0009	19.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
114	GPT-4.1 Nano	$0.0004	8.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
132	DeepSeek V4 Pro	$0.0008	28.3s	0%	0	0	0	0	0	0	0	0	0	0	0%
22.85%

Median	Evaluator	Top 3	Flop 3
9.2%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 94Z.AI GLM 5.1 93Z.AI GLM 5 Turbo	0Gemma 3 27B 0Grok 4.20 (Beta) 0DeepSeek V4 Flash (Reasoning)
15.6%	Matches word count	100Z.AI GLM 5 Turbo 100MiniMax M2.7 92Gemini 3.1 Pro (Preview)	0GPT-5.4 Mini (Reasoning, Low) 0GPT-5.4 Nano (Reasoning) 0GPT-5.4 (Reasoning, Low)

Write 500 words with 50% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	95%
GPT-5	95%
MoonshotAI: Kimi K2.6	81%
Z.AI GLM 5.1	81%
GPT-5 Mini	79%
MiniMax M2.7	72%
Claude Opus 4.6	71%
o4 Mini	67%
MiniMax M2.5	63%
Nemotron 3 Super	57%
o4 Mini High	57%
Inception Mercury 2	56%
Claude Opus 4.6 (Reasoning)	53%
Claude Sonnet 4.6 (Reasoning)	50%
Claude Sonnet 4.6	49%
Gemma 4 31B (Reasoning)	47%
GPT-OSS 120B	44%
Nemotron 3 Nano	43%
Qwen3.6 Max Preview	42%

	Score	Cost	Time
GPT-5 Mini	79%	$0.012	1.2m
GPT-5	95%	$0.059	1.5m
Z.AI GLM 5 Turbo	95%	$0.055	2.2m
Claude Opus 4.6	71%	$0.019	20.3s
Inception Mercury 2	56%	$0.0058	9.1s
o4 Mini	67%	$0.030	1.3m
Claude Sonnet 4.6	49%	$0.011	17.6s
Claude Opus 4.6 (Reasoning)	53%	$0.026	24.3s
Gemini 3.1 Flash Lite (Reasoning)	32%	$0.0010	4.1s
Claude 3.7 Sonnet	32%	$0.012	16.7s
GPT-4o Mini (temp=0)	29%	$0.0005	13.5s
Nemotron 3 Super	57%	$0.0000	3.2m
Grok 4 Fast	30%	$0.0005	9.3s
Claude Opus 4.5	37%	$0.019	18.9s
Claude Sonnet 4.6 (Reasoning)	50%	$0.042	37.2s
Ministral 3 14B	26%	$0.0002	9.5s
MiniMax M2.7	72%	$0.028	5.6m
MiniMax M2.5	63%	$0.025	3.8m
Gemini 3.1 Flash Lite (Preview)	32%	$0.0009	3.8s
Claude Opus 4.7 (Reasoning)	32%	$0.028	15.3s

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	95%	79%	79%
GPT-5	95%	70%	70%
MoonshotAI: Kimi K2.6	81%	56%	51%
GPT-5 Mini	79%	58%	48%
Claude Opus 4.6	71%	59%	43%
Z.AI GLM 5.1	81%	36%	34%
Claude Sonnet 4.6	49%	67%	32%
MiniMax M2.7	72%	37%	31%
o4 Mini	67%	53%	30%
Claude Sonnet 4.6 (Reasoning)	50%	58%	28%
Claude 3.7 Sonnet	32%	59%	27%
Claude Opus 4.5	37%	58%	27%
Gemini 3.1 Flash Lite (Reasoning)	32%	62%	26%
Claude Opus 4.7 (Reasoning)	32%	62%	26%
Claude Opus 4.6 (Reasoning)	53%	49%	25%
Claude Opus 4.7	35%	77%	25%
MiniMax M2.5	63%	42%	24%
Nemotron 3 Super	57%	43%	24%
GPT-4o Mini (temp=0)	29%	58%	23%

	Score	Cost	Speed	Stability
Z.AI GLM 5 Turbo	95%	$0.055	2.2m	79%
GPT-5	95%	$0.059	1.5m	70%
GPT-5 Mini	79%	$0.012	1.2m	48%
Claude Opus 4.6	71%	$0.019	20.3s	43%
Gemini 3.1 Pro (Preview)	100%	$0.189	2.6m	100%
Claude Sonnet 4.6	49%	$0.011	17.6s	32%
Inception Mercury 2	56%	$0.0058	9.1s	20%
o4 Mini	67%	$0.030	1.3m	30%
Claude Opus 4.6 (Reasoning)	53%	$0.026	24.3s	25%
Gemini 3.1 Flash Lite (Reasoning)	32%	$0.0010	4.1s	26%
Gemini 3.1 Flash Lite (Preview)	32%	$0.0009	3.8s	23%
Nemotron 3 Super	57%	$0.0000	3.2m	24%
Grok 4 Fast	30%	$0.0005	9.3s	23%
Claude Sonnet 4.6 (Reasoning)	50%	$0.042	37.2s	28%
Claude Opus 4.5	37%	$0.019	18.9s	27%
GPT-4o Mini (temp=0)	29%	$0.0005	13.5s	23%
Claude 3.7 Sonnet	32%	$0.012	16.7s	27%
Ministral 3 14B	26%	$0.0002	9.5s	20%
MiniMax M2.5	63%	$0.025	3.8m	24%
Claude Opus 4.7	35%	$0.029	16.4s	25%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
5	Gemini 3.1 Pro (Preview)	$0.189	2.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Z.AI GLM 5 Turbo	$0.055	2.2m	79%	100	100	100	100	100	100	100	98	93	64	95%
2	GPT-5	$0.059	1.5m	70%	100	100	100	100	100	100	100	99	98	50	95%
140	MoonshotAI: Kimi K2.6	$0.082	12.0m	51%	100	100	100	99	98	86	86	57	47	43	81%
40	Z.AI GLM 5.1	$0.085	6.0m	34%	100	100	100	100	98	94	93	92	29	7	81%
3	GPT-5 Mini	$0.012	1.2m	48%	100	100	100	99	86	79	72	50	50	50	79%
21	MiniMax M2.7	$0.028	5.6m	31%	100	100	99	98	87	83	50	50	50	0	72%
4	Claude Opus 4.6	$0.019	20.3s	43%	94	93	92	89	73	71	64	49	48	34	71%
8	o4 Mini	$0.030	1.3m	30%	100	100	99	71	64	50	50	50	45	39	67%
19	MiniMax M2.5	$0.025	3.8m	24%	100	100	94	75	63	52	50	50	50	0	63%
12	Nemotron 3 Super	$0.0000	3.2m	24%	99	88	82	75	59	50	50	38	32	0	57%
36	o4 Mini High	$0.061	2.4m	21%	100	91	91	62	52	50	50	50	22	0	57%
7	Inception Mercury 2	$0.0058	9.1s	20%	100	95	90	57	50	50	50	48	17	3	56%
9	Claude Opus 4.6 (Reasoning)	$0.026	24.3s	25%	86	80	75	66	53	50	50	48	18	1	53%
14	Claude Sonnet 4.6 (Reasoning)	$0.042	37.2s	28%	96	73	60	55	50	46	39	31	30	26	50%
6	Claude Sonnet 4.6	$0.011	17.6s	32%	78	78	52	49	48	47	40	39	30	25	49%
86	Gemma 4 31B (Reasoning)	$0.0029	5.6m	8%	98	97	91	91	52	38	5	2	0	0	47%
25	GPT-OSS 120B	$0.0026	2.0m	14%	100	99	57	50	49	34	26	22	3	2	44%
64	Nemotron 3 Nano	$0.0041	4.4m	8%	100	98	95	50	49	38	0	0	0	0	43%
146	Qwen3.6 Max Preview	$0.080	5.0m	16%	100	91	50	50	50	47	33	3	0	0	42%
73	Stealth: Aurora Alpha	—	10.2s	19%	81	75	61	48	42	37	22	21	10	0	40%
116	Grok 4.3 (Reasoning)	$0.045	4.4m	21%	92	52	50	47	46	41	24	20	0	0	37%
15	Claude Opus 4.5	$0.019	18.9s	27%	63	53	50	49	49	43	37	21	1	0	37%
136	MoonshotAI: Kimi K2.5	$0.031	4.7m	11%	99	67	45	39	25	24	24	16	7	7	35%
20	Claude Opus 4.7	$0.029	16.4s	25%	50	50	50	41	34	30	30	26	22	18	35%
71	Qwen 3.5 Plus (2026-04-20)	$0.025	2.7m	12%	96	70	50	50	49	18	7	0	0	0	34%
69	Qwen 3.6 35B	$0.019	2.1m	6%	100	95	47	36	26	19	1	0	0	0	32%
22	Claude Opus 4.7 (Reasoning)	$0.028	15.3s	26%	50	49	47	45	45	38	38	10	1	1	32%
17	Claude 3.7 Sonnet	$0.012	16.7s	27%	50	50	50	49	48	43	10	10	10	0	32%
11	Gemini 3.1 Flash Lite (Preview)	$0.0009	3.8s	23%	49	49	45	34	34	30	30	26	22	0	32%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	4.1s	26%	49	49	49	48	43	41	22	10	5	0	32%
38	Qwen 3.5 9B	$0.0011	1.6m	8%	89	71	57	48	39	3	3	0	0	0	31%
91	GPT-5.1	$0.033	1.0m	0%	99	90	65	50	2	0	0	0	0	0	31%
24	GPT-5.4 Nano (Reasoning)	$0.0063	28.7s	17%	72	55	50	49	43	26	10	1	0	0	31%
13	Grok 4 Fast	$0.0005	9.3s	23%	51	50	50	50	45	34	10	9	1	0	30%
118	Grok 4.20 (Reasoning)	$0.031	2.3m	3%	98	80	50	50	13	9	1	0	0	0	30%
16	GPT-4o Mini (temp=0)	$0.0005	13.5s	23%	50	50	48	47	41	41	14	2	0	0	29%
27	Inception Mercury	$0.0005	10.2s	10%	86	50	50	50	49	2	1	0	0	0	29%
112	Gemma 4 26B (Reasoning)	$0.0040	3.4m	2%	91	66	65	41	10	2	1	0	0	0	28%
121	Qwen 3.6 27B	$0.036	2.7m	11%	92	50	48	33	29	22	0	0	0	0	27%
47	Gemini 2.5 Flash (Reasoning)	$0.025	48.9s	9%	84	50	48	42	22	17	10	1	0	0	27%
147	Qwen 3.5 397B A17B	$0.040	4.9m	0%	82	76	62	47	0	0	0	0	0	0	27%
138	DeepSeek V4 Pro (Reasoning)	$0.014	3.4m	0%	100	91	50	24	0	0	0	0	0	0	27%
18	Ministral 3 14B	$0.0002	9.5s	20%	50	49	48	47	41	29	0	0	0	0	26%
26	GPT-4.1	$0.0060	9.5s	18%	50	50	48	47	43	22	2	2	0	0	26%
23	Gemini 3.1 Flash Lite	$0.0010	4.1s	16%	50	50	50	38	34	18	14	8	0	0	26%
75	Claude Opus 4	$0.062	33.4s	22%	50	45	34	34	34	33	26	0	0	0	26%
54	GPT-5 Nano	$0.0042	1.8m	6%	71	60	50	50	25	0	0	0	0	0	26%
93	GPT-5.4 (Reasoning)	$0.033	46.9s	3%	100	60	34	30	10	8	4	1	0	0	25%
30	Grok 4	$0.015	35.0s	19%	50	48	43	38	38	26	2	1	0	0	25%
28	GPT-4o, Aug. 6th (temp=1)	$0.0076	8.2s	12%	50	50	46	41	26	15	10	1	1	0	24%
89	ByteDance Seed 2.0 Mini	$0.0027	3.0m	8%	57	49	45	44	19	12	6	0	0	0	23%
81	Qwen 3.5 35B	$0.019	55.3s	4%	67	50	48	41	16	0	0	0	0	0	22%
31	Llama 3.1 8B	$0.0001	2.6s	9%	50	48	47	45	30	1	0	0	0	0	22%
87	Gemini 3 Flash (Preview, Reasoning)	$0.019	36.8s	0%	94	66	41	16	0	0	0	0	0	0	22%
33	Xiaomi MIMO v2.5	$0.0019	12.7s	10%	50	49	43	38	34	1	1	0	0	0	22%
41	Hermes 3 70B	$0.0003	29.0s	3%	81	63	35	22	13	0	0	0	0	0	21%
29	Gemini 2.5 Flash Lite	$0.0003	3.6s	10%	50	47	43	34	30	5	3	0	0	0	21%
32	ByteDance Seed 1.6 Flash	$0.0007	15.4s	12%	43	43	40	23	18	16	13	13	0	0	21%
52	Cohere Command R+ (Aug. 2024)	$0.0071	15.6s	0%	88	78	38	2	1	0	0	0	0	0	21%
35	Arcee AI: Trinity Mini	$0.0002	5.8s	7%	50	50	38	34	18	7	0	0	0	0	20%
43	Aion 2.0	$0.0018	27.8s	4%	50	50	48	30	10	5	0	0	0	0	19%
34	Ministral 3 3B	$0.0001	2.7s	7%	49	48	44	25	22	3	0	0	0	0	19%
46	Claude Sonnet 4	$0.011	15.3s	6%	48	47	45	23	15	4	4	1	0	0	19%
53	Claude Sonnet 4.5	$0.012	16.2s	4%	48	46	46	30	13	1	0	0	0	0	18%
37	GPT-5.4 Nano (Reasoning, Low)	$0.0017	7.1s	9%	49	41	32	26	21	6	5	0	0	0	18%
123	Z.AI GLM 4.7	$0.0063	2.4m	1%	65	52	43	16	4	0	0	0	0	0	18%
66	Mistral Large	$0.022	19.1s	7%	51	50	26	24	15	9	3	1	0	0	18%
88	Qwen 3.6 Flash	$0.016	53.8s	5%	49	45	36	20	7	7	6	5	3	0	18%
44	DeepSeek V3 (2024-12-26)	$0.0008	28.8s	6%	49	47	41	18	14	5	2	0	0	0	17%
39	Ministral 8B	$0.0001	4.8s	7%	48	39	36	29	20	1	0	0	0	0	17%
55	Hermes 3 405B	$0.0000	33.8s	2%	49	45	38	31	5	1	0	0	0	0	17%
51	Gemini 2.5 Flash	$0.0020	5.4s	0%	50	49	41	30	0	0	0	0	0	0	17%
58	Rocinante 12B	$0.0004	33.2s	1%	100	33	24	7	3	1	0	0	0	0	17%
130	Gemini 2.5 Pro	$0.035	30.2s	0%	66	52	34	12	0	0	0	0	0	0	16%
49	Mistral Small 4	$0.0005	8.3s	2%	47	41	39	30	5	0	0	0	0	0	16%
42	GPT-5.4 Mini	$0.0042	5.6s	7%	50	48	20	18	15	6	5	0	0	0	16%
50	Ministral 3 8B	$0.0001	4.0s	0%	47	41	40	29	1	0	0	0	0	0	16%
127	Qwen 3.5 27B	$0.022	1.5m	3%	49	48	36	14	10	0	0	0	0	0	16%
145	Grok 4.20 (Beta, Reasoning)	$0.063	48.1s	2%	53	44	32	16	4	3	2	2	1	0	16%
124	GPT-5.2	$0.027	41.4s	0%	99	37	17	2	0	0	0	0	0	0	16%
60	Mistral Medium 3.1	$0.0016	16.2s	0%	50	50	30	24	0	0	0	0	0	0	16%
56	Arcee AI: Trinity Large (Preview)	$0.0000	14.9s	0%	65	43	42	4	1	0	0	0	0	0	15%
48	LFM2 24B	$0.0001	16.0s	3%	50	43	30	18	9	2	1	0	0	0	15%
63	WizardLM 2 8x22b	$0.0008	31.2s	2%	50	41	33	21	3	3	0	0	0	0	15%
62	Grok 4.20	$0.0018	13.4s	0%	50	49	49	2	0	0	0	0	0	0	15%
76	GPT-4o, Aug. 6th (temp=0)	$0.0081	9.5s	0%	44	38	37	30	1	0	0	0	0	0	15%
57	Grok 4.20 (Beta)	$0.0042	4.9s	2%	50	49	34	7	5	1	0	0	0	0	15%
45	DeepSeek V4 Flash	$0.0002	14.1s	4%	50	43	22	18	14	0	0	0	0	0	15%
120	ByteDance Seed 1.6	$0.0093	1.8m	2%	48	48	33	6	6	1	1	0	0	0	14%
67	Claude Haiku 4.5	$0.0036	8.9s	0%	50	50	34	5	1	0	0	0	0	0	14%
61	GPT-4o Mini (temp=1)	$0.0005	12.6s	1%	50	43	41	3	2	0	0	0	0	0	14%
65	Qwen 3 32B	$0.0006	21.8s	2%	50	43	24	13	5	1	0	0	0	0	14%
80	Gemini 2.5 Flash Lite (Reasoning)	$0.0023	25.9s	0%	69	50	14	2	0	0	0	0	0	0	14%
78	DeepSeek V3.1	$0.0012	21.9s	0%	49	43	38	0	0	0	0	0	0	0	13%
129	GPT-5.5 (Reasoning, Low)	$0.035	29.5s	4%	49	27	26	12	11	1	1	0	0	0	13%
103	GPT-5.4	$0.014	26.4s	0%	50	42	14	14	1	0	0	0	0	0	12%
72	GPT-5.4 Nano	$0.0016	6.4s	0%	50	36	19	14	0	0	0	0	0	0	12%
135	GPT-5.5 (Reasoning)	$0.036	28.8s	2%	48	44	10	10	4	2	1	1	0	0	12%
59	Ministral 3B	$0.0000	3.3s	1%	48	48	16	3	3	1	0	0	0	0	12%
100	GPT-4o, May 13th (temp=1)	$0.013	19.5s	0%	47	44	18	8	0	0	0	0	0	0	12%
83	Mistral Large 2	$0.0044	18.0s	1%	52	50	4	4	3	0	0	0	0	0	11%
90	ByteDance Seed 2.0 Lite	$0.0049	57.7s	5%	37	25	22	16	12	0	0	0	0	0	11%
74	Stealth: Hunter Alpha	$0.0000	22.0s	2%	50	30	14	10	5	0	0	0	0	0	11%
68	Mistral NeMO	$0.0001	9.2s	1%	32	31	22	20	2	1	0	0	0	0	11%
84	Mistral Small 4 (Reasoning)	$0.0016	18.6s	0%	53	50	2	0	0	0	0	0	0	0	11%
79	Llama 3.1 70B	$0.0006	6.3s	0%	49	34	18	4	0	0	0	0	0	0	10%
70	GPT-4.1 Mini	$0.0014	9.0s	3%	43	30	14	7	5	2	1	0	0	0	10%
77	Mistral Small 3.2 24B	$0.0002	7.5s	1%	43	37	14	5	2	0	0	0	0	0	10%
82	Stealth: Healer Alpha	$0.0000	13.9s	0%	49	47	0	0	0	0	0	0	0	0	10%
109	DeepSeek V4 Flash (Reasoning)	$0.0003	1.3m	0%	45	30	14	7	0	0	0	0	0	0	10%
85	Mistral Large 3	$0.0013	16.5s	0%	50	25	16	3	1	0	0	0	0	0	10%
139	Gemini 3 Pro (Preview)	$0.030	23.8s	0%	38	30	26	0	0	0	0	0	0	0	9%
92	DeepSeek V3 (2025-03-24)	$0.0008	30.8s	0%	50	32	7	2	1	0	0	0	0	0	9%
108	GPT-5.4 (Reasoning, Low)	$0.016	27.1s	3%	47	12	8	8	6	2	0	0	0	0	8%
95	Xiaomi MIMO v2.5 Pro	$0.0033	23.8s	0%	48	33	1	0	0	0	0	0	0	0	8%
141	GPT-5.5	$0.033	28.5s	1%	32	16	13	11	1	0	0	0	0	0	7%
144	Qwen 3.5 122B	$0.033	1.2m	0%	43	16	6	4	1	0	0	0	0	0	7%
101	Writer: Palmyra X5	$0.0054	13.8s	0%	43	26	0	0	0	0	0	0	0	0	7%
128	DeepSeek V3.2	$0.0004	1.4m	0%	45	18	0	0	0	0	0	0	0	0	6%
131	Claude 3.5 Sonnet	$0.014	43.0s	0%	31	20	4	3	1	1	0	0	0	0	6%
94	Gemma 3 12B	$0.0001	16.1s	0%	50	7	0	0	0	0	0	0	0	0	6%
97	Grok 4.3	$0.0016	11.1s	0%	48	1	0	0	0	0	0	0	0	0	5%
98	Z.AI GLM 4.5	$0.0013	11.4s	0%	46	1	0	0	0	0	0	0	0	0	5%
111	DeepSeek-V2 Chat	$0.0002	40.5s	0%	45	1	0	0	0	0	0	0	0	0	5%
96	Gemini 3 Flash (Preview)	$0.0020	6.5s	0%	38	7	0	0	0	0	0	0	0	0	4%
132	Qwen 3.5 Flash	$0.0038	1.2m	0%	34	10	0	0	0	0	0	0	0	0	4%
102	Grok 4.1 Fast	$0.0005	11.3s	0%	38	1	0	0	0	0	0	0	0	0	4%
99	Claude 3 Haiku	$0.0009	6.3s	0%	34	2	1	0	0	0	0	0	0	0	4%
143	Z.AI GLM 5	$0.011	2.1m	0%	18	12	4	0	0	0	0	0	0	0	3%
104	Qwen 2.5 72B	$0.0004	21.7s	0%	14	12	5	0	0	0	0	0	0	0	3%
107	GPT-5.4 Mini (Reasoning, Low)	$0.0045	6.2s	0%	21	2	1	0	0	0	0	0	0	0	2%
113	Llama 3.1 Nemotron 70B	$0.0003	19.5s	0%	11	4	0	0	0	0	0	0	0	0	2%
115	GPT-5.4 Mini (Reasoning)	$0.0051	6.1s	0%	8	6	0	0	0	0	0	0	0	0	1%
105	GPT-4.1 Nano	$0.0003	9.1s	0%	11	0	0	0	0	0	0	0	0	0	1%
133	GPT-4o, May 13th (temp=0)	$0.013	19.7s	0%	7	0	0	0	0	0	0	0	0	0	1%
137	Z.AI GLM 4.7 Flash	$0.0015	1.1m	0%	5	2	0	0	0	0	0	0	0	0	1%
126	Qwen 3.5 Plus (2026-02-15)	$0.0019	31.2s	0%	4	0	0	0	0	0	0	0	0	0	0%
142	Z.AI GLM 4.6	$0.0043	1.4m	0%	1	0	0	0	0	0	0	0	0	0	0%
106	Mistral Small Creative	$0.0003	5.3s	0%	1	0	0	0	0	0	0	0	0	0	0%
117	Z.AI GLM 4.5 Air	$0.0009	16.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	Qwen3 235B A22B Instruct 2507	$0.0003	25.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
114	Gemma 4 26B	$0.0002	12.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
125	Gemma 4 31B	$0.0003	32.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
134	DeepSeek V4 Pro	$0.0017	57.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
119	Gemma 3 27B	$0.0002	20.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
110	Gemma 3 4B	$0.0001	7.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
22.44%

Median	Evaluator	Top 3	Flop 3
17.4%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 93MoonshotAI: Kimi K2.6 91Z.AI GLM 5 Turbo	0Gemini 2.5 Flash 0Gemini 3 Flash (Preview) 0Grok 4.20
14.8%	Matches word count	100Gemini 3.1 Pro (Preview) 100GPT-5 100GPT-5 Mini	0Z.AI GLM 4.6 0GPT-5.5 0GPT-5.4 Mini (Reasoning, Low)

Write 500 words with 70% dialogue

Rule Following Utility

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Nemotron 3 Super	74%
GPT-5 Mini	70%
o4 Mini High	62%
Grok 4 Fast	61%
Claude Opus 4.6 (Reasoning)	57%
MiniMax M2.5	55%
Claude 3.7 Sonnet	54%
GPT-5	54%
GPT-4o, Aug. 6th (temp=0)	54%
MiniMax M2.7	54%
Z.AI GLM 5 Turbo	50%
Claude 3.5 Sonnet	46%
GPT-4o, Aug. 6th (temp=1)	45%
Mistral Medium 3.1	44%
Claude Opus 4.6	41%
DeepSeek-V2 Chat	40%
Z.AI GLM 5.1	39%
Gemini 3.1 Flash Lite (Reasoning)	38%
Claude Sonnet 4.6	37%

	Score	Cost	Time
Nemotron 3 Super	74%	$0.0000	3.3m
GPT-5 Mini	70%	$0.014	1.2m
Grok 4 Fast	61%	$0.0005	9.4s
Inception Mercury 2	34%	$0.0047	7.3s
Claude 3.7 Sonnet	54%	$0.012	16.2s
Claude Opus 4.6 (Reasoning)	57%	$0.021	22.2s
Mistral Medium 3.1	44%	$0.0017	18.0s
GPT-4o, Aug. 6th (temp=1)	45%	$0.0074	8.9s
Gemini 2.5 Flash Lite (Reasoning)	28%	$0.0022	26.4s
Gemini 3.1 Flash Lite (Reasoning)	38%	$0.0010	4.0s
GPT-4o Mini (temp=0)	32%	$0.0005	11.7s
GPT-4o, Aug. 6th (temp=0)	54%	$0.0070	8.2s
Gemini 3.1 Flash Lite	32%	$0.0010	7.0s
Claude Opus 4.6	41%	$0.019	21.7s
DeepSeek-V2 Chat	40%	$0.0002	41.2s
Claude 3.5 Sonnet	46%	$0.013	53.7s
GPT-5	54%	$0.051	1.5m
Claude Sonnet 4.6	37%	$0.011	17.3s
Aion 2.0	28%	$0.0020	31.3s
o4 Mini High	62%	$0.064	2.6m

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
Claude 3.7 Sonnet	54%	76%	39%
Nemotron 3 Super	74%	44%	38%
Claude Opus 4.6	41%	67%	31%
Grok 4 Fast	61%	55%	31%
Gemini 3.1 Flash Lite (Reasoning)	38%	71%	30%
Inception Mercury 2	34%	60%	29%
Claude Opus 4.6 (Reasoning)	57%	54%	29%
o4 Mini High	62%	43%	28%
GPT-4o Mini (temp=0)	32%	62%	26%
GPT-5 Mini	70%	34%	25%
MiniMax M2.5	55%	50%	25%
Gemini 2.5 Flash Lite (Reasoning)	28%	55%	24%
Claude Sonnet 4.6	37%	62%	23%
MiniMax M2.7	54%	42%	21%
Claude Opus 4.7 (Reasoning)	36%	50%	20%
MoonshotAI: Kimi K2.6	31%	58%	20%
GPT-OSS 120B	28%	62%	20%
Aion 2.0	28%	54%	18%
ByteDance Seed 1.6	25%	59%	18%

	Score	Cost	Speed	Stability
Grok 4 Fast	61%	$0.0005	9.4s	31%
Claude 3.7 Sonnet	54%	$0.012	16.2s	39%
GPT-5 Mini	70%	$0.014	1.2m	25%
Claude Opus 4.6 (Reasoning)	57%	$0.021	22.2s	29%
Gemini 3.1 Flash Lite (Reasoning)	38%	$0.0010	4.0s	30%
GPT-4o, Aug. 6th (temp=0)	54%	$0.0070	8.2s	17%
Nemotron 3 Super	74%	$0.0000	3.3m	38%
Inception Mercury 2	34%	$0.0047	7.3s	29%
Claude Opus 4.6	41%	$0.019	21.7s	31%
Mistral Medium 3.1	44%	$0.0017	18.0s	17%
GPT-4o Mini (temp=0)	32%	$0.0005	11.7s	26%
GPT-4o, Aug. 6th (temp=1)	45%	$0.0074	8.9s	13%
Claude Sonnet 4.6	37%	$0.011	17.3s	23%
Gemini 3.1 Pro (Preview)	100%	$0.229	3.3m	100%
DeepSeek-V2 Chat	40%	$0.0002	41.2s	18%
Gemini 3.1 Flash Lite	32%	$0.0010	7.0s	17%
Grok 4.1 Fast	31%	$0.0005	12.8s	17%
Gemini 2.5 Flash Lite (Reasoning)	28%	$0.0022	26.4s	24%
Ministral 3 8B	27%	$0.0001	3.9s	17%
Stealth: Healer Alpha	29%	$0.0000	10.1s	15%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
14	Gemini 3.1 Pro (Preview)	$0.229	3.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Nemotron 3 Super	$0.0000	3.3m	38%	100	100	100	100	97	75	49	48	46	22	74%
3	GPT-5 Mini	$0.014	1.2m	25%	100	100	100	100	100	50	50	50	50	0	70%
46	o4 Mini High	$0.064	2.6m	28%	100	95	83	71	67	61	60	56	29	0	62%
1	Grok 4 Fast	$0.0005	9.4s	31%	98	92	78	67	58	54	50	50	47	18	61%
4	Claude Opus 4.6 (Reasoning)	$0.021	22.2s	29%	91	86	86	56	55	53	48	34	34	22	57%
75	MiniMax M2.5	$0.017	4.4m	25%	98	90	77	56	50	50	50	41	33	9	55%
2	Claude 3.7 Sonnet	$0.012	16.2s	39%	75	72	63	53	51	51	50	50	49	31	54%
39	GPT-5	$0.051	1.5m	17%	100	93	85	79	69	62	50	5	0	0	54%
6	GPT-4o, Aug. 6th (temp=0)	$0.0070	8.2s	17%	99	97	83	65	42	42	42	42	31	1	54%
110	MiniMax M2.7	$0.019	4.9m	21%	98	93	78	50	50	50	50	50	19	0	54%
53	Z.AI GLM 5 Turbo	$0.037	1.5m	7%	100	99	99	95	54	35	19	2	0	0	50%
22	Claude 3.5 Sonnet	$0.013	53.7s	13%	98	93	85	50	46	44	41	3	3	0	46%
12	GPT-4o, Aug. 6th (temp=1)	$0.0074	8.9s	13%	100	92	86	50	47	44	30	2	0	0	45%
10	Mistral Medium 3.1	$0.0017	18.0s	17%	97	93	58	50	46	45	23	19	7	0	44%
9	Claude Opus 4.6	$0.019	21.7s	31%	65	50	50	50	48	43	41	34	14	10	41%
15	DeepSeek-V2 Chat	$0.0002	41.2s	18%	90	84	50	44	40	40	19	17	11	5	40%
126	Z.AI GLM 5.1	$0.038	3.3m	14%	94	92	51	43	41	40	25	0	0	0	39%
5	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	4.0s	30%	49	49	49	45	43	41	38	38	22	2	38%
13	Claude Sonnet 4.6	$0.011	17.3s	23%	66	57	57	49	42	33	26	21	19	3	37%
25	Claude Opus 4.7 (Reasoning)	$0.029	15.8s	20%	72	68	53	49	43	38	23	11	1	1	36%
144	Qwen3.6 Max Preview	$0.069	4.5m	5%	99	99	50	49	42	2	0	0	0	0	34%
8	Inception Mercury 2	$0.0047	7.3s	29%	51	50	50	50	50	47	16	15	9	0	34%
142	Grok 4.3 (Reasoning)	$0.043	4.0m	10%	100	57	50	50	43	9	9	8	0	0	33%
11	GPT-4o Mini (temp=0)	$0.0005	11.7s	26%	50	50	47	45	45	38	34	14	0	0	32%
16	Gemini 3.1 Flash Lite	$0.0010	7.0s	17%	89	49	48	48	43	34	3	1	0	0	32%
17	Grok 4.1 Fast	$0.0005	12.8s	17%	80	48	41	38	31	27	25	15	7	3	31%
146	MoonshotAI: Kimi K2.6	$0.055	6.8m	20%	55	55	50	49	46	23	15	15	4	0	31%
30	Grok 4	$0.015	35.7s	17%	77	46	43	30	29	28	23	21	9	5	31%
26	Llama 3.1 70B	$0.0006	6.7s	12%	93	47	47	45	45	11	3	1	0	0	29%
29	Cohere Command R+ (Aug. 2024)	$0.0074	17.1s	12%	82	50	49	44	29	18	12	5	2	0	29%
20	Stealth: Healer Alpha	$0.0000	10.1s	15%	71	50	49	46	39	20	10	5	0	0	29%
27	Aion 2.0	$0.0020	31.3s	18%	61	50	50	48	34	34	5	3	0	0	28%
133	Stealth: Aurora Alpha	—	10.0s	6%	84	71	50	48	24	6	1	0	0	0	28%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0022	26.4s	24%	49	48	47	47	44	43	1	0	0	0	28%
21	Inception Mercury	$0.0011	7.9s	15%	66	51	50	48	46	16	0	0	0	0	28%
42	GPT-OSS 120B	$0.0009	1.5m	20%	50	48	48	40	39	24	15	10	1	1	28%
24	Mistral Small 4	$0.0004	7.7s	15%	81	49	33	31	29	26	14	12	0	0	27%
36	DeepSeek V3 (2024-12-26)	$0.0008	26.5s	9%	85	51	36	28	19	16	15	14	3	2	27%
56	Qwen 3.6 Flash	$0.014	44.2s	6%	75	66	62	34	26	3	0	0	0	0	27%
19	Ministral 3 8B	$0.0001	3.9s	17%	54	49	39	28	27	23	21	13	12	1	27%
23	Gemini 3.1 Flash Lite (Preview)	$0.0009	3.6s	15%	50	50	47	30	26	22	22	14	1	0	26%
37	Claude Sonnet 4.6 (Reasoning)	$0.016	21.1s	15%	54	46	39	35	22	22	18	18	3	1	26%
44	ByteDance Seed 1.6	$0.0057	1.1m	18%	50	49	43	41	34	27	5	0	0	0	25%
38	Mistral Small 3.2 24B	$0.0002	14.1s	6%	98	46	38	35	28	2	1	0	0	0	25%
28	Mistral Small Creative	$0.0003	5.4s	13%	50	49	45	39	27	14	12	12	0	0	25%
31	Grok 4.20	$0.0019	12.9s	12%	58	49	48	43	26	18	4	1	0	0	25%
145	DeepSeek V4 Pro (Reasoning)	$0.037	5.0m	1%	99	88	36	18	4	1	0	0	0	0	25%
43	DeepSeek V3.1	$0.0008	51.1s	13%	50	49	45	39	22	21	10	4	4	0	24%
32	Mistral Large 3	$0.0013	17.3s	13%	71	54	34	27	26	24	2	0	0	0	24%
99	Claude Opus 4	$0.064	33.6s	13%	50	48	45	28	22	18	14	11	1	0	24%
54	GPT-5.5 (Reasoning)	$0.035	28.1s	17%	48	47	36	32	29	22	20	2	0	0	23%
34	GPT-5.4 Mini	$0.0044	5.7s	11%	49	49	41	38	23	12	8	4	4	0	23%
50	Ministral 3 14B	$0.0002	7.8s	1%	96	88	24	10	7	0	0	0	0	0	23%
93	o4 Mini	$0.020	51.2s	1%	82	56	50	30	6	0	0	0	0	0	22%
48	Mistral Large 2	$0.0044	18.6s	8%	50	49	45	36	17	9	4	4	0	0	21%
40	Gemini 3 Flash (Preview)	$0.0022	7.2s	8%	54	50	41	41	27	2	0	0	0	0	21%
61	GPT-5.2	$0.019	33.4s	10%	46	45	43	41	27	5	3	2	0	0	21%
67	Claude Opus 4.7	$0.029	16.7s	7%	50	45	39	29	10	10	9	8	7	3	21%
41	Qwen 2.5 72B	$0.0004	22.0s	11%	49	47	37	35	26	12	0	0	0	0	21%
147	Nemotron 3 Nano	$0.0061	6.5m	1%	52	50	50	50	3	0	0	0	0	0	21%
107	Grok 4.20 (Beta, Reasoning)	$0.054	42.7s	11%	55	49	41	24	20	16	0	0	0	0	20%
64	Rocinante 12B	$0.0004	32.7s	1%	91	49	38	15	6	0	0	0	0	0	20%
35	Claude 3 Haiku	$0.0010	6.5s	12%	49	44	30	25	22	14	13	1	0	0	20%
49	Gemma 3 12B	$0.0001	18.3s	7%	61	39	36	34	18	5	3	1	1	0	20%
47	Llama 3.1 Nemotron 70B	$0.0003	21.5s	8%	49	43	38	37	23	5	2	1	1	0	20%
33	Llama 3.1 8B	$0.0001	2.6s	13%	41	37	35	22	20	18	10	0	0	0	18%
134	ByteDance Seed 2.0 Mini	$0.0029	3.2m	4%	50	50	48	19	10	5	0	0	0	0	18%
51	Ministral 3B	$0.0000	3.2s	4%	80	43	24	18	15	0	0	0	0	0	18%
52	Claude Sonnet 4.5	$0.011	16.2s	11%	46	42	37	18	17	16	1	0	0	0	18%
57	GPT-4o Mini (temp=1)	$0.0005	13.0s	1%	50	49	49	24	5	0	0	0	0	0	18%
45	Mistral Small 4 (Reasoning)	$0.0013	17.8s	11%	48	45	24	20	19	16	2	0	0	0	17%
65	LFM2 24B	$0.0001	19.0s	0%	85	68	11	2	1	1	0	0	0	0	17%
55	Gemini 2.5 Flash Lite	$0.0003	3.6s	0%	50	50	45	22	0	0	0	0	0	0	17%
79	GPT-4o, May 13th (temp=1)	$0.012	23.8s	0%	55	45	41	26	0	0	0	0	0	0	17%
59	Arcee AI: Trinity Mini	$0.0002	6.6s	0%	52	49	37	26	0	0	0	0	0	0	17%
62	GPT-4.1 Mini	$0.0013	9.2s	1%	52	48	48	12	2	1	0	0	0	0	16%
130	Grok 4.20 (Reasoning)	$0.026	2.0m	4%	45	39	33	29	10	1	1	0	0	0	16%
60	GPT-5.4 Mini (Reasoning, Low)	$0.0045	5.9s	2%	50	40	32	23	4	4	3	2	0	0	16%
101	GPT-5.1	$0.020	44.3s	3%	50	41	32	24	5	3	2	1	0	0	16%
83	Claude Opus 4.5	$0.020	18.8s	3%	45	45	45	7	7	2	2	1	0	0	15%
70	DeepSeek V4 Flash	$0.0002	41.4s	5%	49	41	27	18	10	5	0	0	0	0	15%
73	Qwen 3 32B	$0.0007	28.5s	1%	49	48	40	7	3	0	0	0	0	0	15%
96	GPT-5.4 (Reasoning, Low)	$0.016	27.5s	1%	50	49	22	22	1	0	0	0	0	0	15%
58	GPT-5.4 Nano	$0.0018	7.3s	4%	49	36	33	16	8	3	0	0	0	0	15%
113	GPT-5.5	$0.033	30.0s	0%	49	43	33	16	0	0	0	0	0	0	14%
68	DeepSeek V3 (2025-03-24)	$0.0007	26.2s	3%	49	49	22	6	5	5	2	1	0	0	14%
69	ByteDance Seed 1.6 Flash	$0.0005	12.1s	0%	48	45	36	6	0	0	0	0	0	0	14%
123	Qwen 3.5 122B	$0.024	56.3s	0%	50	49	34	0	0	0	0	0	0	0	13%
66	Mistral NeMO	$0.0001	9.6s	0%	50	43	34	5	0	0	0	0	0	0	13%
76	GPT-5.4 (Reasoning)	$0.017	32.5s	9%	38	28	21	15	13	12	4	1	0	0	13%
63	Grok 4.20 (Beta)	$0.0039	3.8s	3%	45	35	30	10	10	0	0	0	0	0	13%
91	ByteDance Seed 2.0 Lite	$0.0031	35.9s	0%	49	43	34	4	0	0	0	0	0	0	13%
78	Xiaomi MIMO v2.5 Pro	$0.0032	23.2s	0%	70	50	4	2	0	0	0	0	0	0	13%
72	Hermes 3 70B	$0.0003	25.6s	3%	45	39	23	8	4	3	2	1	0	0	13%
120	Qwen 3.6 35B	$0.011	1.1m	0%	71	29	20	0	0	0	0	0	0	0	12%
143	Qwen 3.5 397B A17B	$0.026	3.6m	0%	58	47	7	4	1	0	0	0	0	0	12%
98	Gemini 3 Flash (Preview, Reasoning)	$0.012	24.8s	0%	50	49	18	0	0	0	0	0	0	0	12%
77	GPT-4.1	$0.0061	11.6s	0%	49	48	18	2	0	0	0	0	0	0	12%
71	GPT-5.4 Mini (Reasoning)	$0.0051	6.5s	2%	43	36	25	5	3	2	1	1	0	0	12%
100	Gemini 2.5 Flash (Reasoning)	$0.015	30.7s	3%	44	35	13	8	4	4	2	1	0	0	11%
121	Z.AI GLM 4.6	$0.0041	1.4m	2%	40	30	21	14	5	0	0	0	0	0	11%
82	Stealth: Hunter Alpha	$0.0000	23.7s	0%	43	40	19	5	0	0	0	0	0	0	11%
89	Hermes 3 405B	$0.0000	33.8s	1%	44	36	15	11	2	0	0	0	0	0	11%
140	MoonshotAI: Kimi K2.5	$0.019	2.7m	5%	48	22	15	8	7	6	0	0	0	0	11%
131	Z.AI GLM 5	$0.0079	2.0m	0%	45	38	10	7	0	0	0	0	0	0	10%
74	Grok 4.3	$0.0016	9.7s	1%	43	32	18	3	3	0	0	0	0	0	10%
132	Qwen 3.5 27B	$0.021	1.7m	1%	69	17	8	2	2	0	0	0	0	0	10%
137	Qwen 3.5 Plus (2026-04-20)	$0.019	2.1m	0%	49	30	10	5	0	0	0	0	0	0	9%
138	Gemma 4 26B (Reasoning)	$0.0015	2.6m	0%	46	27	17	0	0	0	0	0	0	0	9%
84	Arcee AI: Trinity Large (Preview)	$0.0000	16.5s	0%	50	38	0	0	0	0	0	0	0	0	9%
92	Z.AI GLM 4.5 Air	$0.0010	23.9s	0%	47	37	2	1	1	0	0	0	0	0	9%
81	GPT-5.4 Nano (Reasoning)	$0.0024	10.6s	0%	50	34	1	1	1	0	0	0	0	0	9%
105	GPT-5.4	$0.015	29.1s	2%	44	21	8	4	4	2	1	1	1	0	9%
90	Writer: Palmyra X5	$0.0054	12.6s	0%	49	34	2	0	0	0	0	0	0	0	8%
97	WizardLM 2 8x22b	$0.0010	29.7s	0%	49	19	13	3	0	0	0	0	0	0	8%
141	Qwen 3.5 9B	$0.0019	2.7m	0%	48	25	0	0	0	0	0	0	0	0	7%
80	GPT-4.1 Nano	$0.0003	7.5s	1%	24	15	14	13	1	1	0	0	0	0	7%
87	Claude Haiku 4.5	$0.0037	8.9s	1%	52	6	4	2	1	1	1	0	0	0	7%
127	Gemini 3 Pro (Preview)	$0.032	25.0s	0%	66	1	0	0	0	0	0	0	0	0	7%
88	GPT-5.4 Nano (Reasoning, Low)	$0.0019	8.3s	0%	50	10	2	0	0	0	0	0	0	0	6%
86	Gemini 2.5 Flash	$0.0021	5.6s	0%	47	13	0	0	0	0	0	0	0	0	6%
122	Gemini 2.5 Pro	$0.025	24.3s	0%	27	18	14	1	0	0	0	0	0	0	6%
104	Claude Sonnet 4	$0.011	15.7s	0%	50	6	3	1	0	0	0	0	0	0	6%
106	Qwen3 235B A22B Instruct 2507	$0.0005	34.0s	0%	38	14	3	1	0	0	0	0	0	0	6%
135	Qwen 3.6 27B	$0.020	1.6m	0%	46	4	3	0	0	0	0	0	0	0	5%
128	Qwen 3.5 35B	$0.018	55.9s	0%	39	7	4	2	0	0	0	0	0	0	5%
115	Qwen 3.5 Flash	$0.0035	46.4s	0%	29	22	0	0	0	0	0	0	0	0	5%
124	GPT-5 Nano	$0.0025	1.0m	0%	50	1	0	0	0	0	0	0	0	0	5%
85	Ministral 8B	$0.0001	4.8s	0%	50	0	0	0	0	0	0	0	0	0	5%
95	Xiaomi MIMO v2.5	$0.0019	12.6s	1%	40	5	2	1	1	0	0	0	0	0	5%
116	Mistral Large	$0.019	18.1s	0%	30	14	4	0	0	0	0	0	0	0	5%
129	GPT-5.5 (Reasoning, Low)	$0.035	30.1s	0%	36	5	5	2	0	0	0	0	0	0	5%
111	DeepSeek V4 Flash (Reasoning)	$0.0003	45.7s	0%	34	7	2	2	0	0	0	0	0	0	5%
125	Z.AI GLM 4.7 Flash	$0.0012	1.0m	0%	38	0	0	0	0	0	0	0	0	0	4%
136	Z.AI GLM 4.7	$0.0050	1.9m	0%	18	5	5	0	0	0	0	0	0	0	3%
114	DeepSeek V3.2	$0.0005	44.6s	1%	16	6	2	1	1	1	0	0	0	0	3%
94	Ministral 3 3B	$0.0001	2.9s	0%	22	1	0	0	0	0	0	0	0	0	2%
102	Z.AI GLM 4.5	$0.0013	12.3s	0%	14	4	0	0	0	0	0	0	0	0	2%
108	Gemma 4 26B	$0.0002	27.7s	0%	14	2	0	0	0	0	0	0	0	0	2%
119	GPT-4o, May 13th (temp=0)	$0.013	16.9s	0%	13	0	0	0	0	0	0	0	0	0	1%
109	Gemma 3 27B	$0.0001	23.4s	0%	1	0	0	0	0	0	0	0	0	0	0%
118	Qwen 3.5 Plus (2026-02-15)	$0.0019	31.0s	0%	1	0	0	0	0	0	0	0	0	0	0%
139	Gemma 4 31B (Reasoning)	$0.0011	2.0m	0%	0	0	0	0	0	0	0	0	0	0	0%
117	DeepSeek V4 Pro	$0.0012	31.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
112	Gemma 4 31B	$0.0002	26.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
103	Gemma 3 4B	$0.0001	7.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
20.71%

Median	Evaluator	Top 3	Flop 3
17.3%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 78Nemotron 3 Super 75Grok 4 Fast	0Gemini 3.1 Flash Lite (Reasoning) 0Gemini 3.1 Flash Lite (Preview) 0GPT-5 Nano
10.1%	Matches word count	100Gemini 3.1 Pro (Preview) 90GPT-5 Mini 89Claude 3.7 Sonnet	0GPT-5.5 0GPT-5.4 (Reasoning) 0GPT-5.4 Nano (Reasoning, Low)

Write unattributed dialogue

Rule Following

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 397B A17B	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 122B	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

		Ungrouped	dialogue-200			dialogue-500
Model	Total ▼	Write unattributed dialogue	Write 200 words with 10% dialogue	Write 200 words with 50% dialogue	Write 200 words with 90% dialogue	Write 500 words with 30% dialogue	Write 500 words with 50% dialogue	Write 500 words with 70% dialogue
Gemini 3.1 Pro (Preview)	99%	100%	100%	100%	99%	96%	100%	100%
Z.AI GLM 5 Turbo	87%	100%	100%	98%	69%	97%	95%	50%
GPT-5	84%	100%	100%	95%	63%	84%	95%	54%
Z.AI GLM 5.1	83%	100%	100%	98%	79%	86%	81%	39%
GPT-5 Mini	83%	90%	100%	90%	62%	87%	79%	70%
MiniMax M2.7	81%	86%	97%	96%	89%	71%	72%	54%
Claude Opus 4.6 (Reasoning)	80%	100%	100%	90%	94%	68%	53%	57%
MoonshotAI: Kimi K2.6	80%	100%	100%	86%	98%	61%	81%	31%
o4 Mini High	79%	96%	100%	85%	74%	80%	57%	62%
Grok 4.3 (Reasoning)	75%	100%	94%	95%	97%	71%	37%	33%
Claude Sonnet 4.6 (Reasoning)	75%	96%	99%	99%	72%	82%	50%	26%
Nemotron 3 Super	74%	56%	90%	90%	82%	71%	57%	74%
MiniMax M2.5	74%	86%	76%	98%	62%	74%	63%	55%
Claude Opus 4.6	73%	100%	82%	79%	94%	43%	71%	41%
Inception Mercury 2	71%	80%	90%	97%	83%	58%	56%	34%

Dialogue tags

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Cost vs Performance

Most Stable Models (Top 20)

Top Overall Models (Top 20)

dialogue-200

Write 200 words with 10% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write 200 words with 50% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write 200 words with 90% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

dialogue-500

Write 500 words with 30% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write 500 words with 50% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Write 500 words with 70% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Ungrouped

Write unattributed dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)