Write 500 words with 50% dialogue

Dialogue tags

Various tasks related to dialogue tags in text.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5 Turbo	95%
GPT-5	95%
MoonshotAI: Kimi K2.6	81%
Z.AI GLM 5.1	81%
GPT-5 Mini	79%
MiniMax M2.7	72%
Claude Opus 4.6	71%
o4 Mini	67%
MiniMax M2.5	63%
Nemotron 3 Super	57%
o4 Mini High	57%
Inception Mercury 2	56%
Claude Opus 4.6 (Reasoning)	53%
Claude Sonnet 4.6 (Reasoning)	50%
Claude Sonnet 4.6	49%
Gemma 4 31B (Reasoning)	47%
GPT-OSS 120B	44%
Nemotron 3 Nano	43%
Qwen3.6 Max Preview	42%

	Score	Cost	Time
GPT-5 Mini	79%	$0.012	1.2m
GPT-5	95%	$0.059	1.5m
Z.AI GLM 5 Turbo	95%	$0.055	2.2m
Claude Opus 4.6	71%	$0.019	20.3s
Inception Mercury 2	56%	$0.0058	9.1s
o4 Mini	67%	$0.030	1.3m
Claude Sonnet 4.6	49%	$0.011	17.6s
Claude Opus 4.6 (Reasoning)	53%	$0.026	24.3s
Gemini 3.1 Flash Lite (Reasoning)	32%	$0.0010	4.1s
Claude 3.7 Sonnet	32%	$0.012	16.7s
GPT-4o Mini (temp=0)	29%	$0.0005	13.5s
Nemotron 3 Super	57%	$0.0000	3.2m
Grok 4 Fast	30%	$0.0005	9.3s
Claude Opus 4.5	37%	$0.019	18.9s
Claude Sonnet 4.6 (Reasoning)	50%	$0.042	37.2s
Ministral 3 14B	26%	$0.0002	9.5s
MiniMax M2.7	72%	$0.028	5.6m
MiniMax M2.5	63%	$0.025	3.8m
Gemini 3.1 Flash Lite (Preview)	32%	$0.0009	3.8s
Claude Opus 4.7 (Reasoning)	32%	$0.028	15.3s

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5 Turbo	95%	79%	79%
GPT-5	95%	70%	70%
MoonshotAI: Kimi K2.6	81%	56%	51%
GPT-5 Mini	79%	58%	48%
Claude Opus 4.6	71%	59%	43%
Z.AI GLM 5.1	81%	36%	34%
Claude Sonnet 4.6	49%	67%	32%
MiniMax M2.7	72%	37%	31%
o4 Mini	67%	53%	30%
Claude Sonnet 4.6 (Reasoning)	50%	58%	28%
Claude 3.7 Sonnet	32%	59%	27%
Claude Opus 4.5	37%	58%	27%
Gemini 3.1 Flash Lite (Reasoning)	32%	62%	26%
Claude Opus 4.7 (Reasoning)	32%	62%	26%
Claude Opus 4.6 (Reasoning)	53%	49%	25%
Claude Opus 4.7	35%	77%	25%
MiniMax M2.5	63%	42%	24%
Nemotron 3 Super	57%	43%	24%
GPT-4o Mini (temp=0)	29%	58%	23%

	Score	Cost	Speed	Stability
Z.AI GLM 5 Turbo	95%	$0.055	2.2m	79%
GPT-5	95%	$0.059	1.5m	70%
GPT-5 Mini	79%	$0.012	1.2m	48%
Claude Opus 4.6	71%	$0.019	20.3s	43%
Gemini 3.1 Pro (Preview)	100%	$0.189	2.6m	100%
Claude Sonnet 4.6	49%	$0.011	17.6s	32%
Inception Mercury 2	56%	$0.0058	9.1s	20%
o4 Mini	67%	$0.030	1.3m	30%
Claude Opus 4.6 (Reasoning)	53%	$0.026	24.3s	25%
Gemini 3.1 Flash Lite (Reasoning)	32%	$0.0010	4.1s	26%
Gemini 3.1 Flash Lite (Preview)	32%	$0.0009	3.8s	23%
Nemotron 3 Super	57%	$0.0000	3.2m	24%
Grok 4 Fast	30%	$0.0005	9.3s	23%
Claude Sonnet 4.6 (Reasoning)	50%	$0.042	37.2s	28%
Claude Opus 4.5	37%	$0.019	18.9s	27%
GPT-4o Mini (temp=0)	29%	$0.0005	13.5s	23%
Claude 3.7 Sonnet	32%	$0.012	16.7s	27%
Ministral 3 14B	26%	$0.0002	9.5s	20%
MiniMax M2.5	63%	$0.025	3.8m	24%
Claude Opus 4.7	35%	$0.029	16.4s	25%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
5	Gemini 3.1 Pro (Preview)	$0.189	2.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Z.AI GLM 5 Turbo	$0.055	2.2m	79%	100	100	100	100	100	100	100	98	93	64	95%
2	GPT-5	$0.059	1.5m	70%	100	100	100	100	100	100	100	99	98	50	95%
140	MoonshotAI: Kimi K2.6	$0.082	12.0m	51%	100	100	100	99	98	86	86	57	47	43	81%
40	Z.AI GLM 5.1	$0.085	6.0m	34%	100	100	100	100	98	94	93	92	29	7	81%
3	GPT-5 Mini	$0.012	1.2m	48%	100	100	100	99	86	79	72	50	50	50	79%
21	MiniMax M2.7	$0.028	5.6m	31%	100	100	99	98	87	83	50	50	50	0	72%
4	Claude Opus 4.6	$0.019	20.3s	43%	94	93	92	89	73	71	64	49	48	34	71%
8	o4 Mini	$0.030	1.3m	30%	100	100	99	71	64	50	50	50	45	39	67%
19	MiniMax M2.5	$0.025	3.8m	24%	100	100	94	75	63	52	50	50	50	0	63%
12	Nemotron 3 Super	$0.0000	3.2m	24%	99	88	82	75	59	50	50	38	32	0	57%
36	o4 Mini High	$0.061	2.4m	21%	100	91	91	62	52	50	50	50	22	0	57%
7	Inception Mercury 2	$0.0058	9.1s	20%	100	95	90	57	50	50	50	48	17	3	56%
9	Claude Opus 4.6 (Reasoning)	$0.026	24.3s	25%	86	80	75	66	53	50	50	48	18	1	53%
14	Claude Sonnet 4.6 (Reasoning)	$0.042	37.2s	28%	96	73	60	55	50	46	39	31	30	26	50%
6	Claude Sonnet 4.6	$0.011	17.6s	32%	78	78	52	49	48	47	40	39	30	25	49%
86	Gemma 4 31B (Reasoning)	$0.0029	5.6m	8%	98	97	91	91	52	38	5	2	0	0	47%
25	GPT-OSS 120B	$0.0026	2.0m	14%	100	99	57	50	49	34	26	22	3	2	44%
64	Nemotron 3 Nano	$0.0041	4.4m	8%	100	98	95	50	49	38	0	0	0	0	43%
146	Qwen3.6 Max Preview	$0.080	5.0m	16%	100	91	50	50	50	47	33	3	0	0	42%
73	Stealth: Aurora Alpha	—	10.2s	19%	81	75	61	48	42	37	22	21	10	0	40%
116	Grok 4.3 (Reasoning)	$0.045	4.4m	21%	92	52	50	47	46	41	24	20	0	0	37%
15	Claude Opus 4.5	$0.019	18.9s	27%	63	53	50	49	49	43	37	21	1	0	37%
136	MoonshotAI: Kimi K2.5	$0.031	4.7m	11%	99	67	45	39	25	24	24	16	7	7	35%
20	Claude Opus 4.7	$0.029	16.4s	25%	50	50	50	41	34	30	30	26	22	18	35%
71	Qwen 3.5 Plus (2026-04-20)	$0.025	2.7m	12%	96	70	50	50	49	18	7	0	0	0	34%
69	Qwen 3.6 35B	$0.019	2.1m	6%	100	95	47	36	26	19	1	0	0	0	32%
22	Claude Opus 4.7 (Reasoning)	$0.028	15.3s	26%	50	49	47	45	45	38	38	10	1	1	32%
17	Claude 3.7 Sonnet	$0.012	16.7s	27%	50	50	50	49	48	43	10	10	10	0	32%
11	Gemini 3.1 Flash Lite (Preview)	$0.0009	3.8s	23%	49	49	45	34	34	30	30	26	22	0	32%
10	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	4.1s	26%	49	49	49	48	43	41	22	10	5	0	32%
38	Qwen 3.5 9B	$0.0011	1.6m	8%	89	71	57	48	39	3	3	0	0	0	31%
91	GPT-5.1	$0.033	1.0m	0%	99	90	65	50	2	0	0	0	0	0	31%
24	GPT-5.4 Nano (Reasoning)	$0.0063	28.7s	17%	72	55	50	49	43	26	10	1	0	0	31%
13	Grok 4 Fast	$0.0005	9.3s	23%	51	50	50	50	45	34	10	9	1	0	30%
118	Grok 4.20 (Reasoning)	$0.031	2.3m	3%	98	80	50	50	13	9	1	0	0	0	30%
16	GPT-4o Mini (temp=0)	$0.0005	13.5s	23%	50	50	48	47	41	41	14	2	0	0	29%
27	Inception Mercury	$0.0005	10.2s	10%	86	50	50	50	49	2	1	0	0	0	29%
112	Gemma 4 26B (Reasoning)	$0.0040	3.4m	2%	91	66	65	41	10	2	1	0	0	0	28%
121	Qwen 3.6 27B	$0.036	2.7m	11%	92	50	48	33	29	22	0	0	0	0	27%
47	Gemini 2.5 Flash (Reasoning)	$0.025	48.9s	9%	84	50	48	42	22	17	10	1	0	0	27%
147	Qwen 3.5 397B A17B	$0.040	4.9m	0%	82	76	62	47	0	0	0	0	0	0	27%
138	DeepSeek V4 Pro (Reasoning)	$0.014	3.4m	0%	100	91	50	24	0	0	0	0	0	0	27%
18	Ministral 3 14B	$0.0002	9.5s	20%	50	49	48	47	41	29	0	0	0	0	26%
26	GPT-4.1	$0.0060	9.5s	18%	50	50	48	47	43	22	2	2	0	0	26%
23	Gemini 3.1 Flash Lite	$0.0010	4.1s	16%	50	50	50	38	34	18	14	8	0	0	26%
75	Claude Opus 4	$0.062	33.4s	22%	50	45	34	34	34	33	26	0	0	0	26%
54	GPT-5 Nano	$0.0042	1.8m	6%	71	60	50	50	25	0	0	0	0	0	26%
93	GPT-5.4 (Reasoning)	$0.033	46.9s	3%	100	60	34	30	10	8	4	1	0	0	25%
30	Grok 4	$0.015	35.0s	19%	50	48	43	38	38	26	2	1	0	0	25%
28	GPT-4o, Aug. 6th (temp=1)	$0.0076	8.2s	12%	50	50	46	41	26	15	10	1	1	0	24%
89	ByteDance Seed 2.0 Mini	$0.0027	3.0m	8%	57	49	45	44	19	12	6	0	0	0	23%
81	Qwen 3.5 35B	$0.019	55.3s	4%	67	50	48	41	16	0	0	0	0	0	22%
31	Llama 3.1 8B	$0.0001	2.6s	9%	50	48	47	45	30	1	0	0	0	0	22%
87	Gemini 3 Flash (Preview, Reasoning)	$0.019	36.8s	0%	94	66	41	16	0	0	0	0	0	0	22%
33	Xiaomi MIMO v2.5	$0.0019	12.7s	10%	50	49	43	38	34	1	1	0	0	0	22%
41	Hermes 3 70B	$0.0003	29.0s	3%	81	63	35	22	13	0	0	0	0	0	21%
29	Gemini 2.5 Flash Lite	$0.0003	3.6s	10%	50	47	43	34	30	5	3	0	0	0	21%
32	ByteDance Seed 1.6 Flash	$0.0007	15.4s	12%	43	43	40	23	18	16	13	13	0	0	21%
52	Cohere Command R+ (Aug. 2024)	$0.0071	15.6s	0%	88	78	38	2	1	0	0	0	0	0	21%
35	Arcee AI: Trinity Mini	$0.0002	5.8s	7%	50	50	38	34	18	7	0	0	0	0	20%
43	Aion 2.0	$0.0018	27.8s	4%	50	50	48	30	10	5	0	0	0	0	19%
34	Ministral 3 3B	$0.0001	2.7s	7%	49	48	44	25	22	3	0	0	0	0	19%
46	Claude Sonnet 4	$0.011	15.3s	6%	48	47	45	23	15	4	4	1	0	0	19%
53	Claude Sonnet 4.5	$0.012	16.2s	4%	48	46	46	30	13	1	0	0	0	0	18%
37	GPT-5.4 Nano (Reasoning, Low)	$0.0017	7.1s	9%	49	41	32	26	21	6	5	0	0	0	18%
123	Z.AI GLM 4.7	$0.0063	2.4m	1%	65	52	43	16	4	0	0	0	0	0	18%
66	Mistral Large	$0.022	19.1s	7%	51	50	26	24	15	9	3	1	0	0	18%
88	Qwen 3.6 Flash	$0.016	53.8s	5%	49	45	36	20	7	7	6	5	3	0	18%
44	DeepSeek V3 (2024-12-26)	$0.0008	28.8s	6%	49	47	41	18	14	5	2	0	0	0	17%
39	Ministral 8B	$0.0001	4.8s	7%	48	39	36	29	20	1	0	0	0	0	17%
55	Hermes 3 405B	$0.0000	33.8s	2%	49	45	38	31	5	1	0	0	0	0	17%
51	Gemini 2.5 Flash	$0.0020	5.4s	0%	50	49	41	30	0	0	0	0	0	0	17%
58	Rocinante 12B	$0.0004	33.2s	1%	100	33	24	7	3	1	0	0	0	0	17%
130	Gemini 2.5 Pro	$0.035	30.2s	0%	66	52	34	12	0	0	0	0	0	0	16%
49	Mistral Small 4	$0.0005	8.3s	2%	47	41	39	30	5	0	0	0	0	0	16%
42	GPT-5.4 Mini	$0.0042	5.6s	7%	50	48	20	18	15	6	5	0	0	0	16%
50	Ministral 3 8B	$0.0001	4.0s	0%	47	41	40	29	1	0	0	0	0	0	16%
127	Qwen 3.5 27B	$0.022	1.5m	3%	49	48	36	14	10	0	0	0	0	0	16%
145	Grok 4.20 (Beta, Reasoning)	$0.063	48.1s	2%	53	44	32	16	4	3	2	2	1	0	16%
124	GPT-5.2	$0.027	41.4s	0%	99	37	17	2	0	0	0	0	0	0	16%
60	Mistral Medium 3.1	$0.0016	16.2s	0%	50	50	30	24	0	0	0	0	0	0	16%
56	Arcee AI: Trinity Large (Preview)	$0.0000	14.9s	0%	65	43	42	4	1	0	0	0	0	0	15%
48	LFM2 24B	$0.0001	16.0s	3%	50	43	30	18	9	2	1	0	0	0	15%
63	WizardLM 2 8x22b	$0.0008	31.2s	2%	50	41	33	21	3	3	0	0	0	0	15%
62	Grok 4.20	$0.0018	13.4s	0%	50	49	49	2	0	0	0	0	0	0	15%
76	GPT-4o, Aug. 6th (temp=0)	$0.0081	9.5s	0%	44	38	37	30	1	0	0	0	0	0	15%
57	Grok 4.20 (Beta)	$0.0042	4.9s	2%	50	49	34	7	5	1	0	0	0	0	15%
45	DeepSeek V4 Flash	$0.0002	14.1s	4%	50	43	22	18	14	0	0	0	0	0	15%
120	ByteDance Seed 1.6	$0.0093	1.8m	2%	48	48	33	6	6	1	1	0	0	0	14%
67	Claude Haiku 4.5	$0.0036	8.9s	0%	50	50	34	5	1	0	0	0	0	0	14%
61	GPT-4o Mini (temp=1)	$0.0005	12.6s	1%	50	43	41	3	2	0	0	0	0	0	14%
65	Qwen 3 32B	$0.0006	21.8s	2%	50	43	24	13	5	1	0	0	0	0	14%
80	Gemini 2.5 Flash Lite (Reasoning)	$0.0023	25.9s	0%	69	50	14	2	0	0	0	0	0	0	14%
78	DeepSeek V3.1	$0.0012	21.9s	0%	49	43	38	0	0	0	0	0	0	0	13%
129	GPT-5.5 (Reasoning, Low)	$0.035	29.5s	4%	49	27	26	12	11	1	1	0	0	0	13%
103	GPT-5.4	$0.014	26.4s	0%	50	42	14	14	1	0	0	0	0	0	12%
72	GPT-5.4 Nano	$0.0016	6.4s	0%	50	36	19	14	0	0	0	0	0	0	12%
135	GPT-5.5 (Reasoning)	$0.036	28.8s	2%	48	44	10	10	4	2	1	1	0	0	12%
59	Ministral 3B	$0.0000	3.3s	1%	48	48	16	3	3	1	0	0	0	0	12%
100	GPT-4o, May 13th (temp=1)	$0.013	19.5s	0%	47	44	18	8	0	0	0	0	0	0	12%
83	Mistral Large 2	$0.0044	18.0s	1%	52	50	4	4	3	0	0	0	0	0	11%
90	ByteDance Seed 2.0 Lite	$0.0049	57.7s	5%	37	25	22	16	12	0	0	0	0	0	11%
74	Stealth: Hunter Alpha	$0.0000	22.0s	2%	50	30	14	10	5	0	0	0	0	0	11%
68	Mistral NeMO	$0.0001	9.2s	1%	32	31	22	20	2	1	0	0	0	0	11%
84	Mistral Small 4 (Reasoning)	$0.0016	18.6s	0%	53	50	2	0	0	0	0	0	0	0	11%
79	Llama 3.1 70B	$0.0006	6.3s	0%	49	34	18	4	0	0	0	0	0	0	10%
70	GPT-4.1 Mini	$0.0014	9.0s	3%	43	30	14	7	5	2	1	0	0	0	10%
77	Mistral Small 3.2 24B	$0.0002	7.5s	1%	43	37	14	5	2	0	0	0	0	0	10%
82	Stealth: Healer Alpha	$0.0000	13.9s	0%	49	47	0	0	0	0	0	0	0	0	10%
109	DeepSeek V4 Flash (Reasoning)	$0.0003	1.3m	0%	45	30	14	7	0	0	0	0	0	0	10%
85	Mistral Large 3	$0.0013	16.5s	0%	50	25	16	3	1	0	0	0	0	0	10%
139	Gemini 3 Pro (Preview)	$0.030	23.8s	0%	38	30	26	0	0	0	0	0	0	0	9%
92	DeepSeek V3 (2025-03-24)	$0.0008	30.8s	0%	50	32	7	2	1	0	0	0	0	0	9%
108	GPT-5.4 (Reasoning, Low)	$0.016	27.1s	3%	47	12	8	8	6	2	0	0	0	0	8%
95	Xiaomi MIMO v2.5 Pro	$0.0033	23.8s	0%	48	33	1	0	0	0	0	0	0	0	8%
141	GPT-5.5	$0.033	28.5s	1%	32	16	13	11	1	0	0	0	0	0	7%
144	Qwen 3.5 122B	$0.033	1.2m	0%	43	16	6	4	1	0	0	0	0	0	7%
101	Writer: Palmyra X5	$0.0054	13.8s	0%	43	26	0	0	0	0	0	0	0	0	7%
128	DeepSeek V3.2	$0.0004	1.4m	0%	45	18	0	0	0	0	0	0	0	0	6%
131	Claude 3.5 Sonnet	$0.014	43.0s	0%	31	20	4	3	1	1	0	0	0	0	6%
94	Gemma 3 12B	$0.0001	16.1s	0%	50	7	0	0	0	0	0	0	0	0	6%
97	Grok 4.3	$0.0016	11.1s	0%	48	1	0	0	0	0	0	0	0	0	5%
98	Z.AI GLM 4.5	$0.0013	11.4s	0%	46	1	0	0	0	0	0	0	0	0	5%
111	DeepSeek-V2 Chat	$0.0002	40.5s	0%	45	1	0	0	0	0	0	0	0	0	5%
96	Gemini 3 Flash (Preview)	$0.0020	6.5s	0%	38	7	0	0	0	0	0	0	0	0	4%
132	Qwen 3.5 Flash	$0.0038	1.2m	0%	34	10	0	0	0	0	0	0	0	0	4%
102	Grok 4.1 Fast	$0.0005	11.3s	0%	38	1	0	0	0	0	0	0	0	0	4%
99	Claude 3 Haiku	$0.0009	6.3s	0%	34	2	1	0	0	0	0	0	0	0	4%
143	Z.AI GLM 5	$0.011	2.1m	0%	18	12	4	0	0	0	0	0	0	0	3%
104	Qwen 2.5 72B	$0.0004	21.7s	0%	14	12	5	0	0	0	0	0	0	0	3%
107	GPT-5.4 Mini (Reasoning, Low)	$0.0045	6.2s	0%	21	2	1	0	0	0	0	0	0	0	2%
113	Llama 3.1 Nemotron 70B	$0.0003	19.5s	0%	11	4	0	0	0	0	0	0	0	0	2%
115	GPT-5.4 Mini (Reasoning)	$0.0051	6.1s	0%	8	6	0	0	0	0	0	0	0	0	1%
105	GPT-4.1 Nano	$0.0003	9.1s	0%	11	0	0	0	0	0	0	0	0	0	1%
133	GPT-4o, May 13th (temp=0)	$0.013	19.7s	0%	7	0	0	0	0	0	0	0	0	0	1%
137	Z.AI GLM 4.7 Flash	$0.0015	1.1m	0%	5	2	0	0	0	0	0	0	0	0	1%
126	Qwen 3.5 Plus (2026-02-15)	$0.0019	31.2s	0%	4	0	0	0	0	0	0	0	0	0	0%
142	Z.AI GLM 4.6	$0.0043	1.4m	0%	1	0	0	0	0	0	0	0	0	0	0%
106	Mistral Small Creative	$0.0003	5.3s	0%	1	0	0	0	0	0	0	0	0	0	0%
117	Z.AI GLM 4.5 Air	$0.0009	16.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
122	Qwen3 235B A22B Instruct 2507	$0.0003	25.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
114	Gemma 4 26B	$0.0002	12.2s	0%	0	0	0	0	0	0	0	0	0	0	0%
125	Gemma 4 31B	$0.0003	32.7s	0%	0	0	0	0	0	0	0	0	0	0	0%
134	DeepSeek V4 Pro	$0.0017	57.6s	0%	0	0	0	0	0	0	0	0	0	0	0%
119	Gemma 3 27B	$0.0002	20.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
110	Gemma 3 4B	$0.0001	7.8s	0%	0	0	0	0	0	0	0	0	0	0	0%
22.44%

Median	Evaluator	Top 3	Flop 3
17.4%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 93MoonshotAI: Kimi K2.6 91Z.AI GLM 5 Turbo	0Gemini 2.5 Flash 0Gemini 3 Flash (Preview) 0Grok 4.20
14.8%	Matches word count	100Gemini 3.1 Pro (Preview) 100GPT-5 100GPT-5 Mini	0GPT-5.4 Mini (Reasoning) 0GPT-5.4 Mini (Reasoning, Low) 0GPT-5.4 Nano

Dialogue tags

Write 500 words with 50% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)