Write 500 words with 70% dialogue

Dialogue tags

Various tasks related to dialogue tags in text.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	100%
Nemotron 3 Super	74%
GPT-5 Mini	70%
o4 Mini High	62%
Grok 4 Fast	61%
Claude Opus 4.6 (Reasoning)	57%
MiniMax M2.5	55%
Claude 3.7 Sonnet	54%
GPT-5	54%
GPT-4o, Aug. 6th (temp=0)	54%
MiniMax M2.7	54%
Z.AI GLM 5 Turbo	50%
Claude 3.5 Sonnet	46%
GPT-4o, Aug. 6th (temp=1)	45%
Mistral Medium 3.1	44%
Claude Opus 4.6	41%
DeepSeek-V2 Chat	40%
Z.AI GLM 5.1	39%
Gemini 3.1 Flash Lite (Reasoning)	38%
Claude Sonnet 4.6	37%

	Score	Cost	Time
Nemotron 3 Super	74%	$0.0000	3.3m
GPT-5 Mini	70%	$0.014	1.2m
Grok 4 Fast	61%	$0.0005	9.4s
Inception Mercury 2	34%	$0.0047	7.3s
Claude 3.7 Sonnet	54%	$0.012	16.2s
Claude Opus 4.6 (Reasoning)	57%	$0.021	22.2s
Mistral Medium 3.1	44%	$0.0017	18.0s
GPT-4o, Aug. 6th (temp=1)	45%	$0.0074	8.9s
Gemini 2.5 Flash Lite (Reasoning)	28%	$0.0022	26.4s
Gemini 3.1 Flash Lite (Reasoning)	38%	$0.0010	4.0s
GPT-4o Mini (temp=0)	32%	$0.0005	11.7s
GPT-4o, Aug. 6th (temp=0)	54%	$0.0070	8.2s
Gemini 3.1 Flash Lite	32%	$0.0010	7.0s
Claude Opus 4.6	41%	$0.019	21.7s
DeepSeek-V2 Chat	40%	$0.0002	41.2s
Claude 3.5 Sonnet	46%	$0.013	53.7s
GPT-5	54%	$0.051	1.5m
Claude Sonnet 4.6	37%	$0.011	17.3s
Aion 2.0	28%	$0.0020	31.3s
o4 Mini High	62%	$0.064	2.6m

	Score	Consistency	Stability
Gemini 3.1 Pro (Preview)	100%	100%	100%
Claude 3.7 Sonnet	54%	76%	39%
Nemotron 3 Super	74%	44%	38%
Claude Opus 4.6	41%	67%	31%
Grok 4 Fast	61%	55%	31%
Gemini 3.1 Flash Lite (Reasoning)	38%	71%	30%
Inception Mercury 2	34%	60%	29%
Claude Opus 4.6 (Reasoning)	57%	54%	29%
o4 Mini High	62%	43%	28%
GPT-4o Mini (temp=0)	32%	62%	26%
GPT-5 Mini	70%	34%	25%
MiniMax M2.5	55%	50%	25%
Gemini 2.5 Flash Lite (Reasoning)	28%	55%	24%
Claude Sonnet 4.6	37%	62%	23%
MiniMax M2.7	54%	42%	21%
Claude Opus 4.7 (Reasoning)	36%	50%	20%
MoonshotAI: Kimi K2.6	31%	58%	20%
GPT-OSS 120B	28%	62%	20%
Aion 2.0	28%	54%	18%
ByteDance Seed 1.6	25%	59%	18%

	Score	Cost	Speed	Stability
Grok 4 Fast	61%	$0.0005	9.4s	31%
Claude 3.7 Sonnet	54%	$0.012	16.2s	39%
GPT-5 Mini	70%	$0.014	1.2m	25%
Claude Opus 4.6 (Reasoning)	57%	$0.021	22.2s	29%
Gemini 3.1 Flash Lite (Reasoning)	38%	$0.0010	4.0s	30%
GPT-4o, Aug. 6th (temp=0)	54%	$0.0070	8.2s	17%
Nemotron 3 Super	74%	$0.0000	3.3m	38%
Inception Mercury 2	34%	$0.0047	7.3s	29%
Claude Opus 4.6	41%	$0.019	21.7s	31%
Mistral Medium 3.1	44%	$0.0017	18.0s	17%
GPT-4o Mini (temp=0)	32%	$0.0005	11.7s	26%
GPT-4o, Aug. 6th (temp=1)	45%	$0.0074	8.9s	13%
Claude Sonnet 4.6	37%	$0.011	17.3s	23%
Gemini 3.1 Pro (Preview)	100%	$0.229	3.3m	100%
DeepSeek-V2 Chat	40%	$0.0002	41.2s	18%
Gemini 3.1 Flash Lite	32%	$0.0010	7.0s	17%
Grok 4.1 Fast	31%	$0.0005	12.8s	17%
Gemini 2.5 Flash Lite (Reasoning)	28%	$0.0022	26.4s	24%
Ministral 3 8B	27%	$0.0001	3.9s	17%
Stealth: Healer Alpha	29%	$0.0000	10.1s	15%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
14	Gemini 3.1 Pro (Preview)	$0.229	3.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Nemotron 3 Super	$0.0000	3.3m	38%	100	100	100	100	97	75	49	48	46	22	74%
3	GPT-5 Mini	$0.014	1.2m	25%	100	100	100	100	100	50	50	50	50	0	70%
46	o4 Mini High	$0.064	2.6m	28%	100	95	83	71	67	61	60	56	29	0	62%
1	Grok 4 Fast	$0.0005	9.4s	31%	98	92	78	67	58	54	50	50	47	18	61%
4	Claude Opus 4.6 (Reasoning)	$0.021	22.2s	29%	91	86	86	56	55	53	48	34	34	22	57%
75	MiniMax M2.5	$0.017	4.4m	25%	98	90	77	56	50	50	50	41	33	9	55%
2	Claude 3.7 Sonnet	$0.012	16.2s	39%	75	72	63	53	51	51	50	50	49	31	54%
39	GPT-5	$0.051	1.5m	17%	100	93	85	79	69	62	50	5	0	0	54%
6	GPT-4o, Aug. 6th (temp=0)	$0.0070	8.2s	17%	99	97	83	65	42	42	42	42	31	1	54%
110	MiniMax M2.7	$0.019	4.9m	21%	98	93	78	50	50	50	50	50	19	0	54%
53	Z.AI GLM 5 Turbo	$0.037	1.5m	7%	100	99	99	95	54	35	19	2	0	0	50%
22	Claude 3.5 Sonnet	$0.013	53.7s	13%	98	93	85	50	46	44	41	3	3	0	46%
12	GPT-4o, Aug. 6th (temp=1)	$0.0074	8.9s	13%	100	92	86	50	47	44	30	2	0	0	45%
10	Mistral Medium 3.1	$0.0017	18.0s	17%	97	93	58	50	46	45	23	19	7	0	44%
9	Claude Opus 4.6	$0.019	21.7s	31%	65	50	50	50	48	43	41	34	14	10	41%
15	DeepSeek-V2 Chat	$0.0002	41.2s	18%	90	84	50	44	40	40	19	17	11	5	40%
126	Z.AI GLM 5.1	$0.038	3.3m	14%	94	92	51	43	41	40	25	0	0	0	39%
5	Gemini 3.1 Flash Lite (Reasoning)	$0.0010	4.0s	30%	49	49	49	45	43	41	38	38	22	2	38%
13	Claude Sonnet 4.6	$0.011	17.3s	23%	66	57	57	49	42	33	26	21	19	3	37%
25	Claude Opus 4.7 (Reasoning)	$0.029	15.8s	20%	72	68	53	49	43	38	23	11	1	1	36%
144	Qwen3.6 Max Preview	$0.069	4.5m	5%	99	99	50	49	42	2	0	0	0	0	34%
8	Inception Mercury 2	$0.0047	7.3s	29%	51	50	50	50	50	47	16	15	9	0	34%
142	Grok 4.3 (Reasoning)	$0.043	4.0m	10%	100	57	50	50	43	9	9	8	0	0	33%
11	GPT-4o Mini (temp=0)	$0.0005	11.7s	26%	50	50	47	45	45	38	34	14	0	0	32%
16	Gemini 3.1 Flash Lite	$0.0010	7.0s	17%	89	49	48	48	43	34	3	1	0	0	32%
17	Grok 4.1 Fast	$0.0005	12.8s	17%	80	48	41	38	31	27	25	15	7	3	31%
146	MoonshotAI: Kimi K2.6	$0.055	6.8m	20%	55	55	50	49	46	23	15	15	4	0	31%
30	Grok 4	$0.015	35.7s	17%	77	46	43	30	29	28	23	21	9	5	31%
26	Llama 3.1 70B	$0.0006	6.7s	12%	93	47	47	45	45	11	3	1	0	0	29%
29	Cohere Command R+ (Aug. 2024)	$0.0074	17.1s	12%	82	50	49	44	29	18	12	5	2	0	29%
20	Stealth: Healer Alpha	$0.0000	10.1s	15%	71	50	49	46	39	20	10	5	0	0	29%
27	Aion 2.0	$0.0020	31.3s	18%	61	50	50	48	34	34	5	3	0	0	28%
133	Stealth: Aurora Alpha	—	10.0s	6%	84	71	50	48	24	6	1	0	0	0	28%
18	Gemini 2.5 Flash Lite (Reasoning)	$0.0022	26.4s	24%	49	48	47	47	44	43	1	0	0	0	28%
21	Inception Mercury	$0.0011	7.9s	15%	66	51	50	48	46	16	0	0	0	0	28%
42	GPT-OSS 120B	$0.0009	1.5m	20%	50	48	48	40	39	24	15	10	1	1	28%
24	Mistral Small 4	$0.0004	7.7s	15%	81	49	33	31	29	26	14	12	0	0	27%
36	DeepSeek V3 (2024-12-26)	$0.0008	26.5s	9%	85	51	36	28	19	16	15	14	3	2	27%
56	Qwen 3.6 Flash	$0.014	44.2s	6%	75	66	62	34	26	3	0	0	0	0	27%
19	Ministral 3 8B	$0.0001	3.9s	17%	54	49	39	28	27	23	21	13	12	1	27%
23	Gemini 3.1 Flash Lite (Preview)	$0.0009	3.6s	15%	50	50	47	30	26	22	22	14	1	0	26%
37	Claude Sonnet 4.6 (Reasoning)	$0.016	21.1s	15%	54	46	39	35	22	22	18	18	3	1	26%
44	ByteDance Seed 1.6	$0.0057	1.1m	18%	50	49	43	41	34	27	5	0	0	0	25%
38	Mistral Small 3.2 24B	$0.0002	14.1s	6%	98	46	38	35	28	2	1	0	0	0	25%
28	Mistral Small Creative	$0.0003	5.4s	13%	50	49	45	39	27	14	12	12	0	0	25%
31	Grok 4.20	$0.0019	12.9s	12%	58	49	48	43	26	18	4	1	0	0	25%
145	DeepSeek V4 Pro (Reasoning)	$0.037	5.0m	1%	99	88	36	18	4	1	0	0	0	0	25%
43	DeepSeek V3.1	$0.0008	51.1s	13%	50	49	45	39	22	21	10	4	4	0	24%
32	Mistral Large 3	$0.0013	17.3s	13%	71	54	34	27	26	24	2	0	0	0	24%
99	Claude Opus 4	$0.064	33.6s	13%	50	48	45	28	22	18	14	11	1	0	24%
54	GPT-5.5 (Reasoning)	$0.035	28.1s	17%	48	47	36	32	29	22	20	2	0	0	23%
34	GPT-5.4 Mini	$0.0044	5.7s	11%	49	49	41	38	23	12	8	4	4	0	23%
50	Ministral 3 14B	$0.0002	7.8s	1%	96	88	24	10	7	0	0	0	0	0	23%
93	o4 Mini	$0.020	51.2s	1%	82	56	50	30	6	0	0	0	0	0	22%
48	Mistral Large 2	$0.0044	18.6s	8%	50	49	45	36	17	9	4	4	0	0	21%
40	Gemini 3 Flash (Preview)	$0.0022	7.2s	8%	54	50	41	41	27	2	0	0	0	0	21%
61	GPT-5.2	$0.019	33.4s	10%	46	45	43	41	27	5	3	2	0	0	21%
67	Claude Opus 4.7	$0.029	16.7s	7%	50	45	39	29	10	10	9	8	7	3	21%
41	Qwen 2.5 72B	$0.0004	22.0s	11%	49	47	37	35	26	12	0	0	0	0	21%
147	Nemotron 3 Nano	$0.0061	6.5m	1%	52	50	50	50	3	0	0	0	0	0	21%
107	Grok 4.20 (Beta, Reasoning)	$0.054	42.7s	11%	55	49	41	24	20	16	0	0	0	0	20%
64	Rocinante 12B	$0.0004	32.7s	1%	91	49	38	15	6	0	0	0	0	0	20%
35	Claude 3 Haiku	$0.0010	6.5s	12%	49	44	30	25	22	14	13	1	0	0	20%
49	Gemma 3 12B	$0.0001	18.3s	7%	61	39	36	34	18	5	3	1	1	0	20%
47	Llama 3.1 Nemotron 70B	$0.0003	21.5s	8%	49	43	38	37	23	5	2	1	1	0	20%
33	Llama 3.1 8B	$0.0001	2.6s	13%	41	37	35	22	20	18	10	0	0	0	18%
134	ByteDance Seed 2.0 Mini	$0.0029	3.2m	4%	50	50	48	19	10	5	0	0	0	0	18%
51	Ministral 3B	$0.0000	3.2s	4%	80	43	24	18	15	0	0	0	0	0	18%
52	Claude Sonnet 4.5	$0.011	16.2s	11%	46	42	37	18	17	16	1	0	0	0	18%
57	GPT-4o Mini (temp=1)	$0.0005	13.0s	1%	50	49	49	24	5	0	0	0	0	0	18%
45	Mistral Small 4 (Reasoning)	$0.0013	17.8s	11%	48	45	24	20	19	16	2	0	0	0	17%
65	LFM2 24B	$0.0001	19.0s	0%	85	68	11	2	1	1	0	0	0	0	17%
55	Gemini 2.5 Flash Lite	$0.0003	3.6s	0%	50	50	45	22	0	0	0	0	0	0	17%
79	GPT-4o, May 13th (temp=1)	$0.012	23.8s	0%	55	45	41	26	0	0	0	0	0	0	17%
59	Arcee AI: Trinity Mini	$0.0002	6.6s	0%	52	49	37	26	0	0	0	0	0	0	17%
62	GPT-4.1 Mini	$0.0013	9.2s	1%	52	48	48	12	2	1	0	0	0	0	16%
130	Grok 4.20 (Reasoning)	$0.026	2.0m	4%	45	39	33	29	10	1	1	0	0	0	16%
60	GPT-5.4 Mini (Reasoning, Low)	$0.0045	5.9s	2%	50	40	32	23	4	4	3	2	0	0	16%
101	GPT-5.1	$0.020	44.3s	3%	50	41	32	24	5	3	2	1	0	0	16%
83	Claude Opus 4.5	$0.020	18.8s	3%	45	45	45	7	7	2	2	1	0	0	15%
70	DeepSeek V4 Flash	$0.0002	41.4s	5%	49	41	27	18	10	5	0	0	0	0	15%
73	Qwen 3 32B	$0.0007	28.5s	1%	49	48	40	7	3	0	0	0	0	0	15%
96	GPT-5.4 (Reasoning, Low)	$0.016	27.5s	1%	50	49	22	22	1	0	0	0	0	0	15%
58	GPT-5.4 Nano	$0.0018	7.3s	4%	49	36	33	16	8	3	0	0	0	0	15%
113	GPT-5.5	$0.033	30.0s	0%	49	43	33	16	0	0	0	0	0	0	14%
68	DeepSeek V3 (2025-03-24)	$0.0007	26.2s	3%	49	49	22	6	5	5	2	1	0	0	14%
69	ByteDance Seed 1.6 Flash	$0.0005	12.1s	0%	48	45	36	6	0	0	0	0	0	0	14%
123	Qwen 3.5 122B	$0.024	56.3s	0%	50	49	34	0	0	0	0	0	0	0	13%
66	Mistral NeMO	$0.0001	9.6s	0%	50	43	34	5	0	0	0	0	0	0	13%
76	GPT-5.4 (Reasoning)	$0.017	32.5s	9%	38	28	21	15	13	12	4	1	0	0	13%
63	Grok 4.20 (Beta)	$0.0039	3.8s	3%	45	35	30	10	10	0	0	0	0	0	13%
91	ByteDance Seed 2.0 Lite	$0.0031	35.9s	0%	49	43	34	4	0	0	0	0	0	0	13%
78	Xiaomi MIMO v2.5 Pro	$0.0032	23.2s	0%	70	50	4	2	0	0	0	0	0	0	13%
72	Hermes 3 70B	$0.0003	25.6s	3%	45	39	23	8	4	3	2	1	0	0	13%
120	Qwen 3.6 35B	$0.011	1.1m	0%	71	29	20	0	0	0	0	0	0	0	12%
143	Qwen 3.5 397B A17B	$0.026	3.6m	0%	58	47	7	4	1	0	0	0	0	0	12%
98	Gemini 3 Flash (Preview, Reasoning)	$0.012	24.8s	0%	50	49	18	0	0	0	0	0	0	0	12%
77	GPT-4.1	$0.0061	11.6s	0%	49	48	18	2	0	0	0	0	0	0	12%
71	GPT-5.4 Mini (Reasoning)	$0.0051	6.5s	2%	43	36	25	5	3	2	1	1	0	0	12%
100	Gemini 2.5 Flash (Reasoning)	$0.015	30.7s	3%	44	35	13	8	4	4	2	1	0	0	11%
121	Z.AI GLM 4.6	$0.0041	1.4m	2%	40	30	21	14	5	0	0	0	0	0	11%
82	Stealth: Hunter Alpha	$0.0000	23.7s	0%	43	40	19	5	0	0	0	0	0	0	11%
89	Hermes 3 405B	$0.0000	33.8s	1%	44	36	15	11	2	0	0	0	0	0	11%
140	MoonshotAI: Kimi K2.5	$0.019	2.7m	5%	48	22	15	8	7	6	0	0	0	0	11%
131	Z.AI GLM 5	$0.0079	2.0m	0%	45	38	10	7	0	0	0	0	0	0	10%
74	Grok 4.3	$0.0016	9.7s	1%	43	32	18	3	3	0	0	0	0	0	10%
132	Qwen 3.5 27B	$0.021	1.7m	1%	69	17	8	2	2	0	0	0	0	0	10%
137	Qwen 3.5 Plus (2026-04-20)	$0.019	2.1m	0%	49	30	10	5	0	0	0	0	0	0	9%
138	Gemma 4 26B (Reasoning)	$0.0015	2.6m	0%	46	27	17	0	0	0	0	0	0	0	9%
84	Arcee AI: Trinity Large (Preview)	$0.0000	16.5s	0%	50	38	0	0	0	0	0	0	0	0	9%
92	Z.AI GLM 4.5 Air	$0.0010	23.9s	0%	47	37	2	1	1	0	0	0	0	0	9%
81	GPT-5.4 Nano (Reasoning)	$0.0024	10.6s	0%	50	34	1	1	1	0	0	0	0	0	9%
105	GPT-5.4	$0.015	29.1s	2%	44	21	8	4	4	2	1	1	1	0	9%
90	Writer: Palmyra X5	$0.0054	12.6s	0%	49	34	2	0	0	0	0	0	0	0	8%
97	WizardLM 2 8x22b	$0.0010	29.7s	0%	49	19	13	3	0	0	0	0	0	0	8%
141	Qwen 3.5 9B	$0.0019	2.7m	0%	48	25	0	0	0	0	0	0	0	0	7%
80	GPT-4.1 Nano	$0.0003	7.5s	1%	24	15	14	13	1	1	0	0	0	0	7%
87	Claude Haiku 4.5	$0.0037	8.9s	1%	52	6	4	2	1	1	1	0	0	0	7%
127	Gemini 3 Pro (Preview)	$0.032	25.0s	0%	66	1	0	0	0	0	0	0	0	0	7%
88	GPT-5.4 Nano (Reasoning, Low)	$0.0019	8.3s	0%	50	10	2	0	0	0	0	0	0	0	6%
86	Gemini 2.5 Flash	$0.0021	5.6s	0%	47	13	0	0	0	0	0	0	0	0	6%
122	Gemini 2.5 Pro	$0.025	24.3s	0%	27	18	14	1	0	0	0	0	0	0	6%
104	Claude Sonnet 4	$0.011	15.7s	0%	50	6	3	1	0	0	0	0	0	0	6%
106	Qwen3 235B A22B Instruct 2507	$0.0005	34.0s	0%	38	14	3	1	0	0	0	0	0	0	6%
135	Qwen 3.6 27B	$0.020	1.6m	0%	46	4	3	0	0	0	0	0	0	0	5%
128	Qwen 3.5 35B	$0.018	55.9s	0%	39	7	4	2	0	0	0	0	0	0	5%
115	Qwen 3.5 Flash	$0.0035	46.4s	0%	29	22	0	0	0	0	0	0	0	0	5%
124	GPT-5 Nano	$0.0025	1.0m	0%	50	1	0	0	0	0	0	0	0	0	5%
85	Ministral 8B	$0.0001	4.8s	0%	50	0	0	0	0	0	0	0	0	0	5%
95	Xiaomi MIMO v2.5	$0.0019	12.6s	1%	40	5	2	1	1	0	0	0	0	0	5%
116	Mistral Large	$0.019	18.1s	0%	30	14	4	0	0	0	0	0	0	0	5%
129	GPT-5.5 (Reasoning, Low)	$0.035	30.1s	0%	36	5	5	2	0	0	0	0	0	0	5%
111	DeepSeek V4 Flash (Reasoning)	$0.0003	45.7s	0%	34	7	2	2	0	0	0	0	0	0	5%
125	Z.AI GLM 4.7 Flash	$0.0012	1.0m	0%	38	0	0	0	0	0	0	0	0	0	4%
136	Z.AI GLM 4.7	$0.0050	1.9m	0%	18	5	5	0	0	0	0	0	0	0	3%
114	DeepSeek V3.2	$0.0005	44.6s	1%	16	6	2	1	1	1	0	0	0	0	3%
94	Ministral 3 3B	$0.0001	2.9s	0%	22	1	0	0	0	0	0	0	0	0	2%
102	Z.AI GLM 4.5	$0.0013	12.3s	0%	14	4	0	0	0	0	0	0	0	0	2%
108	Gemma 4 26B	$0.0002	27.7s	0%	14	2	0	0	0	0	0	0	0	0	2%
119	GPT-4o, May 13th (temp=0)	$0.013	16.9s	0%	13	0	0	0	0	0	0	0	0	0	1%
109	Gemma 3 27B	$0.0001	23.4s	0%	1	0	0	0	0	0	0	0	0	0	0%
118	Qwen 3.5 Plus (2026-02-15)	$0.0019	31.0s	0%	1	0	0	0	0	0	0	0	0	0	0%
139	Gemma 4 31B (Reasoning)	$0.0011	2.0m	0%	0	0	0	0	0	0	0	0	0	0	0%
117	DeepSeek V4 Pro	$0.0012	31.5s	0%	0	0	0	0	0	0	0	0	0	0	0%
112	Gemma 4 31B	$0.0002	26.9s	0%	0	0	0	0	0	0	0	0	0	0	0%
103	Gemma 3 4B	$0.0001	7.4s	0%	0	0	0	0	0	0	0	0	0	0	0%
20.71%

Median	Evaluator	Top 3	Flop 3
17.3%	Dialogue to Total Word Ratio	100Gemini 3.1 Pro (Preview) 78Nemotron 3 Super 75Grok 4 Fast	0Gemini 3.1 Flash Lite (Reasoning) 0Gemini 3.1 Flash Lite (Preview) 0GPT-5 Nano
10.1%	Matches word count	100Gemini 3.1 Pro (Preview) 90GPT-5 Mini 89Claude 3.7 Sonnet	0GPT-5.4 Nano (Reasoning, Low) 0GPT-5.4 0GPT-5.4 Nano (Reasoning)

Dialogue tags

Write 500 words with 70% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)