Write 200 words with 90% dialogue

Dialogue tags

Various tasks related to dialogue tags in text.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.1 Pro (Preview)	99%
MoonshotAI: Kimi K2.6	98%
GPT-4o Mini (temp=0)	97%
Grok 4.3 (Reasoning)	97%
Claude Opus 4.6 (Reasoning)	94%
Claude Opus 4.6	94%
GPT-5.5 (Reasoning)	93%
Qwen 3.5 27B	93%
MiniMax M2.7	89%
GPT-5.2	88%
Claude Opus 4.7 (Reasoning)	86%
Gemma 4 26B (Reasoning)	85%
Qwen 3.5 397B A17B	84%
Inception Mercury 2	83%
GPT-5.4 (Reasoning)	83%
Nemotron 3 Super	82%
Qwen 3.5 Flash	82%
Qwen3.6 Max Preview	82%
Qwen 3.6 35B	81%
GPT-5.5	81%

	Score	Cost	Time
GPT-4o Mini (temp=0)	97%	$0.0002	4.6s
Claude Opus 4.6	94%	$0.0084	10.9s
Claude Opus 4.6 (Reasoning)	94%	$0.011	11.8s
Inception Mercury 2	83%	$0.0027	4.1s
DeepSeek V3.2	73%	$0.0002	23.1s
GPT-OSS 120B	81%	$0.0013	56.3s
Claude Opus 4.5	78%	$0.0085	9.8s
Claude Opus 4.7 (Reasoning)	86%	$0.013	7.2s
Qwen 3.5 Flash	82%	$0.0057	1.4m
Nemotron 3 Super	82%	$0.0000	1.2m
Qwen 3.6 35B	81%	$0.011	51.9s
DeepSeek-V2 Chat	73%	$0.0001	20.6s
Gemini 3 Flash (Preview, Reasoning)	74%	$0.014	23.7s
Qwen 3.5 27B	93%	$0.024	1.6m
GPT-5.4 (Reasoning, Low)	78%	$0.013	16.2s
GPT-5.5 (Reasoning, Low)	78%	$0.015	12.4s
GPT-5.5 (Reasoning)	93%	$0.054	27.7s
GPT-5.4 (Reasoning)	83%	$0.024	30.0s
Grok 4	78%	$0.0083	19.1s
MiniMax M2.7	89%	$0.015	2.5m

	Score	Cost	Speed	Stability
GPT-4o Mini (temp=0)	97%	$0.0002	4.6s	90%
Claude Opus 4.6	94%	$0.0084	10.9s	82%
Claude Opus 4.6 (Reasoning)	94%	$0.011	11.8s	83%
Claude Opus 4.7 (Reasoning)	86%	$0.013	7.2s	68%
Inception Mercury 2	83%	$0.0027	4.1s	56%
GPT-4o, Aug. 6th (temp=0)	68%	$0.0032	4.0s	67%
Claude Sonnet 4.6	77%	$0.0050	8.7s	60%
Claude Opus 4.5	78%	$0.0085	9.8s	57%
Grok 4.3 (Reasoning)	97%	$0.028	2.2m	88%
GPT-4o, Aug. 6th (temp=1)	65%	$0.0032	4.1s	61%
GPT-5.5	81%	$0.0098	9.6s	51%
Gemini 2.5 Flash Lite	72%	$0.0001	1.7s	51%
GPT-5.5 (Reasoning)	93%	$0.054	27.7s	79%
GPT-4o Mini (temp=1)	68%	$0.0002	4.4s	53%
Grok 4	78%	$0.0083	19.1s	52%
GPT-5.2	88%	$0.032	39.2s	67%
GPT-5.4 Mini	73%	$0.0015	2.3s	46%
Qwen 3.5 27B	93%	$0.024	1.6m	70%
GPT-5.4 (Reasoning, Low)	78%	$0.013	16.2s	53%
Nemotron 3 Super	82%	$0.0000	1.2m	54%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
84	Gemini 3.1 Pro (Preview)	$0.117	1.7m	94%	100	100	100	100	100	100	100	100	100	89	99%
92	MoonshotAI: Kimi K2.6	$0.038	5.5m	94%	100	100	100	100	100	99	97	96	96	91	98%
1	GPT-4o Mini (temp=0)	$0.0002	4.6s	90%	100	100	100	100	100	99	99	98	97	84	97%
9	Grok 4.3 (Reasoning)	$0.028	2.2m	88%	100	100	100	100	99	99	99	98	87	85	97%
3	Claude Opus 4.6 (Reasoning)	$0.011	11.8s	83%	100	100	100	100	98	98	95	88	81	80	94%
2	Claude Opus 4.6	$0.0084	10.9s	82%	100	100	100	99	99	96	95	85	82	79	94%
13	GPT-5.5 (Reasoning)	$0.054	27.7s	79%	100	100	100	100	99	98	98	89	83	68	93%
18	Qwen 3.5 27B	$0.024	1.6m	70%	100	100	100	100	99	99	97	95	94	50	93%
43	MiniMax M2.7	$0.015	2.5m	60%	100	100	100	100	99	99	98	96	50	50	89%
16	GPT-5.2	$0.032	39.2s	67%	100	99	99	98	98	96	89	83	68	50	88%
4	Claude Opus 4.7 (Reasoning)	$0.013	7.2s	68%	97	95	94	94	93	91	88	78	76	53	86%
45	Gemma 4 26B (Reasoning)	$0.0034	2.9m	62%	100	100	99	98	95	93	80	68	62	50	85%
137	Qwen 3.5 397B A17B	$0.043	5.2m	57%	100	100	100	98	91	87	83	83	50	50	84%
5	Inception Mercury 2	$0.0027	4.1s	56%	99	99	99	98	94	92	88	62	50	50	83%
24	GPT-5.4 (Reasoning)	$0.024	30.0s	57%	100	100	99	99	93	89	71	68	68	40	83%
20	Nemotron 3 Super	$0.0000	1.2m	54%	100	100	100	99	95	84	79	71	50	46	82%
29	Qwen 3.5 Flash	$0.0057	1.4m	52%	100	100	100	99	99	95	87	50	50	41	82%
129	Qwen3.6 Max Preview	$0.058	3.5m	55%	100	100	99	95	95	83	76	68	50	50	82%
25	Qwen 3.6 35B	$0.011	51.9s	52%	100	100	100	99	98	83	83	51	50	48	81%
11	GPT-5.5	$0.0098	9.6s	51%	100	100	100	98	82	68	68	66	65	64	81%
32	GPT-OSS 120B	$0.0013	56.3s	37%	99	99	98	98	97	94	92	82	50	0	81%
63	Qwen 3.5 122B	$0.034	1.4m	52%	100	100	100	94	93	92	76	50	50	45	80%
65	Z.AI GLM 5.1	$0.021	2.1m	53%	99	98	93	83	83	83	82	79	48	43	79%
60	Grok 4.20 (Reasoning)	$0.022	1.7m	52%	100	98	98	92	92	86	76	56	49	41	79%
48	MoonshotAI: Kimi K2.5	$0.013	1.8m	54%	100	98	97	92	91	84	68	55	52	50	79%
15	Grok 4	$0.0083	19.1s	52%	100	99	94	90	84	76	74	63	55	48	78%
8	Claude Opus 4.5	$0.0085	9.8s	57%	96	95	93	93	92	91	63	60	49	49	78%
22	GPT-5.5 (Reasoning, Low)	$0.015	12.4s	50%	100	98	98	97	93	75	67	52	51	50	78%
19	GPT-5.4 (Reasoning, Low)	$0.013	16.2s	53%	100	100	88	83	83	83	76	76	51	40	78%
40	GPT-5.1	$0.020	33.6s	45%	100	100	98	89	74	68	68	68	68	38	77%
7	Claude Sonnet 4.6	$0.0050	8.7s	60%	99	84	84	83	75	73	73	67	67	67	77%
23	GPT-5.4 Nano (Reasoning)	$0.0038	20.7s	46%	100	100	97	86	80	70	68	50	50	50	75%
71	o4 Mini High	$0.033	1.3m	49%	99	98	89	82	77	76	68	53	50	50	74%
31	Gemini 3 Flash (Preview, Reasoning)	$0.014	23.7s	46%	100	98	96	89	86	79	50	49	49	43	74%
33	DeepSeek V3.2	$0.0002	23.1s	34%	99	99	98	98	93	88	75	49	18	18	73%
17	GPT-5.4 Mini	$0.0015	2.3s	46%	100	93	92	84	83	64	59	58	50	46	73%
21	DeepSeek-V2 Chat	$0.0001	20.6s	48%	99	94	89	87	83	76	50	50	49	49	73%
98	Qwen 3.5 35B	$0.026	1.2m	32%	100	100	98	96	90	83	64	50	43	0	72%
41	Claude Sonnet 4.6 (Reasoning)	$0.018	17.0s	44%	100	97	90	75	72	63	60	56	53	50	72%
12	Gemini 2.5 Flash Lite	$0.0001	1.7s	51%	95	88	84	76	72	72	72	59	50	49	72%
35	DeepSeek V3.1	$0.0003	13.8s	32%	100	99	98	97	67	65	62	59	50	18	71%
51	Claude Opus 4	$0.027	19.9s	45%	94	93	86	85	80	80	65	52	51	21	71%
27	Claude Opus 4.7	$0.013	7.8s	48%	100	95	68	68	66	66	64	64	62	52	70%
26	Grok 4.1 Fast	$0.0003	7.5s	41%	99	93	85	82	72	66	64	53	51	29	69%
107	Grok 4.20 (Beta, Reasoning)	$0.048	37.1s	32%	100	99	96	94	93	50	50	50	31	30	69%
49	Z.AI GLM 5 Turbo	$0.010	24.8s	37%	100	100	86	83	68	66	59	50	49	28	69%
14	GPT-4o Mini (temp=1)	$0.0002	4.4s	53%	95	68	68	68	68	68	68	67	66	44	68%
59	Z.AI GLM 5	$0.0055	55.8s	35%	100	97	93	83	80	52	48	46	42	42	68%
34	Claude Haiku 4.5	$0.0016	4.6s	35%	99	97	88	87	71	53	52	50	44	39	68%
6	GPT-4o, Aug. 6th (temp=0)	$0.0032	4.0s	67%	68	68	68	68	68	68	68	68	68	66	68%
46	DeepSeek V4 Flash (Reasoning)	$0.0001	1.0m	43%	99	95	80	75	71	66	50	50	50	41	68%
64	Qwen 3.6 Flash	$0.012	36.4s	34%	100	96	80	76	75	68	60	51	50	3	66%
131	DeepSeek V4 Pro (Reasoning)	$0.021	2.9m	31%	100	95	92	83	66	64	56	49	28	18	65%
10	GPT-4o, Aug. 6th (temp=1)	$0.0032	4.1s	61%	68	68	68	68	67	65	64	62	59	59	65%
42	Xiaomi MIMO v2.5 Pro	$0.0017	12.1s	37%	96	93	75	75	68	68	50	49	43	18	64%
55	Inception Mercury	$0.0002	4.7s	24%	98	93	91	91	63	50	50	50	45	2	63%
36	Claude 3.7 Sonnet	$0.0049	7.2s	42%	95	84	64	60	60	59	52	52	50	50	63%
123	GPT-5	$0.041	1.2m	27%	100	97	89	68	68	51	50	50	50	2	63%
78	GPT-5 Mini	$0.0082	43.0s	30%	100	100	72	50	50	50	50	50	50	50	62%
105	MiniMax M2.5	$0.0088	1.8m	31%	100	100	64	59	50	50	50	50	50	50	62%
30	GPT-4o, May 13th (temp=0)	$0.0049	7.3s	48%	68	68	68	68	68	68	68	68	52	18	62%
37	Llama 3.1 70B	$0.0003	3.6s	37%	87	83	68	68	68	67	65	57	44	2	61%
91	Gemma 4 31B (Reasoning)	$0.0013	1.7m	37%	86	83	81	74	68	52	48	44	44	28	61%
44	GPT-5.4 Mini (Reasoning)	$0.0042	5.3s	39%	97	77	73	73	68	62	50	40	35	33	61%
109	GPT-5 Nano	$0.0043	1.8m	23%	98	98	98	50	50	50	50	50	50	13	61%
62	DeepSeek V4 Flash	$0.0001	8.4s	24%	98	97	90	89	68	68	28	23	18	18	60%
128	Qwen 3.6 27B	$0.024	1.7m	21%	100	93	90	82	68	50	50	50	14	0	60%
72	GPT-4.1 Nano	$0.0001	3.8s	18%	100	99	96	92	63	58	41	22	18	2	59%
28	GPT-4.1	$0.0026	4.9s	50%	68	68	68	68	68	59	50	49	44	43	59%
87	Z.AI GLM 4.7	$0.0033	1.0m	31%	96	84	78	68	66	59	50	40	18	18	58%
61	Gemma 4 26B	$0.0001	11.1s	29%	98	93	75	63	60	59	51	28	26	20	57%
75	Qwen 2.5 72B	$0.0001	8.7s	20%	100	100	79	72	50	50	50	50	20	0	57%
111	ByteDance Seed 1.6	$0.0056	1.1m	15%	100	99	96	84	56	50	43	40	0	0	57%
52	Arcee AI: Trinity Large (Preview)	$0.0000	8.4s	34%	97	75	67	60	60	50	50	45	38	26	57%
121	Stealth: Aurora Alpha	—	4.8s	22%	95	94	77	72	62	59	56	50	0	0	56%
103	o4 Mini	$0.015	32.9s	23%	100	96	82	60	55	50	40	34	24	14	55%
79	Xiaomi MIMO v2.5	$0.0009	6.4s	20%	97	95	80	68	62	51	49	48	0	0	55%
74	Ministral 8B	$0.0000	2.5s	21%	95	95	78	68	51	50	49	44	18	0	55%
50	Grok 4.20	$0.0008	5.4s	37%	91	68	66	64	64	64	52	32	28	18	55%
73	Qwen 3.5 Plus (2026-02-15)	$0.0008	12.7s	26%	89	87	80	75	64	49	44	19	18	18	54%
70	Writer: Palmyra X5	$0.0023	6.5s	26%	100	84	55	52	51	50	50	50	49	0	54%
81	Stealth: Hunter Alpha	$0.0000	11.4s	22%	98	92	80	50	50	49	48	38	20	7	53%
56	Gemini 3 Flash (Preview)	$0.0010	3.4s	34%	92	68	62	59	56	56	56	36	26	23	53%
53	GPT-5.4 Mini (Reasoning, Low)	$0.0017	3.0s	38%	70	68	68	66	63	57	53	39	35	10	53%
120	Qwen 3.5 Plus (2026-04-20)	$0.012	1.3m	19%	96	92	91	50	50	48	43	41	18	0	53%
90	Grok 4.20 (Beta)	$0.0017	1.9s	18%	100	99	68	67	50	50	48	43	0	0	53%
136	Nemotron 3 Nano	$0.0024	3.5m	27%	87	86	50	50	50	50	50	50	50	0	52%
54	Claude Sonnet 4.5	$0.0049	7.7s	41%	75	57	53	50	50	50	49	49	47	36	52%
99	DeepSeek V3 (2024-12-26)	$0.0004	12.3s	15%	100	100	88	70	50	48	26	25	6	0	51%
94	Claude 3.5 Sonnet	$0.0051	18.3s	25%	92	91	65	56	56	44	32	32	19	18	51%
67	GPT-4o, May 13th (temp=1)	$0.0051	8.8s	34%	68	68	68	66	56	52	52	26	23	18	50%
39	Mistral NeMO	$0.0000	3.5s	49%	50	50	50	50	50	50	50	49	47	46	49%
38	Gemini 3.1 Flash Lite (Preview)	$0.0004	2.0s	49%	50	50	50	50	50	50	50	48	47	47	49%
77	Qwen3 235B A22B Instruct 2507	$0.0001	8.8s	27%	80	67	67	62	50	50	48	44	19	0	49%
66	Gemini 2.5 Flash	$0.0009	2.7s	31%	68	68	67	65	50	50	49	29	21	18	49%
58	Gemma 3 12B	$0.0001	7.2s	38%	67	57	51	50	50	50	50	50	44	16	49%
88	Gemini 2.5 Flash Lite (Reasoning)	$0.0024	21.8s	28%	99	58	50	50	49	46	42	40	32	18	48%
76	GPT-5.4 Nano (Reasoning, Low)	$0.0017	8.9s	29%	100	52	50	50	50	50	49	36	27	18	48%
47	Gemini 3.1 Flash Lite (Reasoning)	$0.0004	2.1s	46%	50	50	50	50	49	49	49	48	43	41	48%
95	Mistral Medium 3.1	$0.0006	5.2s	20%	91	80	79	50	48	42	33	30	17	2	47%
82	Mistral Small 3.2 24B	$0.0001	5.6s	26%	95	55	54	48	48	48	47	41	26	1	46%
85	DeepSeek V3 (2025-03-24)	$0.0004	11.6s	27%	86	71	53	50	50	50	47	32	22	0	46%
57	Gemma 3 4B	$0.0000	3.1s	40%	50	50	50	50	50	50	50	48	43	18	46%
93	GPT-5.4	$0.0049	10.3s	29%	68	65	62	56	44	44	44	28	18	18	45%
102	Z.AI GLM 4.6	$0.0035	1.1m	35%	68	51	50	50	50	48	48	43	18	18	45%
86	GPT-4.1 Mini	$0.0005	4.6s	26%	68	68	67	67	59	36	23	19	18	18	45%
83	Gemini 2.5 Flash (Reasoning)	$0.010	18.3s	39%	53	50	50	50	49	49	49	38	37	18	44%
80	Aion 2.0	$0.0010	15.2s	34%	59	55	51	50	47	43	42	39	32	15	43%
97	Llama 3.1 Nemotron 70B	$0.0001	9.3s	25%	96	50	50	50	50	49	44	23	18	0	43%
68	Gemini 3.1 Flash Lite	$0.0004	2.0s	35%	50	50	50	50	50	48	45	43	43	1	43%
108	Z.AI GLM 4.7 Flash	$0.0010	58.4s	26%	95	56	52	50	50	47	18	18	18	18	42%
96	Z.AI GLM 4.5	$0.0005	5.8s	25%	94	64	50	50	50	50	20	18	18	10	42%
116	Gemini 2.5 Pro	$0.026	21.5s	28%	80	57	55	53	49	45	28	18	18	18	42%
69	Gemma 3 27B	$0.0001	9.2s	37%	50	50	50	49	49	49	45	39	18	18	42%
101	Hermes 3 70B	$0.0001	13.4s	24%	78	67	64	50	50	48	28	27	2	0	41%
89	Z.AI GLM 4.5 Air	$0.0005	14.1s	31%	63	52	50	50	50	47	43	40	18	0	41%
110	Stealth: Healer Alpha	$0.0000	27.3s	19%	93	64	62	48	43	43	18	16	3	0	39%
100	Hermes 3 405B	$0.0000	19.1s	29%	60	55	51	51	45	41	34	26	14	10	39%
115	Mistral Small 4 (Reasoning)	$0.0024	24.5s	17%	98	60	50	50	49	48	0	0	0	0	36%
104	Grok 4.3	$0.0007	4.8s	25%	59	51	48	48	47	30	25	19	15	0	34%
112	Grok 4 Fast	$0.0003	4.9s	16%	77	56	51	43	31	25	18	11	11	2	33%
117	GPT-5.4 Nano	$0.0005	4.9s	13%	68	59	50	47	25	23	18	18	4	0	31%
106	Llama 3.1 8B	$0.0001	1.4s	21%	62	50	50	50	38	38	18	7	0	0	31%
118	Ministral 3B	$0.0000	1.5s	13%	84	50	46	30	30	21	18	15	0	0	29%
113	LFM2 24B	$0.0000	8.2s	19%	62	50	40	38	31	30	27	14	0	0	29%
122	DeepSeek V4 Pro	$0.0006	13.2s	13%	59	56	40	26	19	19	18	18	18	18	29%
147	ByteDance Seed 2.0 Mini	$0.0032	3.7m	8%	87	63	50	49	38	2	0	0	0	0	29%
133	Gemini 3 Pro (Preview)	$0.022	18.6s	19%	50	50	50	49	48	18	14	5	2	2	29%
130	ByteDance Seed 2.0 Lite	$0.0028	33.5s	13%	64	59	50	50	45	9	3	2	0	0	28%
114	Claude 3 Haiku	$0.0004	2.9s	18%	50	50	48	47	38	22	18	7	1	0	28%
146	Qwen 3.5 9B	$0.0022	3.3m	13%	80	52	50	40	33	23	1	0	0	0	28%
119	Mistral Large	$0.0088	7.5s	23%	50	50	47	41	41	38	12	0	0	0	28%
126	Gemma 4 31B	$0.0001	27.8s	16%	46	35	35	21	19	19	18	18	18	18	25%
125	Mistral Small 4	$0.0002	3.4s	10%	51	50	47	41	19	14	10	3	3	2	24%
124	Arcee AI: Trinity Mini	$0.0001	4.5s	13%	50	49	39	33	27	12	11	7	5	0	23%
127	Claude Sonnet 4	$0.0047	7.2s	15%	49	28	21	19	19	19	19	18	18	18	23%
132	Mistral Large 2	$0.0018	8.2s	9%	50	49	49	39	24	7	2	1	1	0	22%
134	Ministral 3 14B	$0.0001	6.9s	6%	50	47	43	28	10	10	7	3	1	1	20%
138	Qwen 3 32B	$0.0004	16.9s	3%	57	47	45	37	7	4	0	0	0	0	20%
139	Rocinante 12B	$0.0001	13.3s	3%	49	49	46	18	7	5	0	0	0	0	18%
141	ByteDance Seed 1.6 Flash	$0.0003	7.7s	0%	63	56	28	14	0	0	0	0	0	0	16%
140	Ministral 3 3B	$0.0000	1.3s	0%	68	48	22	14	1	0	0	0	0	0	15%
135	Mistral Large 3	$0.0006	7.8s	8%	49	26	26	26	22	1	0	0	0	0	15%
143	WizardLM 2 8x22b	$0.0004	16.4s	0%	50	44	6	4	1	0	0	0	0	0	11%
142	Mistral Small Creative	$0.0001	2.2s	1%	47	23	18	5	4	0	0	0	0	0	10%
145	Cohere Command R+ (Aug. 2024)	$0.0037	8.3s	0%	31	14	10	1	0	0	0	0	0	0	6%
144	Ministral 3 8B	$0.0001	2.5s	0%	54	1	0	0	0	0	0	0	0	0	6%
56.08%

Median	Evaluator	Top 3	Flop 3
58.4%	Dialogue to Total Word Ratio	100Claude 3.7 Sonnet 99Gemini 2.5 Flash Lite 99GPT-4o Mini (temp=0)	0Gemini 3.1 Flash Lite (Reasoning) 0Gemini 3.1 Flash Lite (Preview) 0Gemini 3.1 Flash Lite
59.3%	Matches word count	100GPT-5.2 100Gemini 3.1 Pro (Preview) 100GPT-5 Mini	0Gemma 3 4B 0Mistral NeMO 0WizardLM 2 8x22b

Dialogue tags

Write 200 words with 90% dialogue

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)