Matches word count

Test: N-Length Sentences

Avg. Score

70.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3 Flash (Preview)	98.9%	$0.0004	1.9s	95%
2	Stealth: Aurora Alpha	98.2%	—	1.7s	90%
3	GPT-5 Nano	99.9%	$0.0010	28.2s	99%
4	GPT-5 Mini	98.6%	$0.0043	26.2s	93%
5	GPT-5.2	99.7%	$0.011	15.0s	98%
6	o4 Mini	97.9%	$0.0083	20.8s	91%
7	Minimax M2.5	98.4%	$0.0031	39.2s	90%
8	Claude Opus 4.5	93.5%	$0.0052	6.8s	79%
9	o4 Mini High	98.2%	$0.011	27.6s	92%
10	GPT-4.1	88.0%	$0.0012	2.8s	71%
11	Gemini 3 Pro (Preview)	99.1%	$0.018	13.0s	93%
12	MoonshotAI: Kimi K2.5	99.2%	$0.0086	55.1s	95%
13	GPT-4o Mini (temp=0)	86.1%	$0.0001	9.2s	69%
14	GPT-5.1	98.9%	$0.017	26.6s	94%
15	GPT-4o, May 13th (temp=0)	87.0%	$0.0025	4.6s	60%
16	Llama 3.1 70B	84.3%	$0.0002	2.1s	57%
17	GPT-4o Mini (temp=1)	84.8%	$0.0001	6.1s	57%
18	ByteDance Seed 1.6 Flash	85.1%	$0.0007	13.5s	55%
19	Mistral Medium 3.1	80.5%	$0.0003	4.3s	52%
20	GPT-4o, May 13th (temp=1)	82.0%	$0.0022	4.7s	52%
21	ByteDance Seed 1.6	88.0%	$0.0027	31.1s	58%
22	GPT-4.1 Mini	80.3%	$0.0002	2.2s	45%
23	GPT-4.1 Nano	77.1%	$0.0001	2.4s	48%
24	Claude Opus 4.6	83.8%	$0.0055	7.6s	53%
25	Z.AI GLM 4.7 Flash	91.0%	$0.0018	1.3m	74%
26	Claude Opus 4	87.7%	$0.015	13.2s	67%
27	Llama 3.1 Nemotron 70B	79.8%	$0.0001	5.7s	43%
28	Llama 3.1 8B	79.9%	$0.0000	910ms	40%
29	Z.AI GLM 5	98.5%	$0.011	1.6m	89%
30	Grok 4	82.8%	$0.0072	15.0s	56%
31	Claude Sonnet 4.5	81.0%	$0.0033	6.0s	45%
32	Claude 3.5 Haiku	78.9%	$0.0006	2.5s	39%
33	GPT-5	99.6%	$0.031	51.9s	98%
34	Qwen 2.5 72B	77.3%	$0.0003	16.6s	44%
35	Claude 3.7 Sonnet	77.1%	$0.0032	5.1s	42%
36	Claude Sonnet 4	78.2%	$0.0029	5.2s	39%
37	Gemini 2.5 Pro	87.0%	$0.018	16.6s	64%
38	GPT-4o, Aug. 6th (temp=1)	74.8%	$0.0015	2.4s	37%
39	Gemma 3 27B	73.4%	$0.0000	5.4s	33%
40	Ministral 3 14B	66.1%	$0.0001	2.0s	38%
41	DeepSeek V3 (2025-03-24)	71.1%	$0.0001	6.9s	30%
42	Claude 3.5 Sonnet	72.3%	$0.0028	4.6s	29%
43	Claude Haiku 4.5	67.0%	$0.0009	2.9s	27%
44	Claude Sonnet 4.6	70.5%	$0.0024	4.6s	25%
45	Grok 4.1 Fast	69.7%	$0.0006	10.7s	26%
46	DeepSeek V3 (2024-12-26)	65.7%	$0.0002	6.6s	26%
47	GPT-4o, Aug. 6th (temp=0)	67.5%	$0.0013	2.2s	24%
48	Mistral Small Creative	58.0%	$0.0001	1.2s	32%
49	Writer: Palmyra X5	62.8%	$0.0014	7.9s	32%
50	Gemini 3.1 Pro (Preview)	100.0%	$0.051	43.9s	100%
51	Z.AI GLM 4.7	95.1%	$0.0065	2.5m	71%
52	Gemma 3 12B	63.0%	$0.0000	4.1s	15%
53	Mistral Small 3.2 24B	54.7%	$0.0001	2.6s	22%
54	Grok 4 Fast	53.2%	$0.0003	4.0s	22%
55	Gemma 3 4B	57.5%	$0.0000	1.8s	15%
56	Hermes 3 405B	58.3%	$0.0000	11.9s	18%
57	Mistral Large 3	57.0%	$0.0003	4.6s	16%
58	Qwen 3.5 Plus (2026-02-15)	52.4%	$0.0003	5.9s	20%
59	Gemini 2.5 Flash Lite	52.6%	$0.0000	785ms	16%
60	Claude 3 Haiku	48.4%	$0.0002	2.7s	20%
61	DeepSeek V3.2	60.8%	$0.0003	16.5s	11%
62	DeepSeek V3.1	54.0%	$0.0001	9.1s	15%
63	Qwen 3.5 397B A17B	100.0%	$0.025	3.0m	100%
64	Ministral 3 3B	41.8%	$0.0000	1.0s	21%
65	Cohere Command R+ (Aug. 2024)	44.9%	$0.0008	2.0s	17%
66	Arcee AI: Trinity Large (Preview)	42.9%	$0.0000	3.6s	18%
67	WizardLM 2 8x22b	43.8%	$0.0002	8.4s	19%
68	Gemini 2.5 Flash	44.0%	$0.0003	1.3s	12%
69	Ministral 3 8B	41.9%	$0.0000	1.5s	10%
70	Hermes 3 70B	41.9%	$0.0001	5.8s	11%
71	Z.AI GLM 4.5	42.0%	$0.0003	5.8s	8%
72	Z.AI GLM 4.6	58.2%	$0.0034	55.9s	16%
73	Mistral Large 2	37.4%	$0.0007	2.9s	7%
74	Arcee AI: Trinity Mini	31.3%	$0.0001	3.2s	12%
75	Mistral Large	40.4%	$0.0037	5.3s	8%
76	Ministral 3B	26.5%	$0.0000	768ms	15%
77	Ministral 8B	28.2%	$0.0000	904ms	7%
78	DeepSeek-V2 Chat	33.3%	$0.0001	10.5s	3%
79	Rocinante 12B	27.1%	$0.0001	8.4s	9%
80	Mistral NeMO	18.6%	$0.0000	1.9s	7%
70.71%

Individual Scenarios

▼

Write sentences with 5 words each

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Minimax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	99	99.9%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	98	99.8%
Llama 3.1 8B	100	100	100	100	100	100	100	100	100	98	99.8%
o4 Mini	100	100	100	100	100	100	100	100	100	98	99.8%
Grok 4	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.2	100	100	100	100	100	100	100	100	100	97	99.7%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	96	99.6%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	94	99.4%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	99	98	98	98	99.3%
Mistral Medium 3.1	100	100	100	100	100	100	98	98	97	97	99.0%
GPT-5.1	100	100	100	100	100	100	99	99	99	92	98.9%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	89	98.9%
Gemini 2.5 Pro	100	100	100	100	100	100	98	97	97	96	98.9%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	98	97	96	96	98.7%
GPT-4o Mini (temp=0)	100	98	98	98	98	98	98	98	98	96	98.3%
GPT-4.1 Mini	100	100	100	100	99	98	98	97	96	93	98.1%
Gemma 3 27B	100	100	100	100	100	98	98	96	96	93	98.0%
Claude Opus 4.6	100	100	100	100	100	100	98	95	94	93	97.9%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	96	95	94	93	97.8%
Claude Opus 4	100	100	100	100	100	100	97	95	94	93	97.8%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100	100	78	97.8%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	98	91	89	97.8%
Claude 3.5 Sonnet	100	100	100	100	100	100	98	96	93	87	97.3%
GPT-4.1 Nano	100	100	100	100	100	98	97	96	91	89	97.1%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	98	88	81	96.7%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	96	87	80	96.3%
Gemma 3 12B	100	100	100	98	96	96	96	96	93	87	96.0%
Z.AI GLM 4.6	100	98	98	98	97	96	94	93	92	90	95.7%
Claude Sonnet 4	100	100	100	100	97	97	93	92	91	86	95.6%
Claude Sonnet 4.5	100	100	100	100	99	96	94	91	89	86	95.5%
GPT-4o, Aug. 6th (temp=1)	100	100	99	97	96	95	94	93	91	89	95.4%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	98	93	86	70	94.7%
Gemma 3 4B	100	100	100	98	98	98	94	93	89	77	94.6%
GPT-4o, Aug. 6th (temp=0)	98	96	96	93	93	93	93	93	92	92	94.0%
Claude 3.5 Haiku	100	98	98	96	92	92	91	91	91	91	93.9%
DeepSeek V3.1	100	100	99	98	98	97	90	85	84	82	93.3%
Z.AI GLM 4.5	100	100	100	98	98	98	89	87	82	81	93.2%
Claude Haiku 4.5	99	99	99	98	97	92	90	88	86	84	93.1%
DeepSeek V3.2	100	100	100	100	100	99	88	87	78	78	93.0%
GPT-4.1	100	98	98	98	97	96	96	89	88	70	92.9%
Mistral Large 3	96	93	93	93	91	91	89	89	89	89	91.4%
Gemini 2.5 Flash Lite	100	98	96	95	93	91	89	86	86	72	90.7%
Qwen 2.5 72B	100	100	100	100	100	100	100	95	93	0	88.9%
Mistral Large	96	95	93	93	89	89	83	82	79	73	87.1%
ByteDance Seed 1.6 Flash	100	100	96	91	91	89	87	85	72	60	87.0%
DeepSeek-V2 Chat	100	93	91	89	89	82	82	80	78	72	85.6%
Mistral Small 3.2 24B	95	93	91	90	87	85	83	80	77	63	84.6%
Gemini 2.5 Flash	98	98	95	93	93	92	88	84	64	40	84.3%
Ministral 3 14B	91	90	88	88	87	87	80	80	79	72	84.3%
Hermes 3 70B	100	100	98	92	90	87	87	69	58	56	83.7%
Grok 4.1 Fast	100	99	91	80	78	78	78	78	78	78	83.7%
Hermes 3 405B	90	90	88	87	85	84	83	80	76	69	83.1%
Qwen 3.5 Plus (2026-02-15)	100	91	82	78	78	78	78	78	78	78	81.9%
Writer: Palmyra X5	100	98	95	90	83	82	78	76	70	11	78.2%
Arcee AI: Trinity Large (Preview)	93	87	81	81	80	77	72	69	66	56	76.2%
Grok 4 Fast	89	78	78	78	78	78	70	70	67	53	73.8%
Mistral Small Creative	80	80	78	72	72	72	72	72	70	63	73.3%
Mistral Large 2	91	91	91	89	87	82	70	60	52	16	73.0%
Cohere Command R+ (Aug. 2024)	94	89	78	78	76	76	65	53	51	36	69.6%
Ministral 3 3B	93	84	74	74	64	63	56	56	52	50	66.5%
WizardLM 2 8x22b	91	89	89	85	81	68	64	50	23	10	65.0%
Claude 3 Haiku	89	81	78	77	72	72	68	65	47	1	65.0%
Ministral 8B	100	100	78	78	64	56	45	36	32	20	61.0%
Arcee AI: Trinity Mini	97	89	76	73	63	53	45	45	27	24	59.3%
Rocinante 12B	88	78	72	66	62	59	59	40	34	22	58.1%
Ministral 3 8B	96	93	90	85	55	36	34	9	7	7	51.1%
Ministral 3B	71	64	64	64	52	52	40	37	20	0	46.5%
Mistral NeMO	72	47	45	37	35	22	21	17	1	1	29.8%

▼

Write sentences with 10 words each

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	98	99.8%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	97	99.7%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	97	99.7%
GPT-5	100	100	100	100	100	100	100	100	99	98	99.6%
GPT-5 Mini	100	100	100	100	100	100	100	100	98	97	99.5%
o4 Mini High	100	100	100	100	100	100	100	97	96	96	99.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	88	98.8%
o4 Mini	100	100	100	100	100	100	97	97	97	97	98.8%
Llama 3.1 Nemotron 70B	100	100	100	100	100	97	97	97	95	95	98.2%
Minimax M2.5	100	100	100	100	100	100	98	97	95	88	97.7%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	74	97.4%
Claude 3.5 Haiku	100	100	100	100	97	97	95	95	95	92	97.2%
Claude Sonnet 4.5	100	100	100	100	100	98	97	96	90	87	96.8%
Llama 3.1 70B	100	100	100	100	97	97	97	95	87	87	96.1%
Llama 3.1 8B	100	100	100	98	97	96	95	93	91	77	94.7%
Claude Opus 4.6	100	100	100	100	100	100	99	98	76	74	94.7%
GPT-4o, Aug. 6th (temp=1)	100	97	95	95	95	92	92	90	90	90	93.6%
Gemini 2.5 Pro	100	97	96	96	95	95	93	88	88	84	93.3%
GPT-4o, Aug. 6th (temp=0)	100	95	95	95	92	92	92	92	90	90	93.3%
GPT-4.1 Mini	97	97	96	95	92	92	92	90	88	84	92.4%
GPT-4o Mini (temp=1)	97	95	95	95	92	92	92	92	90	83	92.4%
Claude 3.7 Sonnet	100	94	94	93	93	93	93	91	91	81	92.3%
Grok 4.1 Fast	100	100	97	95	94	91	90	85	84	84	92.0%
GPT-4.1	100	95	95	95	92	92	92	90	83	79	91.3%
Claude 3.5 Sonnet	100	100	97	95	92	90	90	86	83	78	91.0%
Claude Sonnet 4	100	100	100	100	97	95	90	88	74	64	90.8%
Z.AI GLM 4.7	100	100	100	100	100	100	100	90	74	39	90.3%
Gemma 3 27B	95	92	92	92	92	92	90	87	87	80	90.0%
Z.AI GLM 4.7 Flash	100	100	100	100	96	96	79	77	74	74	89.7%
DeepSeek V3.2	100	100	97	97	92	92	90	90	75	59	89.3%
GPT-4o Mini (temp=0)	92	90	90	90	90	90	90	87	84	84	88.6%
GPT-4o, May 13th (temp=0)	97	97	97	97	92	92	87	87	70	63	88.2%
Hermes 3 405B	97	97	92	92	90	88	87	87	84	67	88.2%
Gemma 3 12B	95	92	92	90	90	87	87	85	84	74	87.6%
GPT-4o, May 13th (temp=1)	97	94	92	92	90	87	83	80	80	65	86.1%
DeepSeek V3 (2025-03-24)	97	97	92	92	84	79	77	75	75	74	84.3%
Qwen 2.5 72B	100	96	94	92	91	88	85	83	65	37	83.1%
Grok 4	100	95	84	84	84	84	82	77	74	56	82.2%
Mistral Medium 3.1	95	92	90	85	79	79	78	77	72	68	81.6%
ByteDance Seed 1.6 Flash	100	100	95	95	94	90	83	77	76	3	81.2%
Claude Haiku 4.5	89	89	86	86	82	77	74	74	74	67	79.8%
DeepSeek V3 (2024-12-26)	92	90	89	87	87	82	77	68	65	59	79.6%
ByteDance Seed 1.6	100	100	95	94	86	83	79	76	42	41	79.5%
Mistral Large 3	90	90	90	87	84	84	82	66	59	59	79.1%
Claude Sonnet 4.6	100	97	74	74	74	74	74	74	74	74	78.9%
Mistral Small Creative	90	90	90	87	80	79	75	70	65	63	78.9%
Grok 4 Fast	93	92	90	90	90	90	72	68	48	35	76.7%
Ministral 3 14B	92	88	85	80	76	75	73	72	69	52	76.2%
Gemma 3 4B	88	88	87	80	77	75	72	65	63	52	74.8%
Writer: Palmyra X5	90	89	87	79	78	77	73	73	54	48	74.8%
GPT-4.1 Nano	83	83	82	80	79	77	72	68	66	55	74.5%
Claude 3 Haiku	97	84	84	83	83	75	74	63	61	28	73.3%
Ministral 3 8B	92	87	87	85	78	75	72	63	50	42	73.2%
Qwen 3.5 Plus (2026-02-15)	100	84	84	74	72	72	70	65	52	35	70.9%
DeepSeek V3.1	85	84	82	81	79	75	73	46	37	31	67.3%
Z.AI GLM 4.6	100	96	90	80	77	70	55	42	35	18	66.1%
Mistral Small 3.2 24B	80	79	77	70	64	59	57	52	51	48	63.8%
Cohere Command R+ (Aug. 2024)	95	84	81	70	70	63	56	56	18	10	60.3%
Gemini 2.5 Flash Lite	88	78	76	61	61	60	50	39	37	22	57.2%
WizardLM 2 8x22b	77	74	66	66	59	57	54	52	46	19	57.0%
Ministral 3 3B	82	78	65	64	58	56	54	53	15	7	52.9%
Arcee AI: Trinity Large (Preview)	71	67	65	59	58	50	45	41	39	32	52.5%
Gemini 2.5 Flash	69	62	62	54	52	50	45	41	27	14	47.6%
Mistral Large 2	81	70	57	46	43	28	19	19	17	14	39.3%
Hermes 3 70B	81	57	42	41	40	33	24	8	7	6	33.8%
Mistral Large	65	51	51	42	38	26	21	21	16	4	33.5%
Z.AI GLM 4.5	56	54	48	39	39	39	25	11	10	5	32.7%
Arcee AI: Trinity Mini	64	52	48	38	34	31	29	15	7	7	32.5%
Mistral NeMO	57	48	45	24	24	15	14	11	10	9	25.7%
Ministral 3B	39	32	31	30	30	27	26	21	7	6	24.8%
Rocinante 12B	56	43	35	32	26	21	14	3	1	0	23.1%
Ministral 8B	43	36	34	28	28	16	15	10	0	0	21.1%
DeepSeek-V2 Chat	25	23	18	18	15	13	10	8	7	4	14.2%

▼

Write sentences with 20 words each

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	95	99.5%
GPT-5	100	100	100	100	100	100	100	100	96	96	99.2%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	94	87	98.1%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	80	98.0%
GPT-5.1	100	100	100	100	100	100	100	100	90	88	97.8%
Minimax M2.5	100	100	100	100	100	100	100	100	100	75	97.5%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	93	80	97.4%
Gemini 3 Flash (Preview)	100	100	100	100	100	95	95	95	94	90	97.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	92	75	96.7%
GPT-5 Mini	100	100	100	100	100	100	95	93	90	83	96.1%
o4 Mini High	100	100	100	100	100	100	95	92	87	83	95.7%
o4 Mini	100	100	100	100	100	100	92	92	84	83	95.1%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	51	95.1%
ByteDance Seed 1.6 Flash	100	100	100	100	100	90	75	74	74	59	87.2%
Z.AI GLM 4.7 Flash	100	100	100	94	93	90	84	74	74	60	87.0%
ByteDance Seed 1.6	100	100	100	100	100	100	80	80	74	14	84.8%
Claude Opus 4.5	96	92	88	88	84	80	80	75	74	60	81.8%
GPT-4.1	93	92	92	89	87	85	84	60	59	57	79.8%
GPT-4o, May 13th (temp=0)	100	100	90	88	84	80	69	64	44	18	73.6%
GPT-4o Mini (temp=0)	72	72	72	72	72	72	72	72	72	68	71.3%
Gemini 2.5 Pro	89	87	80	74	74	72	69	64	40	40	68.9%
Grok 4	80	78	76	72	69	68	64	64	55	39	66.4%
Claude Opus 4	83	75	70	70	66	64	61	61	61	53	66.4%
GPT-4o Mini (temp=1)	100	80	80	72	70	65	59	55	34	29	64.3%
GPT-4o, May 13th (temp=1)	92	87	80	74	72	57	51	48	39	13	61.2%
Mistral Medium 3.1	76	68	67	65	64	64	63	58	53	34	61.0%
Qwen 2.5 72B	100	61	61	61	61	61	61	61	40	35	60.0%
GPT-4.1 Nano	76	76	76	75	64	59	59	57	30	26	59.9%
Claude Opus 4.6	100	93	80	61	55	47	47	37	37	32	58.9%
Llama 3.1 70B	74	72	65	61	60	59	51	46	43	38	57.0%
Claude Sonnet 4.5	84	69	69	62	60	58	44	42	17	2	50.8%
GPT-4.1 Mini	87	82	67	59	59	42	38	34	32	4	50.4%
Claude Sonnet 4	83	77	72	72	66	60	23	15	12	3	48.3%
Claude 3.5 Haiku	84	83	76	54	49	47	27	16	15	3	45.4%
Llama 3.1 8B	87	84	74	48	45	33	30	25	21	5	45.2%
Claude 3.7 Sonnet	59	53	52	52	50	47	45	27	24	4	41.2%
Llama 3.1 Nemotron 70B	66	55	52	45	43	37	30	29	27	27	41.1%
Ministral 3 14B	67	51	49	49	44	42	35	32	5	3	37.7%
Writer: Palmyra X5	67	62	53	45	42	37	22	18	8	0	35.4%
GPT-4o, Aug. 6th (temp=1)	66	52	50	41	36	34	29	22	14	11	35.4%
Grok 4.1 Fast	100	90	85	22	19	15	3	1	0	0	33.5%
Claude Sonnet 4.6	87	77	37	34	28	23	22	16	1	0	32.5%
DeepSeek V3 (2025-03-24)	74	58	51	39	35	28	18	11	8	0	32.3%
Gemma 3 27B	60	56	53	51	48	28	21	2	2	2	32.3%
Claude 3.5 Sonnet	62	54	53	44	19	18	16	13	6	1	28.4%
Claude Haiku 4.5	71	66	52	50	33	10	0	0	0	0	28.3%
DeepSeek V3 (2024-12-26)	53	49	32	21	21	20	18	10	4	0	22.8%
Mistral Small Creative	44	40	30	28	22	21	16	13	3	0	21.7%
Mistral Small 3.2 24B	51	47	27	19	7	5	1	0	0	0	15.7%
GPT-4o, Aug. 6th (temp=0)	25	21	17	15	13	13	12	12	12	11	15.1%
Z.AI GLM 4.6	59	36	13	6	5	5	2	1	0	0	12.7%
Gemini 2.5 Flash Lite	57	34	4	4	2	0	0	0	0	0	10.1%
WizardLM 2 8x22b	41	21	19	5	5	1	1	0	0	0	9.4%
Grok 4 Fast	36	23	16	8	8	1	0	0	0	0	9.2%
Ministral 3B	32	19	15	11	4	0	0	0	0	0	8.2%
Hermes 3 70B	28	16	15	8	7	7	0	0	0	0	8.1%
Claude 3 Haiku	27	15	13	10	4	0	0	0	0	0	6.9%
Ministral 3 3B	23	19	10	4	2	2	0	0	0	0	5.9%
Gemma 3 12B	14	13	10	9	3	2	2	1	0	0	5.5%
Cohere Command R+ (Aug. 2024)	25	19	3	0	0	0	0	0	0	0	4.7%
Qwen 3.5 Plus (2026-02-15)	23	12	3	3	2	0	0	0	0	0	4.4%
Hermes 3 405B	20	16	0	0	0	0	0	0	0	0	3.6%
Gemma 3 4B	16	11	2	1	0	0	0	0	0	0	3.0%
Ministral 8B	13	7	2	2	1	0	0	0	0	0	2.5%
Arcee AI: Trinity Mini	8	8	7	0	0	0	0	0	0	0	2.2%
Ministral 3 8B	10	3	0	0	0	0	0	0	0	0	1.4%
DeepSeek V3.1	7	6	0	0	0	0	0	0	0	0	1.3%
Mistral Large 3	2	2	2	1	0	0	0	0	0	0	0.6%
Mistral Large	6	0	0	0	0	0	0	0	0	0	0.6%
Mistral NeMO	2	0	0	0	0	0	0	0	0	0	0.2%
DeepSeek V3.2	1	0	0	0	0	0	0	0	0	0	0.1%
Gemini 2.5 Flash	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Large (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Rocinante 12B	0	0	0	0	0	0	0	0	0	0	0.0%
DeepSeek-V2 Chat	0	0	0	0	0	0	0	0	0	0	0.0%
Z.AI GLM 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%

Matches word count

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Write sentences with 5 words each

Write sentences with 10 words each

Write sentences with 20 words each