Matches sentence count

Test: Write N of X

Avg. Score

84.2%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3 Flash (Preview)	100.0%	$0.0019	3.2s	100%
2	Mistral Large 3	100.0%	$0.0013	6.2s	100%
3	Mistral Small 3.2 24B	100.0%	$0.0003	8.7s	100%
4	Llama 3.1 Nemotron 70B	100.0%	$0.0007	12.6s	100%
5	GPT-5 Mini	100.0%	$0.0022	10.8s	100%
6	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0014	14.5s	100%
7	GPT-5.2	99.8%	$0.0081	8.8s	99%
8	GPT-5	100.0%	$0.0095	16.2s	100%
9	o4 Mini High	99.9%	$0.0081	18.2s	99%
10	Z.AI GLM 4.7 Flash	100.0%	$0.0009	35.2s	100%
11	GPT-5.1	99.8%	$0.0095	14.1s	98%
12	Stealth: Aurora Alpha	97.4%	—	5.1s	84%
13	MoonshotAI: Kimi K2.5	100.0%	$0.0045	31.5s	100%
14	Mistral Small Creative	96.8%	$0.0003	2.6s	72%
15	ByteDance Seed 1.6	100.0%	$0.0036	36.9s	100%
16	Mistral Medium 3.1	97.2%	$0.0014	8.1s	71%
17	DeepSeek V3 (2025-03-24)	98.0%	$0.0006	15.7s	72%
18	o4 Mini	98.4%	$0.0063	14.9s	80%
19	Gemini 2.5 Pro	99.4%	$0.016	13.2s	94%
20	Grok 4.1 Fast	95.6%	$0.0005	5.6s	64%
21	DeepSeek-V2 Chat	97.9%	$0.0003	20.5s	72%
22	Claude Opus 4.6	99.9%	$0.021	12.9s	99%
23	Gemma 3 27B	95.4%	$0.0003	12.6s	69%
24	Gemma 3 4B	95.0%	$0.0001	5.0s	61%
25	Z.AI GLM 5	100.0%	$0.0074	48.6s	100%
26	GPT-5 Nano	98.0%	$0.0010	26.0s	72%
27	Ministral 3 14B	92.1%	$0.0004	3.7s	57%
28	Gemini 3 Pro (Preview)	100.0%	$0.025	16.6s	100%
29	Claude Opus 4.5	95.9%	$0.017	8.5s	67%
30	Z.AI GLM 4.6	97.7%	$0.0030	47.4s	72%
31	Claude Sonnet 4.6	94.7%	$0.011	8.7s	59%
32	Grok 4 Fast	89.9%	$0.0005	4.2s	40%
33	Claude Sonnet 4.5	92.0%	$0.010	7.5s	56%
34	DeepSeek V3.2	92.1%	$0.0005	21.2s	49%
35	Z.AI GLM 4.7	100.0%	$0.0040	1.5m	100%
36	Gemini 3.1 Pro (Preview)	100.0%	$0.034	29.2s	100%
37	DeepSeek V3 (2024-12-26)	88.6%	$0.0009	12.2s	41%
38	Llama 3.1 8B	85.6%	$0.0004	1.7s	33%
39	GPT-4.1	86.0%	$0.0041	5.8s	32%
40	Claude 3.5 Sonnet	93.2%	$0.010	38.4s	54%
41	DeepSeek V3.1	83.3%	$0.0009	6.9s	27%
42	ByteDance Seed 1.6 Flash	82.3%	$0.0005	8.3s	26%
43	GPT-4.1 Mini	79.4%	$0.0008	5.1s	28%
44	Llama 3.1 70B	80.5%	$0.0017	3.1s	26%
45	Grok 4	88.0%	$0.011	15.0s	35%
46	Gemma 3 12B	80.1%	$0.0002	9.4s	23%
47	Claude Sonnet 4	84.2%	$0.012	10.0s	31%
48	Hermes 3 405B	80.0%	$0.0000	18.7s	24%
49	Writer: Palmyra X5	79.9%	$0.0032	8.9s	20%
50	Ministral 3 8B	74.1%	$0.0003	3.0s	19%
51	Ministral 3 3B	74.8%	$0.0002	1.6s	15%
52	Gemini 2.5 Flash Lite	73.3%	$0.0003	1.7s	18%
53	GPT-4.1 Nano	75.2%	$0.0003	6.8s	19%
54	Claude 3.5 Haiku	76.8%	$0.0025	6.2s	20%
55	Qwen 3.5 397B A17B	100.0%	$0.017	2.0m	100%
56	Z.AI GLM 4.5	74.8%	$0.0012	8.5s	16%
57	GPT-4o, Aug. 6th (temp=1)	74.2%	$0.0060	3.2s	18%
58	GPT-4o, Aug. 6th (temp=0)	74.0%	$0.0058	3.1s	18%
59	Minimax M2.5	75.6%	$0.0014	19.1s	15%
60	Claude Haiku 4.5	70.3%	$0.0031	4.3s	14%
61	Gemini 2.5 Flash	64.8%	$0.0011	2.2s	16%
62	Qwen 2.5 72B	66.7%	$0.0007	6.3s	11%
63	Ministral 3B	62.2%	$0.0001	2.2s	9%
64	GPT-4o Mini (temp=0)	79.5%	$0.0004	53.1s	20%
65	GPT-4o Mini (temp=1)	79.6%	$0.0004	54.0s	20%
66	Ministral 8B	60.4%	$0.0002	2.8s	9%
67	WizardLM 2 8x22b	71.5%	$0.0017	38.3s	14%
68	Claude 3.7 Sonnet	66.3%	$0.010	8.4s	12%
69	GPT-4o, May 13th (temp=0)	71.8%	$0.011	26.0s	17%
70	Arcee AI: Trinity Large (Preview)	57.2%	$0.0000	5.1s	5%
71	Hermes 3 70B	58.1%	$0.0007	6.7s	6%
72	GPT-4o, May 13th (temp=1)	74.0%	$0.011	33.0s	17%
73	Cohere Command R+ (Aug. 2024)	60.4%	$0.0059	4.3s	6%
74	Mistral Large 2	58.8%	$0.0045	4.2s	4%
75	Claude 3 Haiku	61.9%	$0.0008	36.4s	9%
76	Mistral NeMO	47.6%	$0.0003	3.6s	3%
77	Rocinante 12B	53.1%	$0.0006	24.0s	5%
78	Arcee AI: Trinity Mini	44.0%	$0.0002	4.6s	0%
79	Claude Opus 4	80.2%	$0.054	18.2s	24%
80	Mistral Large	63.8%	$0.020	52.3s	12%
84.24%

Individual Scenarios

sentences

▼

1 sentence summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Minimax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Haiku	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 8B	100	100	100	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3B	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 8B	100	100	100	100	100	100	100	100	100	0	90.0%
Rocinante 12B	100	100	100	100	100	98	98	92	0	0	78.9%

▼

3 sentence summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Haiku	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 405B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 2.5 72B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
Hermes 3 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3 Haiku	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 8B	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 3B	100	100	100	100	100	100	100	100	100	100	100.0%
Cohere Command R+ (Aug. 2024)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Large (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Arcee AI: Trinity Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	100	100.0%
Minimax M2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral NeMO	100	100	100	100	100	100	100	100	100	100	100.0%
WizardLM 2 8x22b	100	100	100	100	100	100	100	100	100	100	99.9%
Llama 3.1 8B	100	100	100	100	100	100	100	100	100	98	99.8%
Ministral 3B	100	100	100	100	100	100	100	100	100	98	99.8%
Ministral 8B	100	100	100	100	100	100	100	100	98	98	99.7%
GPT-5.2	100	100	100	100	100	100	100	100	98	98	99.7%
Rocinante 12B	100	100	100	100	100	100	98	98	77	2	87.6%

▼

10 sentence summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	100	100.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Haiku 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.2	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4.1 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, May 13th (temp=0)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude 3.5 Haiku	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	100	100	100	100	100	99.9%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	100	99.9%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	99.9%
Gemma 3 12B	100	100	100	100	100	100	100	100	100	100	99.9%
Gemma 3 27B	100	100	100	100	100	100	100	100	100	100	99.9%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.1	100	100	100	100	100	100	100	100	100	98	99.8%
o4 Mini	100	100	100	100	100	100	100	100	100	98	99.8%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-5.2	100	100	100	100	100	100	100	100	100	98	99.8%
GPT-4o, May 13th (temp=1)	100	100	100	100	100	100	100	100	100	98	99.8%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	98	99.8%
Mistral Large 3	100	100	100	100	100	100	100	100	100	98	99.8%
Ministral 3 3B	100	100	100	100	100	100	100	100	100	98	99.8%
Ministral 3 14B	100	100	100	100	100	100	100	100	98	98	99.6%
Mistral Medium 3.1	100	100	100	100	100	100	100	98	98	98	99.5%
DeepSeek-V2 Chat	100	100	100	100	100	100	98	98	98	98	99.4%
Claude Sonnet 4.5	100	100	100	100	100	100	100	100	100	92	99.2%
Llama 3.1 70B	100	100	100	100	100	100	100	100	100	92	99.2%
Minimax M2.5	100	100	100	100	100	100	100	98	98	92	98.9%
Stealth: Aurora Alpha	100	100	100	100	100	100	98	98	98	92	98.7%
Llama 3.1 8B	100	100	100	100	100	100	100	100	92	92	98.4%
Qwen 2.5 72B	100	98	98	98	98	98	98	92	92	92	96.7%
Cohere Command R+ (Aug. 2024)	100	98	98	98	98	98	92	92	77	77	93.1%
Mistral Large 2	100	100	98	98	98	92	92	92	77	77	92.7%
Mistral Large	100	98	98	92	92	92	92	77	77	77	89.8%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	100	100	92	2	89.4%
WizardLM 2 8x22b	100	100	100	98	98	98	98	98	77	9	87.8%
Ministral 3 8B	100	98	98	98	98	98	98	92	54	27	86.3%
Arcee AI: Trinity Large (Preview)	100	98	92	92	77	77	77	77	77	77	84.7%
Gemini 2.5 Flash Lite	100	100	100	100	100	98	92	92	54	0	83.6%
Hermes 3 405B	98	98	92	92	92	92	77	77	77	2	80.0%
Hermes 3 70B	100	100	100	100	92	92	77	54	54	27	79.6%
Claude 3 Haiku	100	100	100	100	77	77	77	54	54	27	76.7%
Claude 3.7 Sonnet	98	92	92	92	77	77	54	54	54	27	71.8%
Ministral 3B	100	100	98	98	92	77	77	27	0	0	67.1%
Rocinante 12B	100	100	92	92	77	27	2	0	0	0	49.1%
Ministral 8B	92	77	77	77	54	27	27	9	0	0	44.2%
Gemini 2.5 Flash	98	92	77	54	27	27	9	2	2	0	38.9%
Mistral NeMO	77	77	54	54	54	27	9	9	9	9	37.9%
Arcee AI: Trinity Mini	100	98	0	0	0	0	0	0	0	0	19.8%

▼

20 sentence summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	100	100.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemma 3 4B	100	100	100	100	100	100	100	100	100	100	99.9%
o4 Mini High	100	100	100	100	100	100	100	100	100	98	99.8%
Claude Opus 4.6	100	100	100	100	100	100	100	100	98	98	99.7%
Grok 4 Fast	100	100	100	100	100	100	100	100	98	98	99.6%
GPT-5.2	100	100	100	100	100	100	98	98	98	98	99.4%
GPT-5.1	100	100	100	100	100	100	100	100	100	92	99.2%
Z.AI GLM 4.6	100	100	100	100	100	100	98	98	98	92	98.7%
GPT-4o Mini (temp=1)	100	100	100	100	100	100	98	98	92	92	98.1%
GPT-4o Mini (temp=0)	100	100	98	98	98	98	98	98	92	92	97.5%
Claude Sonnet 4.5	100	100	98	98	98	98	98	92	92	92	96.9%
Claude Opus 4	100	100	100	100	100	100	98	92	77	77	94.5%
Stealth: Aurora Alpha	100	100	100	100	100	100	100	92	92	54	93.8%
GPT-4.1	100	100	100	100	100	100	98	98	98	9	90.4%
Claude Sonnet 4	100	100	100	100	100	98	98	98	98	9	90.3%
Llama 3.1 8B	100	100	100	100	100	98	98	98	77	27	90.0%
DeepSeek V3.1	100	100	100	100	100	100	100	98	98	0	89.7%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	98	98	92	0	88.9%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	54	27	88.0%
DeepSeek V3.2	100	100	100	100	100	100	100	98	77	2	87.7%
Mistral Medium 3.1	100	100	100	100	100	98	98	92	77	0	86.6%
Gemma 3 27B	100	100	100	100	98	98	98	92	54	9	85.0%
Mistral Small Creative	100	100	100	98	98	98	92	92	54	9	84.2%
Claude 3.5 Haiku	100	100	100	100	98	92	92	77	54	27	84.1%
DeepSeek V3 (2024-12-26)	100	100	100	100	98	98	92	92	27	27	83.6%
Grok 4	100	100	100	100	100	100	100	100	0	0	80.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	0	0	80.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	27	27	9	76.3%
Gemma 3 12B	100	100	100	100	100	100	98	54	2	0	75.3%
Ministral 3 8B	100	100	100	100	92	77	77	77	9	9	74.2%
Llama 3.1 70B	100	100	98	92	92	92	77	54	27	2	73.5%
GPT-4o, Aug. 6th (temp=1)	100	100	98	92	77	77	77	54	27	9	71.3%
GPT-4o, May 13th (temp=1)	100	100	100	98	92	77	54	54	27	2	70.4%
GPT-4o, Aug. 6th (temp=0)	100	98	98	98	92	77	54	27	27	27	70.0%
Hermes 3 405B	100	100	100	100	100	100	100	0	0	0	70.0%
WizardLM 2 8x22b	100	100	98	98	92	92	77	27	9	2	69.7%
GPT-4.1 Mini	100	100	92	92	92	77	54	27	27	0	66.2%
Z.AI GLM 4.5	100	100	100	100	98	77	77	9	0	0	66.2%
Ministral 3 3B	100	100	100	100	100	92	54	2	2	0	64.9%
Ministral 3 14B	100	92	92	77	77	54	54	54	9	0	60.9%
GPT-4o, May 13th (temp=0)	98	92	92	92	54	54	27	27	27	27	59.2%
Minimax M2.5	100	100	100	100	98	92	0	0	0	0	59.1%
Claude Haiku 4.5	98	92	77	77	77	27	27	27	9	0	51.4%
Gemini 2.5 Flash	92	92	54	54	54	27	27	9	9	0	41.8%
Rocinante 12B	100	100	92	54	54	0	0	0	0	0	39.9%
Qwen 2.5 72B	98	98	54	54	27	27	9	0	0	0	36.8%
Ministral 3B	100	98	77	27	27	9	0	0	0	0	34.0%
GPT-4.1 Nano	100	77	54	54	9	9	2	0	0	0	30.4%
Claude 3 Haiku	100	100	100	0	0	0	0	0	0	0	30.0%
Mistral Large	92	54	54	27	27	27	9	2	0	0	29.2%
Ministral 8B	100	98	54	27	0	0	0	0	0	0	27.9%
Gemini 2.5 Flash Lite	100	100	54	2	0	0	0	0	0	0	25.5%
Hermes 3 70B	100	9	2	0	0	0	0	0	0	0	11.1%
Cohere Command R+ (Aug. 2024)	77	9	2	2	0	0	0	0	0	0	9.0%
Mistral Large 2	9	2	2	0	0	0	0	0	0	0	1.2%
Arcee AI: Trinity Large (Preview)	9	2	0	0	0	0	0	0	0	0	1.1%
Claude 3.7 Sonnet	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%

▼

50 sentence summary

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.1	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Medium 3.1	100	100	100	100	100	100	100	100	100	100	100.0%
Llama 3.1 Nemotron 70B	100	100	100	100	100	100	100	100	100	100	100.0%
Mistral Small Creative	100	100	100	100	100	100	100	100	100	100	100.0%
Ministral 3 14B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Pro (Preview)	100	100	100	100	100	100	100	100	100	98	99.8%
Mistral Small 3.2 24B	100	100	100	100	100	100	100	100	100	98	99.8%
o4 Mini High	100	100	100	100	100	100	100	100	98	98	99.7%
Gemini 2.5 Pro	100	100	100	100	100	100	98	98	98	77	97.2%
Stealth: Aurora Alpha	100	100	100	100	100	98	98	92	77	77	94.4%
Gemma 3 27B	100	100	100	100	100	100	100	92	77	54	92.3%
o4 Mini	100	100	100	100	100	100	100	100	92	27	91.9%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	0	90.0%
Grok 4.1 Fast	100	100	100	100	100	100	100	100	100	0	90.0%
DeepSeek V3 (2025-03-24)	100	100	100	100	100	100	100	100	100	0	90.0%
GPT-5 Nano	100	100	100	100	100	100	100	100	100	0	90.0%
Claude 3.5 Sonnet	100	100	100	100	100	100	100	100	100	0	89.9%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	98	0	89.8%
Claude Opus 4.5	100	100	100	98	98	98	92	54	54	0	79.4%
Gemma 3 4B	100	100	100	100	100	100	92	54	9	0	75.5%
Claude Sonnet 4.6	100	100	98	98	98	92	92	54	0	0	73.3%
DeepSeek V3.2	100	100	100	100	100	100	100	27	0	0	72.7%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	100	98	0	0	0	69.8%
Claude Sonnet 4.5	98	98	98	98	77	77	54	27	9	0	63.8%
Grok 4	100	100	100	100	100	100	0	0	0	0	60.0%
Claude 3.7 Sonnet	100	100	100	100	100	100	0	0	0	0	59.9%
Gemini 2.5 Flash Lite	100	98	98	92	77	54	54	2	0	0	57.5%
Hermes 3 405B	100	100	100	100	100	0	0	0	0	0	50.0%
Grok 4 Fast	100	100	100	100	100	0	0	0	0	0	50.0%
GPT-4.1 Nano	100	100	100	77	77	0	0	0	0	0	45.5%
Gemini 2.5 Flash	100	100	98	98	27	9	0	0	0	0	43.3%
Llama 3.1 8B	100	100	100	100	0	0	0	0	0	0	40.0%
Ministral 8B	100	100	100	100	0	0	0	0	0	0	40.0%
GPT-4.1	100	100	98	98	0	0	0	0	0	0	39.7%
GPT-4.1 Mini	100	100	54	27	27	0	0	0	0	0	30.8%
Claude Sonnet 4	100	92	77	27	9	0	0	0	0	0	30.6%
Llama 3.1 70B	100	100	100	0	0	0	0	0	0	0	30.0%
DeepSeek V3.1	98	92	77	2	0	0	0	0	0	0	27.0%
Gemma 3 12B	98	98	54	0	0	0	0	0	0	0	25.0%
ByteDance Seed 1.6 Flash	100	98	9	9	9	0	0	0	0	0	22.6%
Minimax M2.5	100	100	0	0	0	0	0	0	0	0	20.0%
Writer: Palmyra X5	100	98	0	0	0	0	0	0	0	0	19.8%
Rocinante 12B	92	9	0	0	0	0	0	0	0	0	10.1%
Ministral 3 8B	100	0	0	0	0	0	0	0	0	0	10.0%
Ministral 3B	100	0	0	0	0	0	0	0	0	0	10.0%
Ministral 3 3B	92	2	2	0	0	0	0	0	0	0	9.6%
Z.AI GLM 4.5	77	2	0	0	0	0	0	0	0	0	7.9%
Claude Opus 4	54	9	2	0	0	0	0	0	0	0	6.4%
Claude 3 Haiku	27	0	0	0	0	0	0	0	0	0	2.7%
Claude 3.5 Haiku	2	0	0	0	0	0	0	0	0	0	0.2%
GPT-4o Mini (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o Mini (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Claude Haiku 4.5	0	0	0	0	0	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0	0	0	0	0	0.0%
WizardLM 2 8x22b	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral NeMO	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, May 13th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large	0	0	0	0	0	0	0	0	0	0	0.0%
Qwen 2.5 72B	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=1)	0	0	0	0	0	0	0	0	0	0	0.0%
GPT-4o, Aug. 6th (temp=0)	0	0	0	0	0	0	0	0	0	0	0.0%
Mistral Large 2	0	0	0	0	0	0	0	0	0	0	0.0%
Arcee AI: Trinity Large (Preview)	0	0	0	0	0	0	0	0	0	0	0.0%
Hermes 3 70B	0	0	0	0	0	0	0	0	0	0	0.0%

Matches sentence count

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

sentences

1 sentence summary

3 sentence summary

10 sentence summary

20 sentence summary

50 sentence summary