Either/Or composite

Test: Novel outline

Avg. Score

73.9%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 2.5 Flash Lite	100.0%	$0.0003	1.0s	100%
2	GPT-5.4 Nano (Reasoning)	100.0%	$0.0008	4.8s	100%
3	Z.AI GLM 4.5	100.0%	$0.0009	8.1s	100%
4	Z.AI GLM 5 Turbo	100.0%	$0.0030	7.2s	100%
5	Qwen3 235B A22B Instruct 2507	100.0%	$0.0004	16.4s	100%
6	ByteDance Seed 1.6 Flash	100.0%	$0.0010	15.0s	100%
7	Gemini 3 Flash (Preview, Reasoning)	100.0%	$0.0041	6.0s	100%
8	GPT-5.4 (Reasoning, Low)	100.0%	$0.0051	5.3s	100%
9	Qwen 3.6 Flash	100.0%	$0.0035	10.6s	100%
10	Z.AI GLM 5.2 (Reasoning, High)	100.0%	$0.0038	10.7s	100%
11	Qwen 3.5 Plus (2026-02-15)	100.0%	$0.0021	16.3s	100%
12	GPT-5.2	100.0%	$0.0055	6.4s	100%
13	Qwen 3.5 Flash	100.0%	$0.0011	20.6s	100%
14	Writer: Palmyra X5	100.0%	$0.0039	12.4s	100%
15	Qwen 3.6 35B	100.0%	$0.0030	16.3s	100%
16	Z.AI GLM 5	100.0%	$0.0032	21.5s	100%
17	MoonshotAI: Kimi K2.5	100.0%	$0.0033	23.3s	100%
18	Aion 2.0	100.0%	$0.0028	24.9s	100%
19	Claude Sonnet 5	100.0%	$0.0097	6.0s	100%
20	Aion 3.0	100.0%	$0.0061	17.8s	100%
21	GPT-5.4 (Reasoning)	100.0%	$0.0062	18.8s	100%
22	Z.AI GLM 4.6	100.0%	$0.0023	34.1s	100%
23	Qwen 3.5 35B	100.0%	$0.0078	23.2s	100%
24	Gemini 2.5 Pro	100.0%	$0.013	9.0s	100%
25	Claude Sonnet 5 (Reasoning, Low)	100.0%	$0.013	8.4s	100%
26	Claude Sonnet 5 (Reasoning)	100.0%	$0.013	8.9s	100%
27	Qwen 3.5 122B	100.0%	$0.0091	21.8s	100%
28	Claude Sonnet 4.6 (Reasoning)	100.0%	$0.014	9.3s	100%
29	GPT-5.5 (Reasoning, Low)	100.0%	$0.015	5.3s	100%
30	MoonshotAI: Kimi K2.6	100.0%	$0.0050	39.7s	100%
31	GPT-5.4 Nano (Reasoning, Low)	95.0%	$0.0007	3.2s	70%
32	GPT-5.5 (Reasoning)	100.0%	$0.017	5.3s	100%
33	Gemini 2.5 Flash Lite (Reasoning)	95.0%	$0.0009	5.1s	70%
34	Gemini 3.1 Pro (Preview)	100.0%	$0.016	13.7s	100%
35	Claude Opus 4.6 (Reasoning)	100.0%	$0.019	10.4s	100%
36	DeepSeek-V2 Chat	95.0%	$0.0003	17.9s	70%
37	Qwen 3.5 397B A17B	100.0%	$0.0077	48.3s	100%
38	Claude Opus 4.7 (Reasoning)	100.0%	$0.023	4.5s	100%
39	Qwen3.7 Max	100.0%	$0.017	26.5s	100%
40	Qwen 3.5 27B	100.0%	$0.0062	59.6s	100%
41	o4 Mini High	95.0%	$0.0054	13.6s	70%
42	DeepSeek V4 Flash (Reasoning)	90.0%	$0.0003	10.5s	60%
43	MiniMax M2.7	90.0%	$0.0009	11.7s	60%
44	Claude Opus 4.7	100.0%	$0.027	4.8s	100%
45	GPT-5 Mini	90.0%	$0.0016	11.1s	60%
46	MiniMax M3	90.0%	$0.0011	17.6s	60%
47	GPT-5	95.0%	$0.0093	14.9s	70%
48	Claude Opus 4.8 (Reasoning)	100.0%	$0.029	7.4s	100%
49	Gemma 4 31B (Reasoning)	95.0%	$0.0005	45.5s	70%
50	GPT-5.4 Mini (Reasoning)	85.0%	$0.0032	5.8s	54%
51	Qwen3.6 Max Preview	100.0%	$0.017	52.2s	100%
52	ByteDance Seed 2.0 Lite	95.0%	$0.0039	41.7s	70%
53	Qwen 3.5 Plus (2026-04-20)	95.0%	$0.0058	36.0s	70%
54	Qwen 3.6 27B	95.0%	$0.0081	32.0s	70%
55	MiniMax M2.5	85.0%	$0.0010	16.4s	54%
56	Aion 3.0 Mini	90.0%	$0.0021	30.3s	60%
57	Mistral Large 3	90.0%	$0.0012	4.8s	40%
58	Gemini 3.5 Flash (Reasoning)	95.0%	$0.018	6.9s	70%
59	Nemotron 3 Super	80.0%	$0.0000	13.6s	51%
60	Gemini 3.1 Flash Lite (Preview)	80.0%	$0.0010	1.7s	34%
61	Z.AI GLM 4.7	90.0%	$0.0029	51.1s	60%
62	GPT-4.1	85.0%	$0.0046	7.3s	36%
63	Gemini 2.5 Flash (Reasoning)	80.0%	$0.0024	3.9s	34%
64	Gemma 3 12B	75.0%	$0.0002	9.5s	38%
65	Gemini 3.1 Flash Lite (Reasoning)	75.0%	$0.0009	1.6s	33%
66	GPT-4o, Aug. 6th (temp=0)	75.0%	$0.0037	1.1s	38%
67	GPT-5.1	85.0%	$0.0056	9.0s	36%
68	o4 Mini	85.0%	$0.0049	11.6s	36%
69	Qwen 3.5 9B	95.0%	$0.0011	1.5m	70%
70	DeepSeek V4 Pro (Reasoning)	85.0%	$0.0027	46.4s	54%
71	ByteDance Seed 1.6	80.0%	$0.0034	34.0s	51%
72	GPT-4o Mini (temp=0)	50.0%	$0.0002	1.5s	50%
73	Z.AI GLM 5.1	90.0%	$0.0060	29.6s	40%
74	Gemma 4 26B (Reasoning)	90.0%	$0.0005	1.3m	60%
75	Grok 4.20 (Reasoning)	75.0%	$0.0045	12.1s	38%
76	GPT-4o, Aug. 6th (temp=1)	75.0%	$0.0059	3.9s	33%
77	Gemini 3.1 Flash Lite	75.0%	$0.0009	1.6s	19%
78	GPT-4.1 Nano	65.0%	$0.0001	4.1s	27%
79	Xiaomi MIMO v2.5	75.0%	$0.0013	5.9s	19%
80	GPT-4o Mini (temp=1)	60.0%	$0.0003	1.9s	30%
81	Inception Mercury 2	55.0%	$0.0005	836ms	35%
82	Mistral Small 4 (Reasoning)	70.0%	$0.0013	10.5s	25%
83	Claude Opus 4.8 (Reasoning, Low)	90.0%	$0.029	7.2s	60%
84	Qwen 2.5 72B	70.0%	$0.0008	14.9s	25%
85	Mistral Small 4	65.0%	$0.0003	2.8s	18%
86	Qwen 3 32B	75.0%	$0.0010	36.8s	33%
87	Claude Sonnet 4.6	80.0%	$0.0087	3.6s	20%
88	Gemini 2.5 Flash	60.0%	$0.0005	886ms	20%
89	Gemma 4 31B	60.0%	$0.0002	2.8s	20%
90	GPT-4.1 Mini	65.0%	$0.0007	5.8s	16%
91	Llama 3.1 70B	70.0%	$0.0012	17.6s	20%
92	GPT-5 Nano	70.0%	$0.0009	26.9s	26%
93	Ministral 3 8B	50.0%	$0.0003	2.3s	28%
94	GPT-OSS 120B	55.0%	$0.0003	22.8s	35%
95	Claude Sonnet 4	70.0%	$0.0099	5.6s	25%
96	Claude Haiku 4.5	65.0%	$0.0032	3.1s	10%
97	Z.AI GLM 4.7 Flash	70.0%	$0.0010	39.3s	25%
98	DeepSeek V4 Flash	60.0%	$0.0001	5.3s	10%
99	Gemini 3.5 Flash (Reasoning, Minimal)	60.0%	$0.0041	1.5s	13%
100	Mistral Large 2	50.0%	$0.0048	7.9s	28%
101	ByteDance Seed 2.0 Mini	95.0%	$0.0024	2.3m	70%
102	Claude Opus 4	95.0%	$0.047	11.4s	70%
103	Ministral 3 3B	40.0%	$0.0002	1.5s	20%
104	WizardLM 2 8x22b	55.0%	$0.0019	11.7s	15%
105	Xiaomi MIMO v2.5 Pro	60.0%	$0.0024	11.9s	10%
106	Arcee AI: Trinity Mini	35.0%	$0.0002	6.7s	27%
107	Gemini 3 Flash (Preview)	40.0%	$0.0013	1.7s	20%
108	Z.AI GLM 4.5 Air	55.0%	$0.0009	12.3s	8%
109	Grok 4.20	45.0%	$0.0019	3.6s	15%
110	DeepSeek V3.1	55.0%	$0.0005	13.6s	8%
111	GPT-5.4 Nano	45.0%	$0.0006	1.9s	8%
112	DeepSeek V3 (2024-12-26)	55.0%	$0.0008	10.1s	4%
113	DeepSeek V3.2	50.0%	$0.0005	13.5s	11%
114	Hermes 3 70B	55.0%	$0.0006	10.8s	4%
115	Ministral 3B	45.0%	$0.0001	3.9s	8%
116	Cohere Command R+ (Aug. 2024)	40.0%	$0.0046	2.4s	20%
117	Ministral 3 14B	35.0%	$0.0004	5.0s	18%
118	DeepSeek V4 Pro	45.0%	$0.0006	6.3s	8%
119	Gemma 4 26B	60.0%	$0.0003	20.4s	2%
120	Hermes 3 405B	30.0%	$0.0000	11.9s	26%
121	GPT-5.4 Mini (Reasoning, Low)	35.0%	$0.0021	3.2s	18%
122	Gemma 3 27B	40.0%	$0.0002	9.7s	13%
123	Claude Opus 4.5	55.0%	$0.016	4.9s	23%
124	Grok 4.3 (Reasoning)	65.0%	$0.0058	36.0s	10%
125	Nemotron 3 Nano	35.0%	$0.0005	32.9s	27%
126	Mistral NeMO	35.0%	$0.0003	3.5s	5%
127	GPT-5.4 Mini	25.0%	$0.0013	851ms	13%
128	Claude Sonnet 4.5	50.0%	$0.0094	4.5s	5%
129	GPT-5.4	35.0%	$0.0035	2.7s	5%
130	Cydonia 24B V4.1	25.0%	$0.0003	6.4s	0%
131	GPT-5.5	25.0%	$0.0083	1.4s	13%
132	Gemma 3 4B	20.0%	$0.0001	3.5s	0%
133	DeepSeek V3 (2025-03-24)	25.0%	$0.0008	9.5s	0%
134	Grok 4.5 (Reasoning, Low)	30.0%	$0.0054	6.6s	0%
135	Claude Opus 4.6	40.0%	$0.012	5.5s	0%
136	Grok 4.3	15.0%	$0.0017	955ms	0%
137	Ministral 8B	15.0%	$0.0002	8.4s	0%
138	Grok 4.5 (Reasoning, High)	25.0%	$0.0061	8.1s	0%
139	Mistral Medium 3.1	10.0%	$0.0013	5.3s	0%
140	Mistral Small 3.2 24B	5.0%	$0.0002	3.0s	0%
73.86%

Individual Scenarios

pov-count

▼

Count point of views for Jack and Olivia

Model	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Avg ▼
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 27B	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Opus 4.7	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.6	100	100	100	100	100	100	100	100	100	100	100.0%
Claude Sonnet 5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100	100	100	100	100	100.0%
Aion 2.0	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Z.AI GLM 4.5	100	100	100	100	100	100	100	100	100	100	100.0%
GPT-5.4 Nano (Reasoning)	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 2.5 Flash Lite	100	100	100	100	100	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100	100	100	100	100	100.0%
Qwen3 235B A22B Instruct 2507	100	100	100	100	100	100	100	100	100	100	100.0%
ByteDance Seed 1.6 Flash	100	100	100	100	100	100	100	100	100	100	100.0%
Gemini 3.5 Flash (Reasoning)	100	100	100	100	100	100	100	100	100	50	95.0%
GPT-5	100	100	100	100	100	100	100	100	100	50	95.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100	100	100	100	50	95.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100	100	100	100	50	95.0%
o4 Mini High	100	100	100	100	100	100	100	100	100	50	95.0%
Qwen 3.6 27B	100	100	100	100	100	100	100	100	100	50	95.0%
Claude Opus 4	100	100	100	100	100	100	100	100	100	50	95.0%
ByteDance Seed 2.0 Mini	100	100	100	100	100	100	100	100	100	50	95.0%
ByteDance Seed 2.0 Lite	100	100	100	100	100	100	100	100	100	50	95.0%
DeepSeek-V2 Chat	100	100	100	100	100	100	100	100	100	50	95.0%
Qwen 3.5 9B	100	100	100	100	100	100	100	100	100	50	95.0%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	100	100	100	100	100	100	50	95.0%
GPT-5.4 Nano (Reasoning, Low)	100	100	100	100	100	100	100	100	100	50	95.0%
Z.AI GLM 5.1	100	100	100	100	100	100	100	100	100	0	90.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100	100	100	50	50	90.0%
GPT-5 Mini	100	100	100	100	100	100	100	100	50	50	90.0%
MiniMax M3	100	100	100	100	100	100	100	100	50	50	90.0%
Gemma 4 26B (Reasoning)	100	100	100	100	100	100	100	100	50	50	90.0%
DeepSeek V4 Flash (Reasoning)	100	100	100	100	100	100	100	100	50	50	90.0%
Z.AI GLM 4.7	100	100	100	100	100	100	100	100	50	50	90.0%
MiniMax M2.7	100	100	100	100	100	100	100	100	50	50	90.0%
Mistral Large 3	100	100	100	100	100	100	100	100	100	0	90.0%
Aion 3.0 Mini	100	100	100	100	100	100	100	100	50	50	90.0%
GPT-5.1	100	100	100	100	100	100	100	100	50	0	85.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100	100	50	50	50	85.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100	100	50	50	50	85.0%
GPT-4.1	100	100	100	100	100	100	100	100	50	0	85.0%
MiniMax M2.5	100	100	100	100	100	100	100	50	50	50	85.0%
o4 Mini	100	100	100	100	100	100	100	100	50	0	85.0%
Claude Sonnet 4.6	100	100	100	100	100	100	100	100	0	0	80.0%
ByteDance Seed 1.6	100	100	100	100	100	100	50	50	50	50	80.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100	100	50	50	0	80.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	100	100	100	50	50	0	80.0%
Nemotron 3 Super	100	100	100	100	100	100	50	50	50	50	80.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	50	50	50	50	50	75.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100	50	50	50	0	75.0%
Gemini 3.1 Flash Lite	100	100	100	100	100	100	100	50	0	0	75.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100	100	50	0	0	75.0%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	100	50	50	50	50	50	75.0%
GPT-4o, Aug. 6th (temp=1)	100	100	100	100	100	100	50	50	50	0	75.0%
Qwen 3 32B	100	100	100	100	100	100	50	50	50	0	75.0%
Gemma 3 12B	100	100	100	100	100	50	50	50	50	50	75.0%
Claude Sonnet 4	100	100	100	100	100	50	50	50	50	0	70.0%
Z.AI GLM 4.7 Flash	100	100	100	100	100	50	50	50	50	0	70.0%
GPT-5 Nano	100	100	100	100	50	50	50	50	50	50	70.0%
Mistral Small 4 (Reasoning)	100	100	100	100	100	50	50	50	50	0	70.0%
Llama 3.1 70B	100	100	100	100	100	100	50	50	0	0	70.0%
Qwen 2.5 72B	100	100	100	100	100	50	50	50	50	0	70.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100	50	0	0	0	65.0%
Claude Haiku 4.5	100	100	100	100	100	100	50	0	0	0	65.0%
GPT-4.1 Mini	100	100	100	100	100	50	50	50	0	0	65.0%
Mistral Small 4	100	100	100	100	50	50	50	50	50	0	65.0%
GPT-4.1 Nano	100	100	100	50	50	50	50	50	50	50	65.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	100	50	50	0	0	0	60.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	100	50	50	50	50	0	0	60.0%
Gemma 4 31B	100	100	100	50	50	50	50	50	50	0	60.0%
Gemma 4 26B	100	100	100	100	100	100	0	0	0	0	60.0%
DeepSeek V4 Flash	100	100	100	100	100	50	50	0	0	0	60.0%
Gemini 2.5 Flash	100	100	100	50	50	50	50	50	50	0	60.0%
GPT-4o Mini (temp=1)	100	100	50	50	50	50	50	50	50	50	60.0%
Claude Opus 4.5	100	100	50	50	50	50	50	50	50	0	55.0%
GPT-OSS 120B	100	50	50	50	50	50	50	50	50	50	55.0%
DeepSeek V3 (2024-12-26)	100	100	100	100	100	50	0	0	0	0	55.0%
DeepSeek V3.1	100	100	100	100	50	50	50	0	0	0	55.0%
Inception Mercury 2	100	50	50	50	50	50	50	50	50	50	55.0%
Z.AI GLM 4.5 Air	100	100	100	100	50	50	50	0	0	0	55.0%
WizardLM 2 8x22b	100	100	100	50	50	50	50	50	0	0	55.0%
Hermes 3 70B	100	100	100	100	100	50	0	0	0	0	55.0%
Claude Sonnet 4.5	100	100	100	100	50	50	0	0	0	0	50.0%
DeepSeek V3.2	100	100	100	50	50	50	50	0	0	0	50.0%
Mistral Large 2	100	50	50	50	50	50	50	50	50	0	50.0%
GPT-4o Mini (temp=0)	50	50	50	50	50	50	50	50	50	50	50.0%
Ministral 3 8B	100	50	50	50	50	50	50	50	50	0	50.0%
DeepSeek V4 Pro	100	100	100	50	50	50	0	0	0	0	45.0%
Grok 4.20	100	100	50	50	50	50	50	0	0	0	45.0%
GPT-5.4 Nano	100	100	100	50	50	50	0	0	0	0	45.0%
Ministral 3B	100	100	100	50	50	50	0	0	0	0	45.0%
Claude Opus 4.6	100	100	100	100	0	0	0	0	0	0	40.0%
Gemini 3 Flash (Preview)	100	50	50	50	50	50	50	0	0	0	40.0%
Gemma 3 27B	100	100	50	50	50	50	0	0	0	0	40.0%
Cohere Command R+ (Aug. 2024)	100	50	50	50	50	50	50	0	0	0	40.0%
Ministral 3 3B	100	50	50	50	50	50	50	0	0	0	40.0%
GPT-5.4	100	100	50	50	50	0	0	0	0	0	35.0%
GPT-5.4 Mini (Reasoning, Low)	100	50	50	50	50	50	0	0	0	0	35.0%
Nemotron 3 Nano	50	50	50	50	50	50	50	0	0	0	35.0%
Ministral 3 14B	100	50	50	50	50	50	0	0	0	0	35.0%
Arcee AI: Trinity Mini	50	50	50	50	50	50	50	0	0	0	35.0%
Mistral NeMO	100	100	50	50	50	0	0	0	0	0	35.0%
Grok 4.5 (Reasoning, Low)	100	100	50	50	0	0	0	0	0	0	30.0%
Hermes 3 405B	50	50	50	50	50	50	0	0	0	0	30.0%
Grok 4.5 (Reasoning, High)	100	100	50	0	0	0	0	0	0	0	25.0%
GPT-5.5	50	50	50	50	50	0	0	0	0	0	25.0%
GPT-5.4 Mini	50	50	50	50	50	0	0	0	0	0	25.0%
DeepSeek V3 (2025-03-24)	100	50	50	50	0	0	0	0	0	0	25.0%
Cydonia 24B V4.1	100	50	50	50	0	0	0	0	0	0	25.0%
Gemma 3 4B	50	50	50	50	0	0	0	0	0	0	20.0%
Grok 4.3	50	50	50	0	0	0	0	0	0	0	15.0%
Ministral 8B	100	50	0	0	0	0	0	0	0	0	15.0%
Mistral Medium 3.1	50	50	0	0	0	0	0	0	0	0	10.0%
Mistral Small 3.2 24B	50	0	0	0	0	0	0	0	0	0	5.0%

Either/Or composite

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

pov-count

Count point of views for Jack and Olivia