Relationship tree

Extracts a deterministic XML family and relationship tree from cumulative literary prose.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	96%
GPT-5.4 (Reasoning)	96%
Claude Opus 4.6 (Reasoning)	95%
GPT-5.5 (Reasoning)	94%
Claude Opus 4.8 (Reasoning)	94%
Grok 4.5 (Reasoning, High)	93%
Claude Sonnet 4.6 (Reasoning)	92%
MoonshotAI: Kimi K2.6	92%
Claude Opus 4.6	91%
Z.AI GLM 5.1	91%
GPT-5.6 Terra (Reasoning)	91%
GPT-5.6 Sol	91%
Claude Opus 4.8 (Reasoning, Low)	90%
Claude Sonnet 5 (Reasoning)	90%
GPT-5	90%
Claude Sonnet 5 (Reasoning, Low)	89%
Claude Opus 4.7 (Reasoning)	89%
Gemini 2.5 Pro	89%
Grok 4.5 (Reasoning, Low)	89%
Claude Opus 4.7	89%

Price-Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score	Cost	Time
GPT-5.6 Terra (Reasoning)	91%	$0.060	24.2s
GPT-5.5 (Reasoning, Low)	87%	$0.097	42.6s
GPT-5.6 Luna (Reasoning)	84%	$0.027	18.6s
Grok 4.5 (Reasoning, Low)	89%	$0.040	49.7s
GPT-5.6 Sol	91%	$0.096	18.1s
Gemini 3 Flash (Preview)	81%	$0.0087	7.1s
Gemini 2.5 Pro	89%	$0.099	58.2s
GPT-5.6 Terra	84%	$0.034	9.4s
Gemini 2.5 Flash	80%	$0.0075	6.1s
Grok 4.5 (Reasoning, High)	93%	$0.080	2.0m
GPT-5.4 (Reasoning, Low)	88%	$0.053	35.5s
GPT-5.5	88%	$0.105	37.1s
Xiaomi MIMO v2.5	84%	$0.0027	1.1m
GPT-5.6 Sol (Reasoning)	96%	$0.186	59.0s
Gemini 3.1 Flash Lite (Preview)	78%	$0.0046	3.2s
GPT-5.2	87%	$0.062	50.7s
Gemini 3.1 Flash Lite (Reasoning)	78%	$0.0033	3.2s
Gemma 4 26B	79%	$0.0018	27.2s
DeepSeek V4 Pro (Reasoning)	85%	$0.020	2.3m
Qwen 3.6 Flash	81%	$0.015	51.7s

Cost vs Performance

Compares total cost for this test against the test score. Quadrant lines are drawn at the median values. Only models with available cost data are shown.

1 low-scoring outlier hidden: Gemma 3 12B (37.1%).

Most Stable Models (Top 20)

Ranked by stability (median × consistency). Click a model name to view its detail page.

	Score	Consistency	Stability
GPT-5.4 (Reasoning)	96%	93%	90%
GPT-5.6 Sol (Reasoning)	96%	94%	90%
Claude Opus 4.6 (Reasoning)	95%	93%	88%
GPT-5.5 (Reasoning)	94%	93%	87%
Claude Opus 4.8 (Reasoning)	94%	90%	86%
Grok 4.5 (Reasoning, High)	93%	91%	85%
Claude Sonnet 4.6 (Reasoning)	92%	88%	83%
MoonshotAI: Kimi K2.6	92%	89%	82%
Z.AI GLM 5.2 (Reasoning, High)	85%	94%	80%
GPT-5.4 (Reasoning, Low)	88%	93%	80%
Claude Opus 4.6	91%	90%	80%
Claude Sonnet 5 (Reasoning)	90%	89%	79%
GPT-5.6 Sol	91%	89%	79%
GPT-5.2	87%	92%	79%
GPT-5.6 Terra (Reasoning)	91%	88%	79%
Z.AI GLM 5.1	91%	88%	79%
MiniMax M3	87%	91%	78%
Claude Sonnet 5 (Reasoning, Low)	89%	89%	78%
Claude Opus 4.5	85%	92%	78%
Claude Opus 4.8 (Reasoning, Low)	90%	86%	77%

Top Overall Models (Top 20)

Ranked by composite score (performance, cost, speed & stability). Click a model name to view its detail page.

	Score	Cost	Speed	Stability
GPT-5.6 Terra (Reasoning)	91%	$0.060	24.2s	79%
GPT-5.4 (Reasoning, Low)	88%	$0.053	35.5s	80%
Gemini 3 Flash (Preview)	81%	$0.0087	7.1s	76%
GPT-5.6 Sol	91%	$0.096	18.1s	79%
GPT-5.6 Sol (Reasoning)	96%	$0.186	59.0s	90%
GPT-5.6 Terra	84%	$0.034	9.4s	76%
Grok 4.5 (Reasoning, High)	93%	$0.080	2.0m	85%
Gemini 3.1 Flash Lite (Preview)	78%	$0.0046	3.2s	76%
Gemini 2.5 Flash	80%	$0.0075	6.1s	75%
Grok 4.5 (Reasoning, Low)	89%	$0.040	49.7s	75%
GPT-5.2	87%	$0.062	50.7s	79%
Gemma 4 26B	79%	$0.0018	27.2s	76%
GPT-5.4	81%	$0.033	17.4s	77%
Gemini 3.1 Flash Lite (Reasoning)	78%	$0.0033	3.2s	74%
GPT-5.6 Luna (Reasoning)	84%	$0.027	18.6s	72%
Qwen 3.6 Flash	81%	$0.015	51.7s	76%
Z.AI GLM 5.2 (Reasoning, High)	85%	$0.039	1.8m	80%
Xiaomi MIMO v2.5	84%	$0.0027	1.1m	73%
Claude Opus 4.6	91%	$0.154	31.4s	80%
GPT-5.4 (Reasoning)	96%	$0.175	2.6m	90%

Model	Total ▼	Core relationship tree	Family relationship tree
GPT-5.6 Sol (Reasoning)	96%	99%	93%
GPT-5.4 (Reasoning)	96%	99%	93%
Claude Opus 4.6 (Reasoning)	95%	98%	92%
GPT-5.5 (Reasoning)	94%	98%	90%
Claude Opus 4.8 (Reasoning)	94%	99%	89%
Grok 4.5 (Reasoning, High)	93%	97%	89%
Claude Sonnet 4.6 (Reasoning)	92%	98%	87%
MoonshotAI: Kimi K2.6	92%	97%	88%
Claude Opus 4.6	91%	95%	88%
Z.AI GLM 5.1	91%	96%	87%
GPT-5.6 Terra (Reasoning)	91%	95%	86%
GPT-5.6 Sol	91%	95%	86%
Claude Opus 4.8 (Reasoning, Low)	90%	90%	90%
Claude Sonnet 5 (Reasoning)	90%	95%	85%
GPT-5	90%	98%	82%

1–15 of 146

Page 1 / 10

Rows:

Core relationship tree

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	99%
GPT-5.4 (Reasoning)	99%
Claude Opus 4.8 (Reasoning)	99%
Claude Sonnet 4.6 (Reasoning)	98%
Claude Opus 4.6 (Reasoning)	98%
GPT-5.5 (Reasoning)	98%
GPT-5	98%
Gemini 2.5 Pro	97%
GPT-5.5 (Reasoning, Low)	97%
Grok 4.5 (Reasoning, High)	97%
MoonshotAI: Kimi K2.6	97%
Gemini 3.1 Pro (Preview)	97%
Claude Opus 4.7 (Reasoning)	97%
Aion 3.0	96%
Grok 4.5 (Reasoning, Low)	96%
Z.AI GLM 5.1	96%
GPT-5.6 Sol	95%
Claude Opus 4.7	95%
GPT-5.6 Terra (Reasoning)	95%
Claude Opus 4.6	95%

Price-Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score	Cost	Time
Gemini 3 Flash (Preview, Reasoning)	90%	$0.024	27.7s
GPT-5.6 Terra (Reasoning)	95%	$0.038	16.3s
Grok 4.5 (Reasoning, Low)	96%	$0.033	50.7s
Xiaomi MIMO v2.5	88%	$0.0017	47.0s
GPT-5.6 Sol	95%	$0.048	12.1s
Gemini 3 Flash (Preview)	83%	$0.0065	5.0s
GPT-5.6 Luna (Reasoning)	86%	$0.020	15.5s
GPT-5.4 (Reasoning, Low)	91%	$0.033	20.9s
GPT-5 Mini	87%	$0.013	1.4m
Z.AI GLM 5 Turbo	92%	$0.019	1.7m
Gemma 4 26B	81%	$0.0010	22.3s
DeepSeek V4 Flash (Reasoning)	84%	$0.0022	1.9m
Gemini 3.5 Flash (Reasoning, Minimal)	83%	$0.021	5.7s
ByteDance Seed 1.6	85%	$0.010	59.2s
GPT-5.6 Terra	87%	$0.023	6.6s
Gemini 2.5 Flash	81%	$0.0050	5.3s
Z.AI GLM 5.2 (Reasoning, High)	86%	$0.020	48.6s
GPT-5.2	90%	$0.039	32.6s
Gemini 3.1 Flash Lite (Preview)	79%	$0.0029	2.6s
GPT-5.4 Mini (Reasoning, Low)	76%	$0.0076	9.4s

Most Stable Models (Top 20)

Ranked by stability (median × consistency). Click a model name to view its detail page.

	Score	Consistency	Stability
GPT-5.6 Sol (Reasoning)	99%	98%	98%
Claude Sonnet 4.6 (Reasoning)	98%	100%	98%
Claude Opus 4.8 (Reasoning)	99%	99%	97%
GPT-5.5 (Reasoning)	98%	98%	96%
GPT-5.5 (Reasoning, Low)	97%	98%	96%
Claude Opus 4.6 (Reasoning)	98%	97%	96%
GPT-5.4 (Reasoning)	99%	98%	96%
Grok 4.5 (Reasoning, High)	97%	98%	95%
Gemini 3.1 Pro (Preview)	97%	98%	95%
GPT-5	98%	97%	94%
MoonshotAI: Kimi K2.6	97%	95%	93%
Claude Opus 4.7 (Reasoning)	97%	97%	93%
Gemini 2.5 Pro	97%	95%	93%
GPT-5.5	94%	96%	91%
Claude Opus 4.7	95%	92%	90%
Grok 4.5 (Reasoning, Low)	96%	94%	90%
Z.AI GLM 5 Turbo	92%	96%	89%
Claude Sonnet 5 (Reasoning)	95%	93%	89%
Aion 3.0	96%	90%	89%
GPT-5.6 Sol	95%	93%	89%

Top Overall Models (Top 20)

Ranked by composite score (performance, cost, speed & stability). Click a model name to view its detail page.

	Score	Cost	Speed	Stability
GPT-5.5 (Reasoning, Low)	97%	$0.070	24.6s	96%
Grok 4.5 (Reasoning, Low)	96%	$0.033	50.7s	90%
GPT-5.6 Terra (Reasoning)	95%	$0.038	16.3s	87%
GPT-5.6 Sol	95%	$0.048	12.1s	89%
GPT-5.5	94%	$0.062	16.3s	91%
Grok 4.5 (Reasoning, High)	97%	$0.054	1.3m	95%
GPT-5.4 (Reasoning, Low)	91%	$0.033	20.9s	85%
Gemini 3 Flash (Preview)	83%	$0.0065	5.0s	81%
Z.AI GLM 5 Turbo	92%	$0.019	1.7m	89%
GPT-5.6 Sol (Reasoning)	99%	$0.110	34.1s	98%
Xiaomi MIMO v2.5	88%	$0.0017	47.0s	78%
GPT-5.2	90%	$0.039	32.6s	85%
Gemini 2.5 Pro	97%	$0.082	51.0s	93%
GPT-5.6 Terra	87%	$0.023	6.6s	78%
Gemma 4 26B	81%	$0.0010	22.3s	80%
Gemini 3 Flash (Preview, Reasoning)	90%	$0.024	27.7s	77%
Gemini 2.5 Flash	81%	$0.0050	5.3s	78%
GPT-5.4 (Reasoning)	99%	$0.092	1.4m	96%
Z.AI GLM 5.2 (Reasoning, High)	86%	$0.020	48.6s	82%
Claude Opus 4.7 (Reasoning)	97%	$0.111	17.6s	93%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
10	GPT-5.6 Sol (Reasoning)	$0.110	34.1s	98%	100	100	100	98	98	99%
18	GPT-5.4 (Reasoning)	$0.092	1.4m	96%	100	100	98	98	98	99%
65	Claude Opus 4.8 (Reasoning)	$0.177	43.1s	97%	100	98	98	98	98	99%
116	Claude Sonnet 4.6 (Reasoning)	$0.209	2.7m	98%	98	98	98	98	98	98%
82	Claude Opus 4.6 (Reasoning)	$0.181	1.2m	96%	100	99	98	98	96	98%
48	GPT-5.5 (Reasoning)	$0.132	1.3m	96%	98	98	98	96	96	98%
26	GPT-5	$0.077	2.0m	94%	100	98	97	96	96	98%
13	Gemini 2.5 Pro	$0.082	51.0s	93%	100	98	98	98	92	97%
1	GPT-5.5 (Reasoning, Low)	$0.070	24.6s	96%	98	98	98	96	96	97%
6	Grok 4.5 (Reasoning, High)	$0.054	1.3m	95%	98	98	97	96	96	97%
29	MoonshotAI: Kimi K2.6	$0.055	2.7m	93%	100	98	98	96	93	97%
49	Gemini 3.1 Pro (Preview)	$0.130	1.2m	95%	98	98	96	96	96	97%
20	Claude Opus 4.7 (Reasoning)	$0.111	17.6s	93%	98	98	96	96	96	97%
60	Aion 3.0	$0.077	2.8m	89%	100	98	98	96	86	96%
2	Grok 4.5 (Reasoning, Low)	$0.033	50.7s	90%	100	97	96	96	90	96%
103	Z.AI GLM 5.1	$0.060	5.3m	88%	98	98	98	98	85	96%
4	GPT-5.6 Sol	$0.048	12.1s	89%	98	98	96	96	88	95%
32	Claude Opus 4.7	$0.112	17.7s	90%	98	98	98	93	89	95%
3	GPT-5.6 Terra (Reasoning)	$0.038	16.3s	87%	100	99	95	93	87	95%
25	Claude Opus 4.6	$0.088	19.0s	86%	99	98	96	96	85	95%
21	Claude Sonnet 5 (Reasoning)	$0.081	42.3s	89%	98	98	95	93	90	95%
5	GPT-5.5	$0.062	16.3s	91%	97	95	95	93	92	94%
56	MoonshotAI: Kimi K2.5	$0.023	3.5m	82%	100	98	94	86	85	93%
45	Claude Sonnet 5 (Reasoning, Low)	$0.083	44.4s	83%	98	98	93	88	85	92%
41	Qwen3.7 Max	$0.034	2.5m	85%	98	96	96	85	85	92%
9	Z.AI GLM 5 Turbo	$0.019	1.7m	89%	95	93	93	91	89	92%
53	GPT-5.4 Mini (Reasoning)	$0.067	1.6m	83%	99	93	91	89	87	92%
95	Qwen3.6 Max Preview	$0.070	3.5m	83%	98	90	90	90	87	91%
7	GPT-5.4 (Reasoning, Low)	$0.033	20.9s	85%	95	93	90	90	86	91%
16	Gemini 3 Flash (Preview, Reasoning)	$0.024	27.7s	77%	100	98	97	83	73	90%
71	MiniMax M3	$0.016	4.3m	84%	95	93	93	85	84	90%
126	Claude Opus 4.8 (Reasoning, Low)	$0.192	51.0s	76%	98	98	93	86	73	90%
12	GPT-5.2	$0.039	32.6s	85%	93	92	90	87	87	90%
72	Gemini 3.5 Flash (Reasoning)	$0.090	40.4s	75%	98	98	97	86	69	90%
84	Z.AI GLM 5	$0.027	3.2m	75%	98	98	90	80	79	89%
31	o4 Mini High	$0.045	1.0m	84%	91	90	88	87	85	88%
37	DeepSeek V4 Pro (Reasoning)	$0.011	1.4m	74%	100	90	85	83	82	88%
11	Xiaomi MIMO v2.5	$0.0017	47.0s	78%	97	89	87	84	83	88%
78	Qwen 3.5 Plus (2026-02-15)	$0.018	3.7m	81%	93	90	88	84	81	87%
101	Aion 3.0 Mini	$0.019	4.2m	77%	96	90	90	86	73	87%
55	Claude Opus 4.5	$0.077	13.4s	77%	96	87	84	84	84	87%
14	GPT-5.6 Terra	$0.023	6.6s	78%	95	87	85	84	83	87%
35	Claude Sonnet 4.6	$0.049	16.0s	79%	94	87	85	85	84	87%
33	GPT-5 Mini	$0.013	1.4m	79%	92	90	87	85	78	87%
34	GPT-5.6 Luna (Reasoning)	$0.020	15.5s	70%	96	93	87	87	69	86%
19	Z.AI GLM 5.2 (Reasoning, High)	$0.020	48.6s	82%	88	88	88	85	79	86%
28	Grok 4.20 (Reasoning)	$0.024	43.9s	80%	90	87	85	82	82	85%
22	ByteDance Seed 1.6	$0.010	59.2s	80%	90	87	86	83	80	85%
79	Qwen 3.6 27B	$0.030	2.6m	77%	91	86	83	83	82	85%
100	ByteDance Seed 2.0 Lite	$0.011	3.4m	69%	97	90	82	79	75	85%
91	Qwen 3.5 397B A17B	$0.031	2.9m	75%	90	88	87	86	71	85%
64	DeepSeek V4 Flash (Reasoning)	$0.0022	1.9m	69%	98	87	82	78	76	84%
68	Qwen 3.5 Flash	$0.0032	3.6m	82%	85	85	85	82	81	84%
67	Qwen 3.5 Plus (2026-04-20)	$0.018	2.5m	79%	88	84	83	83	80	84%
8	Gemini 3 Flash (Preview)	$0.0065	5.0s	81%	86	85	84	82	80	83%
39	Gemini 3.5 Flash (Reasoning, Minimal)	$0.021	5.7s	70%	96	89	84	76	72	83%
108	Gemma 4 31B (Reasoning)	$0.0031	4.2m	70%	90	90	87	85	64	83%
66	Qwen 3.5 122B	$0.031	2.3m	81%	85	84	83	83	81	83%
97	Z.AI GLM 4.7	$0.017	3.2m	74%	90	89	87	78	71	83%
36	Qwen 3.5 35B	$0.014	1.4m	81%	84	84	84	82	80	83%
30	Qwen 3.6 Flash	$0.012	40.4s	77%	86	85	81	81	79	82%
24	GPT-5.4	$0.020	12.5s	79%	84	84	82	81	78	82%
43	GPT-5.1	$0.016	11.2s	69%	92	86	81	80	70	82%
47	o4 Mini	$0.022	29.5s	73%	87	85	85	84	67	82%
57	Xiaomi MIMO v2.5 Pro	$0.0052	1.2m	68%	92	87	80	79	70	81%
40	GPT-4o, Aug. 6th (temp=0)	$0.020	7.2s	72%	89	87	84	77	69	81%
17	Gemini 2.5 Flash	$0.0050	5.3s	78%	84	81	80	80	79	81%
38	Qwen 3.6 35B	$0.012	59.4s	79%	82	82	82	81	77	81%
77	Z.AI GLM 4.6	$0.011	2.4m	75%	85	84	81	80	74	81%
15	Gemma 4 26B	$0.0010	22.3s	80%	81	81	81	80	80	81%
52	GPT-OSS 120B	$0.0014	1.4m	74%	87	83	83	78	71	80%
51	Claude Sonnet 5	$0.040	11.6s	76%	84	82	80	80	76	80%
134	ByteDance Seed 2.0 Mini	$0.0047	7.0m	72%	86	84	82	73	71	79%
81	Gemma 4 26B (Reasoning)	$0.0038	2.5m	74%	84	81	79	77	73	79%
23	Gemini 3.1 Flash Lite (Preview)	$0.0029	2.6s	76%	81	81	79	78	76	79%
27	Gemini 3.1 Flash Lite (Reasoning)	$0.0024	2.4s	74%	82	80	77	77	77	79%
121	Qwen 3.5 27B	$0.018	2.7m	57%	91	85	85	85	46	78%
59	Claude Sonnet 4.5	$0.045	12.2s	75%	81	80	77	77	77	78%
146	Claude Opus 4	$0.222	4.2m	68%	84	83	82	80	62	78%
62	Gemma 4 31B	$0.0015	1.5m	73%	84	80	79	74	73	78%
44	Inception Mercury 2	$0.0066	9.0s	71%	84	80	76	75	75	78%
46	DeepSeek V4 Pro	$0.0048	12.6s	70%	85	80	77	75	73	78%
63	DeepSeek V4 Flash	$0.0012	1.5m	72%	83	80	78	75	72	78%
42	Gemini 3.1 Flash Lite	$0.0026	2.4s	71%	82	78	77	76	69	76%
54	GPT-5.4 Nano (Reasoning)	$0.0050	24.4s	68%	85	79	77	71	69	76%
61	GPT-5.4 Mini (Reasoning, Low)	$0.0076	9.4s	65%	83	81	81	79	56	76%
58	DeepSeek V3.2	$0.0023	26.8s	67%	86	76	75	73	69	76%
50	GPT-4.1	$0.015	6.2s	73%	79	78	78	73	71	76%
69	Z.AI GLM 4.5	$0.0062	49.2s	67%	82	81	78	73	64	76%
129	Nemotron 3 Super	$0.0000	4.0m	57%	88	82	81	75	46	74%
93	Claude Sonnet 4	$0.044	12.6s	66%	78	77	77	77	60	74%
90	DeepSeek V3.1	$0.0028	37.1s	58%	81	81	80	79	46	73%
75	DeepSeek-V2 Chat	$0.0024	27.3s	64%	79	78	71	69	67	73%
70	Grok 4.3	$0.0071	7.2s	65%	80	76	75	71	60	72%
74	GPT-4o, Aug. 6th (temp=1)	$0.019	7.2s	68%	76	73	73	71	66	72%
83	Mistral Large 2	$0.022	13.6s	68%	75	71	71	70	69	71%
80	Grok 4.20	$0.010	5.3s	64%	75	75	69	67	66	71%
76	DeepSeek V3 (2024-12-26)	$0.0025	22.7s	66%	74	70	69	69	69	70%
94	MiniMax M2.5	$0.0032	37.0s	61%	77	76	72	70	55	70%
106	Grok 4.3 (Reasoning)	$0.0073	13.7s	54%	83	78	72	70	46	70%
89	Mistral Medium 3.1	$0.0049	9.5s	60%	78	73	71	71	54	69%
85	Claude Haiku 4.5	$0.014	5.7s	64%	75	74	72	63	63	69%
73	Mistral Large 3	$0.0055	12.4s	68%	71	71	71	68	65	69%
145	Qwen 3.5 9B	$0.0035	7.9m	59%	76	74	67	67	61	69%
113	GPT-5 Nano	$0.0067	1.9m	63%	74	74	72	64	57	68%
87	GPT-4o Mini (temp=1)	$0.0016	28.5s	64%	73	69	68	65	64	68%
88	GPT-5.6 Luna	$0.0076	5.0s	62%	73	71	68	64	63	68%
105	Mistral Small 4 (Reasoning)	$0.0035	20.7s	57%	78	75	74	64	46	67%
104	Hermes 3 405B	$0.0085	43.7s	63%	71	71	69	66	60	67%
120	Gemini 2.5 Flash (Reasoning)	$0.018	28.2s	51%	86	64	63	62	60	67%
119	WizardLM 2 8x22b	$0.0055	1.6m	59%	75	73	72	60	52	66%
86	Gemini 2.5 Flash Lite	$0.0012	2.9s	63%	69	68	66	65	63	66%
98	Ministral 3 8B	$0.0014	11.0s	61%	71	68	66	63	61	66%
112	Gemini 2.5 Flash Lite (Reasoning)	$0.0055	41.0s	55%	74	74	67	61	51	65%
132	Z.AI GLM 4.7 Flash	$0.0044	2.7m	52%	78	68	61	61	59	65%
96	Ministral 8B	$0.0009	9.2s	61%	69	67	65	63	62	65%
99	Llama 3.1 70B	$0.0042	22.3s	63%	68	67	67	63	60	65%
110	Qwen 2.5 72B	$0.0031	43.5s	57%	72	70	65	64	54	65%
92	Mistral Small 3.2 24B	$0.0012	10.2s	63%	67	65	65	65	62	65%
102	GPT-5.4 Mini	$0.0054	6.2s	60%	70	67	64	62	61	65%
117	MiniMax M2.7	$0.0044	14.7s	49%	76	75	60	59	52	64%
115	Qwen3 235B A22B Instruct 2507	$0.0009	44.0s	55%	74	67	62	62	56	64%
107	Writer: Palmyra X5	$0.010	13.3s	60%	68	67	64	60	59	64%
109	GPT-4o Mini (temp=0)	$0.0011	17.9s	57%	70	68	67	62	50	63%
127	Z.AI GLM 4.5 Air	$0.0043	1.7m	51%	74	74	70	59	39	63%
111	GPT-4.1 Mini	$0.0032	22.0s	54%	74	66	62	57	57	63%
143	Aion 2.0	$0.016	2.4m	29%	86	83	46	46	46	62%
118	GPT-5.4 Nano (Reasoning, Low)	$0.0025	10.7s	52%	70	67	61	55	51	61%
140	Nemotron 3 Nano	$0.0033	2.9m	48%	71	70	62	57	39	60%
123	Gemma 3 27B	$0.0007	21.3s	52%	69	66	61	56	46	60%
124	DeepSeek V3 (2025-03-24)	$0.0025	32.0s	51%	69	69	65	46	46	59%
114	Ministral 3 14B	$0.0015	11.2s	56%	62	59	58	57	57	59%
122	GPT-4.1 Nano	$0.0005	5.5s	51%	66	64	59	58	47	59%
136	Qwen 3 32B	$0.0032	2.4m	50%	71	60	60	53	48	59%
128	Mistral Small 4	$0.0017	5.7s	42%	71	71	53	51	45	58%
135	ByteDance Seed 1.6 Flash	$0.0019	38.2s	43%	67	63	53	45	40	54%
125	GPT-5.4 Nano	$0.0015	8.5s	52%	56	55	54	53	49	53%
131	Hermes 3 70B	$0.0026	29.1s	46%	64	58	55	46	41	53%
130	Mistral NeMO	$0.0014	11.8s	47%	53	52	49	48	47	50%
133	Arcee AI: Trinity Mini	$0.0005	7.0s	46%	54	53	50	45	45	49%
139	Cydonia 24B V4.1	$0.0018	24.8s	39%	63	56	48	42	36	49%
141	Cohere Command R+ (Aug. 2024)	$0.028	22.0s	44%	55	50	49	47	38	48%
137	Ministral 3 3B	$0.0003	5.3s	42%	54	54	48	41	39	47%
138	Gemma 3 4B	$0.0004	20.5s	44%	51	50	46	45	43	47%
142	Ministral 3B	$0.0004	6.3s	36%	52	51	41	41	36	44%
144	Gemma 3 12B	$0.0003	24.3s	32%	46	37	35	35	33	37%
77.47%

Median	Evaluator	Top 3	Flop 3
81.9%	Alias accuracy	100GPT-5.6 Sol (Reasoning) 100GPT-5 100Gemma 4 31B (Reasoning)	2Arcee AI: Trinity Mini 2Gemma 3 12B 4Gemma 3 27B
100.0%	Character precision	100GPT-4.1 100Z.AI GLM 4.5 100Aion 2.0	20Gemma 3 12B 61Gemini 2.5 Flash (Reasoning) 64Cohere Command R+ (Aug. 2024)
100.0%	Character recall	100GPT-4o Mini (temp=1) 100GPT-5.4 (Reasoning, Low) 100GPT-5.6 Sol (Reasoning)	0Gemma 3 12B 40Aion 2.0 42Arcee AI: Trinity Mini
100.0%	Isolated character handling	100o4 Mini High 100Gemini 2.5 Flash Lite 100Claude Opus 4.8 (Reasoning)	1Gemma 3 12B 5Ministral 3B 5Ministral 3 3B
100.0%	Red-herring resistance	100Z.AI GLM 5.2 (Reasoning, High) 100GPT-4o Mini (temp=1) 100ByteDance Seed 1.6 Flash	63Ministral 3B 81GPT-5 Nano 81Ministral 3 3B
25.2%	Relationship category recall	100Claude Sonnet 4.6 (Reasoning) 100GPT-5.6 Sol (Reasoning) 100GPT-5.5 (Reasoning)	0Gemma 3 12B 0Gemma 3 4B 0Gemini 2.5 Flash Lite
100.0%	Relationship endpoint integrity	100Grok 4.3 100Qwen 3.5 35B 100Claude Opus 4.5	16Mistral Small 4 20Gemma 3 12B 40Cohere Command R+ (Aug. 2024)
83.2%	Relationship precision	100DeepSeek V3.1 100Qwen 3.5 Plus (2026-02-15) 100Qwen 3.6 Flash	4Gemma 3 4B 5Mistral NeMO 10Ministral 3B
19.9%	Relationship recall	100GPT-5.4 (Reasoning) 100GPT-5.6 Sol (Reasoning) 100GPT-5.5 (Reasoning, Low)	0Gemma 3 12B 0Gemma 3 4B 0Gemini 2.5 Flash Lite
78.5%	Relationship type accuracy	100Gemma 3 12B 100o4 Mini 100GPT-5.4 (Reasoning)	36Ministral 3B 36Hermes 3 70B 38Mistral NeMO
100.0%	XML structure	100o4 Mini High 100GPT-5.5 (Reasoning) 100Gemini 2.5 Pro	46Aion 2.0 56DeepSeek V3 (2025-03-24) 60Mistral NeMO

Family relationship tree

Tooling Reasoning Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	93%
GPT-5.4 (Reasoning)	93%
Claude Opus 4.6 (Reasoning)	92%
GPT-5.5 (Reasoning)	90%
Claude Opus 4.8 (Reasoning, Low)	90%
Claude Opus 4.8 (Reasoning)	89%
Grok 4.5 (Reasoning, High)	89%
Claude Opus 4.6	88%
MoonshotAI: Kimi K2.6	88%
Z.AI GLM 5.1	87%
Claude Sonnet 4.6 (Reasoning)	87%
GPT-5.6 Terra (Reasoning)	86%
Claude Sonnet 5 (Reasoning, Low)	86%
GPT-5.6 Sol	86%
Claude Sonnet 5 (Reasoning)	85%
GPT-5.4 (Reasoning, Low)	85%
Z.AI GLM 5.2 (Reasoning, High)	85%
MiniMax M3	85%
DeepSeek V4 Flash (Reasoning)	84%
Gemini 3.5 Flash (Reasoning)	84%

Price-Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score	Cost	Time
GPT-5.6 Terra (Reasoning)	86%	$0.082	32.1s
Gemini 2.5 Flash	78%	$0.010	6.9s
Gemini 3.1 Flash Lite (Preview)	78%	$0.0062	3.9s
Grok 4.5 (Reasoning, Low)	82%	$0.046	48.7s
GPT-5.4 (Reasoning, Low)	85%	$0.072	50.1s
GPT-5.6 Terra	81%	$0.046	12.2s
Gemini 3 Flash (Preview)	79%	$0.011	9.2s
GPT-5.6 Luna (Reasoning)	82%	$0.034	21.6s
Gemini 3.1 Flash Lite	76%	$0.0037	4.2s
Qwen 3.6 Flash	80%	$0.019	1.1m
Gemini 3.1 Flash Lite (Reasoning)	77%	$0.0042	3.9s
GPT-5.4	80%	$0.047	22.4s
Gemini 3 Flash (Preview, Reasoning)	79%	$0.037	53.0s
Grok 4.3	75%	$0.012	8.3s
GPT-5.6 Sol	86%	$0.145	24.2s
GPT-5.4 Mini (Reasoning, Low)	75%	$0.020	19.5s
DeepSeek V3.2	78%	$0.0070	40.9s
Gemma 4 26B	77%	$0.0026	32.0s
GPT-5.4 Nano (Reasoning)	78%	$0.013	59.0s
DeepSeek V4 Flash	74%	$0.0028	14.4s

Most Stable Models (Top 20)

Ranked by stability (median × consistency). Click a model name to view its detail page.

	Score	Consistency	Stability
GPT-5.6 Sol (Reasoning)	93%	99%	92%
Claude Opus 4.6 (Reasoning)	92%	98%	90%
GPT-5.4 (Reasoning)	93%	95%	88%
GPT-5.5 (Reasoning)	90%	98%	88%
Grok 4.5 (Reasoning, High)	89%	99%	88%
Claude Opus 4.6	88%	97%	85%
Claude Opus 4.8 (Reasoning, Low)	90%	95%	85%
GPT-5.4 (Reasoning, Low)	85%	98%	83%
MoonshotAI: Kimi K2.6	88%	94%	83%
Claude Opus 4.8 (Reasoning)	89%	95%	83%
Claude Sonnet 5 (Reasoning)	85%	97%	82%
Z.AI GLM 5.2 (Reasoning, High)	85%	98%	82%
GPT-5.2	84%	97%	82%
Z.AI GLM 5.1	87%	94%	82%
DeepSeek V4 Flash (Reasoning)	84%	97%	82%
Gemini 3.5 Flash (Reasoning)	84%	97%	82%
Claude Sonnet 4.6 (Reasoning)	87%	95%	81%
GPT-5	82%	99%	81%
Claude Sonnet 5 (Reasoning, Low)	86%	93%	80%
MiniMax M3	85%	94%	80%

Top Overall Models (Top 20)

Ranked by composite score (performance, cost, speed & stability). Click a model name to view its detail page.

	Score	Cost	Speed	Stability
GPT-5.4 (Reasoning, Low)	85%	$0.072	50.1s	83%
GPT-5.6 Sol (Reasoning)	93%	$0.262	1.4m	92%
GPT-5.6 Terra (Reasoning)	86%	$0.082	32.1s	79%
Grok 4.5 (Reasoning, High)	89%	$0.105	2.7m	88%
GPT-5.6 Terra	81%	$0.046	12.2s	78%
GPT-5.6 Luna (Reasoning)	82%	$0.034	21.6s	76%
Gemini 3 Flash (Preview)	79%	$0.011	9.2s	76%
GPT-5.2	84%	$0.086	1.1m	82%
Gemini 3.1 Flash Lite (Preview)	78%	$0.0062	3.9s	76%
GPT-5.6 Sol	86%	$0.145	24.2s	80%
Claude Opus 4.6	88%	$0.221	43.8s	85%
Gemini 2.5 Flash	78%	$0.010	6.9s	75%
Qwen 3.6 Flash	80%	$0.019	1.1m	77%
Grok 4.5 (Reasoning, Low)	82%	$0.046	48.7s	76%
DeepSeek V3.2	78%	$0.0070	40.9s	76%
Z.AI GLM 5.2 (Reasoning, High)	85%	$0.058	2.8m	82%
Gemini 3.5 Flash (Reasoning)	84%	$0.136	58.4s	82%
GPT-5.4	80%	$0.047	22.4s	76%
Gemini 3.1 Flash Lite (Reasoning)	77%	$0.0042	3.9s	73%
Gemma 4 26B	77%	$0.0026	32.0s	74%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
2	GPT-5.6 Sol (Reasoning)	$0.262	1.4m	92%	93	93	93	93	92	93%
36	GPT-5.4 (Reasoning)	$0.259	3.7m	88%	96	95	93	92	89	93%
93	Claude Opus 4.6 (Reasoning)	$0.530	4.0m	90%	93	92	92	91	91	92%
58	GPT-5.5 (Reasoning)	$0.369	2.7m	88%	93	90	90	90	89	90%
103	Claude Opus 4.8 (Reasoning, Low)	$0.573	2.9m	85%	95	90	90	90	87	90%
111	Claude Opus 4.8 (Reasoning)	$0.585	3.1m	83%	94	89	88	87	86	89%
4	Grok 4.5 (Reasoning, High)	$0.105	2.7m	88%	89	89	89	89	88	89%
11	Claude Opus 4.6	$0.221	43.8s	85%	90	88	88	88	85	88%
71	MoonshotAI: Kimi K2.6	$0.109	7.2m	83%	92	89	88	86	84	88%
91	Z.AI GLM 5.1	$0.102	9.3m	82%	91	88	87	86	83	87%
140	Claude Sonnet 4.6 (Reasoning)	$0.688	9.1m	81%	91	87	86	86	83	87%
3	GPT-5.6 Terra (Reasoning)	$0.082	32.1s	79%	93	87	87	85	80	86%
67	Claude Sonnet 5 (Reasoning, Low)	$0.268	2.6m	80%	92	87	86	85	81	86%
10	GPT-5.6 Sol	$0.145	24.2s	80%	91	88	85	84	82	86%
65	Claude Sonnet 5 (Reasoning)	$0.264	2.7m	82%	88	86	85	84	83	85%
1	GPT-5.4 (Reasoning, Low)	$0.072	50.1s	83%	87	85	85	85	85	85%
16	Z.AI GLM 5.2 (Reasoning, High)	$0.058	2.8m	82%	87	85	84	84	84	85%
121	MiniMax M3	$0.055	14.3m	80%	88	87	85	82	81	85%
34	DeepSeek V4 Flash (Reasoning)	$0.0060	5.1m	82%	87	84	84	84	83	84%
17	Gemini 3.5 Flash (Reasoning)	$0.136	58.4s	82%	86	85	84	84	82	84%
8	GPT-5.2	$0.086	1.1m	82%	85	85	84	83	81	84%
28	Claude Opus 4.5	$0.185	26.2s	80%	87	84	84	82	80	83%
76	MoonshotAI: Kimi K2.5	$0.039	7.3m	78%	88	85	85	80	77	83%
54	Claude Opus 4.7	$0.252	30.9s	78%	86	85	83	82	77	83%
37	GPT-5	$0.107	2.6m	81%	84	83	82	82	82	82%
14	Grok 4.5 (Reasoning, Low)	$0.046	48.7s	76%	87	85	84	82	73	82%
44	DeepSeek V4 Pro (Reasoning)	$0.030	3.3m	75%	89	82	81	81	78	82%
80	GPT-5.4 Mini (Reasoning)	$0.168	4.0m	75%	88	87	86	79	70	82%
51	Qwen3.6 Max Preview	$0.098	3.9m	80%	84	83	82	81	80	82%
6	GPT-5.6 Luna (Reasoning)	$0.034	21.6s	76%	88	82	82	80	78	82%
69	Claude Opus 4.7 (Reasoning)	$0.256	32.4s	74%	89	87	84	76	75	82%
83	Z.AI GLM 5 Turbo	$0.068	5.4m	72%	90	86	83	77	72	82%
5	GPT-5.6 Terra	$0.046	12.2s	78%	85	82	82	81	78	81%
45	Aion 2.0	$0.031	3.6m	78%	84	83	83	79	76	81%
41	GPT-5.5	$0.148	57.9s	78%	83	83	82	81	77	81%
26	GPT-5 Mini	$0.024	2.5m	78%	84	83	82	78	77	81%
49	Gemini 2.5 Pro	$0.116	1.1m	72%	87	86	80	78	72	81%
104	ByteDance Seed 2.0 Mini	$0.0077	10.4m	77%	83	82	80	80	78	81%
13	Qwen 3.6 Flash	$0.019	1.1m	77%	82	82	81	79	76	80%
61	Qwen 3.5 27B	$0.040	4.7m	78%	81	81	80	79	77	80%
33	Xiaomi MIMO v2.5	$0.0037	1.5m	71%	86	82	78	78	74	80%
18	GPT-5.4	$0.047	22.4s	76%	83	81	79	79	76	80%
50	Qwen 3.5 Plus (2026-02-15)	$0.023	4.2m	78%	81	81	80	79	77	80%
109	Claude Opus 4	$0.514	36.8s	77%	81	80	79	79	78	79%
38	Claude Sonnet 4.6	$0.114	30.6s	76%	83	80	79	78	77	79%
29	Claude Sonnet 4.5	$0.110	25.0s	77%	81	79	79	78	78	79%
56	Xiaomi MIMO v2.5 Pro	$0.010	2.7m	69%	88	83	80	78	67	79%
7	Gemini 3 Flash (Preview)	$0.011	9.2s	76%	82	79	79	78	77	79%
59	ByteDance Seed 2.0 Lite	$0.016	3.8m	74%	81	81	81	80	71	79%
24	Gemini 3 Flash (Preview, Reasoning)	$0.037	53.0s	75%	83	81	80	76	74	79%
23	Gemma 4 31B	$0.0040	2.3m	78%	79	79	79	79	78	79%
21	GPT-5.4 Nano (Reasoning)	$0.013	59.0s	74%	82	79	79	78	73	78%
15	DeepSeek V3.2	$0.0070	40.9s	76%	81	79	78	77	76	78%
52	Qwen 3.5 397B A17B	$0.058	2.3m	73%	82	80	79	79	71	78%
101	Gemini 3.1 Pro (Preview)	$0.214	1.7m	62%	88	86	73	72	72	78%
30	Claude Sonnet 4	$0.100	22.5s	77%	79	78	78	77	77	78%
12	Gemini 2.5 Flash	$0.010	6.9s	75%	81	81	81	76	71	78%
9	Gemini 3.1 Flash Lite (Preview)	$0.0062	3.9s	76%	79	79	79	77	75	78%
70	Z.AI GLM 4.7	$0.033	4.1m	74%	81	80	77	76	75	78%
63	Qwen 3.5 Plus (2026-04-20)	$0.028	3.6m	75%	80	79	79	77	72	78%
94	GPT-5.5 (Reasoning, Low)	$0.124	1.0m	57%	92	84	83	83	46	78%
74	Qwen 3.6 27B	$0.038	2.7m	67%	83	83	82	79	59	77%
40	ByteDance Seed 1.6	$0.018	1.4m	73%	81	78	78	77	72	77%
19	Gemini 3.1 Flash Lite (Reasoning)	$0.0042	3.9s	73%	79	79	76	75	75	77%
20	Gemma 4 26B	$0.0026	32.0s	74%	79	77	77	76	75	77%
60	o4 Mini High	$0.072	1.5m	72%	82	77	77	76	71	77%
92	Qwen 3.5 122B	$0.039	5.8m	72%	79	79	79	77	68	77%
25	Grok 4.20 (Reasoning)	$0.030	36.0s	75%	77	77	76	76	75	76%
22	Gemini 3.1 Flash Lite	$0.0037	4.2s	72%	80	78	76	76	71	76%
82	Z.AI GLM 4.6	$0.025	3.7m	68%	82	80	75	72	71	76%
57	o4 Mini	$0.053	1.0m	69%	83	76	76	73	71	76%
115	Z.AI GLM 5	$0.047	5.9m	58%	85	84	81	81	46	76%
31	Grok 4.3 (Reasoning)	$0.018	14.1s	72%	79	78	77	73	70	75%
48	Mistral Large 2	$0.051	27.4s	70%	80	77	75	74	70	75%
35	GPT-5.4 Mini (Reasoning, Low)	$0.020	19.5s	72%	79	77	77	72	70	75%
27	Inception Mercury 2	$0.013	16.6s	73%	76	76	75	75	72	75%
64	GPT-OSS 120B	$0.0065	3.1m	73%	77	75	74	74	74	75%
81	Qwen 3.5 Flash	$0.0047	4.0m	69%	80	78	75	75	67	75%
62	Qwen 3.5 35B	$0.016	2.6m	72%	76	76	76	74	71	75%
42	Grok 4.3	$0.012	8.3s	69%	78	77	77	76	65	75%
55	Z.AI GLM 4.5	$0.0088	46.9s	66%	82	78	74	70	67	74%
32	DeepSeek V4 Flash	$0.0028	14.4s	72%	77	76	75	72	72	74%
53	GPT-5.1	$0.035	24.2s	67%	82	75	74	71	69	74%
68	DeepSeek V3.1	$0.0082	1.1m	64%	82	79	72	70	68	74%
39	Mistral Large 3	$0.013	22.7s	72%	76	75	75	72	72	74%
43	Gemini 3.5 Flash (Reasoning, Minimal)	$0.027	6.8s	71%	77	77	76	70	69	74%
66	Claude Sonnet 5	$0.095	22.5s	70%	78	74	74	73	69	73%
46	DeepSeek V4 Pro	$0.012	21.9s	70%	76	76	75	69	68	73%
47	GPT-5.6 Luna	$0.017	12.3s	69%	76	75	74	71	67	73%
125	Gemma 4 31B (Reasoning)	$0.0055	7.5m	57%	80	79	76	75	46	71%
75	GPT-4.1	$0.032	10.8s	61%	82	73	72	69	60	71%
72	MiniMax M2.5	$0.0040	53.0s	64%	78	74	73	71	59	71%
107	Z.AI GLM 4.5 Air	$0.0099	4.8m	62%	79	72	69	68	65	70%
98	Qwen 3.6 35B	$0.017	1.3m	55%	82	79	78	69	42	70%
77	DeepSeek-V2 Chat	$0.0074	40.7s	62%	77	74	70	68	60	70%
89	GPT-5 Nano	$0.0093	2.6m	65%	74	72	71	66	62	69%
78	MiniMax M2.7	$0.0083	28.1s	61%	78	73	72	67	55	69%
139	Aion 3.0	$0.071	8.8m	49%	89	83	79	46	46	69%
97	Gemini 2.5 Flash Lite (Reasoning)	$0.0091	1.3m	56%	81	73	66	65	58	69%
73	Claude Haiku 4.5	$0.034	10.6s	65%	72	69	68	68	66	68%
124	Qwen 3.5 9B	$0.0044	7.6m	62%	74	70	69	69	58	68%
90	GPT-5.4 Nano (Reasoning, Low)	$0.0051	16.8s	56%	76	75	65	62	60	68%
129	Qwen3.7 Max	$0.056	4.5m	48%	86	84	79	46	42	67%
110	WizardLM 2 8x22b	$0.014	3.0m	56%	76	74	68	66	53	67%
128	Aion 3.0 Mini	$0.040	5.5m	51%	85	80	78	46	46	67%
88	Writer: Palmyra X5	$0.022	23.5s	59%	76	71	67	65	57	67%
102	Gemini 2.5 Flash (Reasoning)	$0.029	46.5s	53%	80	73	72	67	43	67%
87	Grok 4.20	$0.029	9.7s	60%	72	70	65	64	62	67%
79	Ministral 8B	$0.0024	22.0s	63%	69	68	66	65	63	66%
85	GPT-4.1 Mini	$0.0059	29.9s	61%	71	71	67	62	59	66%
84	GPT-4o, Aug. 6th (temp=0)	$0.044	9.6s	64%	67	66	66	65	64	65%
118	Gemma 4 26B (Reasoning)	$0.0044	3.7m	53%	80	76	76	47	46	65%
133	Nemotron 3 Super	$0.0000	7.0m	53%	78	78	76	46	46	65%
96	DeepSeek V3 (2024-12-26)	$0.0064	57.6s	58%	74	68	66	61	56	65%
86	Mistral Small 3.2 24B	$0.0023	17.3s	61%	68	67	67	67	56	65%
99	GPT-5.4 Mini	$0.012	9.7s	57%	68	63	61	61	59	62%
95	Gemini 2.5 Flash Lite	$0.0034	6.8s	57%	70	62	62	60	58	62%
105	GPT-4o, Aug. 6th (temp=1)	$0.039	11.1s	56%	68	64	61	60	58	62%
108	Mistral Medium 3.1	$0.016	33.0s	54%	68	64	59	58	58	61%
117	Llama 3.1 70B	$0.0087	45.7s	45%	74	72	68	63	28	61%
100	Ministral 3 8B	$0.0030	23.0s	58%	64	62	61	60	56	60%
126	Z.AI GLM 4.7 Flash	$0.0056	2.8m	49%	71	66	57	54	52	60%
120	DeepSeek V3 (2025-03-24)	$0.0049	1.1m	48%	76	62	62	46	46	59%
112	Mistral Small 4	$0.0043	9.2s	50%	69	59	58	52	50	57%
116	Qwen3 235B A22B Instruct 2507	$0.0025	1.3m	52%	63	60	59	57	46	57%
134	Qwen 3 32B	$0.0052	3.3m	47%	68	60	57	53	42	56%
119	Ministral 3 14B	$0.0046	39.7s	50%	62	54	54	54	52	55%
113	GPT-5.4 Nano	$0.0037	14.0s	53%	58	57	56	55	51	55%
123	Mistral Small 4 (Reasoning)	$0.0067	28.7s	46%	64	61	60	59	32	55%
114	GPT-4o Mini (temp=0)	$0.0028	23.4s	52%	59	55	55	53	53	55%
122	GPT-4o Mini (temp=1)	$0.0036	38.2s	49%	63	54	53	51	50	54%
132	Hermes 3 405B	$0.022	1.4m	44%	65	61	53	46	41	53%
131	Cydonia 24B V4.1	$0.0063	1.6m	45%	61	54	50	50	46	52%
137	Qwen 2.5 72B	$0.0080	1.6m	38%	62	56	45	43	40	49%
135	Gemma 3 27B	$0.0026	33.8s	43%	56	49	46	46	45	48%
127	Ministral 3B	$0.0009	13.4s	46%	51	48	48	47	45	48%
138	Nemotron 3 Nano	$0.0045	2.8m	43%	54	47	46	46	43	47%
130	Ministral 3 3B	$0.0011	14.4s	45%	51	48	48	44	42	47%
143	Cohere Command R+ (Aug. 2024)	$0.085	1.5m	38%	55	49	46	46	29	45%
141	Arcee AI: Trinity Mini	$0.0069	3.8m	43%	47	46	45	44	40	45%
136	GPT-4.1 Nano	$0.0012	8.2s	37%	56	43	43	42	37	44%
106	ByteDance Seed 1.6 Flash	$0.0022	14.0s	–	42	–	–	–	–	42%
142	Hermes 3 70B	$0.0065	56.2s	34%	55	46	42	35	27	41%
146	Gemma 3 12B	$0.0024	36.5s	32%	44	36	35	35	35	37%
145	Gemma 3 4B	$0.0009	34.5s	34%	40	39	36	35	30	36%
144	Mistral NeMO	$0.0035	19.1s	35%	38	37	37	37	32	36%
71.98%

Median	Evaluator	Top 3	Flop 3
77.1%	Alias accuracy	97Mistral Small 3.2 24B 95GPT-5.4 Mini (Reasoning, Low) 95GPT-5.4 Mini	0Gemma 3 12B 1Gemma 3 4B 2Nemotron 3 Nano
100.0%	Character precision	100GPT-5.6 Terra (Reasoning) 100GPT-5.4 (Reasoning, Low) 100Claude Opus 4.6 (Reasoning)	0Gemma 3 12B 62Qwen3.7 Max 64Gemma 4 26B (Reasoning)
100.0%	Character recall	100Claude Opus 4.8 (Reasoning, Low) 100DeepSeek V3.2 100GPT-5.1	0Gemma 3 12B 7Gemma 3 4B 15Nemotron 3 Nano
100.0%	Isolated character handling	100Gemini 2.5 Flash (Reasoning) 100Grok 4.3 (Reasoning) 100Gemini 3 Flash (Preview, Reasoning)	0Gemma 3 4B 0ByteDance Seed 1.6 Flash 1Mistral NeMO
100.0%	Red-herring resistance	100Claude Opus 4.8 (Reasoning, Low) 100MoonshotAI: Kimi K2.6 100Claude Opus 4.6	73Hermes 3 70B 86Ministral 8B 86Z.AI GLM 4.7 Flash
11.8%	Relationship category recall	99GPT-5.6 Sol (Reasoning) 89GPT-5.4 (Reasoning) 80GPT-5.5 (Reasoning)	0Gemma 3 12B 0Nemotron 3 Nano 0Arcee AI: Trinity Mini
100.0%	Relationship endpoint integrity	100Claude Opus 4.8 (Reasoning, Low) 100Grok 4.5 (Reasoning, Low) 100Gemma 4 31B	0Gemma 3 12B 51Nemotron 3 Nano 60Gemini 2.5 Flash (Reasoning)
70.8%	Relationship precision	100Gemma 3 12B 100GPT-4o Mini (temp=0) 100Gemini 3.1 Flash Lite (Preview)	2Ministral 3 3B 2Gemma 3 4B 4Mistral NeMO
4.6%	Relationship recall	97GPT-5.6 Sol (Reasoning) 93GPT-5.4 (Reasoning) 83GPT-5.5 (Reasoning)	0Gemma 3 12B 0Nemotron 3 Nano 0DeepSeek V3 (2025-03-24)
81.9%	Relationship type accuracy	100Gemma 3 12B 100Claude Opus 4.8 (Reasoning, Low) 100GPT-5.6 Sol (Reasoning)	23Mistral NeMO 31Gemma 3 27B 42Ministral 3 3B
100.0%	XML structure	100Claude Opus 4.8 (Reasoning) 100Gemma 4 26B (Reasoning) 100Gemini 3.1 Flash Lite (Preview)	45DeepSeek V3 (2025-03-24) 48Cohere Command R+ (Aug. 2024) 50Qwen3 235B A22B Instruct 2507