Relationship recall

Avg. Score

23.5%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5.6 Sol (Reasoning)	98.6%	$0.186	59.0s	92%
2	Grok 4.5 (Reasoning, High)	88.7%	$0.080	2.0m	69%
3	GPT-5.4 (Reasoning)	96.3%	$0.175	2.6m	87%
4	GPT-5.5 (Reasoning)	91.5%	$0.251	2.0m	75%
5	GPT-5.6 Sol	68.7%	$0.096	18.1s	29%
6	GPT-5.6 Terra (Reasoning)	60.9%	$0.060	24.2s	26%
7	GPT-5.5 (Reasoning, Low)	65.0%	$0.097	42.6s	20%
8	Claude Opus 4.6 (Reasoning)	88.7%	$0.356	2.6m	69%
9	Grok 4.5 (Reasoning, Low)	57.5%	$0.040	49.7s	15%
10	GPT-5.4 (Reasoning, Low)	42.3%	$0.053	35.5s	26%
11	GPT-5.5	62.8%	$0.105	37.1s	16%
12	Claude Opus 4.6	64.2%	$0.154	31.4s	21%
13	Gemini 3 Flash (Preview)	28.3%	$0.0087	7.1s	19%
14	MoonshotAI: Kimi K2.6	72.6%	$0.082	5.0m	39%
15	Gemini 2.5 Pro	58.0%	$0.099	58.2s	14%
16	GPT-5.6 Terra	31.6%	$0.034	9.4s	15%
17	GPT-5.6 Luna (Reasoning)	34.1%	$0.027	18.6s	11%
18	GPT-5.4	25.4%	$0.033	17.4s	17%
19	Z.AI GLM 5.2 (Reasoning, High)	33.8%	$0.039	1.8m	25%
20	Claude Opus 4.7 (Reasoning)	61.7%	$0.184	25.0s	15%
21	GPT-5.1	29.3%	$0.025	17.7s	11%
22	DeepSeek V4 Flash (Reasoning)	49.8%	$0.0041	3.5m	19%
23	Gemini 3 Flash (Preview, Reasoning)	41.5%	$0.030	40.3s	4%
24	Claude Sonnet 4.6	36.4%	$0.081	23.3s	15%
25	Claude Sonnet 5 (Reasoning, Low)	59.2%	$0.175	1.7m	26%
26	GPT-5.4 Nano (Reasoning)	19.5%	$0.0088	41.7s	17%
27	Gemini 3.5 Flash (Reasoning)	49.7%	$0.113	49.4s	10%
28	Gemini 3.1 Pro (Preview)	65.3%	$0.172	1.5m	14%
29	GPT-5.2	35.0%	$0.062	50.7s	13%
30	Claude Opus 4.7	56.1%	$0.182	24.3s	14%
31	Claude Sonnet 5 (Reasoning)	58.1%	$0.172	1.7m	21%
32	Xiaomi MIMO v2.5	26.5%	$0.0027	1.1m	10%
33	Z.AI GLM 5 Turbo	47.0%	$0.044	3.6m	21%
34	MoonshotAI: Kimi K2.5	60.5%	$0.031	5.4m	24%
35	Z.AI GLM 4.6	33.1%	$0.018	3.0m	22%
36	Inception Mercury 2	14.7%	$0.0096	12.8s	8%
37	Claude Opus 4.8 (Reasoning)	76.4%	$0.381	1.9m	43%
38	ByteDance Seed 1.6	18.7%	$0.014	1.2m	13%
39	Gemini 3.5 Flash (Reasoning, Minimal)	20.7%	$0.024	6.3s	2%
40	Claude Sonnet 4.5	18.4%	$0.077	18.6s	16%
41	Grok 4.20 (Reasoning)	16.9%	$0.027	40.0s	11%
42	Qwen3.7 Max	50.8%	$0.045	3.5m	10%
43	Claude Opus 4.5	30.3%	$0.131	19.8s	13%
44	DeepSeek V4 Pro (Reasoning)	31.7%	$0.020	2.3m	9%
45	GPT-5	51.8%	$0.092	2.3m	4%
46	MiniMax M2.5	11.6%	$0.0036	45.0s	7%
47	Gemini 2.5 Flash	9.3%	$0.0075	6.1s	4%
48	MiniMax M2.7	11.0%	$0.0063	21.4s	4%
49	Mistral Large 3	8.2%	$0.0091	17.5s	6%
50	Gemini 3.1 Flash Lite (Reasoning)	6.0%	$0.0033	3.2s	5%
51	Mistral Medium 3.1	9.4%	$0.010	21.2s	6%
52	Grok 4.3	8.4%	$0.0094	7.8s	4%
53	Gemini 3.1 Flash Lite (Preview)	5.8%	$0.0046	3.2s	4%
54	Ministral 3 8B	7.6%	$0.0022	17.0s	4%
55	Qwen 3.5 397B A17B	28.3%	$0.045	2.6m	16%
56	Claude Sonnet 5	16.0%	$0.068	17.1s	10%
57	Ministral 8B	6.4%	$0.0016	15.6s	4%
58	Gemini 3.1 Flash Lite	5.9%	$0.0031	3.3s	2%
59	DeepSeek V4 Pro	7.4%	$0.0083	17.3s	4%
60	DeepSeek V3.2	8.7%	$0.0046	33.9s	5%
61	Gemma 4 26B	6.5%	$0.0018	27.2s	5%
62	o4 Mini High	21.0%	$0.059	1.3m	11%
63	Qwen 3.6 Flash	11.4%	$0.015	51.7s	7%
64	GPT-5.4 Mini (Reasoning, Low)	6.8%	$0.014	14.4s	5%
65	GPT-5.4 Mini	6.1%	$0.0087	7.9s	3%
66	DeepSeek V4 Flash	11.8%	$0.0020	51.4s	4%
67	Ministral 3 14B	6.9%	$0.0031	25.4s	4%
68	GPT-5 Mini	20.3%	$0.019	2.0m	9%
69	o4 Mini	12.0%	$0.037	45.7s	8%
70	Grok 4.20	5.9%	$0.020	7.5s	4%
71	Z.AI GLM 4.5	8.0%	$0.0075	48.1s	6%
72	Ministral 3 3B	3.5%	$0.0007	9.9s	3%
73	GPT-4.1	7.0%	$0.024	8.5s	4%
74	Mistral Large 2	9.2%	$0.037	20.5s	6%
75	Ministral 3B	4.1%	$0.0007	9.8s	2%
76	Xiaomi MIMO v2.5 Pro	20.6%	$0.0076	1.9m	5%
77	GPT-5.6 Luna	4.5%	$0.012	8.7s	3%
78	Qwen 3.6 35B	10.4%	$0.014	1.1m	8%
79	GPT-5.4 Nano	3.1%	$0.0026	11.2s	2%
80	GPT-5.4 Mini (Reasoning)	38.2%	$0.117	2.8m	18%
81	GPT-4o, Aug. 6th (temp=0)	9.3%	$0.032	8.4s	1%
82	Mistral Small 3.2 24B	3.5%	$0.0017	13.8s	1%
83	GPT-4.1 Mini	3.5%	$0.0046	26.0s	3%
84	Z.AI GLM 5.1	68.0%	$0.081	7.3m	26%
85	GPT-5.4 Nano (Reasoning, Low)	2.4%	$0.0038	13.8s	2%
86	MiniMax M3	59.9%	$0.036	9.3m	44%
87	Writer: Palmyra X5	3.9%	$0.016	18.4s	3%
88	Claude Haiku 4.5	4.8%	$0.024	8.2s	2%
89	GPT-4o Mini (temp=0)	2.6%	$0.0019	20.7s	1%
90	DeepSeek V3.1	9.1%	$0.0055	52.0s	1%
91	Mistral NeMO	2.2%	$0.0024	15.4s	0%
92	GPT-4.1 Nano	0.2%	$0.0009	6.9s	0%
93	Gemini 2.5 Flash Lite	0.2%	$0.0023	4.8s	0%
94	Mistral Small 4	0.4%	$0.0030	7.4s	0%
95	DeepSeek-V2 Chat	4.3%	$0.0049	34.0s	1%
96	DeepSeek V3 (2024-12-26)	3.3%	$0.0045	40.2s	3%
97	Claude Sonnet 4	12.5%	$0.072	17.5s	4%
98	Grok 4.3 (Reasoning)	1.5%	$0.013	13.9s	1%
99	Mistral Small 4 (Reasoning)	2.0%	$0.0051	24.7s	1%
100	Z.AI GLM 4.7	31.8%	$0.025	3.7m	9%
101	Qwen 3.5 35B	13.1%	$0.015	2.0m	8%
102	Llama 3.1 70B	3.1%	$0.0064	34.0s	1%
103	GPT-OSS 120B	13.4%	$0.0040	2.2m	7%
104	Gemini 2.5 Flash Lite (Reasoning)	5.6%	$0.0073	1.0m	2%
105	GPT-4o Mini (temp=1)	1.4%	$0.0026	33.4s	1%
106	Gemini 2.5 Flash (Reasoning)	6.1%	$0.023	37.3s	1%
107	Qwen 3.5 27B	25.1%	$0.029	3.7m	15%
108	Z.AI GLM 5	40.4%	$0.037	4.6m	11%
109	ByteDance Seed 1.6 Flash	1.4%	$0.0020	34.2s	0%
110	Gemma 3 4B	0.1%	$0.0007	27.5s	0%
111	Gemma 3 27B	0.2%	$0.0016	27.5s	0%
112	GPT-4o, Aug. 6th (temp=1)	1.6%	$0.029	9.1s	1%
113	Gemma 3 12B	0.0%	$0.0014	30.4s	0%
114	Qwen3 235B A22B Instruct 2507	3.1%	$0.0017	1.0m	2%
115	Hermes 3 70B	1.2%	$0.0045	42.7s	0%
116	Cydonia 24B V4.1	2.6%	$0.0040	1.0m	1%
117	Aion 2.0	17.7%	$0.024	3.0m	10%
118	DeepSeek V3 (2025-03-24)	0.8%	$0.0037	50.3s	0%
119	Aion 3.0 Mini	35.2%	$0.030	4.9m	13%
120	Qwen 2.5 72B	1.7%	$0.0056	1.2m	1%
121	Qwen 3.5 Plus (2026-02-15)	24.9%	$0.021	3.9m	10%
122	Gemma 4 31B	6.8%	$0.0028	1.9m	3%
123	Hermes 3 405B	1.8%	$0.015	1.0m	1%
124	Qwen3.6 Max Preview	34.7%	$0.084	3.7m	10%
125	Qwen 3.6 27B	17.7%	$0.034	2.7m	5%
126	Aion 3.0	54.8%	$0.074	5.8m	9%
127	Qwen 3.5 Flash	16.3%	$0.0040	3.8m	10%
128	Claude Opus 4.8 (Reasoning, Low)	61.4%	$0.383	1.9m	25%
129	Qwen 3.5 Plus (2026-04-20)	11.8%	$0.023	3.1m	8%
130	WizardLM 2 8x22b	6.2%	$0.0098	2.3m	2%
131	ByteDance Seed 2.0 Lite	20.3%	$0.014	3.6m	1%
132	Arcee AI: Trinity Mini	0.5%	$0.0037	1.9m	0%
133	Nemotron 3 Super	23.0%	$0.0000	5.5m	13%
134	Cohere Command R+ (Aug. 2024)	0.4%	$0.057	56.5s	0%
135	Gemma 4 26B (Reasoning)	8.1%	$0.0041	3.1m	3%
136	Z.AI GLM 4.7 Flash	3.9%	$0.0050	2.8m	4%
137	GPT-5 Nano	1.9%	$0.0080	2.2m	1%
138	Qwen 3 32B	2.0%	$0.0042	2.9m	2%
139	Z.AI GLM 4.5 Air	4.8%	$0.0071	3.2m	2%
140	Nemotron 3 Nano	0.4%	$0.0039	2.8m	0%
141	Qwen 3.5 122B	12.1%	$0.035	4.0m	6%
142	Gemma 4 31B (Reasoning)	19.5%	$0.0043	5.8m	2%
143	Claude Sonnet 4.6 (Reasoning)	70.7%	$0.448	5.9m	32%
144	ByteDance Seed 2.0 Mini	12.7%	$0.0062	8.7m	11%
145	Qwen 3.5 9B	4.6%	$0.0040	7.8m	1%
146	Claude Opus 4	13.6%	$0.368	2.4m	7%
23.49%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	91	98.2%
Claude Opus 4.7	100	100	100	83	83	93.1%
Z.AI GLM 5.1	100	100	100	100	55	91.0%
Aion 3.0	100	100	100	100	55	91.0%
Gemini 2.5 Pro	100	100	100	100	55	91.0%
MoonshotAI: Kimi K2.6	100	100	100	83	68	90.1%
Claude Opus 4.6	100	100	100	100	49	89.8%
Grok 4.5 (Reasoning, Low)	100	100	100	91	55	89.2%
GPT-5.6 Sol	100	100	100	100	44	88.8%
Claude Sonnet 5 (Reasoning)	100	100	91	68	55	82.7%
Qwen3.7 Max	100	100	100	68	27	78.9%
GPT-5.6 Terra (Reasoning)	100	100	83	68	44	78.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	68	55	55	75.5%
MoonshotAI: Kimi K2.5	100	100	100	35	27	72.3%
Gemini 3.5 Flash (Reasoning)	100	100	100	55	1	71.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	55	1	71.3%
Z.AI GLM 5 Turbo	100	68	68	49	44	65.7%
Claude Opus 4.8 (Reasoning, Low)	100	100	68	55	1	64.8%
MiniMax M3	83	68	68	55	44	63.3%
Qwen3.6 Max Preview	100	55	55	55	35	59.8%
Z.AI GLM 5	100	100	55	27	16	59.5%
GPT-5.4 (Reasoning, Low)	75	75	49	49	44	58.4%
Claude Sonnet 4.6	100	55	44	44	44	57.3%
GPT-5.4 Mini (Reasoning)	91	68	44	44	21	53.4%
GPT-5.2	83	75	44	35	24	52.0%
GPT-5.6 Terra	83	49	44	44	39	51.7%
GPT-5.6 Luna (Reasoning)	100	68	44	35	11	51.5%
Aion 3.0 Mini	100	61	55	35	1	50.4%
Z.AI GLM 4.6	55	55	55	44	39	49.5%
GPT-5.1	83	61	44	31	24	48.4%
Z.AI GLM 4.7	91	55	55	35	6	48.2%
Gemini 3 Flash (Preview)	55	55	44	39	39	46.3%
Claude Opus 4.5	100	44	27	27	27	45.0%
DeepSeek V4 Flash (Reasoning)	100	44	27	24	21	43.1%
DeepSeek V4 Pro (Reasoning)	100	55	27	16	16	42.6%
Xiaomi MIMO v2.5	100	39	27	27	16	41.7%
Qwen 3.5 Plus (2026-02-15)	68	55	44	21	21	41.6%
Qwen 3.5 397B A17B	55	44	44	44	21	41.4%
GPT-5.4	49	39	39	39	39	41.1%
Gemini 3.5 Flash (Reasoning, Minimal)	100	55	27	11	8	40.3%
ByteDance Seed 2.0 Lite	100	55	27	7	4	38.5%
Z.AI GLM 5.2 (Reasoning, High)	44	44	44	27	27	37.1%
o4 Mini High	55	44	31	27	27	36.7%
Gemma 4 31B (Reasoning)	55	55	44	27	2	36.6%
Nemotron 3 Super	68	39	35	31	0	34.4%
Qwen 3.5 27B	75	35	27	27	0	32.7%
GPT-5 Mini	61	44	27	16	16	32.6%
ByteDance Seed 1.6	44	39	31	18	18	29.9%
Qwen 3.6 27B	83	31	18	13	5	29.9%
Claude Sonnet 4.5	27	27	27	27	27	27.0%
Claude Sonnet 5	44	27	24	21	16	26.2%
Grok 4.20 (Reasoning)	44	24	24	24	16	26.1%
Inception Mercury 2	39	39	24	13	13	25.7%
Qwen 3.5 Flash	44	31	27	13	13	25.7%
Xiaomi MIMO v2.5 Pro	49	35	24	7	3	23.5%
GPT-OSS 120B	31	31	21	21	10	22.5%
DeepSeek V4 Flash	39	24	24	16	7	21.8%
Claude Sonnet 4	27	27	27	27	1	21.7%
GPT-5.4 Nano (Reasoning)	35	24	24	16	8	21.2%
Claude Opus 4	27	27	27	24	1	21.1%
Qwen 3.5 35B	27	27	24	21	6	20.8%
MiniMax M2.7	35	27	16	16	7	19.9%
Qwen 3.5 122B	31	27	21	16	6	19.9%
Qwen 3.6 Flash	31	27	21	11	10	19.9%
MiniMax M2.5	27	24	21	16	11	19.7%
ByteDance Seed 2.0 Mini	27	24	16	16	16	19.5%
Qwen 3.6 35B	27	21	16	16	13	18.4%
GPT-4o, Aug. 6th (temp=0)	49	21	13	5	0	17.6%
DeepSeek V3.1	27	24	24	13	0	17.6%
o4 Mini	27	21	16	16	8	17.4%
Qwen 3.5 Plus (2026-04-20)	31	21	16	13	6	17.2%
Gemini 2.5 Flash	27	24	18	10	7	17.0%
Mistral Large 2	24	21	13	13	13	16.9%
Aion 2.0	49	35	0	0	0	16.8%
Grok 4.3	31	18	13	8	7	15.4%
Gemma 4 26B (Reasoning)	27	27	11	7	2	14.9%
Mistral Large 3	21	13	13	13	13	14.8%
DeepSeek V3.2	24	16	13	10	6	13.6%
Ministral 3 8B	21	16	16	6	5	12.4%
Ministral 3 14B	16	16	11	11	6	11.9%
DeepSeek V4 Pro	27	13	8	8	2	11.8%
Gemma 4 31B	21	16	11	6	4	11.4%
GPT-4.1	24	11	8	8	5	11.2%
Gemma 4 26B	13	11	11	10	10	11.1%
GPT-5.4 Mini	13	13	13	10	6	11.1%
Z.AI GLM 4.5	18	16	8	7	7	11.1%
Gemini 3.1 Flash Lite (Reasoning)	11	11	11	11	8	10.8%
Mistral Medium 3.1	24	18	7	3	1	10.6%
Gemini 3.1 Flash Lite	18	11	11	8	4	10.6%
GPT-5.4 Mini (Reasoning, Low)	18	13	11	8	1	10.3%
Gemini 3.1 Flash Lite (Preview)	16	11	8	8	8	10.3%
WizardLM 2 8x22b	24	24	2	1	1	10.3%
Grok 4.20	21	11	7	6	5	9.9%
Ministral 8B	18	11	7	6	4	9.2%
Qwen 3.5 9B	16	10	8	7	1	8.4%
Claude Haiku 4.5	13	13	8	2	2	8.0%
DeepSeek-V2 Chat	24	7	6	2	1	7.9%
Z.AI GLM 4.5 Air	24	10	3	2	0	7.8%
Ministral 3B	16	8	6	6	0	7.1%
Gemini 2.5 Flash (Reasoning)	27	2	2	1	1	6.5%
Writer: Palmyra X5	11	8	6	6	1	6.4%
Mistral Small 3.2 24B	10	8	7	6	1	6.3%
GPT-4.1 Mini	8	7	6	5	5	6.0%
Z.AI GLM 4.7 Flash	10	6	6	5	4	5.9%
GPT-5.6 Luna	13	6	4	3	3	5.8%
Llama 3.1 70B	13	8	4	2	1	5.7%
DeepSeek V3 (2024-12-26)	7	7	6	6	3	5.6%
Gemini 2.5 Flash Lite (Reasoning)	16	4	3	2	2	5.5%
Ministral 3 3B	8	7	7	4	1	5.4%
Qwen3 235B A22B Instruct 2507	8	8	6	2	1	5.1%
GPT-4o Mini (temp=0)	10	5	5	3	2	4.9%
GPT-5.4 Nano	11	4	3	2	1	4.4%
Mistral NeMO	13	6	1	0	0	4.1%
Cydonia 24B V4.1	13	2	2	1	0	3.7%
Mistral Small 4 (Reasoning)	6	4	4	3	0	3.3%
GPT-5 Nano	6	5	4	2	0	3.3%
Qwen 3 32B	6	4	3	2	1	3.2%
Qwen 2.5 72B	6	3	2	2	2	3.1%
GPT-5.4 Nano (Reasoning, Low)	10	2	1	1	0	3.0%
GPT-4o Mini (temp=1)	5	3	2	2	1	2.6%
Hermes 3 405B	7	2	2	1	0	2.5%
GPT-4o, Aug. 6th (temp=1)	6	3	2	0	0	2.4%
Hermes 3 70B	8	1	1	1	0	2.1%
Grok 4.3 (Reasoning)	3	3	2	2	0	2.1%
ByteDance Seed 1.6 Flash	7	1	0	0	0	1.6%
DeepSeek V3 (2025-03-24)	3	3	2	0	0	1.6%
Arcee AI: Trinity Mini	5	0	0	0	0	1.0%
Cohere Command R+ (Aug. 2024)	2	2	0	0	0	0.8%
Nemotron 3 Nano	1	1	1	0	0	0.7%
Mistral Small 4	2	0	0	0	0	0.5%
Gemma 3 27B	1	0	0	0	0	0.3%
GPT-4.1 Nano	0	0	0	0	0	0.3%
Gemini 2.5 Flash Lite	1	0	0	0	0	0.2%
Gemma 3 4B	0	0	0	0	0	0.1%
Gemma 3 12B	0	0	0	0	0	0.0%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	86	97.3%
GPT-5.4 (Reasoning)	100	100	96	86	80	92.6%
GPT-5.5 (Reasoning)	86	86	86	86	69	82.9%
Claude Opus 4.6 (Reasoning)	80	80	80	77	69	77.3%
Grok 4.5 (Reasoning, High)	80	80	80	77	69	77.3%
Claude Opus 4.8 (Reasoning, Low)	86	59	54	50	42	58.1%
MiniMax M3	80	69	69	33	32	56.5%
DeepSeek V4 Flash (Reasoning)	93	77	48	44	21	56.5%
MoonshotAI: Kimi K2.6	90	56	52	40	38	55.1%
Claude Opus 4.8 (Reasoning)	93	50	42	42	38	52.8%
MoonshotAI: Kimi K2.5	72	61	59	32	20	48.6%
GPT-5.6 Sol	86	64	40	32	21	48.5%
Z.AI GLM 5.1	59	46	42	40	40	45.1%
GPT-5.6 Terra (Reasoning)	80	38	38	36	22	43.0%
Claude Sonnet 5 (Reasoning, Low)	80	46	40	30	19	43.0%
Claude Sonnet 4.6 (Reasoning)	74	44	32	29	29	41.4%
Claude Opus 4.6	59	40	38	36	20	38.6%
Claude Sonnet 5 (Reasoning)	46	42	38	24	19	33.6%
Gemini 3.1 Pro (Preview)	80	64	4	3	2	30.6%
Z.AI GLM 5.2 (Reasoning, High)	46	35	26	24	22	30.4%
GPT-5.5 (Reasoning, Low)	69	32	29	21	0	30.1%
Z.AI GLM 5 Turbo	61	48	26	7	0	28.4%
Gemini 3.5 Flash (Reasoning)	44	27	27	24	19	28.2%
GPT-5.4 (Reasoning, Low)	44	38	20	15	14	26.1%
Grok 4.5 (Reasoning, Low)	46	26	22	20	15	25.9%
GPT-5.5	35	35	32	16	11	25.6%
Gemini 2.5 Pro	56	26	26	16	1	25.0%
Claude Opus 4.7 (Reasoning)	50	32	22	9	4	23.3%
GPT-5.4 Mini (Reasoning)	40	32	24	18	2	23.0%
Qwen3.7 Max	61	26	26	0	0	22.6%
Z.AI GLM 5	50	46	8	4	0	21.4%
DeepSeek V4 Pro (Reasoning)	56	29	11	6	2	20.8%
Aion 3.0 Mini	44	29	27	0	0	19.9%
Claude Opus 4.7	33	30	13	10	9	19.1%
Aion 2.0	32	22	16	13	11	18.7%
Aion 3.0	64	25	5	0	0	18.6%
GPT-5.2	27	20	19	15	9	18.1%
GPT-5.4 Nano (Reasoning)	25	21	19	17	7	17.8%
Xiaomi MIMO v2.5 Pro	66	10	8	3	2	17.6%
Qwen 3.5 27B	29	21	16	11	11	17.5%
Z.AI GLM 4.6	32	21	15	11	5	16.8%
GPT-5.6 Luna (Reasoning)	25	24	14	12	9	16.7%
Claude Opus 4.5	27	18	14	9	9	15.6%
Claude Sonnet 4.6	20	19	17	13	8	15.5%
Z.AI GLM 4.7	21	18	17	11	9	15.4%
Qwen 3.5 397B A17B	25	24	13	11	4	15.2%
Gemini 3 Flash (Preview, Reasoning)	33	11	8	3	3	11.8%
Nemotron 3 Super	22	21	14	0	0	11.6%
GPT-5.6 Terra	15	13	11	10	8	11.4%
Xiaomi MIMO v2.5	35	10	9	2	1	11.3%
Gemini 3 Flash (Preview)	21	15	7	5	3	10.3%
GPT-5.1	20	12	8	7	4	10.1%
Claude Sonnet 4.5	13	11	11	8	6	9.8%
GPT-5.4	12	11	9	9	7	9.8%
Qwen3.6 Max Preview	16	9	8	8	7	9.5%
Qwen 3.5 Plus (2026-02-15)	14	10	6	5	5	8.3%
Mistral Medium 3.1	21	7	7	3	2	8.2%
GPT-5 Mini	13	9	9	5	5	8.0%
Grok 4.20 (Reasoning)	12	11	9	4	2	7.7%
ByteDance Seed 1.6	19	10	5	4	0	7.5%
Qwen 3.5 Flash	17	7	5	4	1	6.9%
o4 Mini	10	9	6	4	3	6.5%
Qwen 3.5 Plus (2026-04-20)	13	6	6	5	2	6.3%
Claude Opus 4	9	7	7	5	2	6.1%
ByteDance Seed 2.0 Mini	10	9	5	3	2	6.0%
Claude Sonnet 5	10	8	6	3	3	5.8%
Gemini 2.5 Flash Lite (Reasoning)	19	7	3	1	0	5.8%
Gemini 2.5 Flash (Reasoning)	24	2	2	2	0	5.7%
Qwen 3.6 27B	10	8	5	3	2	5.6%
GPT-5	13	5	4	3	2	5.5%
Qwen 3.5 35B	14	6	5	2	0	5.4%
o4 Mini High	8	7	6	4	2	5.4%
Z.AI GLM 4.5	9	7	4	3	2	4.9%
Qwen 3.5 122B	9	5	4	4	0	4.3%
GPT-OSS 120B	7	5	4	3	2	4.3%
DeepSeek V3.2	6	5	3	3	2	3.8%
Ministral 8B	8	4	3	3	1	3.7%
Inception Mercury 2	9	6	1	1	1	3.6%
MiniMax M2.5	6	4	3	2	2	3.6%
Claude Sonnet 4	8	2	2	2	2	3.3%
GPT-5.4 Mini (Reasoning, Low)	6	5	3	2	1	3.2%
GPT-5.6 Luna	5	4	3	2	2	3.2%
Qwen 3.6 Flash	8	2	2	2	1	3.0%
DeepSeek V4 Pro	10	1	1	1	1	2.9%
GPT-4.1	4	4	3	2	2	2.8%
Ministral 3 8B	5	4	3	2	1	2.8%
Gemma 4 31B (Reasoning)	4	3	2	2	0	2.4%
Qwen 3.6 35B	5	3	3	0	0	2.3%
Gemma 4 31B	3	2	2	2	2	2.2%
WizardLM 2 8x22b	4	3	2	1	0	2.1%
ByteDance Seed 2.0 Lite	3	3	3	2	0	2.1%
MiniMax M2.7	4	3	2	1	1	2.1%
Gemma 4 26B	2	2	2	2	2	2.0%
Grok 4.20	4	3	2	0	0	1.9%
Ministral 3 14B	3	3	2	1	1	1.9%
Z.AI GLM 4.7 Flash	5	2	2	0	0	1.9%
GPT-5.4 Nano	3	2	2	2	1	1.8%
DeepSeek V4 Flash	3	2	2	2	1	1.8%
GPT-5.4 Nano (Reasoning, Low)	3	2	2	1	1	1.8%
Z.AI GLM 4.5 Air	4	2	1	1	0	1.7%
Ministral 3 3B	4	2	1	1	0	1.6%
Gemini 2.5 Flash	2	2	2	1	1	1.6%
Claude Haiku 4.5	2	2	2	1	1	1.6%
Mistral Large 3	2	2	2	1	1	1.5%
Mistral Large 2	2	2	1	1	1	1.5%
Grok 4.3	3	2	1	1	0	1.4%
Cydonia 24B V4.1	4	2	1	1	0	1.4%
Writer: Palmyra X5	3	3	1	0	0	1.4%
Gemini 3.1 Flash Lite	2	2	1	1	1	1.3%
Gemini 3.1 Flash Lite (Preview)	2	1	1	1	1	1.3%
Gemma 4 26B (Reasoning)	6	0	0	0	0	1.3%
Gemini 3.1 Flash Lite (Reasoning)	2	1	1	1	1	1.2%
Hermes 3 405B	5	1	0	0	0	1.1%
Ministral 3B	2	1	1	1	0	1.1%
Qwen3 235B A22B Instruct 2507	4	1	1	0	0	1.1%
GPT-4o, Aug. 6th (temp=0)	2	1	1	1	1	1.1%
Gemini 3.5 Flash (Reasoning, Minimal)	2	2	1	0	0	1.1%
GPT-5.4 Mini	2	1	1	1	0	1.0%
GPT-4.1 Mini	2	1	1	1	0	1.0%
DeepSeek V3 (2024-12-26)	2	1	1	0	0	1.0%
Grok 4.3 (Reasoning)	2	1	1	1	0	0.9%
Qwen 3 32B	3	1	1	0	0	0.9%
GPT-4o, Aug. 6th (temp=1)	1	1	1	1	0	0.9%
Qwen 3.5 9B	1	1	1	1	0	0.9%
Mistral Small 4 (Reasoning)	1	1	1	1	0	0.8%
DeepSeek-V2 Chat	2	1	1	0	0	0.7%
Mistral Small 3.2 24B	1	1	1	0	0	0.6%
DeepSeek V3.1	1	1	0	0	0	0.6%
GPT-5 Nano	1	1	1	0	0	0.5%
Llama 3.1 70B	1	1	0	0	0	0.5%
Mistral Small 4	1	1	0	0	0	0.4%
GPT-4o Mini (temp=0)	1	1	0	0	0	0.4%
Hermes 3 70B	2	0	0	0	0	0.4%
Qwen 2.5 72B	1	0	0	0	0	0.4%
Mistral NeMO	1	0	0	0	0	0.3%
Gemini 2.5 Flash Lite	1	0	0	0	0	0.2%
GPT-4o Mini (temp=1)	0	0	0	0	0	0.1%
ByteDance Seed 1.6 Flash	0	–	–	–	–	0.1%
Gemma 3 4B	0	0	0	0	0	0.1%
Gemma 3 27B	0	0	0	0	0	0.0%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.0%
GPT-4.1 Nano	0	0	0	0	0	0.0%
Arcee AI: Trinity Mini	0	0	0	0	0	0.0%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.0%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%

Relationship recall

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree