Relationship category recall

Avg. Score

28.3%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5.6 Sol (Reasoning)	99.5%	$0.186	59.0s	97%
2	Grok 4.5 (Reasoning, High)	88.4%	$0.080	2.0m	68%
3	GPT-5.4 (Reasoning)	94.3%	$0.175	2.6m	80%
4	GPT-5.6 Terra (Reasoning)	71.1%	$0.060	24.2s	43%
5	GPT-5.5 (Reasoning)	90.0%	$0.251	2.0m	72%
6	GPT-5.6 Sol	71.0%	$0.096	18.1s	34%
7	GPT-5.5	70.8%	$0.105	37.1s	31%
8	GPT-5.5 (Reasoning, Low)	70.3%	$0.097	42.6s	27%
9	Grok 4.5 (Reasoning, Low)	61.4%	$0.040	49.7s	23%
10	Claude Opus 4.6	72.3%	$0.154	31.4s	33%
11	MoonshotAI: Kimi K2.6	80.3%	$0.082	5.0m	56%
12	GPT-5.4 (Reasoning, Low)	47.0%	$0.053	35.5s	33%
13	Claude Opus 4.6 (Reasoning)	89.6%	$0.356	2.6m	72%
14	GPT-5.6 Luna (Reasoning)	45.6%	$0.027	18.6s	19%
15	Gemini 3 Flash (Preview)	34.9%	$0.0087	7.1s	23%
16	Gemini 2.5 Pro	63.0%	$0.099	58.2s	19%
17	Z.AI GLM 5.2 (Reasoning, High)	43.1%	$0.039	1.8m	34%
18	GPT-5.6 Terra	35.9%	$0.034	9.4s	19%
19	Claude Opus 4.7	63.8%	$0.182	24.3s	25%
20	Claude Sonnet 5 (Reasoning)	66.5%	$0.172	1.7m	34%
21	Gemini 3.5 Flash (Reasoning)	58.2%	$0.113	49.4s	20%
22	Claude Sonnet 4.6	43.9%	$0.081	23.3s	22%
23	Claude Opus 4.7 (Reasoning)	67.2%	$0.184	25.0s	21%
24	GPT-5.4	29.2%	$0.033	17.4s	23%
25	Gemini 3 Flash (Preview, Reasoning)	47.3%	$0.030	40.3s	8%
26	Claude Opus 4.8 (Reasoning)	84.0%	$0.381	1.9m	61%
27	Claude Sonnet 5 (Reasoning, Low)	65.2%	$0.175	1.7m	31%
28	GPT-5.2	40.9%	$0.062	50.7s	21%
29	DeepSeek V4 Flash (Reasoning)	54.5%	$0.0041	3.5m	23%
30	GPT-5.1	32.7%	$0.025	17.7s	13%
31	GPT-5.4 Nano (Reasoning)	24.7%	$0.0088	41.7s	21%
32	Xiaomi MIMO v2.5	33.8%	$0.0027	1.1m	15%
33	Grok 4.20 (Reasoning)	26.5%	$0.027	40.0s	20%
34	MoonshotAI: Kimi K2.5	66.3%	$0.031	5.4m	31%
35	Z.AI GLM 5 Turbo	53.5%	$0.044	3.6m	27%
36	Z.AI GLM 4.6	39.3%	$0.018	3.0m	29%
37	Claude Sonnet 4.5	25.0%	$0.077	18.6s	23%
38	Gemini 3.1 Pro (Preview)	66.3%	$0.172	1.5m	15%
39	ByteDance Seed 1.6	25.4%	$0.014	1.2m	18%
40	GPT-5.4 Mini (Reasoning)	51.1%	$0.117	2.8m	29%
41	Inception Mercury 2	18.1%	$0.0096	12.8s	10%
42	Mistral Medium 3.1	16.2%	$0.010	21.2s	13%
43	Qwen3.7 Max	55.8%	$0.045	3.5m	15%
44	MiniMax M2.7	17.2%	$0.0063	21.4s	11%
45	MiniMax M2.5	17.9%	$0.0036	45.0s	14%
46	o4 Mini	20.7%	$0.037	45.7s	18%
47	Claude Sonnet 5	23.0%	$0.068	17.1s	17%
48	Claude Opus 4.5	36.6%	$0.131	19.8s	17%
49	Gemini 3.5 Flash (Reasoning, Minimal)	24.1%	$0.024	6.3s	4%
50	Qwen 3.5 397B A17B	35.0%	$0.045	2.6m	23%
51	Ministral 8B	14.1%	$0.0016	15.6s	10%
52	Gemini 3.1 Flash Lite (Reasoning)	11.9%	$0.0033	3.2s	10%
53	Gemma 4 26B	13.1%	$0.0018	27.2s	13%
54	Ministral 3 8B	14.2%	$0.0022	17.0s	10%
55	GPT-5	56.5%	$0.092	2.3m	9%
56	Gemini 3.1 Flash Lite (Preview)	11.7%	$0.0046	3.2s	10%
57	Gemini 2.5 Flash	14.3%	$0.0075	6.1s	8%
58	DeepSeek V4 Pro (Reasoning)	36.9%	$0.020	2.3m	12%
59	Grok 4.3	13.4%	$0.0094	7.8s	9%
60	Gemini 3.1 Flash Lite	12.0%	$0.0031	3.3s	8%
61	DeepSeek V3.2	14.0%	$0.0046	33.9s	11%
62	Xiaomi MIMO v2.5 Pro	26.5%	$0.0076	1.9m	14%
63	Ministral 3 14B	12.8%	$0.0031	25.4s	10%
64	DeepSeek V4 Pro	13.1%	$0.0083	17.3s	10%
65	GPT-4.1	13.4%	$0.024	8.5s	11%
66	Qwen 3.6 Flash	17.4%	$0.015	51.7s	12%
67	Mistral Large 3	12.0%	$0.0091	17.5s	10%
68	GPT-5.4 Mini (Reasoning, Low)	11.4%	$0.014	14.4s	10%
69	o4 Mini High	27.4%	$0.059	1.3m	15%
70	GPT-5.6 Luna	10.3%	$0.012	8.7s	9%
71	Z.AI GLM 4.7	40.9%	$0.025	3.7m	19%
72	GPT-5 Mini	27.1%	$0.019	2.0m	13%
73	Qwen 3.6 35B	15.1%	$0.014	1.1m	14%
74	DeepSeek V4 Flash	15.5%	$0.0020	51.4s	8%
75	Z.AI GLM 5.1	73.7%	$0.081	7.3m	36%
76	Z.AI GLM 4.5	13.3%	$0.0075	48.1s	10%
77	Qwen 3.5 35B	19.6%	$0.015	2.0m	17%
78	GPT-5.4 Mini	9.1%	$0.0087	7.9s	6%
79	Grok 4.20	8.6%	$0.020	7.5s	9%
80	GPT-4o, Aug. 6th (temp=0)	15.2%	$0.032	8.4s	5%
81	Mistral Large 2	13.3%	$0.037	20.5s	10%
82	GPT-5.4 Nano	7.4%	$0.0026	11.2s	6%
83	Ministral 3B	7.5%	$0.0007	9.8s	4%
84	Ministral 3 3B	6.1%	$0.0007	9.9s	5%
85	Mistral Small 3.2 24B	6.6%	$0.0017	13.8s	5%
86	Qwen 3.5 27B	32.1%	$0.029	3.7m	22%
87	Claude Sonnet 4	17.7%	$0.072	17.5s	9%
88	DeepSeek V3 (2024-12-26)	7.6%	$0.0045	40.2s	8%
89	GPT-4.1 Mini	7.0%	$0.0046	26.0s	6%
90	GPT-5.4 Nano (Reasoning, Low)	5.6%	$0.0038	13.8s	4%
91	Grok 4.3 (Reasoning)	5.5%	$0.013	13.9s	6%
92	DeepSeek-V2 Chat	7.5%	$0.0049	34.0s	6%
93	Claude Haiku 4.5	7.6%	$0.024	8.2s	5%
94	Writer: Palmyra X5	5.8%	$0.016	18.4s	7%
95	DeepSeek V3.1	11.2%	$0.0055	52.0s	5%
96	Mistral Small 4 (Reasoning)	5.9%	$0.0051	24.7s	5%
97	Qwen3.6 Max Preview	43.8%	$0.084	3.7m	19%
98	Qwen 3.5 Plus (2026-02-15)	33.7%	$0.021	3.9m	17%
99	GPT-OSS 120B	17.1%	$0.0040	2.2m	11%
100	Qwen 3.5 Plus (2026-04-20)	22.3%	$0.023	3.1m	19%
101	Gemini 2.5 Flash (Reasoning)	10.7%	$0.023	37.3s	4%
102	Qwen 3.6 27B	26.3%	$0.034	2.7m	13%
103	MiniMax M3	65.5%	$0.036	9.3m	44%
104	Gemma 4 31B	14.1%	$0.0028	1.9m	10%
105	Gemini 2.5 Flash Lite (Reasoning)	10.3%	$0.0073	1.0m	5%
106	Mistral NeMO	4.3%	$0.0024	15.4s	1%
107	Llama 3.1 70B	5.6%	$0.0064	34.0s	4%
108	Aion 2.0	24.4%	$0.024	3.0m	14%
109	GPT-4o Mini (temp=0)	3.1%	$0.0019	20.7s	2%
110	GPT-4o, Aug. 6th (temp=1)	4.3%	$0.029	9.1s	4%
111	Mistral Small 4	1.8%	$0.0030	7.4s	0%
112	GPT-4.1 Nano	0.6%	$0.0009	6.9s	0%
113	Gemini 2.5 Flash Lite	0.7%	$0.0023	4.8s	0%
114	Z.AI GLM 5	43.2%	$0.037	4.6m	13%
115	Claude Opus 4.8 (Reasoning, Low)	69.3%	$0.383	1.9m	33%
116	ByteDance Seed 1.6 Flash	3.0%	$0.0020	34.2s	1%
117	GPT-4o Mini (temp=1)	2.1%	$0.0026	33.4s	1%
118	Aion 3.0 Mini	39.7%	$0.030	4.9m	15%
119	Qwen3 235B A22B Instruct 2507	4.3%	$0.0017	1.0m	4%
120	Qwen 2.5 72B	5.0%	$0.0056	1.2m	5%
121	Cydonia 24B V4.1	5.4%	$0.0040	1.0m	3%
122	Gemma 3 27B	0.8%	$0.0016	27.5s	0%
123	Gemma 3 4B	0.3%	$0.0007	27.5s	0%
124	Hermes 3 70B	2.4%	$0.0045	42.7s	1%
125	Qwen 3.5 Flash	22.4%	$0.0040	3.8m	14%
126	Gemma 3 12B	0.0%	$0.0014	30.4s	0%
127	Aion 3.0	58.1%	$0.074	5.8m	12%
128	DeepSeek V3 (2025-03-24)	1.8%	$0.0037	50.3s	0%
129	Hermes 3 405B	4.0%	$0.015	1.0m	2%
130	WizardLM 2 8x22b	9.8%	$0.0098	2.3m	6%
131	ByteDance Seed 2.0 Lite	25.0%	$0.014	3.6m	4%
132	Nemotron 3 Super	27.6%	$0.0000	5.5m	15%
133	Z.AI GLM 4.7 Flash	7.3%	$0.0050	2.8m	7%
134	Gemma 4 26B (Reasoning)	11.6%	$0.0041	3.1m	6%
135	GPT-5 Nano	4.8%	$0.0080	2.2m	3%
136	Arcee AI: Trinity Mini	0.7%	$0.0037	1.9m	0%
137	Qwen 3.5 122B	17.9%	$0.035	4.0m	12%
138	Z.AI GLM 4.5 Air	8.5%	$0.0071	3.2m	6%
139	Cohere Command R+ (Aug. 2024)	1.0%	$0.057	56.5s	0%
140	Qwen 3 32B	5.3%	$0.0042	2.9m	4%
141	Nemotron 3 Nano	0.9%	$0.0039	2.8m	0%
142	Gemma 4 31B (Reasoning)	25.2%	$0.0043	5.8m	7%
143	Claude Sonnet 4.6 (Reasoning)	75.9%	$0.448	5.9m	43%
144	ByteDance Seed 2.0 Mini	20.8%	$0.0062	8.7m	20%
145	Claude Opus 4	20.0%	$0.368	2.4m	16%
146	Qwen 3.5 9B	8.5%	$0.0040	7.8m	4%
28.27%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.5	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	94	98.8%
Claude Opus 4.7	100	100	100	84	84	93.7%
MoonshotAI: Kimi K2.6	100	100	100	88	77	93.1%
Z.AI GLM 5.1	100	100	100	100	59	91.7%
Aion 3.0	100	100	100	100	59	91.7%
Gemini 2.5 Pro	100	100	100	100	59	91.7%
Claude Opus 4.6	100	100	100	100	53	90.6%
GPT-5.6 Sol	100	100	100	100	48	89.6%
Grok 4.5 (Reasoning, Low)	100	100	100	81	59	88.0%
Claude Sonnet 5 (Reasoning)	100	100	81	77	59	83.5%
GPT-5.6 Terra (Reasoning)	100	100	84	77	48	82.0%
Qwen3.7 Max	100	100	100	77	32	81.8%
Claude Sonnet 5 (Reasoning, Low)	100	100	71	59	59	77.6%
MoonshotAI: Kimi K2.5	100	100	100	44	44	77.4%
Gemini 3.5 Flash (Reasoning)	100	100	100	59	4	72.5%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	59	4	72.5%
Z.AI GLM 5 Turbo	100	71	71	55	53	69.8%
Claude Opus 4.8 (Reasoning, Low)	100	100	77	59	4	67.9%
MiniMax M3	84	77	71	59	48	67.8%
Qwen3.6 Max Preview	100	59	59	59	44	63.9%
GPT-5.4 Mini (Reasoning)	94	77	59	53	32	62.9%
Z.AI GLM 5	100	100	59	32	18	61.7%
Claude Sonnet 4.6	100	59	48	48	48	60.7%
GPT-5.6 Luna (Reasoning)	100	77	53	44	18	58.3%
GPT-5.4 (Reasoning, Low)	68	68	48	46	46	55.4%
Aion 3.0 Mini	100	72	59	39	4	54.8%
GPT-5.2	84	68	48	41	29	54.2%
Z.AI GLM 4.6	59	59	59	46	42	52.7%
GPT-5.6 Terra	84	48	46	42	38	51.7%
Z.AI GLM 4.7	92	59	59	39	7	51.1%
Gemini 3 Flash (Preview)	59	59	48	45	45	51.0%
GPT-5.1	84	56	48	30	24	48.7%
Claude Opus 4.5	100	48	32	32	32	48.6%
DeepSeek V4 Pro (Reasoning)	100	59	32	22	22	47.0%
Qwen 3.5 Plus (2026-02-15)	71	59	48	28	28	46.8%
DeepSeek V4 Flash (Reasoning)	100	42	32	30	29	46.6%
Qwen 3.5 397B A17B	59	48	48	46	27	45.6%
Xiaomi MIMO v2.5	100	38	32	32	22	44.7%
o4 Mini High	64	53	34	32	32	42.9%
Gemini 3.5 Flash (Reasoning, Minimal)	100	59	32	13	10	42.6%
Gemma 4 31B (Reasoning)	64	59	48	32	5	41.6%
Z.AI GLM 5.2 (Reasoning, High)	48	48	48	32	32	41.6%
ByteDance Seed 2.0 Lite	100	59	32	11	5	41.3%
Nemotron 3 Super	77	47	44	34	0	40.3%
GPT-5.4	46	38	38	38	38	39.4%
GPT-5 Mini	72	48	32	22	22	39.4%
Qwen 3.6 27B	88	39	27	23	8	37.1%
ByteDance Seed 1.6	45	43	40	24	20	34.5%
Qwen 3.5 27B	68	39	32	32	0	34.1%
Grok 4.20 (Reasoning)	49	33	33	29	22	33.2%
Claude Sonnet 4.5	32	32	32	32	32	31.6%
Qwen 3.5 Flash	51	36	32	20	17	31.1%
Claude Sonnet 5	46	32	29	24	22	30.7%
Inception Mercury 2	48	38	24	22	17	29.7%
Xiaomi MIMO v2.5 Pro	59	44	27	11	7	29.4%
MiniMax M2.7	38	32	22	22	15	25.8%
Qwen 3.5 35B	32	32	29	27	10	25.8%
Qwen 3.6 Flash	38	32	27	17	15	25.7%
Qwen 3.5 122B	36	32	28	22	10	25.7%
Claude Sonnet 4	32	32	32	32	1	25.6%
o4 Mini	35	32	22	22	15	25.4%
MiniMax M2.5	32	30	24	22	19	25.3%
GPT-OSS 120B	37	30	22	22	14	25.2%
Qwen 3.5 Plus (2026-04-20)	40	27	25	23	10	25.0%
ByteDance Seed 2.0 Mini	32	24	22	22	22	24.5%
GPT-4o, Aug. 6th (temp=0)	55	32	24	11	1	24.4%
GPT-5.4 Nano (Reasoning)	39	24	24	22	12	24.4%
Claude Opus 4	32	32	32	24	2	24.3%
Qwen 3.6 35B	32	22	22	22	20	23.7%
DeepSeek V4 Flash	38	24	24	20	11	23.3%
Gemini 2.5 Flash	32	29	20	14	11	21.0%
Gemma 4 26B (Reasoning)	35	32	19	14	4	20.6%
Mistral Large 2	27	24	17	17	17	20.1%
Aion 2.0	55	44	0	0	0	19.6%
Grok 4.3	38	20	17	12	11	19.5%
DeepSeek V3.1	32	24	24	17	0	19.2%
Ministral 3 8B	30	24	23	11	7	18.9%
Gemma 4 31B	27	25	19	12	10	18.6%
Mistral Large 3	24	17	17	17	17	18.0%
Gemini 3.1 Flash Lite (Reasoning)	19	19	19	19	15	17.9%
Ministral 3 14B	22	21	19	13	12	17.6%
Gemma 4 26B	19	19	17	17	17	17.5%
Gemini 3.1 Flash Lite	24	19	19	15	10	17.4%
Gemini 3.1 Flash Lite (Preview)	22	19	15	15	15	17.3%
DeepSeek V4 Pro	32	20	15	15	4	17.2%
DeepSeek V3.2	24	22	17	14	8	16.8%
Z.AI GLM 4.5	22	21	15	11	11	16.1%
GPT-4.1	24	19	12	12	9	15.1%
Ministral 8B	28	17	14	10	7	15.1%
GPT-5.4 Mini (Reasoning, Low)	20	17	16	16	1	14.3%
GPT-5.4 Mini	17	17	17	11	8	13.6%
Qwen 3.5 9B	21	18	14	12	2	13.3%
Mistral Medium 3.1	24	21	11	7	2	13.1%
Grok 4.20	18	12	11	11	7	11.7%
Ministral 3B	21	18	9	9	1	11.5%
DeepSeek-V2 Chat	24	11	10	7	4	11.2%
Claude Haiku 4.5	17	17	12	6	5	11.2%
WizardLM 2 8x22b	24	24	3	3	2	11.1%
Z.AI GLM 4.5 Air	29	11	7	5	0	10.3%
Z.AI GLM 4.7 Flash	17	11	9	8	7	10.3%
DeepSeek V3 (2024-12-26)	12	11	11	10	7	10.2%
GPT-5.6 Luna	17	10	10	7	7	10.0%
GPT-4.1 Mini	12	11	10	9	7	9.7%
Mistral Small 3.2 24B	14	11	10	10	4	9.5%
Gemini 2.5 Flash (Reasoning)	32	5	4	2	2	9.1%
Gemini 2.5 Flash Lite (Reasoning)	22	7	5	4	4	8.5%
Llama 3.1 70B	17	10	8	5	3	8.3%
Ministral 3 3B	12	10	10	7	3	8.3%
Writer: Palmyra X5	12	10	8	8	4	8.2%
Qwen 2.5 72B	13	9	6	6	6	8.0%
Mistral Small 4 (Reasoning)	12	11	10	7	0	7.9%
Mistral NeMO	22	12	3	2	0	7.9%
GPT-5.4 Nano	19	7	6	5	2	7.9%
Qwen 3 32B	11	10	6	6	3	7.1%
GPT-5 Nano	13	9	8	4	1	6.9%
Cydonia 24B V4.1	20	7	3	2	0	6.5%
Qwen3 235B A22B Instruct 2507	10	8	6	5	3	6.0%
Grok 4.3 (Reasoning)	9	7	7	6	0	5.8%
GPT-4o Mini (temp=0)	8	7	5	4	2	5.3%
GPT-5.4 Nano (Reasoning, Low)	14	5	3	2	2	5.1%
GPT-4o, Aug. 6th (temp=1)	10	7	6	1	1	5.1%
Hermes 3 405B	11	6	3	2	0	4.6%
GPT-4o Mini (temp=1)	5	5	4	3	2	3.8%
Hermes 3 70B	11	3	2	2	1	3.7%
DeepSeek V3 (2025-03-24)	7	7	4	0	0	3.6%
ByteDance Seed 1.6 Flash	14	1	1	1	0	3.5%
Cohere Command R+ (Aug. 2024)	7	3	0	0	0	1.9%
Nemotron 3 Nano	4	2	2	0	0	1.7%
Mistral Small 4	8	0	0	0	0	1.5%
Gemma 3 27B	2	2	2	2	0	1.4%
Arcee AI: Trinity Mini	5	1	1	0	0	1.4%
GPT-4.1 Nano	2	2	1	0	0	1.1%
Gemini 2.5 Flash Lite	1	1	0	0	0	0.4%
Gemma 3 4B	1	1	0	0	0	0.3%
Gemma 3 12B	0	0	0	0	0	0.0%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	95	98.9%
GPT-5.4 (Reasoning)	100	100	91	81	71	88.7%
GPT-5.5 (Reasoning)	81	81	81	81	74	80.1%
Claude Opus 4.6 (Reasoning)	84	79	79	79	74	79.1%
Grok 4.5 (Reasoning, High)	79	79	79	74	72	76.7%
Claude Opus 4.8 (Reasoning, Low)	88	70	68	66	62	70.7%
Claude Opus 4.8 (Reasoning)	90	66	62	62	60	68.0%
MoonshotAI: Kimi K2.6	89	67	66	60	56	67.6%
MiniMax M3	92	74	58	48	43	63.1%
DeepSeek V4 Flash (Reasoning)	90	78	58	48	38	62.4%
GPT-5.6 Terra (Reasoning)	85	68	54	50	44	60.2%
Z.AI GLM 5.1	70	62	61	50	36	55.7%
MoonshotAI: Kimi K2.5	71	70	56	50	29	55.2%
Claude Opus 4.6	70	60	59	47	34	54.0%
Claude Sonnet 5 (Reasoning, Low)	92	64	47	34	27	52.8%
GPT-5.6 Sol	81	72	43	36	28	52.3%
Claude Sonnet 4.6 (Reasoning)	77	50	49	42	42	51.9%
Claude Sonnet 5 (Reasoning)	67	64	60	29	27	49.5%
Z.AI GLM 5.2 (Reasoning, High)	64	43	41	41	35	44.6%
Gemini 3.5 Flash (Reasoning)	54	51	49	39	27	44.0%
GPT-5.5	56	45	45	40	22	41.6%
GPT-5.5 (Reasoning, Low)	74	54	41	33	0	40.6%
GPT-5.4 Mini (Reasoning)	56	54	51	26	9	39.2%
GPT-5.4 (Reasoning, Low)	60	53	31	25	24	38.6%
Z.AI GLM 5 Turbo	66	65	35	20	0	37.2%
Grok 4.5 (Reasoning, Low)	57	35	29	29	23	34.8%
Claude Opus 4.7 (Reasoning)	66	61	29	10	7	34.5%
Gemini 2.5 Pro	64	46	34	25	3	34.3%
Claude Opus 4.7	60	44	24	21	20	33.9%
GPT-5.6 Luna (Reasoning)	52	31	31	26	24	32.8%
Gemini 3.1 Pro (Preview)	79	70	5	5	4	32.7%
Z.AI GLM 4.7	35	32	31	29	25	30.6%
Qwen 3.5 27B	37	34	31	25	22	30.0%
Qwen3.7 Max	61	55	34	0	0	29.9%
Aion 2.0	43	38	24	20	19	29.1%
GPT-5.2	38	33	25	24	18	27.6%
Claude Sonnet 4.6	32	31	30	22	20	27.1%
DeepSeek V4 Pro (Reasoning)	59	29	20	19	9	26.8%
Z.AI GLM 4.6	43	25	22	21	18	25.9%
GPT-5.4 Nano (Reasoning)	33	27	26	23	17	25.1%
Z.AI GLM 5	45	42	21	16	0	24.8%
Claude Opus 4.5	36	24	23	21	18	24.6%
Aion 3.0 Mini	49	42	32	0	0	24.6%
Aion 3.0	78	27	17	0	0	24.5%
Qwen 3.5 397B A17B	38	27	24	22	11	24.4%
Qwen3.6 Max Preview	29	26	24	22	17	23.7%
Xiaomi MIMO v2.5 Pro	58	26	19	8	7	23.7%
Xiaomi MIMO v2.5	53	30	20	6	6	22.9%
Gemini 3 Flash (Preview, Reasoning)	39	27	23	11	11	22.2%
Qwen 3.5 Plus (2026-02-15)	25	24	20	18	16	20.7%
GPT-5.6 Terra	25	22	20	18	16	20.2%
Grok 4.20 (Reasoning)	29	23	23	15	9	19.7%
Qwen 3.5 Plus (2026-04-20)	29	22	19	14	14	19.6%
Mistral Medium 3.1	28	26	20	11	11	19.3%
GPT-5.4	20	20	19	18	17	18.9%
Gemini 3 Flash (Preview)	25	23	18	16	11	18.8%
Claude Sonnet 4.5	23	20	19	18	12	18.4%
ByteDance Seed 2.0 Mini	22	21	17	16	9	17.0%
GPT-5.1	24	23	15	11	11	16.8%
ByteDance Seed 1.6	25	23	16	16	1	16.3%
o4 Mini	25	25	14	11	4	16.0%
Claude Opus 4	20	20	17	13	9	15.7%
Qwen 3.6 27B	25	23	13	11	5	15.4%
Claude Sonnet 5	20	19	13	13	12	15.3%
Nemotron 3 Super	32	26	17	0	0	14.9%
GPT-5 Mini	19	18	14	13	10	14.8%
GPT-5	20	15	14	11	10	14.2%
Qwen 3.5 Flash	23	15	14	12	5	13.8%
Qwen 3.5 35B	26	18	14	9	0	13.4%
Ministral 8B	29	12	11	10	3	13.1%
Gemini 2.5 Flash (Reasoning)	39	8	8	7	0	12.3%
Gemini 2.5 Flash Lite (Reasoning)	32	18	7	4	0	12.1%
o4 Mini High	16	15	12	10	7	11.9%
GPT-4.1	18	16	11	7	7	11.7%
DeepSeek V3.2	17	12	10	9	8	11.1%
GPT-5.6 Luna	14	12	10	9	8	10.6%
MiniMax M2.5	14	10	10	9	9	10.5%
Z.AI GLM 4.5	16	10	9	9	8	10.4%
Qwen 3.5 122B	18	12	12	10	0	10.2%
Claude Sonnet 4	14	9	9	9	9	9.9%
Gemma 4 31B	13	9	9	9	8	9.6%
Ministral 3 8B	13	13	9	8	5	9.5%
Qwen 3.6 Flash	19	9	8	5	4	9.2%
GPT-OSS 120B	13	10	8	8	5	9.0%
DeepSeek V4 Pro	19	8	8	6	4	9.0%
ByteDance Seed 2.0 Lite	14	11	10	9	0	8.8%
Gemma 4 31B (Reasoning)	13	12	9	9	0	8.8%
Gemma 4 26B	11	10	9	7	7	8.7%
WizardLM 2 8x22b	17	10	10	6	1	8.6%
MiniMax M2.7	12	10	8	7	6	8.6%
GPT-5.4 Mini (Reasoning, Low)	13	11	10	5	4	8.5%
Ministral 3 14B	11	10	8	6	5	8.0%
DeepSeek V4 Flash	10	9	7	7	6	7.7%
Gemini 2.5 Flash	9	8	7	7	7	7.6%
Grok 4.3	13	8	7	7	2	7.4%
GPT-5.4 Nano	12	7	6	6	3	6.9%
Z.AI GLM 4.5 Air	10	9	8	7	0	6.7%
Mistral Large 2	7	7	7	7	6	6.6%
Gemini 3.1 Flash Lite	8	7	7	5	5	6.6%
Qwen 3.6 35B	15	9	8	0	0	6.6%
Inception Mercury 2	12	7	7	3	3	6.4%
Gemini 3.1 Flash Lite (Preview)	7	7	6	5	5	6.1%
GPT-4o, Aug. 6th (temp=0)	9	6	6	5	4	6.1%
GPT-5.4 Nano (Reasoning, Low)	8	7	7	5	4	6.1%
Mistral Large 3	7	6	6	6	5	6.0%
Gemini 3.1 Flash Lite (Reasoning)	8	6	6	5	4	5.9%
Gemini 3.5 Flash (Reasoning, Minimal)	9	8	8	1	1	5.5%
Grok 4.20	11	9	6	0	0	5.4%
Grok 4.3 (Reasoning)	8	8	5	3	1	5.2%
DeepSeek V3 (2024-12-26)	11	7	4	2	0	4.9%
GPT-5.4 Mini	7	5	5	4	2	4.7%
Cydonia 24B V4.1	11	7	3	1	0	4.3%
Z.AI GLM 4.7 Flash	8	6	5	2	0	4.3%
GPT-4.1 Mini	6	5	4	4	2	4.2%
Claude Haiku 4.5	6	5	4	3	3	4.1%
Ministral 3 3B	12	3	2	2	1	3.9%
Mistral Small 4 (Reasoning)	8	4	4	4	0	3.9%
DeepSeek-V2 Chat	7	6	3	2	1	3.9%
Qwen 3.5 9B	5	5	4	3	2	3.8%
Mistral Small 3.2 24B	5	4	4	3	2	3.7%
Ministral 3B	5	5	4	4	1	3.6%
GPT-4o, Aug. 6th (temp=1)	5	5	4	3	2	3.6%
Hermes 3 405B	14	3	0	0	0	3.5%
Writer: Palmyra X5	7	7	2	1	0	3.4%
Qwen 3 32B	10	4	3	0	0	3.4%
DeepSeek V3.1	7	5	2	1	1	3.2%
Llama 3.1 70B	5	4	3	2	0	2.8%
GPT-5 Nano	4	3	3	2	1	2.6%
Qwen3 235B A22B Instruct 2507	8	3	1	0	0	2.6%
Gemma 4 26B (Reasoning)	13	0	0	0	0	2.6%
Mistral Small 4	6	3	1	1	0	2.1%
Qwen 2.5 72B	5	2	2	0	0	2.0%
Hermes 3 70B	5	0	0	0	0	1.0%
Gemini 2.5 Flash Lite	4	0	0	0	0	0.9%
GPT-4o Mini (temp=0)	1	1	1	1	0	0.8%
Mistral NeMO	2	1	0	0	0	0.7%
ByteDance Seed 1.6 Flash	0	–	–	–	–	0.4%
GPT-4o Mini (temp=1)	1	1	0	0	0	0.4%
Gemma 3 27B	0	0	0	0	0	0.3%
GPT-4.1 Nano	0	0	0	0	0	0.2%
Gemma 3 4B	1	0	0	0	0	0.2%
Cohere Command R+ (Aug. 2024)	0	0	0	0	0	0.1%
DeepSeek V3 (2025-03-24)	0	0	0	0	0	0.1%
Arcee AI: Trinity Mini	0	0	0	0	0	0.1%
Nemotron 3 Nano	0	0	0	0	0	0.0%
Gemma 3 12B	0	0	0	0	0	0.0%

Relationship category recall

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree