Relationship precision

Test: Relationship tree

Avg. Score

69.2%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemini 3.1 Flash Lite (Reasoning)	100.0%	$0.0033	3.2s	100%
2	Gemini 3.1 Flash Lite (Preview)	100.0%	$0.0046	3.2s	100%
3	Gemma 3 12B	100.0%	$0.0014	30.4s	100%
4	Gemma 4 26B	96.6%	$0.0018	27.2s	89%
5	Gemini 2.5 Flash	94.5%	$0.0075	6.1s	82%
6	Qwen 3.6 35B	98.4%	$0.014	1.1m	90%
7	Qwen 3.6 Flash	97.1%	$0.015	51.7s	88%
8	GPT-5.4 (Reasoning, Low)	97.0%	$0.053	35.5s	85%
9	Claude Sonnet 4	97.3%	$0.072	17.5s	84%
10	Claude Sonnet 4.5	95.3%	$0.077	18.6s	85%
11	GPT-5.6 Terra	92.1%	$0.034	9.4s	76%
12	GPT-5 Mini	96.0%	$0.019	2.0m	86%
13	GPT-5	100.0%	$0.092	2.3m	100%
14	GPT-5.4 Mini (Reasoning, Low)	88.9%	$0.014	14.4s	68%
15	GPT-5.2	94.5%	$0.062	50.7s	78%
16	GPT-5.4 Nano (Reasoning)	88.4%	$0.0088	41.7s	71%
17	Xiaomi MIMO v2.5	88.4%	$0.0027	1.1m	69%
18	o4 Mini High	91.7%	$0.059	1.3m	77%
19	DeepSeek V4 Pro (Reasoning)	93.1%	$0.020	2.3m	77%
20	Gemini 3 Flash (Preview)	83.8%	$0.0087	7.1s	56%
21	Gemini 3.1 Flash Lite	88.2%	$0.0031	3.3s	49%
22	Claude Opus 4.5	92.4%	$0.131	19.8s	75%
23	GPT-5.6 Terra (Reasoning)	86.4%	$0.060	24.2s	65%
24	Z.AI GLM 5.2 (Reasoning, High)	89.8%	$0.039	1.8m	71%
25	Nemotron 3 Nano	93.1%	$0.0039	2.8m	71%
26	Grok 4.20 (Reasoning)	85.4%	$0.027	40.0s	58%
27	Claude Sonnet 4.6	84.6%	$0.081	23.3s	66%
28	GPT-5.4	80.9%	$0.033	17.4s	57%
29	Grok 4.3	80.0%	$0.0094	7.8s	50%
30	o4 Mini	85.4%	$0.037	45.7s	57%
31	Mistral Large 3	78.2%	$0.0091	17.5s	52%
32	Grok 4.3 (Reasoning)	84.6%	$0.013	13.9s	44%
33	Qwen 3.5 35B	87.4%	$0.015	2.0m	60%
34	Xiaomi MIMO v2.5 Pro	84.8%	$0.0076	1.9m	60%
35	GPT-5.4 Mini (Reasoning)	95.6%	$0.117	2.8m	82%
36	GPT-5.6 Luna (Reasoning)	81.0%	$0.027	18.6s	51%
37	Qwen 3.5 Plus (2026-04-20)	90.3%	$0.023	3.1m	70%
38	GPT-4o Mini (temp=0)	80.0%	$0.0019	20.7s	46%
39	Qwen3.6 Max Preview	95.0%	$0.084	3.7m	84%
40	Grok 4.5 (Reasoning, Low)	82.6%	$0.040	49.7s	55%
41	GPT-OSS 120B	83.2%	$0.0040	2.2m	58%
42	Gemini 2.5 Flash (Reasoning)	82.4%	$0.023	37.3s	45%
43	Qwen 3.5 122B	91.0%	$0.035	4.0m	75%
44	DeepSeek V4 Pro	78.5%	$0.0083	17.3s	40%
45	Claude Sonnet 5	80.8%	$0.068	17.1s	51%
46	DeepSeek V4 Flash	79.7%	$0.0020	51.4s	43%
47	GPT-5.5 (Reasoning, Low)	82.0%	$0.097	42.6s	60%
48	GPT-4o, Aug. 6th (temp=0)	83.1%	$0.032	8.4s	36%
49	Inception Mercury 2	74.8%	$0.0096	12.8s	39%
50	Claude Opus 4.6	83.7%	$0.154	31.4s	64%
51	Qwen 3.6 27B	87.7%	$0.034	2.7m	56%
52	GPT-5.6 Sol	80.7%	$0.096	18.1s	51%
53	DeepSeek V3.2	73.5%	$0.0046	33.9s	41%
54	Claude Sonnet 5 (Reasoning)	90.4%	$0.172	1.7m	73%
55	Gemma 4 26B (Reasoning)	89.1%	$0.0041	3.1m	50%
56	Z.AI GLM 4.5	74.3%	$0.0075	48.1s	39%
57	Qwen 3.5 Plus (2026-02-15)	87.6%	$0.021	3.9m	58%
58	Claude Opus 4.7	84.4%	$0.182	24.3s	59%
59	Gemma 4 31B (Reasoning)	93.1%	$0.0043	5.8m	69%
60	Z.AI GLM 5	90.4%	$0.037	4.6m	64%
61	Gemma 4 31B	75.5%	$0.0028	1.9m	44%
62	Mistral Large 2	70.1%	$0.037	20.5s	37%
63	Z.AI GLM 5 Turbo	83.6%	$0.044	3.6m	57%
64	Aion 2.0	80.6%	$0.024	3.0m	49%
65	Claude Sonnet 5 (Reasoning, Low)	85.3%	$0.175	1.7m	63%
66	Z.AI GLM 4.5 Air	80.9%	$0.0071	3.2m	46%
67	ByteDance Seed 1.6	71.4%	$0.014	1.2m	35%
68	Qwen 3.5 Flash	79.6%	$0.0040	3.8m	51%
69	Claude Opus 4.7 (Reasoning)	84.7%	$0.184	25.0s	49%
70	GPT-4o Mini (temp=1)	63.8%	$0.0026	33.4s	31%
71	GPT-5.4 Nano (Reasoning, Low)	59.2%	$0.0038	13.8s	31%
72	Claude Haiku 4.5	67.7%	$0.024	8.2s	25%
73	Llama 3.1 70B	61.5%	$0.0064	34.0s	32%
74	DeepSeek-V2 Chat	71.6%	$0.0049	34.0s	20%
75	DeepSeek V3 (2025-03-24)	69.2%	$0.0037	50.3s	23%
76	Gemini 3 Flash (Preview, Reasoning)	67.5%	$0.030	40.3s	27%
77	DeepSeek V3.1	71.1%	$0.0055	52.0s	19%
78	Gemini 2.5 Pro	76.7%	$0.099	58.2s	35%
79	Gemini 3.5 Flash (Reasoning)	72.9%	$0.113	49.4s	37%
80	Aion 3.0	87.3%	$0.074	5.8m	67%
81	Claude Opus 4	96.6%	$0.368	2.4m	86%
82	Gemini 3.5 Flash (Reasoning, Minimal)	62.4%	$0.024	6.3s	20%
83	GPT-5.5	66.6%	$0.105	37.1s	37%
84	ByteDance Seed 2.0 Lite	81.0%	$0.014	3.6m	31%
85	GPT-4o, Aug. 6th (temp=1)	58.8%	$0.029	9.1s	20%
86	Qwen 3 32B	70.0%	$0.0042	2.9m	31%
87	Qwen 3.5 397B A17B	72.1%	$0.045	2.6m	35%
88	GPT-4.1	57.6%	$0.024	8.5s	19%
89	GPT-4.1 Mini	52.4%	$0.0046	26.0s	19%
90	ByteDance Seed 2.0 Mini	88.8%	$0.0062	8.7m	70%
91	Mistral Small 4	56.1%	$0.0030	7.4s	11%
92	GPT-5 Nano	63.4%	$0.0080	2.2m	27%
93	Qwen 3.5 27B	71.5%	$0.029	3.7m	39%
94	Hermes 3 70B	59.5%	$0.0045	42.7s	14%
95	Gemma 3 27B	53.1%	$0.0016	27.5s	15%
96	GPT-5.4 Mini	43.1%	$0.0087	7.9s	22%
97	GPT-5.1	51.0%	$0.025	17.7s	17%
98	GPT-5.6 Luna	43.9%	$0.012	8.7s	20%
99	Mistral Small 4 (Reasoning)	49.2%	$0.0051	24.7s	15%
100	DeepSeek V4 Flash (Reasoning)	65.0%	$0.0041	3.5m	28%
101	DeepSeek V3 (2024-12-26)	49.0%	$0.0045	40.2s	14%
102	Cohere Command R+ (Aug. 2024)	61.3%	$0.057	56.5s	14%
103	Grok 4.5 (Reasoning, High)	56.8%	$0.080	2.0m	33%
104	Z.AI GLM 5.1	85.1%	$0.081	7.3m	59%
105	Writer: Palmyra X5	41.8%	$0.016	18.4s	14%
106	MiniMax M2.7	42.5%	$0.0063	21.4s	10%
107	MoonshotAI: Kimi K2.6	75.1%	$0.082	5.0m	42%
108	Aion 3.0 Mini	75.1%	$0.030	4.9m	29%
109	Qwen3 235B A22B Instruct 2507	41.7%	$0.0017	1.0m	15%
110	Claude Opus 4.8 (Reasoning)	85.2%	$0.381	1.9m	64%
111	ByteDance Seed 1.6 Flash	40.9%	$0.0020	34.2s	9%
112	GPT-5.6 Sol (Reasoning)	68.2%	$0.186	59.0s	25%
113	Qwen 2.5 72B	47.0%	$0.0056	1.2m	7%
114	GPT-5.4 (Reasoning)	67.5%	$0.175	2.6m	38%
115	Z.AI GLM 4.7 Flash	44.8%	$0.0050	2.8m	25%
116	MoonshotAI: Kimi K2.5	70.6%	$0.031	5.4m	32%
117	Grok 4.20	30.5%	$0.020	7.5s	14%
118	Qwen3.7 Max	60.2%	$0.045	3.5m	26%
119	Ministral 3 8B	34.5%	$0.0022	17.0s	7%
120	GPT-5.4 Nano	21.8%	$0.0026	11.2s	18%
121	MiniMax M2.5	27.1%	$0.0036	45.0s	18%
122	GPT-4.1 Nano	22.8%	$0.0009	6.9s	12%
123	Ministral 8B	29.3%	$0.0016	15.6s	7%
124	Gemini 2.5 Flash Lite (Reasoning)	37.6%	$0.0073	1.0m	7%
125	Nemotron 3 Super	66.5%	$0.0000	5.5m	22%
126	Hermes 3 405B	38.0%	$0.015	1.0m	7%
127	GPT-5.5 (Reasoning)	68.3%	$0.251	2.0m	35%
128	Claude Opus 4.6 (Reasoning)	78.4%	$0.356	2.6m	54%
129	Z.AI GLM 4.7	47.3%	$0.025	3.7m	22%
130	WizardLM 2 8x22b	44.7%	$0.0098	2.3m	6%
131	Z.AI GLM 4.6	45.0%	$0.018	3.0m	15%
132	Gemini 2.5 Flash Lite	23.6%	$0.0023	4.8s	2%
133	Ministral 3 14B	19.3%	$0.0031	25.4s	9%
134	Mistral Medium 3.1	18.1%	$0.010	21.2s	7%
135	Cydonia 24B V4.1	26.6%	$0.0040	1.0m	3%
136	Mistral Small 3.2 24B	18.3%	$0.0017	13.8s	3%
137	Arcee AI: Trinity Mini	32.6%	$0.0037	1.9m	4%
138	Gemini 3.1 Pro (Preview)	47.8%	$0.172	1.5m	16%
139	Ministral 3B	7.4%	$0.0007	9.8s	4%
140	Ministral 3 3B	6.6%	$0.0007	9.9s	3%
141	Claude Opus 4.8 (Reasoning, Low)	73.7%	$0.383	1.9m	34%
142	Mistral NeMO	4.4%	$0.0024	15.4s	3%
143	Claude Sonnet 4.6 (Reasoning)	89.8%	$0.448	5.9m	70%
144	Gemma 3 4B	3.2%	$0.0007	27.5s	2%
145	Qwen 3.5 9B	55.6%	$0.0040	7.8m	23%
146	MiniMax M3	55.9%	$0.036	9.3m	22%
69.24%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	100	100.0%
Claude Opus 4.7 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
Grok 4.3 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning, Low)	100	100	100	100	100	100.0%
Grok 4.20 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.6 Sol	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5	100	100	100	100	100	100.0%
GPT-5.2	100	100	100	100	100	100.0%
Qwen 3.6 Flash	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 35B	100	100	100	100	100	100.0%
Claude Sonnet 4	100	100	100	100	100	100.0%
Claude Sonnet 4.5	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
DeepSeek V3.1	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	89	97.9%
GPT-5 Mini	100	100	100	100	86	97.3%
GPT-5.4 Mini (Reasoning, Low)	100	100	100	100	84	96.9%
Claude Opus 4.5	100	100	100	100	83	96.7%
o4 Mini High	100	100	100	100	81	96.2%
Claude Opus 4	100	100	100	100	78	95.6%
Nemotron 3 Nano	100	100	100	100	77	95.4%
MoonshotAI: Kimi K2.6	100	100	100	100	74	94.9%
GPT-OSS 120B	100	100	100	100	73	94.5%
Claude Sonnet 5	100	100	100	100	72	94.4%
Qwen 3.5 122B	100	100	100	100	70	94.0%
Gemini 2.5 Flash	100	100	100	88	76	92.7%
Qwen 3.5 27B	100	100	100	82	79	92.3%
Z.AI GLM 5 Turbo	100	100	100	100	59	91.9%
Claude Opus 4.6 (Reasoning)	100	100	91	91	76	91.8%
GPT-5.4 Nano (Reasoning)	100	100	100	79	77	91.3%
Claude Sonnet 4.6	100	100	89	89	76	91.0%
GPT-5.6 Terra	100	100	100	89	66	91.0%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	55	91.0%
Xiaomi MIMO v2.5 Pro	100	100	100	100	54	90.8%
Grok 4.5 (Reasoning, Low)	100	100	100	83	70	90.7%
Qwen 3.6 27B	100	100	100	100	53	90.6%
GPT-5.5 (Reasoning)	100	100	100	76	76	90.5%
Mistral Small 4	100	100	100	100	52	90.4%
ByteDance Seed 1.6	100	100	100	80	70	89.9%
MoonshotAI: Kimi K2.5	100	100	100	100	47	89.4%
Z.AI GLM 5.1	100	100	100	100	42	88.4%
Aion 2.0	100	100	100	100	41	88.2%
Inception Mercury 2	100	100	100	100	39	87.8%
Claude Opus 4.7	100	100	100	69	69	87.6%
ByteDance Seed 2.0 Mini	100	100	100	68	66	86.8%
Aion 3.0	100	100	100	76	55	86.2%
GPT-5.6 Luna (Reasoning)	100	100	80	76	74	86.2%
GPT-5.4 (Reasoning)	100	100	76	76	76	85.8%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	28	85.6%
Qwen 3.5 Flash	100	100	100	65	62	85.3%
GPT-5.4	100	100	81	80	64	84.8%
Grok 4.3	100	100	87	84	51	84.5%
GPT-5.5 (Reasoning, Low)	100	91	76	76	76	84.1%
ByteDance Seed 2.0 Lite	100	100	100	100	18	83.7%
DeepSeek-V2 Chat	100	100	100	100	16	83.3%
DeepSeek V4 Pro	100	100	100	100	16	83.1%
Claude Opus 4.6	100	100	73	70	70	82.5%
MiniMax M3	100	83	82	81	65	82.1%
Qwen 2.5 72B	100	100	100	66	43	81.6%
Gemini 3.1 Pro (Preview)	100	76	76	76	76	81.1%
Qwen 3 32B	100	100	100	83	22	81.0%
DeepSeek V4 Flash	100	100	100	86	18	80.9%
Gemma 4 26B (Reasoning)	100	100	100	88	16	80.8%
DeepSeek V4 Flash (Reasoning)	100	100	100	80	23	80.6%
Gemini 3.1 Flash Lite	100	100	100	87	14	80.2%
Gemma 3 27B	100	100	100	51	48	79.9%
Grok 4.5 (Reasoning, High)	83	83	76	76	76	79.2%
Qwen 3.5 397B A17B	100	100	80	80	31	78.1%
Z.AI GLM 4.5	100	100	76	58	51	76.9%
Cohere Command R+ (Aug. 2024)	100	100	100	41	41	76.4%
Gemini 3 Flash (Preview)	100	81	80	73	44	75.5%
Aion 3.0 Mini	100	100	100	76	1	75.5%
Mistral Small 4 (Reasoning)	100	100	67	66	39	74.4%
GPT-5.5	100	76	76	70	37	72.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	55	1	71.3%
Claude Haiku 4.5	100	100	100	30	21	70.2%
Qwen3.7 Max	100	83	76	76	15	70.2%
GPT-4o, Aug. 6th (temp=0)	100	100	100	48	0	69.7%
Z.AI GLM 4.5 Air	100	100	66	61	16	68.5%
Hermes 3 70B	100	100	73	54	13	68.0%
GPT-4o Mini (temp=1)	100	100	50	48	39	67.5%
GPT-5.1	100	78	75	72	7	66.6%
Qwen 3.5 9B	100	73	72	48	35	65.6%
Gemini 3 Flash (Preview, Reasoning)	100	100	83	42	1	65.3%
Nemotron 3 Super	100	100	45	42	33	64.0%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	64	42	12	63.8%
Gemini 3.5 Flash (Reasoning)	100	83	76	55	1	63.1%
DeepSeek V3.2	100	86	50	41	34	62.3%
Mistral Large 3	65	65	65	65	53	62.3%
GPT-5 Nano	100	100	68	37	5	62.0%
Llama 3.1 70B	100	72	64	47	27	61.9%
Mistral Large 2	86	86	65	47	22	61.1%
GPT-4o Mini (temp=0)	82	82	62	38	36	60.0%
Gemma 4 31B	100	85	58	32	25	59.8%
Z.AI GLM 4.7 Flash	85	68	67	59	15	58.7%
DeepSeek V3 (2024-12-26)	100	71	69	29	23	58.4%
DeepSeek V3 (2025-03-24)	100	100	41	23	23	57.4%
GPT-4.1	100	100	61	13	8	56.4%
Ministral 3 8B	100	77	51	45	10	56.3%
Z.AI GLM 4.7	100	69	51	38	16	55.1%
Gemini 2.5 Flash Lite (Reasoning)	100	100	43	23	9	55.0%
GPT-4.1 Mini	100	69	61	22	20	54.6%
GPT-5.4 Nano (Reasoning, Low)	85	74	43	39	12	50.6%
Qwen3 235B A22B Instruct 2507	74	69	53	35	21	50.5%
Ministral 8B	87	71	48	27	6	47.9%
WizardLM 2 8x22b	100	77	43	10	4	46.9%
ByteDance Seed 1.6 Flash	100	73	44	6	6	45.8%
MiniMax M2.7	100	63	35	15	9	44.4%
GPT-5.4 Mini	74	49	43	30	22	43.8%
GPT-4o, Aug. 6th (temp=1)	100	66	43	1	0	41.9%
Gemini 2.5 Flash Lite	100	100	3	0	0	40.7%
Arcee AI: Trinity Mini	100	57	24	6	4	38.3%
GPT-5.6 Luna	74	50	23	23	18	37.7%
Z.AI GLM 4.6	80	46	26	25	7	36.6%
Writer: Palmyra X5	61	37	37	29	10	34.8%
Hermes 3 405B	100	29	21	12	0	32.7%
Ministral 3 14B	59	40	33	19	13	32.5%
Grok 4.20	51	35	28	26	16	31.3%
Mistral Small 3.2 24B	100	27	9	3	2	28.5%
Mistral Medium 3.1	61	46	13	13	8	28.2%
MiniMax M2.5	39	38	33	17	11	27.5%
Cydonia 24B V4.1	100	16	14	6	1	27.5%
GPT-4.1 Nano	51	38	20	10	10	25.8%
GPT-5.4 Nano	36	26	24	23	16	25.0%
Ministral 3 3B	18	17	11	8	2	11.1%
Ministral 3B	28	8	8	4	2	10.1%
Mistral NeMO	12	5	4	1	0	4.6%
Gemma 3 4B	10	5	4	1	1	4.1%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Reasoning)	100	100	100	100	100	100.0%
Gemini 3.1 Flash Lite (Preview)	100	100	100	100	100	100.0%
GPT-4o Mini (temp=0)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Claude Opus 4	100	100	100	100	88	97.6%
Gemma 4 26B (Reasoning)	100	100	100	100	87	97.4%
Qwen 3.6 35B	100	100	100	100	84	96.8%
GPT-4o, Aug. 6th (temp=0)	100	100	100	100	82	96.5%
Gemini 2.5 Flash	100	100	100	100	81	96.3%
Gemini 3.1 Flash Lite	100	100	100	100	81	96.1%
GPT-5 Mini	100	100	100	94	80	94.7%
Claude Sonnet 4	100	100	100	100	73	94.5%
Qwen 3.6 Flash	100	100	100	88	83	94.2%
Mistral Large 3	100	100	91	91	90	94.2%
GPT-5.4 (Reasoning, Low)	100	100	100	96	74	94.0%
Z.AI GLM 4.5 Air	100	100	100	93	74	93.4%
GPT-5.6 Terra	100	100	94	94	78	93.3%
Gemma 4 26B	100	100	91	91	84	93.1%
Gemini 3 Flash (Preview)	100	100	100	93	67	92.1%
Gemma 4 31B	92	91	91	91	91	91.2%
GPT-5.4 Mini (Reasoning)	100	100	95	90	71	91.2%
Nemotron 3 Nano	100	100	100	100	54	90.8%
ByteDance Seed 2.0 Mini	100	100	100	88	66	90.7%
Claude Sonnet 4.5	100	100	89	87	77	90.5%
Qwen3.6 Max Preview	100	100	88	82	80	89.9%
GPT-5.2	100	100	95	85	65	89.1%
Aion 3.0	100	100	100	78	64	88.4%
Qwen 3.5 122B	100	100	93	79	69	88.1%
Claude Opus 4.5	100	95	94	90	62	88.1%
o4 Mini High	100	93	91	79	72	87.2%
DeepSeek V4 Pro (Reasoning)	100	100	89	72	70	86.2%
Gemma 4 31B (Reasoning)	100	100	92	91	47	86.1%
GPT-5.4 Nano (Reasoning)	95	90	87	85	70	85.5%
Claude Opus 4.6	91	90	84	80	79	84.8%
DeepSeek V3.2	100	100	87	71	66	84.7%
Qwen 3.6 27B	100	100	94	94	36	84.7%
Gemini 3.5 Flash (Reasoning)	100	84	82	79	68	82.6%
Z.AI GLM 5.1	100	96	84	71	58	81.8%
Claude Opus 4.7	100	95	84	79	47	81.1%
DeepSeek V3 (2025-03-24)	100	100	100	100	5	81.1%
GPT-5.4 Mini (Reasoning, Low)	100	84	82	81	57	80.8%
Claude Sonnet 5 (Reasoning)	100	92	81	68	64	80.8%
Z.AI GLM 5	100	100	92	64	48	80.8%
Qwen 3.5 Plus (2026-04-20)	100	100	76	67	60	80.6%
GPT-5.5 (Reasoning, Low)	100	83	74	74	69	79.9%
Claude Sonnet 5 (Reasoning, Low)	100	88	75	73	63	79.7%
Z.AI GLM 5.2 (Reasoning, High)	95	90	82	72	59	79.6%
Claude Sonnet 4.6 (Reasoning)	92	91	83	74	58	79.5%
Gemini 2.5 Flash (Reasoning)	100	100	100	52	44	79.2%
Mistral Large 2	100	100	91	62	44	79.2%
Xiaomi MIMO v2.5 Pro	100	88	76	75	53	78.7%
DeepSeek V4 Flash	100	100	82	56	54	78.5%
ByteDance Seed 2.0 Lite	100	100	100	84	7	78.3%
Claude Sonnet 4.6	94	90	81	68	57	78.2%
GPT-5.4	100	88	70	63	63	77.0%
Xiaomi MIMO v2.5	100	81	78	70	54	76.7%
Claude Opus 4.8 (Reasoning, Low)	92	85	81	73	51	76.1%
GPT-5.6 Luna (Reasoning)	100	100	71	58	49	75.8%
GPT-4o, Aug. 6th (temp=1)	100	89	78	62	49	75.6%
Grok 4.3	100	91	81	72	34	75.4%
Z.AI GLM 5 Turbo	100	96	76	62	42	75.3%
Qwen 3.5 Plus (2026-02-15)	93	87	84	81	32	75.3%
GPT-5.6 Terra (Reasoning)	87	80	73	70	64	75.0%
Aion 3.0 Mini	100	100	100	54	20	74.8%
Qwen 3.5 35B	100	86	84	66	37	74.7%
Grok 4.5 (Reasoning, Low)	94	85	82	69	41	74.5%
DeepSeek V4 Pro	100	90	83	48	48	73.9%
Qwen 3.5 Flash	93	82	73	69	53	73.9%
Aion 2.0	100	74	72	71	48	73.0%
GPT-OSS 120B	85	84	67	62	60	71.8%
Z.AI GLM 4.5	100	100	91	40	27	71.6%
o4 Mini	100	92	67	53	42	70.8%
Grok 4.20 (Reasoning)	89	85	74	65	40	70.7%
Claude Opus 4.8 (Reasoning)	92	71	65	62	62	70.3%
Gemini 3 Flash (Preview, Reasoning)	95	94	94	36	30	69.7%
Claude Opus 4.7 (Reasoning)	100	92	86	39	30	69.4%
Grok 4.3 (Reasoning)	100	100	80	56	11	69.2%
Nemotron 3 Super	100	100	55	45	45	69.0%
GPT-5.4 Nano (Reasoning, Low)	100	78	69	60	32	67.8%
Claude Sonnet 5	93	68	66	61	47	67.1%
Qwen 3.5 397B A17B	100	83	71	64	12	66.1%
Claude Haiku 4.5	100	59	57	56	54	65.2%
Claude Opus 4.6 (Reasoning)	93	65	63	55	50	65.1%
GPT-5 Nano	87	80	68	62	26	64.7%
Inception Mercury 2	100	67	62	43	38	61.8%
GPT-5.6 Sol	81	68	67	46	45	61.5%
GPT-5.5	100	57	54	49	46	61.2%
Gemini 3.5 Flash (Reasoning, Minimal)	100	91	91	12	11	61.1%
Llama 3.1 70B	100	77	71	38	20	61.0%
GPT-4o Mini (temp=1)	83	68	60	47	42	60.0%
DeepSeek-V2 Chat	100	100	82	14	3	59.9%
Qwen 3 32B	100	88	45	32	30	58.9%
GPT-4.1	100	73	68	42	10	58.7%
MoonshotAI: Kimi K2.6	87	58	47	42	41	55.2%
Gemini 2.5 Pro	91	76	50	49	1	53.5%
Z.AI GLM 4.6	100	76	47	27	17	53.3%
ByteDance Seed 1.6	83	66	55	49	11	53.0%
MoonshotAI: Kimi K2.5	68	64	46	43	38	51.8%
Hermes 3 70B	100	100	48	6	1	51.1%
Qwen 3.5 27B	88	51	48	36	31	50.8%
GPT-4.1 Mini	89	86	42	21	12	50.3%
Qwen3.7 Max	100	71	48	26	6	50.3%
GPT-5.6 Luna	100	46	40	37	27	50.2%
DeepSeek V4 Flash (Reasoning)	72	64	53	34	24	49.4%
GPT-5.4 (Reasoning)	86	60	36	33	29	49.1%
Writer: Palmyra X5	92	85	62	4	2	48.8%
Cohere Command R+ (Aug. 2024)	100	100	16	16	0	46.3%
GPT-5.5 (Reasoning)	59	49	45	42	35	46.1%
Qwen 3.5 9B	100	66	26	25	10	45.7%
Hermes 3 405B	100	69	32	12	4	43.3%
WizardLM 2 8x22b	100	83	13	12	5	42.5%
GPT-5.4 Mini	88	40	38	27	18	42.4%
DeepSeek V3.1	100	81	13	10	7	42.2%
MiniMax M2.7	89	68	25	15	7	40.6%
DeepSeek V3 (2024-12-26)	100	59	24	11	4	39.6%
Z.AI GLM 4.7	69	47	43	31	7	39.5%
GPT-5.6 Sol (Reasoning)	37	37	37	37	35	36.4%
GPT-5.1	93	41	21	13	10	35.4%
Grok 4.5 (Reasoning, High)	44	36	32	30	30	34.4%
Qwen3 235B A22B Instruct 2507	100	48	10	4	3	33.0%
Z.AI GLM 4.7 Flash	65	54	22	11	2	31.0%
MiniMax M3	39	39	38	18	14	29.8%
Grok 4.20	75	58	9	4	2	29.7%
Arcee AI: Trinity Mini	100	23	12	0	0	27.0%
MiniMax M2.5	52	38	17	16	11	26.6%
Gemma 3 27B	39	34	32	25	3	26.3%
Cydonia 24B V4.1	100	17	11	1	0	25.8%
Mistral Small 4 (Reasoning)	41	34	21	15	10	24.0%
Mistral Small 4	41	26	21	13	8	21.7%
Gemini 2.5 Flash Lite (Reasoning)	57	26	8	5	4	20.2%
GPT-4.1 Nano	36	27	13	12	11	19.8%
GPT-5.4 Nano	29	18	16	15	14	18.7%
ByteDance Seed 1.6 Flash	16	–	–	–	–	16.1%
Gemini 3.1 Pro (Preview)	32	28	10	1	1	14.5%
Ministral 3 8B	18	16	15	8	5	12.7%
Qwen 2.5 72B	19	16	13	12	2	12.4%
Ministral 8B	21	10	10	8	5	10.6%
Mistral Small 3.2 24B	23	6	5	4	2	8.1%
Mistral Medium 3.1	22	9	4	4	2	8.0%
Gemini 2.5 Flash Lite	10	9	7	6	1	6.5%
Ministral 3 14B	15	11	4	1	0	6.0%
Ministral 3B	10	6	4	3	1	4.8%
Mistral NeMO	11	4	3	2	1	4.2%
Gemma 3 4B	6	2	2	1	1	2.2%
Ministral 3 3B	5	3	2	1	1	2.1%

Relationship precision

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree