Relationship type accuracy

Test: Relationship tree

Avg. Score

76.7%

Scenarios

Overall Performance

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	Gemma 3 12B	100.0%	$0.0014	30.4s	100%
2	GPT-5.4 Nano (Reasoning)	95.0%	$0.0088	41.7s	86%
3	GPT-4o, Aug. 6th (temp=0)	94.8%	$0.032	8.4s	86%
4	Gemini 2.5 Flash	92.3%	$0.0075	6.1s	83%
5	GPT-5.1	94.6%	$0.025	17.7s	85%
6	Z.AI GLM 4.5	94.0%	$0.0075	48.1s	84%
7	Grok 4.20	93.0%	$0.020	7.5s	81%
8	GPT-5.4 (Reasoning, Low)	95.2%	$0.053	35.5s	84%
9	GPT-5 Mini	95.7%	$0.019	2.0m	86%
10	o4 Mini	94.3%	$0.037	45.7s	80%
11	Claude Opus 4.5	96.0%	$0.131	19.8s	89%
12	Grok 4.20 (Reasoning)	91.6%	$0.027	40.0s	77%
13	GPT-5.2	94.2%	$0.062	50.7s	82%
14	ByteDance Seed 1.6	90.6%	$0.014	1.2m	76%
15	o4 Mini High	93.3%	$0.059	1.3m	81%
16	Mistral Large 3	86.9%	$0.0091	17.5s	67%
17	DeepSeek V3.1	88.1%	$0.0055	52.0s	69%
18	GPT-5.6 Terra	87.0%	$0.034	9.4s	69%
19	Gemini 2.5 Flash (Reasoning)	88.7%	$0.023	37.3s	69%
20	Gemini 3 Flash (Preview, Reasoning)	87.1%	$0.030	40.3s	71%
21	Mistral Large 2	89.4%	$0.037	20.5s	66%
22	GPT-5.4 (Reasoning)	99.5%	$0.175	2.6m	98%
23	Grok 4.5 (Reasoning, High)	93.1%	$0.080	2.0m	83%
24	GPT-5.6 Terra (Reasoning)	88.3%	$0.060	24.2s	70%
25	Claude Opus 4.6	94.5%	$0.154	31.4s	80%
26	DeepSeek V3.2	85.1%	$0.0046	33.9s	64%
27	GPT-5	94.0%	$0.092	2.3m	84%
28	GPT-5.6 Sol (Reasoning)	96.5%	$0.186	59.0s	86%
29	GPT-5.6 Luna (Reasoning)	83.6%	$0.027	18.6s	65%
30	Mistral Medium 3.1	83.3%	$0.010	21.2s	62%
31	GPT-5.4	83.6%	$0.033	17.4s	65%
32	Gemini 3 Flash (Preview)	75.2%	$0.0087	7.1s	68%
33	Inception Mercury 2	78.0%	$0.0096	12.8s	65%
34	GPT-5.6 Sol	87.6%	$0.096	18.1s	70%
35	Xiaomi MIMO v2.5 Pro	87.1%	$0.0076	1.9m	67%
36	Grok 4.5 (Reasoning, Low)	85.4%	$0.040	49.7s	65%
37	DeepSeek V3 (2025-03-24)	85.7%	$0.0037	50.3s	59%
38	GPT-4.1	82.0%	$0.024	8.5s	59%
39	Gemini 2.5 Pro	88.5%	$0.099	58.2s	72%
40	GPT-5.5 (Reasoning, Low)	88.0%	$0.097	42.6s	70%
41	Gemini 2.5 Flash Lite (Reasoning)	83.3%	$0.0073	1.0m	61%
42	GPT-4o, Aug. 6th (temp=1)	82.9%	$0.029	9.1s	58%
43	Xiaomi MIMO v2.5	83.8%	$0.0027	1.1m	61%
44	GPT-5.5	80.7%	$0.105	37.1s	78%
45	Ministral 3 14B	80.8%	$0.0031	25.4s	57%
46	Aion 2.0	90.0%	$0.024	3.0m	73%
47	MiniMax M2.5	78.0%	$0.0036	45.0s	61%
48	Claude Sonnet 4.6	76.7%	$0.081	23.3s	72%
49	DeepSeek V4 Flash (Reasoning)	88.9%	$0.0041	3.5m	71%
50	Gemini 3.5 Flash (Reasoning, Minimal)	81.2%	$0.024	6.3s	54%
51	ByteDance Seed 1.6 Flash	81.7%	$0.0020	34.2s	51%
52	Gemini 3.5 Flash (Reasoning)	84.7%	$0.113	49.4s	69%
53	Z.AI GLM 4.7	87.2%	$0.025	3.7m	73%
54	Grok 4.3 (Reasoning)	76.6%	$0.013	13.9s	53%
55	Z.AI GLM 5.2 (Reasoning, High)	80.8%	$0.039	1.8m	67%
56	Gemini 3.1 Flash Lite (Preview)	66.0%	$0.0046	3.2s	62%
57	Z.AI GLM 5 Turbo	88.7%	$0.044	3.6m	72%
58	Qwen 3.6 Flash	78.5%	$0.015	51.7s	54%
59	Claude Opus 4.7	83.9%	$0.182	24.3s	73%
60	Gemini 3.1 Pro (Preview)	87.8%	$0.172	1.5m	75%
61	DeepSeek V4 Pro (Reasoning)	82.0%	$0.020	2.3m	61%
62	GPT-5.4 Mini (Reasoning)	89.4%	$0.117	2.8m	74%
63	Qwen3.7 Max	88.5%	$0.045	3.5m	67%
64	MoonshotAI: Kimi K2.6	92.1%	$0.082	5.0m	81%
65	Claude Opus 4.7 (Reasoning)	83.0%	$0.184	25.0s	69%
66	ByteDance Seed 2.0 Lite	83.5%	$0.014	3.6m	64%
67	Gemini 3.1 Flash Lite (Reasoning)	67.1%	$0.0033	3.2s	50%
68	Claude Sonnet 4.5	77.6%	$0.077	18.6s	53%
69	Nemotron 3 Nano	81.9%	$0.0039	2.8m	56%
70	Qwen 3.5 397B A17B	78.2%	$0.045	2.6m	65%
71	Aion 3.0 Mini	88.3%	$0.030	4.9m	70%
72	GPT-OSS 120B	79.1%	$0.0040	2.2m	53%
73	Gemma 4 31B	68.3%	$0.0028	1.9m	62%
74	Qwen 3.5 27B	83.9%	$0.029	3.7m	63%
75	DeepSeek V4 Pro	65.0%	$0.0083	17.3s	51%
76	Cohere Command R+ (Aug. 2024)	79.2%	$0.057	56.5s	48%
77	Z.AI GLM 4.6	76.9%	$0.018	3.0m	62%
78	GPT-5.4 Mini (Reasoning, Low)	64.1%	$0.014	14.4s	52%
79	Qwen 3.5 Plus (2026-02-15)	81.1%	$0.021	3.9m	65%
80	Ministral 8B	66.6%	$0.0016	15.6s	46%
81	Gemma 4 26B	59.1%	$0.0018	27.2s	56%
82	Gemini 3.1 Flash Lite	64.6%	$0.0031	3.3s	47%
83	Claude Sonnet 5 (Reasoning, Low)	79.5%	$0.175	1.7m	74%
84	Qwen 3.6 27B	77.6%	$0.034	2.7m	59%
85	GPT-5.4 Nano (Reasoning, Low)	67.9%	$0.0038	13.8s	43%
86	Qwen 3 32B	74.7%	$0.0042	2.9m	57%
87	MiniMax M2.7	63.2%	$0.0063	21.4s	49%
88	Nemotron 3 Super	86.1%	$0.0000	5.5m	66%
89	Qwen 3.5 Plus (2026-04-20)	81.5%	$0.023	3.1m	54%
90	Qwen 3.6 35B	70.0%	$0.014	1.1m	49%
91	Qwen3.6 Max Preview	82.9%	$0.084	3.7m	67%
92	GPT-5.4 Mini	58.0%	$0.0087	7.9s	51%
93	MoonshotAI: Kimi K2.5	86.0%	$0.031	5.4m	68%
94	WizardLM 2 8x22b	75.9%	$0.0098	2.3m	49%
95	Writer: Palmyra X5	69.1%	$0.016	18.4s	40%
96	Claude Sonnet 5	62.8%	$0.068	17.1s	55%
97	GPT-5.5 (Reasoning)	88.6%	$0.251	2.0m	72%
98	Claude Sonnet 5 (Reasoning)	81.6%	$0.172	1.7m	63%
99	Qwen 3.5 Flash	74.9%	$0.0040	3.8m	58%
100	Z.AI GLM 5	81.6%	$0.037	4.6m	62%
101	Qwen3 235B A22B Instruct 2507	69.5%	$0.0017	1.0m	37%
102	Qwen 3.5 122B	76.3%	$0.035	4.0m	59%
103	Claude Opus 4.6 (Reasoning)	94.1%	$0.356	2.6m	83%
104	Gemini 2.5 Flash Lite	64.7%	$0.0023	4.8s	32%
105	Mistral Small 3.2 24B	53.8%	$0.0017	13.8s	45%
106	GPT-4.1 Nano	57.8%	$0.0009	6.9s	40%
107	Z.AI GLM 4.7 Flash	74.3%	$0.0050	2.8m	44%
108	GPT-4.1 Mini	55.2%	$0.0046	26.0s	45%
109	GPT-4o Mini (temp=1)	59.7%	$0.0026	33.4s	41%
110	Qwen 3.5 35B	65.4%	$0.015	2.0m	49%
111	Claude Opus 4.8 (Reasoning, Low)	92.6%	$0.383	1.9m	82%
112	Aion 3.0	86.9%	$0.074	5.8m	67%
113	GPT-5 Nano	69.2%	$0.0080	2.2m	44%
114	DeepSeek V3 (2024-12-26)	64.8%	$0.0045	40.2s	35%
115	Claude Sonnet 4	62.2%	$0.072	17.5s	47%
116	DeepSeek-V2 Chat	64.1%	$0.0049	34.0s	35%
117	Mistral Small 4	65.4%	$0.0030	7.4s	29%
118	DeepSeek V4 Flash	61.4%	$0.0020	51.4s	38%
119	GPT-5.6 Luna	56.3%	$0.012	8.7s	40%
120	Claude Opus 4.8 (Reasoning)	91.1%	$0.381	1.9m	80%
121	Grok 4.3	55.6%	$0.0094	7.8s	39%
122	Mistral Small 4 (Reasoning)	64.2%	$0.0051	24.7s	29%
123	Z.AI GLM 5.1	82.2%	$0.081	7.3m	80%
124	MiniMax M3	91.1%	$0.036	9.3m	79%
125	GPT-4o Mini (temp=0)	51.6%	$0.0019	20.7s	41%
126	ByteDance Seed 2.0 Mini	87.6%	$0.0062	8.7m	70%
127	Ministral 3 8B	51.7%	$0.0022	17.0s	35%
128	Gemma 4 26B (Reasoning)	65.9%	$0.0041	3.1m	43%
129	Llama 3.1 70B	47.5%	$0.0064	34.0s	41%
130	Cydonia 24B V4.1	59.8%	$0.0040	1.0m	30%
131	GPT-5.4 Nano	46.3%	$0.0026	11.2s	37%
132	Gemma 4 31B (Reasoning)	73.9%	$0.0043	5.8m	54%
133	Gemma 3 4B	52.3%	$0.0007	27.5s	30%
134	Claude Haiku 4.5	47.2%	$0.024	8.2s	35%
135	Ministral 3B	44.7%	$0.0007	9.8s	33%
136	Hermes 3 405B	57.4%	$0.015	1.0m	24%
137	Ministral 3 3B	40.8%	$0.0007	9.9s	32%
138	Qwen 2.5 72B	44.8%	$0.0056	1.2m	36%
139	Z.AI GLM 4.5 Air	57.5%	$0.0071	3.2m	38%
140	Hermes 3 70B	50.3%	$0.0045	42.7s	20%
141	Gemma 3 27B	42.7%	$0.0016	27.5s	23%
142	Arcee AI: Trinity Mini	52.8%	$0.0037	1.9m	23%
143	Qwen 3.5 9B	64.4%	$0.0040	7.8m	53%
144	Mistral NeMO	30.3%	$0.0024	15.4s	21%
145	Claude Sonnet 4.6 (Reasoning)	85.2%	$0.448	5.9m	73%
146	Claude Opus 4	65.2%	$0.368	2.4m	49%
76.66%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
o4 Mini	100	100	100	100	100	100.0%
Mistral Large 2	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
Claude Opus 4.5	100	100	100	100	90	98.1%
GPT-5.4 Nano (Reasoning)	100	100	100	100	85	97.0%
GPT-5.1	100	100	100	100	84	96.9%
GPT-5 Mini	100	100	100	100	80	96.1%
Z.AI GLM 4.5	100	100	100	93	86	95.8%
Gemini 3.5 Flash (Reasoning, Minimal)	100	100	100	95	80	95.0%
o4 Mini High	100	100	100	95	76	94.1%
GPT-4o, Aug. 6th (temp=0)	100	100	100	89	81	94.0%
Gemini 2.5 Flash (Reasoning)	100	100	100	100	65	93.1%
GPT-5.6 Sol (Reasoning)	100	100	100	83	83	93.0%
Gemini 2.5 Flash	100	100	93	90	81	92.8%
Claude Opus 4.6	100	100	100	93	71	92.8%
Grok 4.20	100	100	100	88	74	92.4%
ByteDance Seed 1.6	100	100	100	88	73	92.3%
Mistral Large 3	100	100	100	90	71	92.2%
MiniMax M3	100	100	100	81	80	92.1%
GPT-5	100	98	98	83	82	92.0%
GPT-5.4 (Reasoning, Low)	100	100	100	81	79	92.0%
GPT-5.4 Mini (Reasoning)	100	100	100	81	79	91.9%
GPT-5.2	100	100	100	85	74	91.8%
Mistral Medium 3.1	100	100	100	87	66	90.5%
Grok 4.20 (Reasoning)	100	100	100	75	75	90.0%
Claude Opus 4.6 (Reasoning)	100	100	83	83	83	89.5%
Grok 4.5 (Reasoning, High)	100	100	83	83	83	89.5%
Gemini 2.5 Pro	100	100	83	83	83	89.5%
MoonshotAI: Kimi K2.6	100	100	83	83	82	89.4%
Gemini 3 Flash (Preview, Reasoning)	100	100	83	83	80	89.0%
Gemini 3.5 Flash (Reasoning)	100	100	83	83	80	89.0%
ByteDance Seed 2.0 Mini	100	100	100	72	72	88.9%
Xiaomi MIMO v2.5 Pro	100	100	100	77	66	88.6%
Aion 2.0	100	100	100	72	68	88.1%
GPT-5.6 Terra (Reasoning)	100	93	82	81	79	86.8%
ByteDance Seed 1.6 Flash	100	100	100	90	44	86.7%
Z.AI GLM 4.7 Flash	100	100	95	75	63	86.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	100	72	60	86.5%
Xiaomi MIMO v2.5	100	100	83	76	72	86.1%
GPT-5.5 (Reasoning, Low)	100	83	83	83	83	86.0%
Aion 3.0	100	83	83	83	80	85.5%
DeepSeek V3.1	100	100	87	75	65	85.4%
Grok 4.5 (Reasoning, Low)	100	83	83	82	80	85.4%
Claude Opus 4.8 (Reasoning, Low)	100	83	83	81	80	85.1%
Claude Opus 4.8 (Reasoning)	100	83	83	83	77	84.9%
Z.AI GLM 5 Turbo	100	83	81	81	79	84.7%
Gemini 3.1 Pro (Preview)	100	83	83	83	76	84.7%
Qwen3.7 Max	100	83	83	81	76	84.3%
GPT-5.6 Luna (Reasoning)	100	83	82	79	77	84.1%
Nemotron 3 Nano	100	100	90	66	63	83.7%
Z.AI GLM 4.7	100	86	82	80	71	83.6%
DeepSeek V4 Flash (Reasoning)	100	100	83	75	60	83.5%
Nemotron 3 Super	100	85	78	77	77	83.3%
GPT-5.5 (Reasoning)	83	83	83	83	83	82.6%
Claude Sonnet 4.6 (Reasoning)	83	83	83	83	83	82.6%
Claude Opus 4.7 (Reasoning)	83	83	83	83	83	82.6%
GPT-5.5	83	83	83	83	83	82.6%
Qwen 3.5 27B	100	81	77	76	76	82.0%
Z.AI GLM 5.1	83	83	83	83	80	82.0%
GPT-5.6 Sol	83	83	83	83	79	81.8%
Aion 3.0 Mini	100	80	77	77	74	81.7%
Ministral 3 14B	100	96	92	74	46	81.7%
GPT-4.1	100	100	85	67	55	81.5%
MoonshotAI: Kimi K2.5	100	83	83	68	66	79.9%
Qwen3.6 Max Preview	83	80	80	80	77	79.8%
Qwen 3.5 Flash	100	79	76	73	71	79.8%
Claude Opus 4.7	83	83	83	82	68	79.5%
DeepSeek V4 Pro (Reasoning)	100	80	76	72	69	79.4%
GPT-4o, Aug. 6th (temp=1)	100	91	88	80	37	79.0%
Gemini 3 Flash (Preview)	80	80	79	78	78	78.8%
Qwen 3.5 397B A17B	83	80	79	79	74	78.8%
DeepSeek V3.2	100	100	72	64	56	78.6%
Claude Sonnet 4.6	83	79	79	79	74	78.5%
GPT-5.4	79	78	78	78	78	78.2%
ByteDance Seed 2.0 Lite	100	83	80	76	52	78.1%
Qwen 3.5 122B	90	77	76	74	72	77.8%
Qwen 3.5 Plus (2026-02-15)	81	80	79	74	74	77.5%
GPT-5.6 Terra	80	79	79	78	70	77.1%
Cohere Command R+ (Aug. 2024)	100	100	100	42	41	76.6%
Claude Sonnet 5 (Reasoning, Low)	83	81	76	72	72	76.4%
Qwen 3.5 Plus (2026-04-20)	100	74	72	71	64	76.4%
Qwen 3 32B	100	81	78	62	61	76.2%
Claude Sonnet 5 (Reasoning)	83	77	76	73	72	75.9%
GPT-5 Nano	94	89	83	57	55	75.7%
Qwen 3.6 27B	85	82	77	71	64	75.7%
Z.AI GLM 5.2 (Reasoning, High)	79	79	79	76	66	75.5%
Mistral Small 4	100	100	100	51	25	75.3%
Qwen 3.6 Flash	100	76	70	69	61	75.0%
Inception Mercury 2	78	78	75	71	71	74.6%
Z.AI GLM 5	83	83	80	66	61	74.4%
GPT-OSS 120B	100	77	67	67	60	74.3%
WizardLM 2 8x22b	100	95	68	65	42	74.1%
MiniMax M2.5	88	76	74	72	60	74.0%
Grok 4.3 (Reasoning)	100	100	58	56	53	73.5%
DeepSeek V3 (2025-03-24)	100	100	58	58	47	72.7%
Z.AI GLM 4.6	80	80	78	68	53	71.7%
DeepSeek V4 Pro	82	76	71	67	54	70.2%
Gemma 4 31B (Reasoning)	76	72	72	70	60	69.9%
Qwen 3.5 9B	80	74	69	66	56	69.0%
Gemini 3.1 Flash Lite (Preview)	72	70	67	67	67	68.9%
Qwen 3.5 35B	75	72	66	66	64	68.6%
Gemma 4 31B	74	72	70	64	61	68.2%
Claude Sonnet 5	74	69	68	66	61	67.6%
Gemini 3.1 Flash Lite (Reasoning)	70	70	70	70	58	67.5%
Gemma 4 26B (Reasoning)	82	76	66	58	52	66.9%
GPT-4.1 Nano	84	82	58	56	53	66.5%
Gemini 2.5 Flash Lite	100	100	71	33	25	65.7%
DeepSeek V4 Flash	89	66	65	57	50	65.3%
GPT-5.4 Mini (Reasoning, Low)	83	67	65	61	44	64.0%
Z.AI GLM 4.5 Air	79	75	69	56	42	64.0%
Claude Sonnet 4	76	66	66	66	44	63.6%
GPT-5.4 Nano (Reasoning, Low)	100	65	59	55	39	63.5%
Mistral Small 4 (Reasoning)	100	100	50	42	24	63.1%
Qwen 3.6 35B	66	66	61	61	60	62.9%
Ministral 8B	77	76	68	50	42	62.7%
Claude Opus 4	66	66	66	65	48	62.3%
Qwen3 235B A22B Instruct 2507	100	63	56	50	42	62.2%
Cydonia 24B V4.1	100	69	67	38	36	62.1%
DeepSeek V3 (2024-12-26)	100	58	52	52	46	61.9%
Gemini 3.1 Flash Lite	73	67	61	58	49	61.7%
Claude Sonnet 4.5	76	76	66	45	45	61.6%
DeepSeek-V2 Chat	86	75	52	48	46	61.6%
MiniMax M2.7	72	63	63	53	52	60.7%
Grok 4.3	91	63	58	50	35	59.2%
Gemma 4 26B	60	58	58	56	56	57.6%
Gemma 3 4B	85	71	56	53	23	57.5%
GPT-5.4 Mini	60	60	59	50	50	55.7%
GPT-4o Mini (temp=1)	81	57	49	48	43	55.6%
Gemma 3 27B	100	50	43	40	40	54.6%
GPT-4.1 Mini	74	66	49	48	35	54.2%
Mistral Small 3.2 24B	69	59	54	51	36	53.8%
Arcee AI: Trinity Mini	100	53	47	36	25	52.1%
Ministral 3 8B	68	59	41	40	36	49.0%
GPT-5.6 Luna	60	54	45	42	42	48.3%
Writer: Palmyra X5	58	52	49	46	36	48.2%
Claude Haiku 4.5	71	60	38	38	34	48.2%
Hermes 3 405B	100	43	38	32	28	48.0%
Llama 3.1 70B	56	54	50	42	37	47.9%
GPT-5.4 Nano	62	61	47	34	24	45.4%
GPT-4o Mini (temp=0)	74	48	37	36	32	45.3%
Ministral 3 3B	63	40	40	32	26	40.0%
Qwen 2.5 72B	48	46	37	36	32	39.6%
Mistral NeMO	48	48	46	25	22	37.8%
Hermes 3 70B	43	42	42	28	27	36.4%
Ministral 3B	48	43	36	29	26	36.2%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
Gemma 3 12B	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	97	97	98.9%
Claude Opus 4.6 (Reasoning)	100	100	100	97	96	98.7%
DeepSeek V3 (2025-03-24)	100	100	100	100	93	98.7%
GPT-5.4 (Reasoning, Low)	100	100	100	97	96	98.5%
Claude Opus 4.8 (Reasoning)	100	97	97	97	97	97.3%
GPT-5.6 Terra	100	99	98	94	94	96.9%
GPT-5.2	98	97	97	96	96	96.7%
Grok 4.5 (Reasoning, High)	97	97	96	96	96	96.6%
Claude Opus 4.6	100	97	97	95	93	96.2%
GPT-5	100	98	95	95	92	96.1%
GPT-4o, Aug. 6th (temp=0)	100	97	97	93	92	95.7%
GPT-5 Mini	97	97	95	94	93	95.3%
Aion 3.0 Mini	100	100	96	96	82	94.8%
MoonshotAI: Kimi K2.6	100	99	99	96	80	94.8%
GPT-5.5 (Reasoning)	100	100	99	88	88	94.7%
DeepSeek V4 Flash (Reasoning)	99	97	96	95	85	94.3%
Claude Opus 4.5	96	95	94	94	91	93.8%
Claude Sonnet 4.5	94	94	94	93	93	93.5%
Grok 4.20	98	98	95	92	85	93.5%
GPT-5.6 Sol	100	97	96	93	81	93.5%
Grok 4.20 (Reasoning)	95	94	94	92	91	93.2%
GPT-5.4 Nano (Reasoning)	100	96	96	88	85	93.0%
Qwen3.7 Max	100	100	100	82	81	92.7%
Z.AI GLM 5 Turbo	100	96	96	88	83	92.7%
o4 Mini High	98	95	91	91	88	92.6%
GPT-5.1	98	93	92	92	86	92.3%
Z.AI GLM 4.5	98	94	93	91	85	92.2%
MoonshotAI: Kimi K2.5	96	95	95	95	79	92.1%
Aion 2.0	99	99	94	94	74	91.9%
Gemini 2.5 Flash	93	93	92	92	90	91.9%
DeepSeek V3.2	96	93	93	89	88	91.7%
Gemini 3.1 Pro (Preview)	97	92	91	91	83	90.9%
Z.AI GLM 4.7	95	94	94	90	81	90.8%
DeepSeek V3.1	100	91	90	86	86	90.8%
MiniMax M3	96	96	95	83	80	90.1%
GPT-5.5 (Reasoning, Low)	100	100	84	84	82	89.9%
Writer: Palmyra X5	97	92	89	89	83	89.9%
GPT-5.6 Terra (Reasoning)	100	99	87	82	81	89.8%
ByteDance Seed 1.6	96	92	92	84	81	88.9%
GPT-5.4	94	94	94	93	70	88.9%
ByteDance Seed 2.0 Lite	93	91	90	90	80	88.9%
Nemotron 3 Super	100	100	87	79	78	88.8%
Z.AI GLM 5	100	99	92	82	71	88.7%
o4 Mini	96	95	92	92	68	88.5%
Aion 3.0	100	100	89	87	66	88.3%
Claude Opus 4.7	94	89	88	86	84	88.2%
Claude Sonnet 4.6 (Reasoning)	96	96	84	82	80	87.8%
Gemini 2.5 Pro	96	95	90	79	77	87.5%
Claude Sonnet 5 (Reasoning)	100	100	82	80	75	87.3%
GPT-5.4 Mini (Reasoning)	96	95	86	84	74	86.9%
GPT-4o, Aug. 6th (temp=1)	97	93	90	80	73	86.7%
Qwen 3.5 Plus (2026-04-20)	99	98	93	74	71	86.7%
ByteDance Seed 2.0 Mini	96	90	89	83	73	86.3%
Qwen3.6 Max Preview	97	93	93	75	72	86.0%
Z.AI GLM 5.2 (Reasoning, High)	100	84	83	82	80	86.0%
Qwen 3.5 27B	99	96	85	77	71	85.8%
Xiaomi MIMO v2.5 Pro	98	94	88	82	66	85.5%
Grok 4.5 (Reasoning, Low)	97	96	94	74	67	85.5%
Gemini 3 Flash (Preview, Reasoning)	94	92	90	78	73	85.1%
Qwen 3.5 Plus (2026-02-15)	94	94	93	74	69	84.7%
DeepSeek V4 Pro (Reasoning)	100	93	80	76	74	84.5%
Gemini 2.5 Flash (Reasoning)	93	93	90	79	67	84.2%
GPT-OSS 120B	95	95	92	70	66	83.9%
Claude Opus 4.7 (Reasoning)	99	90	84	80	65	83.4%
GPT-5.6 Luna (Reasoning)	96	95	78	73	73	83.1%
Claude Sonnet 5 (Reasoning, Low)	85	84	84	82	78	82.6%
GPT-4.1	92	92	90	83	55	82.4%
Z.AI GLM 5.1	84	84	83	81	81	82.4%
Qwen 3.6 Flash	95	92	91	74	58	82.1%
Z.AI GLM 4.6	92	88	78	76	76	82.0%
Cohere Command R+ (Aug. 2024)	100	100	100	58	51	81.9%
MiniMax M2.5	92	90	86	86	55	81.9%
Mistral Large 3	95	93	93	68	61	81.7%
Xiaomi MIMO v2.5	100	95	93	60	59	81.6%
Inception Mercury 2	97	83	82	81	65	81.4%
Gemini 3.5 Flash (Reasoning)	85	83	78	78	78	80.4%
Nemotron 3 Nano	100	100	83	63	55	80.2%
Gemini 2.5 Flash Lite (Reasoning)	92	91	83	69	67	80.0%
Ministral 3 14B	97	94	89	62	58	80.0%
Grok 4.3 (Reasoning)	89	88	83	82	56	79.7%
Qwen 3.6 27B	98	94	76	65	64	79.5%
GPT-5.5	83	80	80	78	74	78.9%
Mistral Large 2	93	92	91	61	58	78.8%
Gemma 4 31B (Reasoning)	100	91	70	66	63	77.9%
WizardLM 2 8x22b	94	89	86	64	55	77.7%
Qwen 3.5 397B A17B	99	78	74	73	64	77.5%
Qwen 3.6 35B	100	91	67	66	63	77.2%
Qwen3 235B A22B Instruct 2507	100	91	77	60	56	76.7%
Mistral Medium 3.1	84	83	75	74	65	76.1%
Claude Sonnet 4.6	78	77	76	74	71	75.0%
Qwen 3.5 122B	100	77	67	65	64	74.7%
Qwen 3 32B	87	82	80	61	56	73.3%
GPT-5.4 Nano (Reasoning, Low)	89	77	69	64	62	72.3%
Gemini 3 Flash (Preview)	83	75	70	66	64	71.5%
Ministral 8B	91	88	81	51	41	70.4%
Qwen 3.5 Flash	80	74	74	68	55	70.1%
Gemma 4 31B	75	69	66	66	65	68.4%
Claude Opus 4	98	70	62	58	53	68.2%
DeepSeek V3 (2024-12-26)	88	87	63	53	46	67.7%
Gemini 3.1 Flash Lite	97	65	64	58	55	67.6%
Gemini 3.5 Flash (Reasoning, Minimal)	83	72	69	58	55	67.3%
Hermes 3 405B	100	79	56	53	46	66.8%
Gemini 3.1 Flash Lite (Reasoning)	98	60	59	59	58	66.6%
DeepSeek-V2 Chat	92	88	56	53	44	66.6%
MiniMax M2.7	79	79	62	60	48	65.6%
Mistral Small 4 (Reasoning)	97	63	59	56	51	65.2%
Gemma 4 26B (Reasoning)	100	75	72	44	33	64.8%
GPT-5.6 Luna	91	66	62	56	48	64.4%
Hermes 3 70B	100	100	54	42	25	64.2%
GPT-5.4 Mini (Reasoning, Low)	71	70	63	61	56	64.1%
GPT-4o Mini (temp=1)	81	78	60	60	39	63.7%
Gemini 2.5 Flash Lite	87	81	70	50	31	63.7%
Gemini 3.1 Flash Lite (Preview)	68	65	63	60	60	63.0%
GPT-5 Nano	82	71	57	53	51	62.7%
Qwen 3.5 35B	80	73	71	62	25	62.2%
Z.AI GLM 4.7 Flash	84	69	62	58	36	62.0%
Claude Sonnet 4	88	60	59	49	48	60.8%
Gemma 4 26B	63	63	61	60	57	60.7%
GPT-5.4 Mini	74	62	59	55	52	60.3%
DeepSeek V4 Pro	74	64	63	59	40	59.9%
Qwen 3.5 9B	71	61	58	57	52	59.8%
Claude Sonnet 5	67	60	57	55	50	58.0%
GPT-4o Mini (temp=0)	65	59	56	55	54	57.8%
Cydonia 24B V4.1	100	66	52	42	28	57.5%
DeepSeek V4 Flash	90	55	51	46	45	57.5%
ByteDance Seed 1.6 Flash	57	–	–	–	–	56.6%
GPT-4.1 Mini	59	59	58	56	51	56.3%
Mistral Small 4	67	65	52	50	44	55.5%
Ministral 3 8B	81	50	49	47	46	54.4%
Mistral Small 3.2 24B	58	57	54	54	45	53.8%
Arcee AI: Trinity Mini	100	56	48	43	23	53.6%
Ministral 3B	69	60	51	47	39	53.2%
Grok 4.3	62	59	54	53	33	52.1%
Z.AI GLM 4.5 Air	69	65	58	55	9	51.1%
Qwen 2.5 72B	63	53	52	42	40	49.9%
GPT-4.1 Nano	58	50	46	46	45	49.2%
Llama 3.1 70B	56	53	53	52	23	47.2%
Gemma 3 4B	78	65	56	26	10	47.2%
GPT-5.4 Nano	51	49	47	46	42	47.1%
Claude Haiku 4.5	53	52	45	44	38	46.2%
Ministral 3 3B	48	47	43	35	35	41.6%
Gemma 3 27B	38	34	33	27	22	30.8%
Mistral NeMO	35	31	18	16	14	22.8%

Relationship type accuracy

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree