Alias accuracy

Avg. Score

69.0%

Scenarios

Overall Performance

Rank ▲	Model	Score	Avg. Cost	Avg. Time	Stability
1	GPT-5.6 Luna (Reasoning)	96.4%	$0.027	18.6s	91%
2	Gemma 4 26B	93.7%	$0.0018	27.2s	81%
3	Grok 4.20	89.8%	$0.020	7.5s	85%
4	Gemma 4 31B	96.7%	$0.0028	1.9m	91%
5	Grok 4.5 (Reasoning, Low)	95.6%	$0.040	49.7s	87%
6	GPT-5.6 Terra (Reasoning)	95.5%	$0.060	24.2s	87%
7	Xiaomi MIMO v2.5	93.1%	$0.0027	1.1m	80%
8	GPT-5.1	88.7%	$0.025	17.7s	75%
9	GPT-5.4 (Reasoning, Low)	92.4%	$0.053	35.5s	77%
10	GPT-5.4 Mini	88.3%	$0.0087	7.9s	63%
11	Grok 4.5 (Reasoning, High)	95.5%	$0.080	2.0m	87%
12	Gemini 2.5 Pro	93.7%	$0.099	58.2s	81%
13	Gemini 3 Flash (Preview, Reasoning)	88.0%	$0.030	40.3s	68%
14	GPT-5	95.5%	$0.092	2.3m	87%
15	GPT-5.2	89.0%	$0.062	50.7s	73%
16	GPT-4.1	83.7%	$0.024	8.5s	63%
17	Qwen 3.5 397B A17B	93.5%	$0.045	2.6m	81%
18	GPT-5.4 Mini (Reasoning, Low)	89.1%	$0.014	14.4s	55%
19	DeepSeek V4 Pro (Reasoning)	92.5%	$0.020	2.3m	74%
20	GPT-5.6 Sol	89.6%	$0.096	18.1s	72%
21	Z.AI GLM 5 Turbo	95.5%	$0.044	3.6m	87%
22	Claude Opus 4.6	90.1%	$0.154	31.4s	84%
23	Grok 4.20 (Reasoning)	85.6%	$0.027	40.0s	63%
24	Gemini 3.5 Flash (Reasoning, Minimal)	76.2%	$0.024	6.3s	66%
25	DeepSeek V4 Flash	81.9%	$0.0020	51.4s	63%
26	GPT-5.6 Terra	83.9%	$0.034	9.4s	60%
27	GPT-5.4	77.1%	$0.033	17.4s	67%
28	GPT-5.6 Sol (Reasoning)	95.5%	$0.186	59.0s	87%
29	GPT-5.6 Luna	77.7%	$0.012	8.7s	60%
30	Gemini 3.1 Pro (Preview)	95.5%	$0.172	1.5m	87%
31	Qwen3.6 Max Preview	96.1%	$0.084	3.7m	90%
32	GPT-5.4 Mini (Reasoning)	95.7%	$0.117	2.8m	88%
33	Claude Sonnet 5	83.1%	$0.068	17.1s	64%
34	Qwen 3.5 122B	94.3%	$0.035	4.0m	83%
35	Qwen 3.6 Flash	87.3%	$0.015	51.7s	54%
36	Gemini 3.5 Flash (Reasoning)	90.9%	$0.113	49.4s	70%
37	GPT-5 Mini	89.0%	$0.019	2.0m	64%
38	GPT-5.5	83.7%	$0.105	37.1s	72%
39	ByteDance Seed 1.6	86.2%	$0.014	1.2m	55%
40	Z.AI GLM 5.2 (Reasoning, High)	89.8%	$0.039	1.8m	61%
41	ByteDance Seed 2.0 Lite	89.4%	$0.014	3.6m	74%
42	Claude Sonnet 5 (Reasoning)	94.2%	$0.172	1.7m	82%
43	Grok 4.3	76.3%	$0.0094	7.8s	49%
44	Qwen 3.6 27B	92.1%	$0.034	2.7m	64%
45	Gemini 3.1 Flash Lite (Preview)	78.4%	$0.0046	3.2s	45%
46	Claude Sonnet 5 (Reasoning, Low)	93.7%	$0.175	1.7m	80%
47	Claude Opus 4.7	89.8%	$0.182	24.3s	73%
48	GPT-5.4 (Reasoning)	95.5%	$0.175	2.6m	87%
49	Gemini 3 Flash (Preview)	71.6%	$0.0087	7.1s	51%
50	Z.AI GLM 4.7	90.5%	$0.025	3.7m	71%
51	Qwen 3.5 Plus (2026-04-20)	88.5%	$0.023	3.1m	67%
52	Gemini 2.5 Flash	72.2%	$0.0075	6.1s	49%
53	Qwen 3.5 Plus (2026-02-15)	89.9%	$0.021	3.9m	72%
54	Qwen 3.5 Flash	90.6%	$0.0040	3.8m	66%
55	Writer: Palmyra X5	77.8%	$0.016	18.4s	46%
56	MoonshotAI: Kimi K2.6	95.5%	$0.082	5.0m	87%
57	Mistral Large 2	79.1%	$0.037	20.5s	48%
58	Qwen 3.5 35B	83.1%	$0.015	2.0m	55%
59	Claude Opus 4.5	82.3%	$0.131	19.8s	60%
60	Gemini 3.1 Flash Lite	68.4%	$0.0031	3.3s	44%
61	GPT-5.5 (Reasoning)	95.5%	$0.251	2.0m	87%
62	Gemini 3.1 Flash Lite (Reasoning)	69.5%	$0.0033	3.2s	41%
63	Claude Sonnet 4.6	72.2%	$0.081	23.3s	56%
64	Claude Opus 4.7 (Reasoning)	86.1%	$0.184	25.0s	63%
65	Mistral Small 3.2 24B	72.0%	$0.0017	13.8s	35%
66	Z.AI GLM 4.6	86.2%	$0.018	3.0m	52%
67	Xiaomi MIMO v2.5 Pro	79.2%	$0.0076	1.9m	43%
68	o4 Mini High	79.6%	$0.059	1.3m	46%
69	Z.AI GLM 4.5	70.9%	$0.0075	48.1s	37%
70	MiniMax M2.5	70.5%	$0.0036	45.0s	36%
71	GPT-5.5 (Reasoning, Low)	85.1%	$0.097	42.6s	40%
72	Gemini 2.5 Flash (Reasoning)	74.4%	$0.023	37.3s	34%
73	MoonshotAI: Kimi K2.5	88.5%	$0.031	5.4m	66%
74	Qwen 3.6 35B	78.4%	$0.014	1.1m	30%
75	Z.AI GLM 5.1	95.5%	$0.081	7.3m	87%
76	o4 Mini	73.0%	$0.037	45.7s	34%
77	Mistral Small 4	66.0%	$0.0030	7.4s	28%
78	Qwen 3.5 27B	87.3%	$0.029	3.7m	46%
79	DeepSeek V3.2	66.3%	$0.0046	33.9s	29%
80	GPT-4o, Aug. 6th (temp=0)	61.8%	$0.032	8.4s	34%
81	DeepSeek V4 Pro	64.3%	$0.0083	17.3s	28%
82	GPT-4o, Aug. 6th (temp=1)	60.4%	$0.029	9.1s	35%
83	Inception Mercury 2	64.2%	$0.0096	12.8s	26%
84	Claude Opus 4.8 (Reasoning, Low)	95.5%	$0.383	1.9m	87%
85	Claude Opus 4.8 (Reasoning)	95.5%	$0.381	1.9m	87%
86	Claude Opus 4.6 (Reasoning)	95.5%	$0.356	2.6m	87%
87	MiniMax M2.7	65.2%	$0.0063	21.4s	22%
88	Qwen3 235B A22B Instruct 2507	67.9%	$0.0017	1.0m	25%
89	DeepSeek-V2 Chat	55.8%	$0.0049	34.0s	33%
90	Ministral 8B	62.0%	$0.0016	15.6s	22%
91	Claude Sonnet 4	64.9%	$0.072	17.5s	34%
92	Mistral Large 3	63.0%	$0.0091	17.5s	22%
93	DeepSeek V3.1	60.4%	$0.0055	52.0s	29%
94	ByteDance Seed 2.0 Mini	89.9%	$0.0062	8.7m	77%
95	Claude Haiku 4.5	45.4%	$0.024	8.2s	36%
96	DeepSeek V4 Flash (Reasoning)	72.8%	$0.0041	3.5m	38%
97	Claude Sonnet 4.5	63.9%	$0.077	18.6s	29%
98	Gemini 2.5 Flash Lite (Reasoning)	61.2%	$0.0073	1.0m	22%
99	Grok 4.3 (Reasoning)	60.2%	$0.013	13.9s	16%
100	GPT-4.1 Mini	55.9%	$0.0046	26.0s	18%
101	GPT-5.4 Nano	44.5%	$0.0026	11.2s	23%
102	GPT-OSS 120B	63.1%	$0.0040	2.2m	25%
103	GPT-5.4 Nano (Reasoning)	46.3%	$0.0088	41.7s	27%
104	Mistral Small 4 (Reasoning)	54.7%	$0.0051	24.7s	13%
105	Z.AI GLM 5	78.9%	$0.037	4.6m	37%
106	Claude Opus 4	88.8%	$0.368	2.4m	73%
107	Gemma 4 31B (Reasoning)	83.4%	$0.0043	5.8m	38%
108	Qwen3.7 Max	79.8%	$0.045	3.5m	26%
109	Mistral Medium 3.1	51.1%	$0.010	21.2s	14%
110	Gemma 4 26B (Reasoning)	72.6%	$0.0041	3.1m	18%
111	MiniMax M3	89.2%	$0.036	9.3m	68%
112	Ministral 3 8B	42.5%	$0.0022	17.0s	17%
113	GPT-5 Nano	44.9%	$0.0080	2.2m	34%
114	DeepSeek V3 (2024-12-26)	37.1%	$0.0045	40.2s	21%
115	GPT-5.4 Nano (Reasoning, Low)	34.2%	$0.0038	13.8s	19%
116	Hermes 3 405B	49.4%	$0.015	1.0m	11%
117	DeepSeek V3 (2025-03-24)	41.9%	$0.0037	50.3s	13%
118	WizardLM 2 8x22b	44.2%	$0.0098	2.3m	26%
119	Gemini 2.5 Flash Lite	30.4%	$0.0023	4.8s	14%
120	Aion 3.0 Mini	75.3%	$0.030	4.9m	22%
121	Llama 3.1 70B	29.8%	$0.0064	34.0s	18%
122	Ministral 3 14B	24.8%	$0.0031	25.4s	19%
123	Aion 2.0	59.5%	$0.024	3.0m	14%
124	Ministral 3 3B	24.2%	$0.0007	9.9s	12%
125	Claude Sonnet 4.6 (Reasoning)	95.5%	$0.448	5.9m	87%
126	Ministral 3B	16.9%	$0.0007	9.8s	11%
127	Z.AI GLM 4.7 Flash	40.1%	$0.0050	2.8m	14%
128	ByteDance Seed 1.6 Flash	16.2%	$0.0020	34.2s	14%
129	Aion 3.0	77.3%	$0.074	5.8m	21%
130	Nemotron 3 Super	62.5%	$0.0000	5.5m	14%
131	Z.AI GLM 4.5 Air	44.2%	$0.0071	3.2m	11%
132	GPT-4.1 Nano	11.5%	$0.0009	6.9s	8%
133	Cydonia 24B V4.1	22.1%	$0.0040	1.0m	7%
134	Mistral NeMO	16.7%	$0.0024	15.4s	4%
135	GPT-4o Mini (temp=0)	15.2%	$0.0019	20.7s	6%
136	GPT-4o Mini (temp=1)	19.5%	$0.0026	33.4s	3%
137	Qwen 2.5 72B	19.4%	$0.0056	1.2m	5%
138	Gemma 3 27B	6.9%	$0.0016	27.5s	5%
139	Hermes 3 70B	9.3%	$0.0045	42.7s	4%
140	Gemma 3 4B	3.9%	$0.0007	27.5s	3%
141	Qwen 3.5 9B	56.1%	$0.0040	7.8m	22%
142	Gemma 3 12B	1.1%	$0.0014	30.4s	0%
143	Qwen 3 32B	15.5%	$0.0042	2.9m	8%
144	Cohere Command R+ (Aug. 2024)	9.2%	$0.057	56.5s	4%
145	Arcee AI: Trinity Mini	3.8%	$0.0037	1.9m	3%
146	Nemotron 3 Nano	5.3%	$0.0039	2.8m	1%
69.03%

Individual Scenarios

▼

Core relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
GPT-5.6 Sol (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.6 (Reasoning)	100	100	100	100	100	100.0%
Qwen3.7 Max	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, High)	100	100	100	100	100	100.0%
Gemini 3.1 Pro (Preview)	100	100	100	100	100	100.0%
GPT-5.4 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5.1	100	100	100	100	100	100.0%
Qwen3.6 Max Preview	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 4.6 (Reasoning)	100	100	100	100	100	100.0%
Z.AI GLM 5 Turbo	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.6	100	100	100	100	100	100.0%
GPT-5.5 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5.6 Terra (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning)	100	100	100	100	100	100.0%
Claude Opus 4.8 (Reasoning, Low)	100	100	100	100	100	100.0%
GPT-5	100	100	100	100	100	100.0%
GPT-5 Mini	100	100	100	100	100	100.0%
Qwen 3.5 397B A17B	100	100	100	100	100	100.0%
Grok 4.5 (Reasoning, Low)	100	100	100	100	100	100.0%
MoonshotAI: Kimi K2.5	100	100	100	100	100	100.0%
GPT-5.6 Luna (Reasoning)	100	100	100	100	100	100.0%
Claude Sonnet 5 (Reasoning)	100	100	100	100	100	100.0%
GPT-5.4 Mini (Reasoning)	100	100	100	100	100	100.0%
Qwen 3.5 Plus (2026-04-20)	100	100	100	100	100	100.0%
Gemma 4 31B (Reasoning)	100	100	100	100	100	100.0%
DeepSeek V4 Pro (Reasoning)	100	100	100	100	100	100.0%
Aion 3.0	100	100	100	100	100	100.0%
o4 Mini High	100	100	100	100	100	100.0%
Gemini 2.5 Pro	100	100	100	100	100	100.0%
Qwen 3.6 27B	100	100	100	100	100	100.0%
Qwen 3.5 35B	100	100	100	100	100	100.0%
Qwen 3.5 Flash	100	100	100	100	100	100.0%
Gemma 4 31B	100	100	100	100	100	100.0%
Gemma 4 26B	100	100	100	100	100	100.0%
Xiaomi MIMO v2.5	100	100	100	100	100	100.0%
Aion 3.0 Mini	100	100	100	100	100	100.0%
Writer: Palmyra X5	100	100	100	100	100	100.0%
Qwen 3.5 122B	100	100	100	100	81	96.3%
Claude Sonnet 5 (Reasoning, Low)	100	100	100	100	81	96.3%
Gemini 3 Flash (Preview, Reasoning)	100	100	100	100	81	96.3%
GPT-5.4 (Reasoning, Low)	100	100	100	100	73	94.6%
Claude Opus 4.7	100	100	100	100	70	94.0%
Z.AI GLM 4.7	100	100	100	100	70	94.0%
Qwen 3.5 Plus (2026-02-15)	100	100	100	100	70	94.0%
Claude Opus 4	100	100	100	88	70	91.6%
GPT-5.2	100	100	100	81	70	90.3%
ByteDance Seed 2.0 Lite	100	100	100	81	70	90.3%
Gemini 3.5 Flash (Reasoning)	100	100	100	93	58	90.1%
Z.AI GLM 5.2 (Reasoning, High)	100	100	100	100	42	88.5%
ByteDance Seed 1.6	100	100	100	100	41	88.2%
Grok 4.20 (Reasoning)	100	100	100	70	70	88.0%
GPT-5.6 Sol	100	100	100	70	70	88.0%
Grok 4.20	89	88	88	88	87	87.9%
Claude Opus 4.6	87	87	87	87	87	87.3%
MiniMax M3	100	100	100	81	55	87.2%
ByteDance Seed 2.0 Mini	100	88	87	81	76	86.5%
GPT-5.6 Terra	100	100	87	70	70	85.4%
Qwen 3.6 Flash	100	100	100	100	27	85.4%
Gemma 4 26B (Reasoning)	100	100	100	100	27	85.4%
Z.AI GLM 4.6	100	100	100	100	27	85.4%
o4 Mini	100	100	100	100	27	85.4%
GPT-4o, Aug. 6th (temp=0)	100	81	81	81	81	85.2%
Z.AI GLM 5	100	100	100	70	55	84.9%
GPT-5.6 Luna	93	87	87	84	70	84.2%
GPT-5.5	87	87	87	87	70	83.8%
GPT-5.1	100	88	88	70	70	83.1%
Qwen3 235B A22B Instruct 2507	100	100	100	88	27	83.0%
Qwen 3.6 35B	100	100	100	88	27	83.0%
GPT-5.4 Mini (Reasoning, Low)	100	100	94	93	27	82.8%
Qwen 3.5 27B	100	100	100	100	11	82.3%
Mistral Large 3	93	93	93	93	37	82.1%
Claude Opus 4.7 (Reasoning)	100	100	70	70	70	81.9%
GPT-4.1	100	100	70	70	70	81.9%
GPT-5.4 Mini	100	100	100	55	55	81.9%
Mistral Large 2	93	93	93	93	34	81.6%
Gemini 2.5 Flash (Reasoning)	100	100	88	71	46	80.9%
Mistral Small 4	100	100	93	93	11	79.4%
DeepSeek V4 Flash (Reasoning)	100	100	100	70	27	79.3%
Claude Sonnet 5	100	100	70	70	56	79.2%
DeepSeek V4 Flash	100	88	86	63	55	78.2%
Xiaomi MIMO v2.5 Pro	100	100	100	70	15	76.9%
Mistral Small 4 (Reasoning)	100	100	100	82	0	76.5%
GPT-4o, Aug. 6th (temp=1)	100	81	81	62	56	76.3%
Gemini 3.5 Flash (Reasoning, Minimal)	87	87	73	70	59	75.3%
DeepSeek V4 Pro	100	100	100	52	17	73.8%
GPT-5.4	73	73	73	73	73	73.2%
Gemini 3.1 Flash Lite (Preview)	100	81	70	62	41	70.9%
Hermes 3 405B	100	100	100	27	27	70.7%
Gemini 3.1 Flash Lite	100	81	70	62	40	70.6%
Nemotron 3 Super	100	100	81	70	0	70.3%
Claude Opus 4.5	70	70	70	70	70	69.9%
Z.AI GLM 4.5	100	100	81	36	27	68.9%
Gemini 3.1 Flash Lite (Reasoning)	100	81	62	52	48	68.7%
Grok 4.3	88	87	79	50	36	68.0%
GPT-OSS 120B	100	100	100	27	11	67.6%
Gemini 3 Flash (Preview)	87	70	70	70	37	66.8%
Claude Sonnet 4.6	70	70	70	62	62	66.7%
Mistral Medium 3.1	100	100	85	29	19	66.7%
Gemini 2.5 Flash	89	84	66	48	45	66.4%
DeepSeek V3.2	100	100	39	39	36	62.7%
Gemini 2.5 Flash Lite (Reasoning)	100	100	41	41	11	58.6%
Claude Sonnet 4.5	100	88	27	27	27	53.7%
MiniMax M2.5	87	84	46	42	8	53.4%
Ministral 8B	93	84	79	5	4	53.0%
GPT-4.1 Mini	100	100	27	27	11	53.0%
Qwen 3.5 9B	83	73	55	27	0	47.6%
Mistral Small 3.2 24B	93	46	44	38	11	46.5%
Grok 4.3 (Reasoning)	100	100	27	4	0	46.1%
MiniMax M2.7	100	84	27	11	4	45.2%
DeepSeek V3.1	70	70	42	38	0	43.9%
GPT-5.4 Nano	100	47	27	27	17	43.6%
DeepSeek-V2 Chat	70	70	38	27	13	43.4%
GPT-5.4 Nano (Reasoning)	100	27	27	27	27	41.5%
Claude Haiku 4.5	44	44	39	39	39	40.8%
DeepSeek V3 (2025-03-24)	70	70	62	0	0	40.4%
Aion 2.0	100	100	0	0	0	40.0%
Inception Mercury 2	100	27	27	24	22	40.0%
Claude Sonnet 4	87	27	27	27	27	38.8%
Z.AI GLM 4.5 Air	100	27	27	27	11	38.4%
DeepSeek V3 (2024-12-26)	70	70	27	13	12	38.3%
WizardLM 2 8x22b	70	49	39	15	15	37.7%
GPT-5 Nano	55	55	50	17	11	37.6%
GPT-4o Mini (temp=1)	100	49	9	8	7	34.7%
Qwen 2.5 72B	87	44	15	4	0	29.7%
Z.AI GLM 4.7 Flash	100	27	11	6	4	29.5%
Ministral 3 3B	64	59	9	8	3	28.4%
GPT-5.4 Nano (Reasoning, Low)	27	27	27	27	27	26.9%
Ministral 3 8B	100	14	6	5	5	25.8%
Mistral NeMO	55	55	9	4	4	25.2%
Ministral 3 14B	49	22	13	13	13	22.4%
Gemini 2.5 Flash Lite	27	27	27	17	11	21.8%
Cydonia 24B V4.1	55	21	18	9	0	20.5%
Llama 3.1 70B	34	33	4	4	4	15.9%
GPT-4o Mini (temp=0)	52	8	8	8	2	15.6%
Hermes 3 70B	40	16	11	6	0	14.5%
ByteDance Seed 1.6 Flash	27	27	11	3	3	14.4%
Cohere Command R+ (Aug. 2024)	29	16	11	5	4	13.1%
Ministral 3B	27	12	8	6	3	11.1%
Qwen 3 32B	27	11	4	4	0	9.1%
Nemotron 3 Nano	27	11	4	3	0	9.1%
GPT-4.1 Nano	11	11	11	11	0	9.1%
Gemma 3 4B	8	8	8	6	6	7.0%
Gemma 3 27B	19	3	0	0	0	4.4%
Gemma 3 12B	11	0	0	0	0	2.3%
Arcee AI: Trinity Mini	4	4	3	0	0	2.1%

▼

Family relationship tree

Model	# 1	# 2	# 3	# 4	# 5	Avg ▼
Mistral Small 3.2 24B	100	97	97	97	97	97.4%
GPT-5.4 Mini (Reasoning, Low)	100	97	97	92	91	95.3%
GPT-5.4 Mini	97	97	94	94	92	94.7%
Claude Opus 4.5	100	100	91	91	91	94.7%
GPT-5.1	94	94	94	94	94	94.3%
Gemma 4 31B	97	97	91	91	91	93.4%
ByteDance Seed 2.0 Mini	97	96	94	91	89	93.3%
Claude Opus 4.6	94	94	94	91	91	92.9%
GPT-5.6 Luna (Reasoning)	100	91	91	91	91	92.9%
Qwen 3.5 122B	97	91	91	91	91	92.3%
Qwen 3.5 27B	97	91	91	91	91	92.3%
Qwen3.6 Max Preview	97	91	91	91	91	92.2%
Gemini 3.5 Flash (Reasoning)	97	91	91	91	89	91.8%
Grok 4.20	94	92	92	92	90	91.7%
GPT-5.4 Mini (Reasoning)	92	91	91	91	91	91.3%
GPT-5.6 Sol	92	91	91	91	91	91.2%
Grok 4.5 (Reasoning, Low)	91	91	91	91	91	91.1%
GPT-5.6 Sol (Reasoning)	91	91	91	91	91	91.1%
Claude Opus 4.6 (Reasoning)	91	91	91	91	91	91.1%
Grok 4.5 (Reasoning, High)	91	91	91	91	91	91.1%
Gemini 3.1 Pro (Preview)	91	91	91	91	91	91.1%
GPT-5.4 (Reasoning)	91	91	91	91	91	91.1%
Z.AI GLM 5.1	91	91	91	91	91	91.1%
GPT-5.5 (Reasoning)	91	91	91	91	91	91.1%
Claude Sonnet 4.6 (Reasoning)	91	91	91	91	91	91.1%
Z.AI GLM 5.2 (Reasoning, High)	91	91	91	91	91	91.1%
Z.AI GLM 5 Turbo	91	91	91	91	91	91.1%
MoonshotAI: Kimi K2.6	91	91	91	91	91	91.1%
GPT-5.6 Terra (Reasoning)	91	91	91	91	91	91.1%
Claude Opus 4.8 (Reasoning)	91	91	91	91	91	91.1%
Claude Opus 4.8 (Reasoning, Low)	91	91	91	91	91	91.1%
GPT-5	91	91	91	91	91	91.1%
MiniMax M3	91	91	91	91	91	91.1%
Claude Sonnet 5 (Reasoning, Low)	91	91	91	91	91	91.1%
Claude Sonnet 4	91	91	91	91	90	90.9%
Claude Opus 4.7 (Reasoning)	100	100	84	84	84	90.4%
GPT-5.4 (Reasoning, Low)	92	92	92	91	85	90.2%
Qwen 3.6 Flash	97	96	91	91	71	89.1%
Claude Sonnet 5 (Reasoning)	91	91	91	91	78	88.5%
ByteDance Seed 2.0 Lite	91	91	91	91	78	88.5%
Inception Mercury 2	100	96	91	79	76	88.4%
GPT-5.2	91	91	91	91	75	87.8%
MiniMax M2.5	97	97	97	91	56	87.6%
Gemma 4 26B	97	94	92	79	76	87.5%
Gemini 2.5 Pro	100	91	91	84	71	87.3%
Claude Sonnet 5	91	91	91	84	78	87.1%
Qwen 3.5 397B A17B	91	91	91	84	78	87.1%
Z.AI GLM 4.7	91	91	91	91	71	87.0%
Z.AI GLM 4.6	91	91	91	91	71	87.0%
Xiaomi MIMO v2.5	91	91	91	79	79	86.1%
Claude Opus 4	91	91	91	79	79	86.1%
Gemini 3.1 Flash Lite (Preview)	100	100	100	69	61	86.0%
Qwen 3.5 Plus (2026-02-15)	91	91	91	78	78	85.9%
Claude Opus 4.7	91	91	84	84	78	85.6%
DeepSeek V4 Flash	91	91	84	84	78	85.6%
GPT-4.1	100	91	91	91	54	85.4%
MiniMax M2.7	100	100	91	75	61	85.3%
DeepSeek V4 Pro (Reasoning)	91	91	91	91	61	85.0%
Grok 4.3	94	94	94	94	46	84.6%
ByteDance Seed 1.6	100	91	91	91	48	84.3%
Qwen 3.6 27B	100	100	91	91	39	84.3%
GPT-5.5	92	92	91	78	66	83.6%
Grok 4.20 (Reasoning)	92	92	90	89	54	83.2%
GPT-5.6 Terra	100	78	78	78	78	82.5%
Xiaomi MIMO v2.5 Pro	97	91	79	71	71	81.5%
Qwen 3.5 Flash	94	91	91	86	44	81.2%
GPT-5.4	92	79	78	78	78	81.1%
Gemini 3 Flash (Preview, Reasoning)	91	78	78	78	73	79.7%
Aion 2.0	91	91	91	61	61	79.0%
Gemini 2.5 Flash	94	89	86	67	55	78.1%
GPT-5 Mini	100	91	91	54	54	77.9%
Claude Sonnet 4.6	100	77	73	69	69	77.7%
Gemini 3.5 Flash (Reasoning, Minimal)	78	78	78	78	73	77.1%
Qwen 3.5 Plus (2026-04-20)	91	91	79	71	54	77.0%
DeepSeek V3.1	100	91	78	78	37	76.9%
MoonshotAI: Kimi K2.5	91	91	78	71	54	76.9%
Mistral Large 2	97	97	97	47	45	76.6%
Gemini 3 Flash (Preview)	84	84	84	77	54	76.5%
Grok 4.3 (Reasoning)	100	97	79	61	35	74.2%
Claude Sonnet 4.5	92	91	91	54	43	74.0%
Qwen 3.6 35B	96	91	91	91	0	73.8%
Z.AI GLM 4.5	100	78	71	63	54	73.0%
Z.AI GLM 5	91	91	91	91	0	72.9%
GPT-5.6 Luna	93	91	59	59	55	71.2%
Ministral 8B	100	100	71	52	32	70.9%
Gemini 3.1 Flash Lite (Reasoning)	100	70	64	61	56	70.4%
GPT-5.5 (Reasoning, Low)	91	91	91	78	0	70.3%
DeepSeek V3.2	91	91	84	44	39	69.9%
DeepSeek-V2 Chat	91	84	70	61	35	68.1%
Gemini 2.5 Flash (Reasoning)	100	91	78	69	1	67.9%
Gemma 4 31B (Reasoning)	91	91	91	61	0	66.8%
DeepSeek V4 Flash (Reasoning)	91	91	61	54	35	66.3%
Qwen 3.5 35B	84	84	61	54	48	66.1%
Gemini 3.1 Flash Lite	84	78	73	61	35	66.1%
Qwen 3.5 9B	100	85	84	46	9	64.7%
Gemini 2.5 Flash Lite (Reasoning)	91	79	54	48	47	63.7%
o4 Mini	100	61	61	46	35	60.5%
Gemma 4 26B (Reasoning)	100	97	96	5	1	59.9%
Qwen3.7 Max	97	97	91	11	2	59.5%
o4 Mini High	79	71	61	61	25	59.2%
Ministral 3 8B	71	71	61	54	40	59.1%
GPT-4.1 Mini	100	61	61	37	35	58.7%
GPT-OSS 120B	79	61	61	46	46	58.6%
Writer: Palmyra X5	89	58	54	44	33	55.7%
DeepSeek V4 Pro	61	61	61	54	37	54.7%
Aion 3.0	91	91	91	0	0	54.7%
Nemotron 3 Super	91	91	91	0	0	54.7%
Qwen3 235B A22B Instruct 2507	97	76	57	35	0	52.9%
Mistral Small 4	91	57	46	36	33	52.6%
GPT-5 Nano	61	61	53	46	40	52.2%
GPT-5.4 Nano (Reasoning)	54	54	54	54	40	51.1%
WizardLM 2 8x22b	84	61	48	46	15	50.8%
Z.AI GLM 4.7 Flash	73	64	49	46	20	50.6%
Aion 3.0 Mini	91	91	71	0	0	50.6%
Z.AI GLM 4.5 Air	90	61	61	25	12	49.9%
Claude Haiku 4.5	67	55	44	43	40	49.9%
GPT-5.4 Nano	54	54	40	40	40	45.4%
GPT-4o, Aug. 6th (temp=1)	61	46	46	35	35	44.5%
Mistral Large 3	45	44	44	44	41	43.9%
Llama 3.1 70B	59	59	54	46	1	43.6%
DeepSeek V3 (2025-03-24)	100	79	38	0	0	43.3%
GPT-5.4 Nano (Reasoning, Low)	61	54	42	40	11	41.6%
Gemini 2.5 Flash Lite	91	54	25	20	4	38.9%
GPT-4o, Aug. 6th (temp=0)	54	35	35	35	35	38.4%
DeepSeek V3 (2024-12-26)	45	37	35	34	28	35.8%
Mistral Medium 3.1	46	34	34	33	32	35.6%
Mistral Small 4 (Reasoning)	58	46	35	25	0	33.0%
Hermes 3 405B	54	46	40	0	0	28.0%
Ministral 3 14B	36	26	26	25	24	27.3%
ByteDance Seed 1.6 Flash	25	–	–	–	–	25.2%
Cydonia 24B V4.1	65	48	3	2	0	23.7%
Ministral 3B	32	31	31	17	2	22.6%
Qwen 3 32B	46	25	25	12	0	21.8%
Ministral 3 3B	27	26	25	15	7	20.0%
GPT-4o Mini (temp=0)	29	26	12	4	4	14.9%
GPT-4.1 Nano	46	18	5	0	0	13.9%
Gemma 3 27B	14	12	9	9	4	9.3%
Qwen 2.5 72B	18	11	9	5	3	9.1%
Mistral NeMO	19	15	5	2	0	8.1%
Arcee AI: Trinity Mini	16	5	3	3	0	5.5%
Cohere Command R+ (Aug. 2024)	22	5	0	0	0	5.4%
GPT-4o Mini (temp=1)	11	8	3	1	0	4.4%
Hermes 3 70B	13	4	2	1	0	4.0%
Nemotron 3 Nano	8	0	0	0	0	1.6%
Gemma 3 4B	2	1	1	0	0	0.8%
Gemma 3 12B	0	0	0	0	0	0.0%

Alias accuracy

Overall Performance

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

Individual Scenarios

Core relationship tree

Family relationship tree