XML

Subcategory of Tooling. 146 models scored.

Model Leaderboard

All models ranked by their XML subcategory score.

#	Model	XML	Tooling	Overall
1	GPT-5.6 Sol (Reasoning)	100.00%	100.00%	95.15%
2	Claude Opus 4.6 (Reasoning)	100.00%	100.00%	95.06%
3	Qwen3.7 Max	100.00%	100.00%	94.55%
4	GPT-5.4 (Reasoning)	100.00%	100.00%	93.85%
5	Z.AI GLM 5.1	100.00%	100.00%	93.74%
6	Qwen3.6 Max Preview	100.00%	100.00%	93.72%
7	GPT-5.5 (Reasoning)	100.00%	100.00%	93.72%
8	Claude Sonnet 4.6 (Reasoning)	100.00%	100.00%	93.64%
9	Gemini 3.5 Flash (Reasoning)	100.00%	100.00%	93.35%
10	Claude Opus 4.7 (Reasoning)	100.00%	100.00%	92.53%
11	Claude Opus 4.6	100.00%	100.00%	92.31%
12	Grok 4.20 (Reasoning)	100.00%	100.00%	90.87%
13	MoonshotAI: Kimi K2.5	100.00%	100.00%	90.86%
14	GPT-5.6 Sol	100.00%	100.00%	90.76%
15	Claude Sonnet 4.6	100.00%	100.00%	90.66%
16	Gemini 3 Flash (Preview, Reasoning)	100.00%	100.00%	89.93%
17	GPT-5.4 Mini (Reasoning)	100.00%	100.00%	89.82%
18	Claude Opus 4.5	100.00%	100.00%	89.60%
19	GPT-5.2	100.00%	100.00%	89.45%
20	GPT-5.5	100.00%	100.00%	89.37%
21	o4 Mini High	100.00%	100.00%	88.78%
22	Gemini 2.5 Pro	100.00%	100.00%	88.44%
23	Claude Sonnet 4	100.00%	100.00%	87.64%
24	Claude Opus 4	100.00%	100.00%	87.22%
25	o4 Mini	100.00%	100.00%	86.56%
26	Xiaomi MIMO v2.5 Pro	100.00%	100.00%	86.05%
27	Gemini 3.5 Flash (Reasoning, Minimal)	100.00%	100.00%	85.88%
28	Gemma 4 31B	100.00%	100.00%	85.23%
29	GPT-OSS 120B	100.00%	100.00%	84.81%
30	Gemini 2.5 Flash (Reasoning)	100.00%	100.00%	84.14%
31	GPT-5.4 Mini (Reasoning, Low)	100.00%	100.00%	83.57%
32	DeepSeek V3.2	99.99%	99.99%	82.22%
33	Grok 4.5 (Reasoning, High)	99.99%	99.99%	94.12%
34	GPT-5 Mini	99.99%	99.99%	91.31%
35	Gemini 3.1 Flash Lite (Preview)	99.98%	99.98%	85.41%
36	Gemini 3.1 Flash Lite	99.97%	99.97%	85.09%
37	GPT-5.4 (Reasoning, Low)	99.97%	99.97%	90.91%
38	GPT-5.6 Luna (Reasoning)	99.97%	99.97%	90.61%
39	Gemini 2.5 Flash	99.97%	99.97%	80.61%
40	MiniMax M3	99.96%	99.96%	90.45%
41	GPT-4o, Aug. 6th (temp=0)	99.96%	99.96%	82.18%
42	ByteDance Seed 2.0 Lite	99.93%	99.93%	84.27%
43	Gemini 3.1 Pro (Preview)	99.92%	99.92%	94.08%
44	GPT-5.6 Luna	99.90%	99.90%	85.06%
45	MoonshotAI: Kimi K2.6	99.81%	99.81%	92.57%
46	Qwen 3.5 397B A17B	99.81%	99.81%	91.09%
47	Gemini 3.1 Flash Lite (Reasoning)	99.81%	99.81%	85.91%
48	Qwen 3.5 Plus (2026-02-15)	99.78%	99.78%	86.17%
49	Qwen 3.6 Flash	99.78%	99.78%	89.31%
50	ByteDance Seed 2.0 Mini	99.70%	99.70%	85.69%
51	DeepSeek V4 Pro	99.57%	99.57%	82.05%
52	Claude Opus 4.8 (Reasoning)	99.53%	99.53%	92.33%
53	Claude Sonnet 5 (Reasoning, Low)	99.52%	99.52%	90.16%
54	Claude Opus 4.8 (Reasoning, Low)	99.48%	99.48%	91.89%
55	Claude Opus 4.7	99.48%	99.48%	89.90%
56	Xiaomi MIMO v2.5	99.46%	99.46%	83.95%
57	DeepSeek V4 Pro (Reasoning)	99.40%	99.40%	89.28%
58	GPT-5 Nano	99.34%	99.34%	80.16%
59	Qwen 3.5 122B	99.33%	99.33%	90.32%
60	GPT-5.6 Terra	99.33%	99.33%	88.23%
61	Grok 4.5 (Reasoning, Low)	99.33%	99.33%	90.94%
62	MiniMax M2.7	99.32%	99.32%	86.23%
63	GPT-5.6 Terra (Reasoning)	99.31%	99.31%	92.49%
64	Claude Sonnet 5 (Reasoning)	99.17%	99.17%	90.40%
65	Qwen 3.5 27B	99.17%	99.17%	90.05%
66	Gemma 4 26B (Reasoning)	99.04%	99.04%	89.02%
67	GPT-4o, Aug. 6th (temp=1)	98.86%	98.86%	81.28%
68	DeepSeek-V2 Chat	98.80%	98.80%	84.09%
69	Z.AI GLM 4.5 Air	98.75%	98.75%	80.74%
70	GPT-4o Mini (temp=1)	98.71%	98.71%	77.82%
71	GPT-5	98.67%	98.67%	91.48%
72	Z.AI GLM 4.7	98.67%	98.67%	87.67%
73	DeepSeek V3 (2024-12-26)	98.58%	98.58%	82.62%
74	Z.AI GLM 4.5	98.58%	98.58%	84.95%
75	GPT-5.4 Mini	98.55%	98.55%	80.45%
76	GPT-5.5 (Reasoning, Low)	98.50%	98.50%	92.51%
77	Gemma 4 31B (Reasoning)	98.50%	98.50%	89.64%
78	Z.AI GLM 5	98.50%	98.50%	89.60%
79	Grok 4.3 (Reasoning)	98.47%	98.47%	90.99%
80	Z.AI GLM 5.2 (Reasoning, High)	98.33%	98.33%	93.41%
81	GPT-5.1	98.33%	98.33%	90.73%
82	ByteDance Seed 1.6	98.33%	98.33%	89.59%
83	Inception Mercury 2	98.33%	98.33%	81.99%
84	Gemini 2.5 Flash Lite (Reasoning)	98.28%	98.28%	83.10%
85	MiniMax M2.5	98.27%	98.27%	86.71%
86	GPT-5.4	98.04%	98.04%	84.31%
87	Gemini 3 Flash (Preview)	98.04%	98.04%	85.47%
88	Z.AI GLM 4.6	97.99%	97.99%	87.64%
89	Qwen 3.6 27B	97.91%	97.91%	88.33%
90	Claude Sonnet 4.5	97.75%	97.75%	87.54%
91	GPT-4.1	97.71%	97.71%	86.82%
92	GPT-4o Mini (temp=0)	97.45%	97.45%	76.86%
93	Mistral Large 2	97.31%	97.31%	81.50%
94	Mistral Small 4 (Reasoning)	97.28%	97.28%	79.48%
95	Mistral Large 3	97.22%	97.22%	84.29%
96	Hermes 3 405B	96.98%	96.98%	80.80%
97	GPT-4.1 Mini	96.94%	96.94%	81.40%
98	Qwen 3.5 9B	96.84%	96.84%	84.05%
99	Mistral Small 3.2 24B	96.82%	96.82%	77.36%
100	Qwen 2.5 72B	96.82%	96.82%	73.17%
101	DeepSeek V3.1	96.80%	96.80%	82.35%
102	Claude Haiku 4.5	96.75%	96.75%	83.36%
103	Aion 3.0	96.54%	96.54%	88.78%
104	GPT-5.4 Nano (Reasoning)	96.43%	96.43%	80.02%
105	DeepSeek V4 Flash (Reasoning)	96.17%	96.17%	88.06%
106	Gemma 3 27B	96.15%	96.15%	75.70%
107	Writer: Palmyra X5	96.12%	96.12%	78.11%
108	Gemini 2.5 Flash Lite	96.00%	96.00%	79.91%
109	Claude Sonnet 5	95.99%	95.99%	87.34%
110	Ministral 3 8B	95.77%	95.77%	69.98%
111	Arcee AI: Trinity Mini	95.64%	95.64%	67.68%
112	Qwen 3.5 Plus (2026-04-20)	95.33%	95.33%	89.79%
113	Qwen 3 32B	95.19%	95.19%	79.37%
114	Aion 2.0	95.10%	95.10%	86.66%
115	Grok 4.20	95.00%	95.00%	81.21%
116	Qwen 3.5 35B	94.74%	94.74%	87.01%
117	Hermes 3 70B	94.47%	94.47%	69.74%
118	Z.AI GLM 5 Turbo	94.30%	94.30%	93.29%
119	Mistral Medium 3.1	94.17%	94.17%	76.08%
120	Gemma 3 12B	94.16%	94.16%	76.07%
121	DeepSeek V4 Flash	94.00%	94.00%	82.02%
122	Qwen3 235B A22B Instruct 2507	93.86%	93.86%	78.07%
123	Mistral Small 4	93.85%	93.85%	75.23%
124	Z.AI GLM 4.7 Flash	92.53%	92.53%	82.21%
125	Gemma 3 4B	92.40%	92.40%	66.33%
126	Gemma 4 26B	91.94%	91.94%	84.89%
127	GPT-5.4 Nano	91.85%	91.85%	72.16%
128	GPT-5.4 Nano (Reasoning, Low)	91.46%	91.46%	77.46%
129	WizardLM 2 8x22b	91.22%	91.22%	71.45%
130	Grok 4.3	91.21%	91.21%	78.00%
131	Ministral 3 3B	89.41%	89.41%	65.02%
132	Qwen 3.5 Flash	89.39%	89.39%	85.66%
133	Nemotron 3 Super	88.08%	88.08%	81.69%
134	Ministral 3 14B	87.84%	87.84%	70.45%
135	Llama 3.1 70B	87.82%	87.82%	77.41%
136	Cohere Command R+ (Aug. 2024)	87.53%	87.53%	67.04%
137	Cydonia 24B V4.1	86.72%	86.72%	72.68%
138	DeepSeek V3 (2025-03-24)	86.36%	86.36%	79.93%
139	Ministral 3B	84.70%	84.70%	59.25%
140	Ministral 8B	84.65%	84.65%	63.77%
141	Nemotron 3 Nano	83.65%	83.65%	74.50%
142	Qwen 3.6 35B	82.67%	82.67%	87.66%
143	Mistral NeMO	79.34%	79.34%	63.80%
144	GPT-4.1 Nano	78.47%	78.47%	69.90%
145	Aion 3.0 Mini	75.94%	75.94%	83.69%
146	ByteDance Seed 1.6 Flash	47.33%	47.33%	70.92%