Constraint Adherence

Subcategory of Rule Following. 146 models scored.

Model Leaderboard

All models ranked by their Constraint Adherence subcategory score.

#	Model	Constraint Adherence	Rule Following	Overall
1	Qwen3.7 Max	95.76%	95.76%	94.55%
2	Gemini 3.5 Flash (Reasoning)	92.04%	92.04%	93.35%
3	Gemini 3.1 Pro (Preview)	91.21%	91.21%	94.08%
4	Claude Opus 4.6 (Reasoning)	89.78%	89.78%	95.06%
5	Z.AI GLM 5.1	88.41%	88.41%	93.74%
6	Grok 4.5 (Reasoning, High)	86.79%	86.79%	94.12%
7	Z.AI GLM 5 Turbo	86.78%	86.78%	93.29%
8	GPT-5.6 Sol (Reasoning)	85.88%	85.88%	95.15%
9	Claude Sonnet 4.6 (Reasoning)	85.73%	85.73%	93.64%
10	Z.AI GLM 5.2 (Reasoning, High)	85.18%	85.18%	93.41%
11	Gemma 4 31B (Reasoning)	85.00%	85.00%	89.64%
12	Claude Opus 4.6	83.11%	83.11%	92.31%
13	Grok 4.3 (Reasoning)	82.80%	82.80%	90.99%
14	Qwen3.6 Max Preview	82.79%	82.79%	93.72%
15	Claude Sonnet 4.6	82.50%	82.50%	90.66%
16	Grok 4.20 (Reasoning)	82.04%	82.04%	90.87%
17	Claude Sonnet 4	81.52%	81.52%	87.64%
18	Qwen 3.5 122B	80.00%	80.00%	90.32%
19	GPT-5.5 (Reasoning)	79.40%	79.40%	93.72%
20	Qwen 3.5 397B A17B	79.39%	79.39%	91.09%
21	GPT-5.4 (Reasoning)	79.29%	79.29%	93.85%
22	ByteDance Seed 1.6	77.71%	77.71%	89.59%
23	Qwen 3.6 35B	77.34%	77.34%	87.66%
24	GPT-5	77.13%	77.13%	91.48%
25	MoonshotAI: Kimi K2.6	76.94%	76.94%	92.57%
26	GPT-5.5 (Reasoning, Low)	76.90%	76.90%	92.51%
27	Claude Sonnet 4.5	76.80%	76.80%	87.54%
28	Grok 4.5 (Reasoning, Low)	76.44%	76.44%	90.94%
29	GPT-5 Mini	76.44%	76.44%	91.31%
30	Qwen 3.5 27B	76.04%	76.04%	90.05%
31	Gemma 4 26B (Reasoning)	74.75%	74.75%	89.02%
32	Gemini 3 Flash (Preview, Reasoning)	74.48%	74.48%	89.93%
33	GPT-5.6 Sol	74.47%	74.47%	90.76%
34	Claude Sonnet 5	74.36%	74.36%	87.34%
35	GPT-4o, Aug. 6th (temp=0)	74.19%	74.19%	82.18%
36	GPT-5.1	74.05%	74.05%	90.73%
37	Claude Opus 4.7 (Reasoning)	74.04%	74.04%	92.53%
38	GPT-5.6 Terra (Reasoning)	72.99%	72.99%	92.49%
39	GPT-5.6 Terra	72.82%	72.82%	88.23%
40	DeepSeek V4 Pro (Reasoning)	72.74%	72.74%	89.28%
41	Gemma 4 31B	72.72%	72.72%	85.23%
42	o4 Mini High	72.70%	72.70%	88.78%
43	Claude Opus 4.5	72.61%	72.61%	89.60%
44	GPT-5.5	72.34%	72.34%	89.37%
45	MoonshotAI: Kimi K2.5	72.03%	72.03%	90.86%
46	Gemma 4 26B	71.75%	71.75%	84.89%
47	Qwen 3.6 Flash	71.50%	71.50%	89.31%
48	Qwen 3.6 27B	71.37%	71.37%	88.33%
49	Claude Opus 4.8 (Reasoning, Low)	70.56%	70.56%	91.89%
50	Claude Opus 4	70.37%	70.37%	87.22%
51	Claude Haiku 4.5	70.35%	70.35%	83.36%
52	Claude Opus 4.8 (Reasoning)	70.27%	70.27%	92.33%
53	GPT-5.4 (Reasoning, Low)	70.02%	70.02%	90.91%
54	MiniMax M3	69.18%	69.18%	90.45%
55	Z.AI GLM 4.7	69.16%	69.16%	87.67%
56	MiniMax M2.7	68.90%	68.90%	86.23%
57	Aion 3.0	68.80%	68.80%	88.78%
58	DeepSeek-V2 Chat	68.78%	68.78%	84.09%
59	Claude Sonnet 5 (Reasoning)	68.34%	68.34%	90.40%
60	Claude Opus 4.7	68.08%	68.08%	89.90%
61	DeepSeek V3 (2025-03-24)	67.94%	67.94%	79.93%
62	GPT-4o, Aug. 6th (temp=1)	67.91%	67.91%	81.28%
63	Z.AI GLM 5	67.78%	67.78%	89.60%
64	Qwen 3.5 Plus (2026-04-20)	67.53%	67.53%	89.79%
65	Qwen 3.5 35B	67.42%	67.42%	87.01%
66	Writer: Palmyra X5	67.19%	67.19%	78.11%
67	GPT-5.2	67.10%	67.10%	89.45%
68	Gemini 2.5 Flash Lite (Reasoning)	66.81%	66.81%	83.10%
69	GPT-4.1	66.78%	66.78%	86.82%
70	Claude Sonnet 5 (Reasoning, Low)	66.62%	66.62%	90.16%
71	DeepSeek V3 (2024-12-26)	66.39%	66.39%	82.62%
72	DeepSeek V3.1	66.15%	66.15%	82.35%
73	Z.AI GLM 4.6	65.85%	65.85%	87.64%
74	Z.AI GLM 4.7 Flash	65.63%	65.63%	82.21%
75	Qwen3 235B A22B Instruct 2507	65.42%	65.42%	78.07%
76	Gemini 3 Flash (Preview)	65.14%	65.14%	85.47%
77	GPT-5.6 Luna (Reasoning)	64.83%	64.83%	90.61%
78	o4 Mini	64.61%	64.61%	86.56%
79	DeepSeek V4 Flash (Reasoning)	64.50%	64.50%	88.06%
80	Mistral Large 3	64.41%	64.41%	84.29%
81	Xiaomi MIMO v2.5 Pro	64.29%	64.29%	86.05%
82	Qwen 3.5 Plus (2026-02-15)	64.21%	64.21%	86.17%
83	Mistral Small 3.2 24B	64.08%	64.08%	77.36%
84	Z.AI GLM 4.5	63.79%	63.79%	84.95%
85	Aion 2.0	63.77%	63.77%	86.66%
86	DeepSeek V4 Pro	63.74%	63.74%	82.05%
87	Llama 3.1 70B	63.45%	63.45%	77.41%
88	Qwen 3.5 Flash	63.19%	63.19%	85.66%
89	Mistral Large 2	63.05%	63.05%	81.50%
90	MiniMax M2.5	62.69%	62.69%	86.71%
91	Gemini 3.1 Flash Lite (Reasoning)	62.26%	62.26%	85.91%
92	Mistral Small 4	62.17%	62.17%	75.23%
93	Gemini 3.1 Flash Lite	61.21%	61.21%	85.09%
94	Gemma 3 12B	61.05%	61.05%	76.07%
95	Aion 3.0 Mini	60.98%	60.98%	83.69%
96	Qwen 3.5 9B	60.98%	60.98%	84.05%
97	Gemini 2.5 Pro	60.89%	60.89%	88.44%
98	Xiaomi MIMO v2.5	60.75%	60.75%	83.95%
99	Gemini 3.5 Flash (Reasoning, Minimal)	60.38%	60.38%	85.88%
100	Mistral Small 4 (Reasoning)	60.28%	60.28%	79.48%
101	Gemini 2.5 Flash (Reasoning)	59.97%	59.97%	84.14%
102	Gemini 2.5 Flash Lite	59.96%	59.96%	79.91%
103	Grok 4.20	59.71%	59.71%	81.21%
104	Hermes 3 405B	59.17%	59.17%	80.80%
105	Gemini 3.1 Flash Lite (Preview)	59.04%	59.04%	85.41%
106	GPT-4o Mini (temp=0)	58.84%	58.84%	76.86%
107	ByteDance Seed 2.0 Mini	58.77%	58.77%	85.69%
108	Cohere Command R+ (Aug. 2024)	58.70%	58.70%	67.04%
109	GPT-4.1 Mini	58.59%	58.59%	81.40%
110	GPT-5.4	58.11%	58.11%	84.31%
111	GPT-5 Nano	57.57%	57.57%	80.16%
112	Gemini 2.5 Flash	57.47%	57.47%	80.61%
113	Nemotron 3 Super	57.43%	57.43%	81.69%
114	GPT-5.4 Mini (Reasoning)	57.38%	57.38%	89.82%
115	DeepSeek V4 Flash	57.32%	57.32%	82.02%
116	GPT-4o Mini (temp=1)	56.50%	56.50%	77.82%
117	GPT-OSS 120B	55.03%	55.03%	84.81%
118	GPT-5.6 Luna	54.70%	54.70%	85.06%
119	Inception Mercury 2	54.41%	54.41%	81.99%
120	DeepSeek V3.2	53.75%	53.75%	82.22%
121	Hermes 3 70B	53.00%	53.00%	69.74%
122	Ministral 3 14B	50.83%	50.83%	70.45%
123	Cydonia 24B V4.1	50.36%	50.36%	72.68%
124	Grok 4.3	49.02%	49.02%	78.00%
125	Mistral Medium 3.1	48.60%	48.60%	76.08%
126	Gemma 3 27B	47.98%	47.98%	75.70%
127	ByteDance Seed 1.6 Flash	47.15%	47.15%	70.92%
128	Qwen 3 32B	46.83%	46.83%	79.37%
129	GPT-5.4 Mini	46.32%	46.32%	80.45%
130	Z.AI GLM 4.5 Air	44.11%	44.11%	80.74%
131	Nemotron 3 Nano	43.47%	43.47%	74.50%
132	GPT-4.1 Nano	40.88%	40.88%	69.90%
133	ByteDance Seed 2.0 Lite	36.85%	36.85%	84.27%
134	Mistral NeMO	34.11%	34.11%	63.80%
135	GPT-5.4 Mini (Reasoning, Low)	33.99%	33.99%	83.57%
136	GPT-5.4 Nano (Reasoning, Low)	31.65%	31.65%	77.46%
137	Qwen 2.5 72B	31.55%	31.55%	73.17%
138	Ministral 3 8B	31.34%	31.34%	69.98%
139	WizardLM 2 8x22b	28.27%	28.27%	71.45%
140	GPT-5.4 Nano (Reasoning)	27.15%	27.15%	80.02%
141	Gemma 3 4B	26.37%	26.37%	66.33%
142	Ministral 3B	24.45%	24.45%	59.25%
143	Arcee AI: Trinity Mini	23.57%	23.57%	67.68%
144	GPT-5.4 Nano	20.94%	20.94%	72.16%
145	Ministral 3 3B	15.87%	15.87%	65.02%
146	Ministral 8B	15.27%	15.27%	63.77%