Language

9 scenarios across 2 subcategories. 146 models scored.

Subcategories

Subcategory	Avg Score	Best Model	Best Score
Comprehension	85.10%	GPT-5.6 Sol (Reasoning)	100.00%
Generation	89.14%	Qwen3.6 Max Preview	100.00%

Model Leaderboard

All models ranked by their Language category score.

#	Model	Language	Comprehension	Generation	Overall
1	Qwen3.6 Max Preview	100.00%	100.00%	100.00%	93.72%
2	Claude Sonnet 4.6	100.00%	100.00%	100.00%	90.66%
3	DeepSeek-V2 Chat	100.00%	100.00%	100.00%	84.09%
4	GPT-5.6 Sol (Reasoning)	99.93%	100.00%	99.86%	95.15%
5	Z.AI GLM 5 Turbo	99.90%	100.00%	99.80%	93.29%
6	Grok 4.5 (Reasoning, High)	99.82%	100.00%	99.64%	94.12%
7	Z.AI GLM 5.2 (Reasoning, High)	99.82%	100.00%	99.64%	93.41%
8	GPT-5.5 (Reasoning)	99.69%	100.00%	99.37%	93.72%
9	Claude Opus 4.5	99.66%	100.00%	99.31%	89.60%
10	Hermes 3 405B	99.57%	100.00%	99.14%	80.80%
11	GPT-5.6 Luna	99.33%	100.00%	98.66%	85.06%
12	GPT-5.5 (Reasoning, Low)	99.24%	100.00%	98.49%	92.51%
13	Claude Sonnet 5 (Reasoning)	99.04%	100.00%	98.08%	90.40%
14	Claude Opus 4.7 (Reasoning)	98.77%	100.00%	97.53%	92.53%
15	GPT-5.4 Mini (Reasoning)	98.12%	100.00%	96.25%	89.82%
16	Claude Sonnet 5 (Reasoning, Low)	98.06%	100.00%	96.12%	90.16%
17	Claude Sonnet 4.6 (Reasoning)	97.58%	100.00%	95.15%	93.64%
18	Grok 4.3 (Reasoning)	97.50%	95.00%	100.00%	90.99%
19	Gemini 3.5 Flash (Reasoning, Minimal)	97.50%	95.00%	100.00%	85.88%
20	Z.AI GLM 4.5	97.33%	95.00%	99.67%	84.95%
21	GPT-5.6 Terra (Reasoning)	97.22%	95.00%	99.44%	92.49%
22	GPT-OSS 120B	97.18%	95.00%	99.36%	84.81%
23	Qwen 3.5 Plus (2026-04-20)	97.14%	100.00%	94.29%	89.79%
24	MoonshotAI: Kimi K2.5	97.10%	100.00%	94.19%	90.86%
25	Qwen3.7 Max	97.05%	100.00%	94.10%	94.55%
26	DeepSeek V3.1	96.87%	95.00%	98.74%	82.35%
27	ByteDance Seed 2.0 Lite	96.80%	100.00%	93.60%	84.27%
28	MoonshotAI: Kimi K2.6	96.77%	100.00%	93.53%	92.57%
29	Gemini 3.1 Flash Lite (Reasoning)	96.70%	95.00%	98.40%	85.91%
30	GPT-5.6 Luna (Reasoning)	96.67%	95.00%	98.34%	90.61%
31	Grok 4.20 (Reasoning)	96.61%	95.00%	98.22%	90.87%
32	Z.AI GLM 4.6	96.60%	100.00%	93.20%	87.64%
33	GPT-5 Mini	96.49%	95.00%	97.98%	91.31%
34	Claude Opus 4.8 (Reasoning)	96.38%	95.00%	97.76%	92.33%
35	Claude Opus 4.8 (Reasoning, Low)	96.31%	95.00%	97.63%	91.89%
36	Aion 2.0	96.17%	100.00%	92.34%	86.66%
37	Claude Opus 4.6	96.13%	100.00%	92.27%	92.31%
38	Claude Opus 4.6 (Reasoning)	96.12%	100.00%	92.23%	95.06%
39	MiniMax M2.5	96.05%	95.00%	97.10%	86.71%
40	ByteDance Seed 1.6	95.63%	100.00%	91.26%	89.59%
41	Qwen 3.5 27B	95.52%	100.00%	91.05%	90.05%
42	Claude Sonnet 5	95.50%	95.00%	96.00%	87.34%
43	Gemma 4 26B (Reasoning)	95.20%	95.00%	95.40%	89.02%
44	Qwen 3.5 Plus (2026-02-15)	95.10%	100.00%	90.21%	86.17%
45	Z.AI GLM 4.5 Air	95.05%	95.00%	95.10%	80.74%
46	Qwen 3.5 122B	95.01%	100.00%	90.03%	90.32%
47	Qwen 3.5 397B A17B	95.01%	100.00%	90.03%	91.09%
48	Gemini 3 Flash (Preview)	95.00%	90.00%	100.00%	85.47%
49	Gemini 3.1 Flash Lite (Preview)	94.98%	95.00%	94.95%	85.41%
50	Gemini 3 Flash (Preview, Reasoning)	94.93%	95.00%	94.87%	89.93%
51	GPT-5.4 (Reasoning)	94.90%	95.00%	94.80%	93.85%
52	Gemini 3.1 Pro (Preview)	94.90%	95.00%	94.80%	94.08%
53	DeepSeek V4 Flash (Reasoning)	94.76%	100.00%	89.51%	88.06%
54	MiniMax M3	94.71%	100.00%	89.43%	90.45%
55	GPT-5.6 Sol	94.60%	90.00%	99.20%	90.76%
56	Grok 4.5 (Reasoning, Low)	94.50%	95.00%	94.00%	90.94%
57	Gemini 3.5 Flash (Reasoning)	94.41%	95.00%	93.83%	93.35%
58	GPT-5.5	94.15%	90.00%	98.29%	89.37%
59	GPT-4.1	93.91%	90.00%	97.82%	86.82%
60	Aion 3.0 Mini	93.68%	90.00%	97.35%	83.69%
61	GPT-5.1	93.64%	90.00%	97.28%	90.73%
62	Qwen 3.6 35B	93.56%	90.00%	97.12%	87.66%
63	Claude Opus 4	93.01%	100.00%	86.02%	87.22%
64	Gemini 2.5 Pro	92.57%	90.00%	95.14%	88.44%
65	GPT-5.4 Mini (Reasoning, Low)	92.45%	85.00%	99.89%	83.57%
66	Claude Sonnet 4.5	92.39%	95.00%	89.77%	87.54%
67	Claude Opus 4.7	92.32%	85.00%	99.65%	89.90%
68	Z.AI GLM 5	92.06%	95.00%	89.12%	89.60%
69	Mistral Large 3	92.02%	100.00%	84.05%	84.29%
70	Gemma 4 26B	92.02%	90.00%	94.03%	84.89%
71	Qwen 3.5 35B	91.95%	100.00%	83.90%	87.01%
72	Qwen 3.5 Flash	91.94%	95.00%	88.89%	85.66%
73	GPT-5.6 Terra	91.87%	85.00%	98.75%	88.23%
74	Claude Haiku 4.5	91.84%	95.00%	88.67%	83.36%
75	Z.AI GLM 5.1	91.57%	85.00%	98.14%	93.74%
76	GPT-5	91.50%	85.00%	98.01%	91.48%
77	Claude Sonnet 4	91.31%	90.00%	92.61%	87.64%
78	GPT-5.2	91.19%	85.00%	97.39%	89.45%
79	Gemini 3.1 Flash Lite	90.90%	85.00%	96.80%	85.09%
80	GPT-5.4 (Reasoning, Low)	90.79%	85.00%	96.58%	90.91%
81	ByteDance Seed 2.0 Mini	90.12%	90.00%	90.24%	85.69%
82	GPT-4.1 Mini	89.64%	80.00%	99.27%	81.40%
83	Qwen 3.6 Flash	89.33%	85.00%	93.66%	89.31%
84	Qwen 3.6 27B	89.01%	90.00%	88.01%	88.33%
85	GPT-5.4 Mini	88.75%	80.00%	97.50%	80.45%
86	DeepSeek V4 Pro (Reasoning)	88.51%	85.00%	92.02%	89.28%
87	DeepSeek V4 Flash	88.50%	90.00%	87.00%	82.02%
88	Qwen 3.5 9B	88.18%	90.00%	86.36%	84.05%
89	DeepSeek V3 (2024-12-26)	87.88%	100.00%	75.76%	82.62%
90	Xiaomi MIMO v2.5 Pro	87.69%	85.00%	90.37%	86.05%
91	Z.AI GLM 4.7 Flash	87.67%	95.00%	80.35%	82.21%
92	Nemotron 3 Nano	87.63%	80.00%	95.26%	74.50%
93	Inception Mercury 2	87.32%	75.00%	99.64%	81.99%
94	Aion 3.0	86.85%	80.00%	93.70%	88.78%
95	DeepSeek V3 (2025-03-24)	86.42%	100.00%	72.83%	79.93%
96	Gemini 2.5 Flash	86.23%	75.00%	97.46%	80.61%
97	Gemini 2.5 Flash (Reasoning)	86.06%	75.00%	97.13%	84.14%
98	Z.AI GLM 4.7	85.46%	80.00%	90.93%	87.67%
99	Mistral Large 2	85.22%	100.00%	70.43%	81.50%
100	DeepSeek V3.2	85.01%	80.00%	90.03%	82.22%
101	MiniMax M2.7	84.80%	100.00%	69.59%	86.23%
102	Grok 4.3	84.74%	75.00%	94.47%	78.00%
103	Qwen 3 32B	84.61%	90.00%	79.21%	79.37%
104	GPT-5.4 Nano (Reasoning)	83.99%	70.00%	97.99%	80.02%
105	Gemma 4 31B (Reasoning)	83.82%	75.00%	92.64%	89.64%
106	Gemini 2.5 Flash Lite	82.75%	80.00%	85.50%	79.91%
107	GPT-4o, Aug. 6th (temp=1)	82.21%	65.00%	99.43%	81.28%
108	GPT-5.4 Nano (Reasoning, Low)	81.87%	70.00%	93.74%	77.46%
109	Hermes 3 70B	81.66%	75.00%	88.33%	69.74%
110	GPT-5.4	81.49%	65.00%	97.98%	84.31%
111	Nemotron 3 Super	81.41%	65.00%	97.82%	81.69%
112	GPT-5.4 Nano	80.82%	70.00%	91.64%	72.16%
113	Mistral NeMO	80.80%	95.00%	66.60%	63.80%
114	Llama 3.1 70B	80.18%	75.00%	85.36%	77.41%
115	Gemma 3 12B	80.10%	70.00%	90.19%	76.07%
116	o4 Mini	80.00%	60.00%	100.00%	86.56%
117	o4 Mini High	79.76%	60.00%	99.51%	88.78%
118	GPT-4.1 Nano	78.95%	65.00%	92.91%	69.90%
119	Grok 4.20	78.86%	65.00%	92.72%	81.21%
120	WizardLM 2 8x22b	78.05%	95.00%	61.10%	71.45%
121	GPT-4o Mini (temp=1)	77.50%	55.00%	100.00%	77.82%
122	Gemma 3 27B	77.21%	65.00%	89.42%	75.70%
123	GPT-5 Nano	77.18%	55.00%	99.35%	80.16%
124	Xiaomi MIMO v2.5	76.33%	65.00%	87.66%	83.95%
125	Gemma 4 31B	75.00%	50.00%	100.00%	85.23%
126	GPT-4o, Aug. 6th (temp=0)	75.00%	50.00%	100.00%	82.18%
127	GPT-4o Mini (temp=0)	75.00%	50.00%	100.00%	76.86%
128	Gemini 2.5 Flash Lite (Reasoning)	74.36%	65.00%	83.71%	83.10%
129	DeepSeek V4 Pro	72.80%	70.00%	75.59%	82.05%
130	Mistral Small 3.2 24B	72.77%	75.00%	70.53%	77.36%
131	Cydonia 24B V4.1	72.49%	95.00%	49.98%	72.68%
132	Gemma 3 4B	72.28%	70.00%	74.56%	66.33%
133	Arcee AI: Trinity Mini	70.59%	60.00%	81.18%	67.68%
134	Qwen 2.5 72B	68.95%	70.00%	67.91%	73.17%
135	Ministral 3 3B	68.10%	100.00%	36.20%	65.02%
136	Cohere Command R+ (Aug. 2024)	66.58%	60.00%	73.15%	67.04%
137	ByteDance Seed 1.6 Flash	61.23%	40.00%	82.45%	70.92%
138	Qwen3 235B A22B Instruct 2507	60.83%	75.00%	46.67%	78.07%
139	Mistral Small 4 (Reasoning)	60.53%	50.00%	71.06%	79.48%
140	Writer: Palmyra X5	56.58%	70.00%	43.16%	78.11%
141	Ministral 8B	53.91%	55.00%	52.81%	63.77%
142	Mistral Small 4	51.96%	55.00%	48.93%	75.23%
143	Mistral Medium 3.1	49.50%	50.00%	49.00%	76.08%
144	Ministral 3 8B	48.96%	50.00%	47.92%	69.98%
145	Ministral 3B	42.25%	25.00%	59.49%	59.25%
146	Ministral 3 14B	30.00%	50.00%	10.00%	70.45%