Data Extraction

Subcategory of Utility. 146 models scored.

Model Leaderboard

All models ranked by their Data Extraction subcategory score.

#	Model	Data Extraction	Utility	Overall
1	GPT-5.6 Sol (Reasoning)	100.00%	97.51%	95.15%
2	Claude Opus 4.6 (Reasoning)	100.00%	98.93%	95.06%
3	Qwen3.7 Max	100.00%	99.54%	94.55%
4	Grok 4.5 (Reasoning, High)	100.00%	86.69%	94.12%
5	Gemini 3.1 Pro (Preview)	100.00%	99.91%	94.08%
6	GPT-5.4 (Reasoning)	100.00%	96.89%	93.85%
7	Z.AI GLM 5.1	100.00%	97.51%	93.74%
8	Qwen3.6 Max Preview	100.00%	98.34%	93.72%
9	GPT-5.5 (Reasoning)	100.00%	96.60%	93.72%
10	Claude Sonnet 4.6 (Reasoning)	100.00%	97.88%	93.64%
11	Z.AI GLM 5.2 (Reasoning, High)	100.00%	96.31%	93.41%
12	Gemini 3.5 Flash (Reasoning)	100.00%	98.86%	93.35%
13	MoonshotAI: Kimi K2.6	100.00%	97.42%	92.57%
14	Claude Opus 4.7 (Reasoning)	100.00%	97.87%	92.53%
15	GPT-5.5 (Reasoning, Low)	100.00%	96.36%	92.51%
16	GPT-5.6 Terra (Reasoning)	100.00%	95.58%	92.49%
17	Claude Opus 4.8 (Reasoning)	100.00%	99.26%	92.33%
18	Claude Opus 4.6	100.00%	90.72%	92.31%
19	Claude Opus 4.8 (Reasoning, Low)	100.00%	98.00%	91.89%
20	GPT-5 Mini	100.00%	98.39%	91.31%
21	Qwen 3.5 397B A17B	100.00%	97.50%	91.09%
22	Grok 4.3 (Reasoning)	100.00%	92.94%	90.99%
23	Grok 4.5 (Reasoning, Low)	100.00%	82.63%	90.94%
24	GPT-5.4 (Reasoning, Low)	100.00%	95.32%	90.91%
25	Grok 4.20 (Reasoning)	100.00%	92.61%	90.87%
26	MoonshotAI: Kimi K2.5	100.00%	96.63%	90.86%
27	GPT-5.6 Sol	100.00%	80.44%	90.76%
28	GPT-5.1	100.00%	95.33%	90.73%
29	Claude Sonnet 4.6	100.00%	88.52%	90.66%
30	GPT-5.6 Luna (Reasoning)	100.00%	92.18%	90.61%
31	MiniMax M3	100.00%	93.59%	90.45%
32	Claude Sonnet 5 (Reasoning)	100.00%	92.87%	90.40%
33	Qwen 3.5 122B	100.00%	96.36%	90.32%
34	Claude Sonnet 5 (Reasoning, Low)	100.00%	93.53%	90.16%
35	Qwen 3.5 27B	100.00%	95.67%	90.05%
36	Gemini 3 Flash (Preview, Reasoning)	100.00%	97.20%	89.93%
37	Claude Opus 4.7	100.00%	95.77%	89.90%
38	GPT-5.4 Mini (Reasoning)	100.00%	94.44%	89.82%
39	Qwen 3.5 Plus (2026-04-20)	100.00%	96.42%	89.79%
40	Gemma 4 31B (Reasoning)	100.00%	96.32%	89.64%
41	Claude Opus 4.5	100.00%	89.84%	89.60%
42	Z.AI GLM 5	100.00%	94.11%	89.60%
43	ByteDance Seed 1.6	100.00%	90.83%	89.59%
44	GPT-5.2	100.00%	96.22%	89.45%
45	GPT-5.5	100.00%	81.88%	89.37%
46	Qwen 3.6 Flash	100.00%	96.09%	89.31%
47	DeepSeek V4 Pro (Reasoning)	100.00%	93.24%	89.28%
48	Gemma 4 26B (Reasoning)	100.00%	95.69%	89.02%
49	Aion 3.0	100.00%	93.57%	88.78%
50	o4 Mini High	100.00%	98.67%	88.78%
51	GPT-5.6 Terra	100.00%	77.09%	88.23%
52	DeepSeek V4 Flash (Reasoning)	100.00%	87.53%	88.06%
53	Z.AI GLM 4.7	100.00%	94.31%	87.67%
54	Qwen 3.6 35B	100.00%	96.20%	87.66%
55	Z.AI GLM 4.6	100.00%	88.58%	87.64%
56	Claude Sonnet 4	100.00%	84.02%	87.64%
57	Claude Sonnet 4.5	100.00%	83.78%	87.54%
58	Claude Sonnet 5	100.00%	88.57%	87.34%
59	Claude Opus 4	100.00%	88.81%	87.22%
60	Qwen 3.5 35B	100.00%	96.42%	87.01%
61	GPT-4.1	100.00%	90.57%	86.82%
62	MiniMax M2.5	100.00%	90.42%	86.71%
63	Aion 2.0	100.00%	90.91%	86.66%
64	o4 Mini	100.00%	96.31%	86.56%
65	MiniMax M2.7	100.00%	95.50%	86.23%
66	Qwen 3.5 Plus (2026-02-15)	100.00%	86.65%	86.17%
67	Xiaomi MIMO v2.5 Pro	100.00%	82.62%	86.05%
68	Gemini 3.1 Flash Lite (Reasoning)	100.00%	92.32%	85.91%
69	Gemini 3.5 Flash (Reasoning, Minimal)	100.00%	83.90%	85.88%
70	ByteDance Seed 2.0 Mini	100.00%	91.88%	85.69%
71	Qwen 3.5 Flash	100.00%	96.11%	85.66%
72	Gemini 3 Flash (Preview)	100.00%	86.39%	85.47%
73	Gemini 3.1 Flash Lite (Preview)	100.00%	94.00%	85.41%
74	Gemma 4 31B	100.00%	86.69%	85.23%
75	Gemini 3.1 Flash Lite	100.00%	92.77%	85.09%
76	GPT-5.6 Luna	100.00%	75.00%	85.06%
77	Z.AI GLM 4.5	100.00%	79.19%	84.95%
78	Gemma 4 26B	100.00%	83.17%	84.89%
79	GPT-OSS 120B	100.00%	92.03%	84.81%
80	GPT-5.4	100.00%	81.95%	84.31%
81	Mistral Large 3	100.00%	84.91%	84.29%
82	ByteDance Seed 2.0 Lite	100.00%	92.23%	84.27%
83	DeepSeek-V2 Chat	100.00%	83.82%	84.09%
84	Qwen 3.5 9B	100.00%	94.02%	84.05%
85	Xiaomi MIMO v2.5	100.00%	81.15%	83.95%
86	Aion 3.0 Mini	100.00%	90.76%	83.69%
87	GPT-5.4 Mini (Reasoning, Low)	100.00%	88.49%	83.57%
88	Claude Haiku 4.5	100.00%	72.48%	83.36%
89	Gemini 2.5 Flash Lite (Reasoning)	100.00%	89.63%	83.10%
90	DeepSeek V3 (2024-12-26)	100.00%	81.87%	82.62%
91	DeepSeek V3.1	100.00%	76.65%	82.35%
92	DeepSeek V3.2	100.00%	81.58%	82.22%
93	GPT-4o, Aug. 6th (temp=0)	100.00%	82.11%	82.18%
94	DeepSeek V4 Pro	100.00%	77.57%	82.05%
95	DeepSeek V4 Flash	100.00%	83.26%	82.02%
96	Inception Mercury 2	100.00%	92.86%	81.99%
97	Nemotron 3 Super	100.00%	95.29%	81.69%
98	Mistral Large 2	100.00%	69.19%	81.50%
99	GPT-4.1 Mini	100.00%	82.30%	81.40%
100	GPT-4o, Aug. 6th (temp=1)	100.00%	82.44%	81.28%
101	Grok 4.20	100.00%	84.11%	81.21%
102	Z.AI GLM 4.5 Air	100.00%	76.57%	80.74%
103	GPT-5.4 Mini	100.00%	79.37%	80.45%
104	GPT-5 Nano	100.00%	93.91%	80.16%
105	DeepSeek V3 (2025-03-24)	100.00%	80.62%	79.93%
106	Gemini 2.5 Flash Lite	100.00%	80.14%	79.91%
107	Mistral Small 4 (Reasoning)	100.00%	85.61%	79.48%
108	Qwen 3 32B	100.00%	81.66%	79.37%
109	Writer: Palmyra X5	100.00%	79.71%	78.11%
110	Qwen3 235B A22B Instruct 2507	100.00%	83.15%	78.07%
111	GPT-4o Mini (temp=1)	100.00%	82.16%	77.82%
112	GPT-5.4 Nano (Reasoning, Low)	100.00%	91.42%	77.46%
113	Llama 3.1 70B	100.00%	81.03%	77.41%
114	Mistral Small 3.2 24B	100.00%	73.17%	77.36%
115	GPT-4o Mini (temp=0)	100.00%	81.43%	76.86%
116	Mistral Medium 3.1	100.00%	80.13%	76.08%
117	Gemma 3 12B	100.00%	79.28%	76.07%
118	Gemma 3 27B	100.00%	76.82%	75.70%
119	Mistral Small 4	100.00%	78.28%	75.23%
120	Nemotron 3 Nano	100.00%	86.00%	74.50%
121	Qwen 2.5 72B	100.00%	76.43%	73.17%
122	GPT-5.4 Nano	100.00%	78.57%	72.16%
123	WizardLM 2 8x22b	100.00%	67.14%	71.45%
124	ByteDance Seed 1.6 Flash	100.00%	84.16%	70.92%
125	Ministral 3 14B	100.00%	79.03%	70.45%
126	Ministral 3 8B	100.00%	74.43%	69.98%
127	Hermes 3 70B	100.00%	61.15%	69.74%
128	Arcee AI: Trinity Mini	100.00%	59.94%	67.68%
129	Gemma 3 4B	100.00%	60.30%	66.33%
130	Ministral 3 3B	100.00%	72.38%	65.02%
131	Mistral NeMO	100.00%	51.55%	63.80%
132	GPT-5	95.00%	93.53%	91.48%
133	Gemini 2.5 Pro	95.00%	92.18%	88.44%
134	Qwen 3.6 27B	95.00%	94.32%	88.33%
135	Z.AI GLM 4.7 Flash	95.00%	88.98%	82.21%
136	GPT-5.4 Nano (Reasoning)	95.00%	93.34%	80.02%
137	Grok 4.3	95.00%	66.41%	78.00%
138	Z.AI GLM 5 Turbo	90.00%	96.36%	93.29%
139	Gemini 2.5 Flash (Reasoning)	90.00%	82.25%	84.14%
140	Hermes 3 405B	90.00%	69.02%	80.80%
141	Cydonia 24B V4.1	85.00%	69.32%	72.68%
142	Ministral 8B	85.00%	46.82%	63.77%
143	Ministral 3B	85.00%	49.17%	59.25%
144	Cohere Command R+ (Aug. 2024)	70.00%	59.51%	67.04%
145	Gemini 2.5 Flash	50.00%	61.45%	80.61%
146	GPT-4.1 Nano	50.00%	68.45%	69.90%