Medium: Through the Thornveil (Scattered)

Codex Extraction

Evaluates a model's ability to extract structured codex entries (characters, locations, objects, lore) from prose passages and return them as well-formed XML.

Tooling Reasoning

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Gemini 3.5 Flash (Reasoning, Minimal)	99%
Z.AI GLM 5.1	99%
Gemini 3.5 Flash (Reasoning)	99%
Claude Opus 4.6 (Reasoning)	99%
Grok 4	99%
Z.AI GLM 5 Turbo	98%
Z.AI GLM 5	98%
Grok 4.1 Fast	98%
Claude Opus 4.5	98%
Qwen3.7 Max	98%
DeepSeek V4 Pro (Reasoning)	98%
Gemini 3.1 Pro (Preview)	98%
Claude Opus 4.7 (Reasoning)	98%
Gemma 4 31B	98%
Gemini 3 Pro (Preview)	98%
GPT-5.5	98%
Gemini 3 Flash (Preview)	98%
GPT-5.4 (Reasoning, Low)	98%
Grok 4.20 (Reasoning)	98%
GPT-5	98%

	Score	Cost	Time
Gemini 3 Flash (Preview)	98%	$0.0027	3.7s
Grok 4 Fast	97%	$0.0013	10.2s
Xiaomi MIMO v2.5	96%	$0.0029	10.8s
DeepSeek V4 Flash	95%	$0.0003	7.1s
Mistral Medium 3.1	96%	$0.0025	5.1s
Gemma 4 31B	98%	$0.0007	26.6s
Gemini 3.5 Flash (Reasoning, Minimal)	99%	$0.011	2.9s
Qwen 3.5 Plus (2026-02-15)	97%	$0.0029	11.0s
Claude Haiku 4.5	97%	$0.0071	4.3s
Z.AI GLM 5 Turbo	98%	$0.0061	13.8s
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0016	1.9s
Grok 4.1 Fast	98%	$0.0019	29.4s
Gemini 3.1 Flash Lite (Preview)	95%	$0.0017	1.7s
DeepSeek V4 Pro	96%	$0.0009	14.6s
Grok 4.3	96%	$0.0057	4.6s
Mistral Small 3.2 24B	94%	$0.0005	4.4s
Xiaomi MIMO v2.5 Pro	96%	$0.0049	19.9s
Stealth: Healer Alpha	96%	$0.0000	26.7s
Gemini 3.1 Flash Lite	94%	$0.0016	1.8s
Grok 4.20 (Beta)	95%	$0.0049	2.0s

	Score	Cost	Speed	Stability
Gemini 3 Flash (Preview)	98%	$0.0027	3.7s	95%
Gemini 3.5 Flash (Reasoning, Minimal)	99%	$0.011	2.9s	98%
Z.AI GLM 5 Turbo	98%	$0.0061	13.8s	97%
Mistral Medium 3.1	96%	$0.0025	5.1s	96%
Claude Haiku 4.5	97%	$0.0071	4.3s	97%
Qwen 3.5 Plus (2026-02-15)	97%	$0.0029	11.0s	96%
Gemma 4 31B	98%	$0.0007	26.6s	97%
Grok 4.1 Fast	98%	$0.0019	29.4s	97%
Grok 4 Fast	97%	$0.0013	10.2s	94%
DeepSeek V4 Flash	95%	$0.0003	7.1s	94%
Gemini 3.1 Flash Lite (Reasoning)	95%	$0.0016	1.9s	94%
Grok 4.3	96%	$0.0057	4.6s	95%
Gemini 3.1 Flash Lite (Preview)	95%	$0.0017	1.7s	93%
Xiaomi MIMO v2.5	96%	$0.0029	10.8s	94%
Mistral Small 3.2 24B	94%	$0.0005	4.4s	93%
DeepSeek V4 Pro	96%	$0.0009	14.6s	93%
Grok 4.20 (Beta)	95%	$0.0049	2.0s	93%
Gemini 3.1 Flash Lite	94%	$0.0016	1.8s	92%
Stealth: Healer Alpha	96%	$0.0000	26.7s	93%
Z.AI GLM 4.5	95%	$0.0018	13.7s	93%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	Total
2	Gemini 3.5 Flash (Reasoning, Minimal)	$0.011	2.9s	98%	100	100	99	99	98	99%
36	Z.AI GLM 5.1	$0.011	46.6s	98%	99	99	99	98	98	99%
84	Gemini 3.5 Flash (Reasoning)	$0.040	16.2s	98%	99	99	99	98	98	99%
100	Claude Opus 4.6 (Reasoning)	$0.048	17.2s	98%	99	99	99	99	99	99%
79	Grok 4	$0.031	38.0s	98%	99	99	99	98	98	99%
3	Z.AI GLM 5 Turbo	$0.0061	13.8s	97%	99	99	98	98	97	98%
57	Z.AI GLM 5	$0.010	1.0m	97%	99	99	98	98	98	98%
8	Grok 4.1 Fast	$0.0019	29.4s	97%	99	98	98	98	97	98%
64	Claude Opus 4.5	$0.035	6.8s	97%	99	99	99	99	97	98%
118	Qwen3.7 Max	$0.041	1.0m	97%	99	99	98	98	97	98%
108	DeepSeek V4 Pro (Reasoning)	$0.011	2.0m	97%	99	98	98	98	97	98%
133	Gemini 3.1 Pro (Preview)	$0.064	57.8s	96%	99	99	99	98	96	98%
96	Claude Opus 4.7 (Reasoning)	$0.046	5.9s	96%	99	99	99	98	96	98%
7	Gemma 4 31B	$0.0007	26.6s	97%	98	98	98	98	98	98%
128	Gemini 3 Pro (Preview)	$0.056	36.8s	97%	98	98	98	98	97	98%
46	GPT-5.5	$0.026	5.7s	96%	99	99	98	98	96	98%
1	Gemini 3 Flash (Preview)	$0.0027	3.7s	95%	99	99	98	98	94	98%
21	GPT-5.4 (Reasoning, Low)	$0.016	9.5s	97%	99	98	98	97	97	98%
34	Grok 4.20 (Reasoning)	$0.012	31.8s	97%	98	98	98	98	96	98%
129	GPT-5	$0.045	1.1m	96%	98	98	98	98	96	98%
105	Claude Sonnet 4.6 (Reasoning)	$0.043	28.4s	97%	98	98	98	97	97	98%
120	GPT-5.4 (Reasoning)	$0.045	47.6s	97%	98	98	98	97	97	97%
5	Claude Haiku 4.5	$0.0071	4.3s	97%	98	97	97	97	97	97%
99	Claude Opus 4.7	$0.046	6.3s	96%	98	98	98	96	96	97%
40	Claude Sonnet 4.6	$0.021	6.7s	96%	98	98	98	98	96	97%
22	Gemini 3 Flash (Preview, Reasoning)	$0.0100	16.7s	95%	99	98	98	96	95	97%
92	GPT-5.5 (Reasoning, Low)	$0.038	14.3s	96%	98	98	98	97	95	97%
138	Qwen3.6 Max Preview	$0.044	2.4m	96%	98	98	97	97	96	97%
103	Grok 4.3 (Reasoning)	$0.017	1.4m	96%	98	98	98	97	96	97%
90	Gemma 4 31B (Reasoning)	$0.0016	1.9m	97%	98	97	97	97	97	97%
88	Claude Opus 4.6	$0.036	7.8s	94%	99	98	96	96	96	97%
42	Claude Sonnet 4.5	$0.021	6.1s	95%	98	98	97	97	96	97%
73	Aion 2.0	$0.0079	1.2m	95%	98	98	98	98	94	97%
142	Claude Opus 4	$0.106	13.0s	96%	98	97	97	97	97	97%
6	Qwen 3.5 Plus (2026-02-15)	$0.0029	11.0s	96%	98	97	97	97	96	97%
112	Z.AI GLM 4.7	$0.010	2.0m	95%	99	97	97	96	96	97%
87	ByteDance Seed 2.0 Lite	$0.0083	1.4m	95%	98	97	97	96	96	97%
102	Gemini 2.5 Pro	$0.035	23.2s	93%	98	98	98	98	93	97%
44	Grok 4.20 (Beta, Reasoning)	$0.020	12.0s	96%	98	97	97	96	96	97%
98	Claude 3.5 Sonnet	$0.041	12.9s	96%	97	97	97	97	96	97%
77	o4 Mini High	$0.023	37.7s	96%	97	97	97	96	96	97%
47	Claude Sonnet 4	$0.021	7.5s	95%	98	96	96	96	96	97%
151	Qwen 3.5 122B	$0.128	5.5m	94%	98	97	97	95	95	97%
9	Grok 4 Fast	$0.0013	10.2s	94%	98	98	97	96	94	97%
122	MoonshotAI: Kimi K2.5	$0.013	2.0m	95%	98	97	97	96	95	96%
19	Stealth: Healer Alpha	$0.0000	26.7s	93%	98	98	97	96	93	96%
51	Z.AI GLM 4.6	$0.0057	45.0s	94%	98	97	96	96	95	96%
14	Xiaomi MIMO v2.5	$0.0029	10.8s	94%	98	98	97	95	93	96%
53	Claude 3.7 Sonnet	$0.021	7.5s	94%	97	97	96	96	95	96%
4	Mistral Medium 3.1	$0.0025	5.1s	96%	97	96	96	96	96	96%
119	Gemma 4 26B (Reasoning)	$0.0025	2.2m	93%	98	98	97	97	92	96%
106	Qwen 3.5 Plus (2026-04-20)	$0.015	1.4m	94%	98	97	96	95	95	96%
12	Grok 4.3	$0.0057	4.6s	95%	97	96	96	96	96	96%
117	MoonshotAI: Kimi K2.6	$0.023	1.4m	94%	98	97	96	96	94	96%
30	MiniMax M2.5	$0.0023	33.5s	94%	98	97	96	95	94	96%
62	GPT-5.2	$0.019	17.5s	93%	98	97	95	95	94	96%
26	DeepSeek V4 Flash (Reasoning)	$0.0008	35.2s	94%	97	96	96	96	95	96%
125	Qwen 3.5 27B	$0.024	1.5m	93%	98	98	95	95	94	96%
131	GPT-5.5 (Reasoning)	$0.055	28.2s	93%	98	96	96	95	95	96%
41	Xiaomi MIMO v2.5 Pro	$0.0049	19.9s	91%	98	98	97	97	89	96%
31	GPT-5.4	$0.011	6.0s	93%	97	97	97	96	92	96%
76	GPT-5.4 Mini (Reasoning)	$0.019	32.0s	94%	98	96	96	94	94	96%
33	DeepSeek V3.2	$0.0011	33.5s	93%	97	97	96	95	93	96%
48	o4 Mini	$0.013	20.9s	95%	96	96	96	95	95	96%
66	Nemotron 3 Super	$0.0000	1.1m	92%	98	97	95	94	94	96%
16	DeepSeek V4 Pro	$0.0009	14.6s	93%	97	96	96	95	93	96%
10	DeepSeek V4 Flash	$0.0003	7.1s	94%	96	96	96	95	94	95%
114	GPT-5.1	$0.034	47.6s	94%	96	96	96	96	94	95%
116	Qwen 3.6 27B	$0.021	1.4m	94%	96	96	96	94	94	95%
23	DeepSeek V3.1	$0.0012	22.2s	93%	97	96	95	95	93	95%
29	DeepSeek V3 (2025-03-24)	$0.0011	30.3s	94%	96	96	95	95	95	95%
17	Grok 4.20 (Beta)	$0.0049	2.0s	93%	97	96	95	95	93	95%
139	ByteDance Seed 2.0 Mini	$0.0037	3.8m	93%	96	96	95	95	93	95%
32	Stealth: Hunter Alpha	$0.0000	31.7s	93%	96	95	95	94	94	95%
72	GPT-5 Mini	$0.0074	46.3s	91%	98	95	94	94	93	95%
13	Gemini 3.1 Flash Lite (Preview)	$0.0017	1.7s	93%	96	95	94	94	94	95%
11	Gemini 3.1 Flash Lite (Reasoning)	$0.0016	1.9s	94%	96	95	95	94	94	95%
126	Qwen 3.5 397B A17B	$0.015	1.8m	94%	95	95	95	95	94	95%
20	Z.AI GLM 4.5	$0.0018	13.7s	93%	96	95	95	94	93	95%
24	Gemini 2.5 Flash	$0.0021	2.4s	89%	98	97	93	93	92	95%
28	MiniMax M2.7	$0.0017	22.1s	93%	96	95	94	94	93	95%
25	Arcee AI: Trinity Large (Preview)	$0.0000	18.6s	92%	97	94	94	94	93	94%
37	DeepSeek-V2 Chat	$0.0019	14.0s	90%	97	97	96	92	90	94%
27	Grok 4.20	$0.0042	4.1s	91%	97	95	94	93	92	94%
39	DeepSeek V3 (2024-12-26)	$0.0017	13.5s	89%	97	96	95	94	89	94%
18	Gemini 3.1 Flash Lite	$0.0016	1.8s	92%	96	94	94	93	93	94%
110	Qwen 3.5 35B	$0.017	50.9s	88%	97	97	94	93	89	94%
70	Qwen 3.6 35B	$0.0074	37.3s	90%	97	95	95	92	91	94%
15	Mistral Small 3.2 24B	$0.0005	4.4s	93%	94	94	94	94	93	94%
80	GPT-4o, May 13th (temp=0)	$0.024	3.6s	92%	95	94	94	94	91	94%
85	Qwen 3.6 Flash	$0.010	31.7s	89%	97	94	93	92	91	93%
43	GPT-4o, Aug. 6th (temp=0)	$0.0098	3.0s	92%	94	93	93	93	93	93%
55	GPT-4.1	$0.0073	4.5s	89%	96	96	96	90	87	93%
50	GPT-4o, Aug. 6th (temp=1)	$0.0089	3.5s	90%	94	94	93	92	91	93%
45	Gemma 3 27B	$0.0005	17.7s	90%	95	94	93	91	90	93%
54	Hermes 3 405B	$0.0040	17.3s	90%	94	93	93	93	90	93%
115	ByteDance Seed 1.6	$0.0080	1.4m	89%	94	94	93	92	89	93%
95	GPT-4o, May 13th (temp=1)	$0.024	3.2s	89%	95	94	93	91	90	92%
89	Qwen 3.5 Flash	$0.0033	46.9s	89%	96	93	92	91	90	92%
58	Qwen3 235B A22B Instruct 2507	$0.0008	20.0s	88%	95	94	92	91	90	92%
38	Ministral 3 8B	$0.0006	3.1s	89%	95	92	92	91	90	92%
56	Writer: Palmyra X5	$0.0052	7.6s	89%	94	93	92	91	89	92%
35	GPT-4.1 Mini	$0.0013	5.6s	91%	92	92	92	91	91	92%
60	Mistral Small Creative	$0.0005	3.6s	84%	97	94	91	88	88	92%
86	WizardLM 2 8x22b	$0.0025	31.0s	86%	96	92	92	89	88	91%
107	Z.AI GLM 4.5 Air	$0.0029	1.0m	86%	94	94	93	88	86	91%
49	Mistral Large 3	$0.0027	8.1s	90%	91	91	91	91	91	91%
68	Gemini 2.5 Flash Lite (Reasoning)	$0.0020	20.5s	88%	93	93	92	88	88	91%
74	Mistral Large 2	$0.011	8.4s	89%	92	91	91	91	89	91%
93	GPT-OSS 120B	$0.0011	42.1s	87%	93	93	90	89	88	91%
63	GPT-5.4 Mini (Reasoning, Low)	$0.0038	3.8s	86%	94	91	90	89	88	91%
67	GPT-5.4 Mini	$0.0029	2.1s	84%	96	91	90	89	86	91%
71	Mistral Large	$0.011	8.2s	90%	91	91	91	90	89	90%
130	Nemotron 3 Nano	$0.0012	1.9m	88%	92	92	91	90	88	90%
52	Ministral 8B	$0.0004	3.5s	88%	92	91	91	90	88	90%
123	Qwen 3.5 9B	$0.0014	1.5m	87%	93	92	90	88	88	90%
127	GPT-5 Nano	$0.0046	1.4m	87%	93	92	91	87	87	90%
75	Qwen 3 32B	$0.0010	20.5s	86%	93	90	90	90	86	90%
81	Cydonia 24B V4.1	$0.0009	11.4s	83%	96	89	89	89	86	90%
61	Inception Mercury 2	$0.0025	3.8s	88%	91	90	89	89	88	89%
121	Gemini 2.5 Flash (Reasoning)	$0.0086	12.6s	75%	97	97	96	88	69	89%
59	GPT-4o Mini (temp=0)	$0.0005	8.0s	89%	89	89	89	89	89	89%
65	Gemini 2.5 Flash Lite	$0.0005	1.8s	86%	92	90	90	88	85	89%
104	Mistral Small 4 (Reasoning)	$0.0017	15.1s	79%	94	94	86	86	85	89%
69	Qwen 2.5 72B	$0.0006	10.1s	87%	91	89	89	88	87	89%
78	Ministral 3B	$0.0002	1.7s	83%	93	89	89	87	83	88%
83	GPT-4o Mini (temp=1)	$0.0006	7.2s	84%	90	90	88	88	84	88%
97	Claude 3 Haiku	$0.0016	4.2s	80%	93	91	87	85	82	88%
134	Z.AI GLM 4.7 Flash	$0.0019	1.6m	80%	93	91	89	86	79	87%
82	Ministral 3 14B	$0.0008	4.8s	85%	90	88	88	87	84	87%
111	GPT-5.4 Nano (Reasoning)	$0.0026	13.6s	77%	93	92	89	88	74	87%
94	Arcee AI: Trinity Mini	$0.0003	5.8s	82%	90	89	88	85	80	87%
101	Mistral Small 4	$0.0008	3.0s	80%	92	89	85	83	83	86%
91	Ministral 3 3B	$0.0004	1.9s	83%	88	87	87	87	82	86%
109	Gemma 3 12B	$0.0005	11.5s	82%	85	84	83	83	82	84%
124	Hermes 3 70B	$0.0012	15.5s	76%	89	85	84	84	75	83%
113	Inception Mercury	$0.0008	5.3s	78%	87	86	85	84	75	83%
135	ByteDance Seed 1.6 Flash	$0.0012	35.1s	71%	91	84	82	79	71	82%
141	Cohere Command R+ (Aug. 2024)	$0.014	30.7s	66%	89	84	83	80	60	79%
132	Gemma 3 4B	$0.0002	6.3s	75%	80	79	78	78	76	78%
136	GPT-5.4 Nano (Reasoning, Low)	$0.0012	3.9s	68%	83	81	77	77	66	77%
144	Gemma 4 26B	$0.0006	29.0s	25%	95	95	94	94	3	76%
137	GPT-5.4 Nano	$0.0012	4.6s	67%	82	81	77	72	64	75%
140	Llama 3.1 Nemotron 70B	$0.0050	17.4s	65%	81	79	78	78	59	75%
145	Llama 3.1 70B	$0.0017	13.4s	29%	87	85	84	84	3	68%
143	GPT-4.1 Nano	$0.0003	3.3s	58%	74	74	71	70	49	68%
146	Llama 3.1 8B	$0.0001	15.3s	31%	79	69	68	64	3	57%
149	Rocinante 12B	$0.0025	1.4m	28%	82	72	68	46	0	54%
147	Mistral NeMO	$0.0006	2.6s	14%	86	85	83	0	0	51%
150	Skyfall 36B V2	$0.0019	15.5s	14%	90	79	55	3	3	46%
148	LFM2 24B	$0.0002	15.5s	36%	36	36	36	36	36	36%
91.53%

Median	Evaluator	Top 3	Flop 3
85.1%	Accuracy	98Gemini 3.5 Flash (Reasoning, Minimal) 96Z.AI GLM 5.1 95Grok 4	0LFM2 24B 41Skyfall 36B V2 41Rocinante 12B
98.6%	Precision	100GPT-5.4 (Reasoning, Low) 100Claude Opus 4 100Z.AI GLM 5.1	43Skyfall 36B V2 55Mistral NeMO 67GPT-4.1 Nano
97.3%	Recall	100Claude Sonnet 4 100Gemini 3.1 Flash Lite (Preview) 100Z.AI GLM 5.1	20LFM2 24B 42Skyfall 36B V2 43Mistral NeMO
100.0%	Structural validity	100GPT-5.2 100DeepSeek V3 (2025-03-24) 100Gemini 3.1 Flash Lite (Preview)	25LFM2 24B 57Rocinante 12B 58Skyfall 36B V2

Codex Extraction

Medium: Through the Thornveil (Scattered)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	99%	100%	98%
Z.AI GLM 5.1	99%	99%	98%
Grok 4	99%	99%	98%
Gemini 3.5 Flash (Reasoning)	99%	99%	98%
Gemini 3.5 Flash (Reasoning, Minimal)	99%	99%	98%
Grok 4.1 Fast	98%	99%	97%
Claude Opus 4.5	98%	99%	97%
Z.AI GLM 5 Turbo	98%	99%	97%
Gemma 4 31B	98%	99%	97%
Z.AI GLM 5	98%	99%	97%
Claude Sonnet 4.6 (Reasoning)	98%	99%	97%
Gemini 3 Pro (Preview)	98%	99%	97%
DeepSeek V4 Pro (Reasoning)	98%	99%	97%
Qwen3.7 Max	98%	98%	97%
Claude Haiku 4.5	97%	99%	97%
Gemma 4 31B (Reasoning)	97%	100%	97%
Grok 4.20 (Reasoning)	98%	99%	97%
GPT-5.4 (Reasoning)	97%	99%	97%
GPT-5.4 (Reasoning, Low)	98%	99%	97%
Gemini 3.1 Pro (Preview)	98%	98%	96%