Codex Red Herring (False Positive Detection)

Tests whether models correctly report "no violations" when a codex is fully consistent with the prose passage. Models that hallucinate false violations (false positives) fail. Uses a 2×2 matrix of text length × codex size, with bare and detailed-entry variants.

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Nemotron 3 Super	99%
Inception Mercury	98%
o4 Mini High	97%
Grok 4.1 Fast	97%
GPT-5.4 Nano (Reasoning, Low)	97%
o4 Mini	96%
Inception Mercury 2	96%
Z.AI GLM 5 Turbo	96%
GPT-5.1	95%
GPT-5.4 Mini (Reasoning, Low)	95%
Claude Opus 4.6 (Reasoning)	94%
ByteDance Seed 1.6 Flash	94%
GPT-5.4 Nano (Reasoning)	94%
Z.AI GLM 5	93%
GPT-5 Mini	93%
Z.AI GLM 5.1	93%
Gemma 4 26B (Reasoning)	93%
Qwen 3.5 Plus (2026-04-20)	93%
GPT-5 Nano	93%
Grok 4.3 (Reasoning)	92%

	Score	Cost	Time
LFM2 24B	72%	$0.0004	39.0s
GPT-4.1 Nano	63%	$0.0005	4.6s
GPT-5.4 Nano	68%	$0.0005	1.5s
Ministral 8B	68%	$0.0007	4.4s
Ministral 3 8B	78%	$0.0013	17.9s
GPT-5.4 Nano (Reasoning, Low)	97%	$0.0008	3.9s
Inception Mercury	98%	$0.0004	8.0s
Inception Mercury 2	96%	$0.0027	3.8s
Gemma 4 31B	71%	$0.0009	11.7s
GPT-5.4 Nano (Reasoning)	94%	$0.0017	11.4s
GPT-5.4 Mini (Reasoning, Low)	95%	$0.0034	4.0s
ByteDance Seed 1.6 Flash	94%	$0.0008	9.1s
Arcee AI: Trinity Mini	73%	$0.0009	26.3s
Grok 4.1 Fast	97%	$0.0019	12.5s
GPT-4.1	86%	$0.0048	1.2s
Stealth: Healer Alpha	84%	$0.0000	21.5s
Grok 4 Fast	73%	$0.0019	19.2s
GPT-5.4 Mini (Reasoning)	89%	$0.0090	10.8s
Gemini 2.5 Flash Lite (Reasoning)	92%	$0.0023	16.6s
Gemma 4 26B	65%	$0.0012	39.3s

	Score	Consistency	Stability
Nemotron 3 Super	99%	83%	83%
Inception Mercury	98%	77%	77%
o4 Mini High	97%	72%	72%
Grok 4.1 Fast	97%	70%	70%
GPT-5.4 Nano (Reasoning, Low)	97%	70%	70%
o4 Mini	96%	67%	67%
Inception Mercury 2	96%	67%	67%
Z.AI GLM 5 Turbo	96%	65%	65%
GPT-5.1	95%	64%	64%
GPT-5.4 Mini (Reasoning, Low)	95%	64%	64%
Claude Opus 4.6 (Reasoning)	94%	60%	60%
ByteDance Seed 1.6 Flash	94%	59%	59%
GPT-5.4 Nano (Reasoning)	94%	57%	57%
Z.AI GLM 5	93%	56%	56%
GPT-5 Mini	93%	56%	56%
GPT-5 Nano	93%	55%	55%
Qwen 3.5 Plus (2026-04-20)	93%	55%	55%
Z.AI GLM 5.1	93%	55%	55%
Gemma 4 26B (Reasoning)	93%	54%	54%
Grok 4.3 (Reasoning)	92%	53%	53%

	Score	Cost	Speed	Stability
Inception Mercury	98%	$0.0004	8.0s	77%
Nemotron 3 Super	99%	$0.0000	1.3m	83%
GPT-5.4 Nano (Reasoning, Low)	97%	$0.0008	3.9s	70%
Grok 4.1 Fast	97%	$0.0019	12.5s	70%
Inception Mercury 2	96%	$0.0027	3.8s	67%
GPT-5.4 Mini (Reasoning, Low)	95%	$0.0034	4.0s	64%
Z.AI GLM 5 Turbo	96%	$0.0071	16.0s	65%
ByteDance Seed 1.6 Flash	94%	$0.0008	9.1s	59%
o4 Mini	96%	$0.014	25.0s	67%
GPT-5.4 Nano (Reasoning)	94%	$0.0017	11.4s	57%
o4 Mini High	97%	$0.027	52.5s	72%
Gemini 2.5 Flash Lite (Reasoning)	92%	$0.0023	16.6s	53%
GPT-5.1	95%	$0.025	26.1s	64%
GPT-5 Mini	93%	$0.0059	37.8s	56%
GPT-5 Nano	93%	$0.0035	1.1m	55%
MiniMax M2.7	90%	$0.0047	34.6s	48%
DeepSeek V4 Flash (Reasoning)	89%	$0.0009	30.8s	46%
GPT-5.4 Mini (Reasoning)	89%	$0.0090	10.8s	46%
Grok 4.3 (Reasoning)	92%	$0.014	50.4s	53%
GPT-4.1	86%	$0.0048	1.2s	42%

		basic entries	detailed entries
Nemotron 3 Super	99%	100%	100%	100%	93%	100%	100%	100%	100%
Inception Mercury	98%	100%	93%	100%	93%	100%	100%	100%	100%
o4 Mini High	97%	93%	100%	100%	85%	100%	100%	100%	100%
Grok 4.1 Fast	97%	100%	100%	100%	92%	100%	100%	85%	100%
GPT-5.4 Nano (Reasoning, Low)	97%	100%	90%	100%	100%	93%	93%	100%	100%
o4 Mini	96%	100%	100%	100%	85%	93%	100%	93%	100%
Inception Mercury 2	96%	100%	100%	100%	100%	85%	100%	100%	85%
Z.AI GLM 5 Turbo	96%	100%	100%	100%	68%	100%	100%	100%	100%
GPT-5.1	95%	93%	93%	100%	100%	93%	85%	100%	100%
GPT-5.4 Mini (Reasoning, Low)	95%	93%	85%	100%	85%	100%	100%	100%	100%
Claude Opus 4.6 (Reasoning)	94%	100%	100%	100%	100%	85%	70%	100%	100%
ByteDance Seed 1.6 Flash	94%	100%	100%	100%	93%	84%	93%	100%	84%
GPT-5.4 Nano (Reasoning)	94%	100%	100%	100%	58%	100%	100%	93%	100%
Z.AI GLM 5	93%	93%	78%	100%	83%	100%	93%	100%	100%
GPT-5 Mini	93%	100%	100%	100%	45%	100%	100%	100%	100%

Short text (~524 words), small codex (11 entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
Grok 4.20 (Reasoning)	100%
ByteDance Seed 1.6	100%
GPT-5.4 Mini (Reasoning)	100%
Claude Opus 4.7	100%
Grok 4.1 Fast	100%
MiniMax M2.7	100%

	Score	Cost	Time
LFM2 24B	100%	$0.0000	1.3s
Gemma 4 26B	100%	$0.0002	3.8s
GPT-5.4 Nano	80%	$0.0003	1.0s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0005	2.8s
Inception Mercury	100%	$0.0001	3.6s
Arcee AI: Trinity Mini	81%	$0.0012	36.6s
Gemma 4 31B	100%	$0.0002	12.4s
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.9s
ByteDance Seed 1.6 Flash	100%	$0.0004	5.3s
Inception Mercury 2	100%	$0.0013	2.0s
GPT-5.5	100%	$0.0041	1.3s
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0024	850ms
Grok 4 Fast	77%	$0.0008	8.7s
Gemini 2.5 Flash Lite (Reasoning)	93%	$0.0012	8.6s
Grok 4.1 Fast	100%	$0.0007	7.5s
GPT-5.4 Mini (Reasoning, Low)	93%	$0.0019	3.6s
Llama 3.1 Nemotron 70B	67%	$0.0021	9.0s
Mistral Small 4 (Reasoning)	100%	$0.0009	9.3s
Qwen 3 32B	78%	$0.0004	12.3s
Cohere Command R+ (Aug. 2024)	65%	$0.0046	2.5s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
Claude Opus 4.7	100%	100%	100%
Grok 4.1 Fast	100%	100%	100%
MiniMax M2.7	100%	100%	100%

	Score	Cost	Speed	Stability
LFM2 24B	100%	$0.0000	1.3s	100%
Inception Mercury	100%	$0.0001	3.6s	100%
Gemma 4 26B	100%	$0.0002	3.8s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0005	2.8s	100%
Inception Mercury 2	100%	$0.0013	2.0s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0008	3.9s	100%
ByteDance Seed 1.6 Flash	100%	$0.0004	5.3s	100%
Gemini 3.5 Flash (Reasoning, Minimal)	100%	$0.0024	850ms	100%
Grok 4.1 Fast	100%	$0.0007	7.5s	100%
Mistral Small 4 (Reasoning)	100%	$0.0009	9.3s	100%
Gemma 4 31B	100%	$0.0002	12.4s	100%
GPT-5.5	100%	$0.0041	1.3s	100%
Z.AI GLM 5 Turbo	100%	$0.0036	9.8s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0039	9.0s	100%
ByteDance Seed 1.6	100%	$0.0017	16.9s	100%
Z.AI GLM 4.5 Air	100%	$0.0012	19.2s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0051	8.5s	100%
MiniMax M2.7	100%	$0.0014	22.4s	100%
Claude Opus 4.7	100%	$0.011	940ms	100%
Claude Opus 4.7 (Reasoning)	100%	$0.011	2.0s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
33	Qwen3.7 Max	$0.026	47.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Claude Opus 4.6 (Reasoning)	$0.033	20.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Qwen3.6 Max Preview	$0.039	2.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Gemini 3.1 Pro (Preview)	$0.039	27.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Z.AI GLM 5.1	$0.012	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Z.AI GLM 5 Turbo	$0.0036	9.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Gemini 3.5 Flash (Reasoning)	$0.039	17.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Claude Opus 4.7 (Reasoning)	$0.011	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5 Mini	$0.0044	29.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Opus 4.6	$0.022	9.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemma 4 31B (Reasoning)	$0.0011	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Qwen 3.5 Plus (2026-04-20)	$0.010	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Gemma 4 26B (Reasoning)	$0.0012	52.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Grok 4.20 (Beta, Reasoning)	$0.016	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Grok 4.20 (Reasoning)	$0.0089	28.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	ByteDance Seed 1.6	$0.0017	16.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5.4 Mini (Reasoning)	$0.0039	9.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Claude Opus 4.7	$0.011	940ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Grok 4.1 Fast	$0.0007	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	MiniMax M2.7	$0.0014	22.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.5	$0.0041	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	o4 Mini	$0.0097	18.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Gemma 4 31B	$0.0002	12.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Gemini 2.5 Flash (Reasoning)	$0.0051	8.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0024	850ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemma 4 26B	$0.0002	3.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Z.AI GLM 4.7 Flash	$0.0012	47.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Nemotron 3 Super	$0.0000	47.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury 2	$0.0013	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Z.AI GLM 4.5 Air	$0.0012	19.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Mistral Small 4 (Reasoning)	$0.0009	9.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Nano (Reasoning)	$0.0008	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0001	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning, Low)	$0.0005	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	ByteDance Seed 1.6 Flash	$0.0004	5.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	LFM2 24B	$0.0000	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Z.AI GLM 4.6	$0.0029	18.0s	56%	100	100	100	100	100	100	100	100	100	27	93%
42	GPT-5.1	$0.018	22.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
47	Z.AI GLM 5	$0.013	1.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
40	Qwen 3.6 Flash	$0.011	34.9s	55%	100	100	100	100	100	100	100	100	100	25	93%
43	o4 Mini High	$0.019	35.0s	55%	100	100	100	100	100	100	100	100	100	25	93%
38	MiniMax M2.5	$0.0015	12.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
46	ByteDance Seed 2.0 Mini	$0.0018	1.8m	55%	100	100	100	100	100	100	100	100	100	25	93%
36	GPT-5.4 Mini (Reasoning, Low)	$0.0019	3.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
37	Gemini 2.5 Flash Lite (Reasoning)	$0.0012	8.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
45	Nemotron 3 Nano	$0.0016	1.7m	55%	100	100	100	100	100	100	100	100	100	25	93%
70	Claude Sonnet 4.6 (Reasoning)	$0.060	54.9s	40%	100	100	100	100	100	100	100	100	25	25	85%
68	Qwen 3.5 27B	$0.028	2.3m	40%	100	100	100	100	100	100	100	100	25	25	85%
48	GPT-OSS 120B	$0.0006	49.8s	40%	100	100	100	100	100	100	100	100	25	25	85%
53	GPT-5 Nano	$0.0036	1.2m	40%	100	100	100	100	100	100	100	100	25	25	85%
51	Grok 4.3 (Reasoning)	$0.0073	41.2s	37%	100	100	100	100	100	100	100	100	25	17	84%
56	Arcee AI: Trinity Mini	$0.0012	36.6s	22%	100	100	100	100	100	100	100	100	6	0	81%
44	GPT-5.4 Nano	$0.0003	1.0s	38%	100	100	100	100	100	100	100	50	25	25	80%
49	Z.AI GLM 4.5	$0.0018	13.0s	32%	100	100	100	100	100	100	100	29	25	25	78%
58	Aion 2.0	$0.0054	59.6s	31%	100	100	100	100	100	100	100	25	25	25	78%
57	Qwen 3.6 35B	$0.0080	47.0s	31%	100	100	100	100	100	100	100	25	25	25	78%
146	Gemini 3 Pro (Preview)	$0.114	1.4m	31%	100	100	100	100	100	100	100	25	25	25	78%
50	Qwen 3 32B	$0.0004	12.3s	31%	100	100	100	100	100	100	100	25	25	25	78%
54	DeepSeek V4 Flash (Reasoning)	$0.0004	17.6s	29%	100	100	100	100	100	100	100	25	25	17	77%
52	Grok 4 Fast	$0.0008	8.7s	29%	100	100	100	100	100	100	100	25	25	17	77%
55	GPT-5.2	$0.0091	10.8s	27%	100	100	100	100	100	100	100	25	25	13	76%
80	Qwen 3.6 27B	$0.025	1.8m	27%	100	100	100	100	100	100	100	25	25	13	76%
150	Qwen 3.5 122B	$0.086	3.8m	27%	100	100	100	100	100	100	25	25	25	25	70%
63	Xiaomi MIMO v2.5 Pro	$0.011	53.1s	27%	100	100	100	100	100	100	25	25	25	25	70%
61	Llama 3.1 Nemotron 70B	$0.0021	9.0s	18%	100	100	100	100	100	100	31	29	7	4	67%
120	Qwen 3.5 9B	$0.0025	3.4m	21%	100	100	100	100	50	50	50	50	50	17	67%
62	Cohere Command R+ (Aug. 2024)	$0.0046	2.5s	14%	100	100	100	100	100	100	25	10	8	8	65%
134	Gemini 2.5 Pro	$0.072	54.5s	21%	100	100	100	100	100	50	25	25	25	25	65%
60	GPT-4.1 Nano	$0.0003	3.7s	18%	100	100	100	100	100	31	29	28	27	26	64%
151	MoonshotAI: Kimi K2.6	$0.037	5.6m	16%	100	100	100	100	100	25	25	25	25	25	63%
64	Xiaomi MIMO v2.5	$0.0050	22.9s	16%	100	100	100	100	100	25	25	25	25	25	63%
148	Qwen 3.5 397B A17B	$0.022	4.2m	14%	100	100	100	100	100	25	25	25	25	17	62%
111	Gemini 3 Flash (Preview, Reasoning)	$0.030	54.0s	14%	100	100	100	100	100	25	25	25	25	17	62%
66	GPT-5.4 (Reasoning, Low)	$0.0085	7.6s	13%	100	100	100	100	100	25	25	25	17	17	61%
59	Claude Haiku 4.5	$0.0029	3.2s	30%	100	100	50	50	50	50	50	50	50	50	60%
76	Llama 3.1 70B	$0.0032	38.5s	11%	100	100	100	100	100	35	30	17	5	4	59%
145	Grok 4	$0.060	1.6m	11%	100	100	100	100	100	25	17	17	17	13	59%
65	Qwen 2.5 72B	$0.0003	5.9s	11%	100	100	100	100	42	33	32	29	25	17	58%
69	Claude Sonnet 4	$0.0056	2.1s	10%	100	100	100	100	50	25	25	25	25	17	57%
67	GPT-4.1 Mini	$0.0009	3.8s	9%	100	100	100	100	35	33	31	31	30	7	57%
74	Stealth: Healer Alpha	$0.0000	19.2s	7%	100	100	100	100	25	25	25	25	25	25	55%
73	Skyfall 36B V2	$0.0006	2.7s	6%	100	100	100	100	50	25	13	13	7	6	51%
83	Hermes 3 405B	$0.0016	2.9s	3%	100	100	100	100	17	17	17	17	13	8	49%
71	Hermes 3 70B	$0.0005	5.9s	11%	100	100	100	50	42	38	33	13	7	5	49%
75	Grok 4.20 (Beta)	$0.0015	904ms	9%	100	100	100	42	35	25	25	25	17	17	49%
78	Cydonia 24B V4.1	$0.0004	6.3s	9%	100	100	100	50	35	29	28	17	10	8	48%
105	GPT-5.5 (Reasoning, Low)	$0.017	10.5s	8%	100	100	100	25	25	25	25	25	25	25	48%
139	Z.AI GLM 4.7	$0.014	2.0m	8%	100	100	100	25	25	25	25	25	25	25	48%
99	Claude 3.5 Sonnet	$0.014	5.7s	8%	100	100	100	42	38	25	17	13	13	10	46%
82	GPT-4.1	$0.0028	2.1s	12%	100	100	42	42	38	25	17	17	17	17	41%
149	GPT-5	$0.048	1.6m	10%	100	100	25	25	25	25	25	25	25	25	40%
114	Stealth: Hunter Alpha	$0.0000	1.0m	10%	100	100	25	25	25	25	25	25	25	25	40%
95	Claude Sonnet 4.5	$0.0069	3.5s	10%	100	100	42	25	25	25	25	25	17	17	40%
107	Rocinante 12B	$0.0005	11.7s	2%	100	100	100	50	10	10	10	6	5	4	39%
85	DeepSeek-V2 Chat	$0.0006	2.5s	10%	100	100	25	25	25	25	25	25	25	17	39%
86	GPT-5.4 Mini	$0.0007	3.4s	10%	100	100	25	25	25	25	25	25	25	17	39%
79	Claude Sonnet 4.6	$0.0099	6.2s	30%	42	38	38	38	38	35	35	35	35	8	34%
109	Grok 4.3	$0.0022	2.3s	5%	100	100	38	17	17	17	17	13	13	6	33%
77	Ministral 3 14B	$0.0004	5.3s	24%	50	50	30	30	30	29	29	29	29	28	33%
141	GPT-5.5 (Reasoning)	$0.041	19.5s	14%	100	25	25	25	25	25	25	25	25	25	33%
132	DeepSeek V4 Pro (Reasoning)	$0.0053	1.7m	14%	100	25	25	25	25	25	25	25	25	25	33%
142	Qwen 3.5 35B	$0.023	1.2m	14%	100	25	25	25	25	25	25	25	25	25	33%
72	Mistral Medium 3.1	$0.0011	2.8s	27%	42	42	42	35	32	31	30	30	25	17	32%
92	DeepSeek V3 (2024-12-26)	$0.0006	3.5s	14%	100	28	25	25	25	25	25	25	25	17	32%
96	GPT-5.4	$0.0026	1.7s	14%	100	25	25	25	25	25	25	25	25	17	32%
97	DeepSeek V4 Pro	$0.0022	31.9s	22%	50	50	50	35	31	30	25	17	13	13	31%
94	Grok 4.20	$0.0014	1.3s	13%	100	25	25	25	25	25	25	25	25	13	31%
101	GPT-4o, Aug. 6th (temp=1)	$0.0044	2.5s	13%	100	38	35	35	35	17	17	13	13	10	31%
131	GPT-5.4 (Reasoning)	$0.022	36.4s	13%	100	25	25	25	25	25	17	17	17	17	29%
133	Arcee AI: Trinity Large (Preview)	$0.0000	1.8m	13%	100	35	29	29	29	28	28	6	3	0	29%
81	Ministral 3B	$0.0001	3.5s	23%	50	30	30	29	28	28	28	28	27	8	29%
84	Ministral 3 3B	$0.0002	3.4s	24%	31	31	29	29	29	29	29	28	27	3	26%
87	Mistral Large 3	$0.0015	8.4s	25%	32	32	32	31	31	31	31	30	6	6	26%
103	DeepSeek V3.2	$0.0006	22.6s	21%	50	29	29	28	28	25	25	17	17	7	25%
119	GPT-4o Mini (temp=1)	$0.0003	3.7s	6%	100	33	32	31	13	13	10	8	7	7	25%
112	WizardLM 2 8x22b	$0.0011	26.8s	18%	50	50	33	25	25	25	17	13	8	6	25%
89	DeepSeek V4 Flash	$0.0002	6.9s	23%	33	32	31	30	29	28	25	25	10	7	25%
147	MoonshotAI: Kimi K2.5	$0.016	2.9m	25%	25	25	25	25	25	25	25	25	25	25	25%
100	Claude Opus 4.5	$0.0099	3.0s	25%	25	25	25	25	25	25	25	25	25	25	25%
125	Qwen 3.5 Flash	$0.0046	1.4m	25%	25	25	25	25	25	25	25	25	25	25	25%
116	ByteDance Seed 2.0 Lite	$0.0047	51.0s	25%	25	25	25	25	25	25	25	25	25	25	25%
90	Ministral 8B	$0.0003	7.2s	23%	28	28	28	27	27	27	27	27	26	2	25%
88	Mistral Small Creative	$0.0004	4.0s	24%	30	30	29	29	29	29	28	28	7	6	24%
102	Writer: Palmyra X5	$0.0025	12.5s	22%	29	28	25	25	25	25	25	17	17	13	23%
104	Mistral Large 2	$0.0059	7.8s	23%	35	33	31	31	31	30	10	10	8	7	23%
93	DeepSeek V3 (2025-03-24)	$0.0005	5.7s	23%	25	25	25	25	25	25	25	17	17	17	23%
91	Gemini 2.5 Flash	$0.0006	875ms	23%	25	25	25	25	25	25	25	17	17	17	23%
106	Mistral Large	$0.0059	7.7s	23%	33	32	32	31	31	30	10	10	8	6	22%
98	GPT-4o, Aug. 6th (temp=0)	$0.0032	1.3s	23%	25	25	25	25	25	25	25	17	17	13	22%
123	GPT-4o, May 13th (temp=1)	$0.010	1.9s	13%	42	35	31	17	17	17	17	13	13	8	21%
113	Qwen3 235B A22B Instruct 2507	$0.0002	4.6s	15%	30	25	25	25	17	17	17	17	17	17	20%
143	Qwen 3.5 Plus (2026-02-15)	$0.010	1.1m	13%	50	32	25	25	25	10	10	10	8	5	20%
110	Gemini 3.1 Flash Lite	$0.0007	1.3s	18%	35	25	25	25	25	17	13	13	13	10	20%
108	Gemini 3.1 Flash Lite (Reasoning)	$0.0006	1.4s	18%	25	25	25	25	25	17	17	13	13	13	20%
121	Claude 3 Haiku	$0.0008	2.9s	8%	38	38	35	33	13	10	8	7	7	6	19%
129	Ministral 3 8B	$0.0022	1.4m	20%	28	28	28	27	27	27	26	2	0	0	19%
122	GPT-4o Mini (temp=0)	$0.0003	3.8s	8%	35	35	35	31	10	10	10	8	8	8	19%
144	Claude Opus 4	$0.034	5.8s	15%	25	25	25	17	17	17	17	17	13	13	18%
124	Claude 3.7 Sonnet	$0.0073	3.4s	12%	42	25	17	17	17	13	13	13	13	13	18%
115	DeepSeek V3.1	$0.0006	9.2s	17%	29	25	25	25	25	17	10	8	7	6	18%
118	Gemini 3 Flash (Preview)	$0.0012	1.6s	16%	25	17	17	17	17	17	17	17	13	13	17%
117	Gemini 3.1 Flash Lite (Preview)	$0.0007	1.2s	15%	25	25	17	17	17	17	13	13	13	13	17%
127	Mistral Small 4	$0.0005	4.8s	6%	30	29	28	28	8	7	6	6	5	5	15%
126	GPT-4o, May 13th (temp=0)	$0.0097	1.8s	14%	17	17	17	17	17	13	13	13	13	10	14%
137	Llama 3.1 8B	$0.0001	20.2s	4%	32	30	29	6	5	5	5	4	4	2	12%
128	Gemini 2.5 Flash Lite	$0.0003	1.1s	9%	17	17	13	10	10	10	6	6	4	3	9%
130	Gemma 3 27B	$0.0002	8.7s	8%	13	10	10	8	8	8	7	6	6	6	8%
136	Mistral Small 3.2 24B	$0.0003	2.6s	5%	10	10	7	6	6	6	5	4	4	4	6%
138	Gemma 3 4B	$0.0001	4.8s	5%	7	7	7	6	6	6	6	6	6	4	6%
135	Mistral NeMO	$0.0003	2.8s	6%	8	7	7	7	6	6	5	5	4	3	6%
140	Gemma 3 12B	$0.0002	10.5s	5%	7	6	6	5	5	5	5	5	4	3	5%
58.87%

Median	Evaluator	Top 3	Flop 3
50.0%	Correct "no violations" response	100Qwen 3.5 Plus (2026-04-20) 100Gemma 4 31B 100Qwen3.7 Max	0Gemini 3 Flash (Preview) 0MoonshotAI: Kimi K2.5 0Gemma 3 4B
65.0%	No hallucinated violations	100Z.AI GLM 5.1 100Mistral Small 4 (Reasoning) 100GPT-5.4 Nano (Reasoning, Low)	3Ministral 3 8B 4Ministral 8B 8Ministral 3 3B

Short text (~524 words), big codex (51 entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Gemini 3.1 Pro (Preview)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Reasoning)	100%
ByteDance Seed 1.6	100%
o4 Mini High	100%
Qwen 3.6 27B	100%
Grok 4.1 Fast	100%
GPT-5.5	100%
GPT-4.1	100%

	Score	Cost	Time
LFM2 24B	100%	$0.0001	2.4s
Ministral 8B	68%	$0.0003	3.4s
Gemma 4 26B	95%	$0.0003	2.8s
Ministral 3 8B	93%	$0.0004	1.2s
GPT-5.4 Nano	73%	$0.0004	1.4s
Gemma 4 31B	100%	$0.0004	1.7s
Inception Mercury	93%	$0.0002	5.4s
GPT-5.4 Nano (Reasoning, Low)	90%	$0.0006	3.2s
GPT-4.1	100%	$0.0020	737ms
ByteDance Seed 1.6 Flash	100%	$0.0005	6.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0010	5.1s
Arcee AI: Trinity Mini	83%	$0.0003	15.8s
Grok 4.1 Fast	100%	$0.0012	9.6s
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0011	6.6s
Hermes 3 405B	75%	$0.0026	1.7s
Qwen 3 32B	93%	$0.0004	10.6s
Inception Mercury 2	100%	$0.0024	3.6s
GPT-5.4 Mini (Reasoning, Low)	85%	$0.0023	3.5s
DeepSeek V4 Flash (Reasoning)	85%	$0.0005	18.9s
GPT-5.5	100%	$0.0069	1.6s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Gemini 3.1 Pro (Preview)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Reasoning)	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
o4 Mini High	100%	100%	100%
Qwen 3.6 27B	100%	100%	100%
Grok 4.1 Fast	100%	100%	100%
GPT-5.5	100%	100%	100%
GPT-4.1	100%	100%	100%

	Score	Cost	Speed	Stability
LFM2 24B	100%	$0.0001	2.4s	100%
Gemma 4 31B	100%	$0.0004	1.7s	100%
GPT-4.1	100%	$0.0020	737ms	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0010	5.1s	100%
ByteDance Seed 1.6 Flash	100%	$0.0005	6.7s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0011	6.6s	100%
Inception Mercury 2	100%	$0.0024	3.6s	100%
Grok 4.1 Fast	100%	$0.0012	9.6s	100%
Z.AI GLM 5 Turbo	100%	$0.0034	7.9s	100%
GPT-5.5	100%	$0.0069	1.6s	100%
ByteDance Seed 1.6	100%	$0.0021	16.2s	100%
GPT-5 Mini	100%	$0.0044	28.8s	100%
o4 Mini	100%	$0.010	20.6s	100%
Nemotron 3 Super	100%	$0.0000	51.1s	100%
Claude Opus 4.7 (Reasoning)	100%	$0.019	997ms	100%
Grok 4.20 (Reasoning)	100%	$0.0095	31.1s	100%
Qwen 3.5 Plus (2026-04-20)	100%	$0.011	1.1m	100%
o4 Mini High	100%	$0.020	41.1s	100%
Claude Opus 4.6	100%	$0.031	12.1s	100%
Z.AI GLM 5.1	100%	$0.013	1.3m	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
23	Qwen3.7 Max	$0.031	48.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Claude Opus 4.6 (Reasoning)	$0.041	24.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Qwen3.6 Max Preview	$0.046	2.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Gemini 3.1 Pro (Preview)	$0.045	32.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Z.AI GLM 5.1	$0.013	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Z.AI GLM 5 Turbo	$0.0034	7.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemini 3.5 Flash (Reasoning)	$0.040	17.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Sonnet 4.6 (Reasoning)	$0.044	35.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Claude Opus 4.7 (Reasoning)	$0.019	997ms	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5 Mini	$0.0044	28.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Claude Opus 4.6	$0.031	12.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Qwen 3.5 Plus (2026-04-20)	$0.011	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemma 4 26B (Reasoning)	$0.0015	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Grok 4.20 (Reasoning)	$0.0095	31.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	ByteDance Seed 1.6	$0.0021	16.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	o4 Mini High	$0.020	41.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Qwen 3.6 27B	$0.022	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Grok 4.1 Fast	$0.0012	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.5	$0.0069	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	GPT-4.1	$0.0020	737ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	o4 Mini	$0.010	20.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Gemma 4 31B	$0.0004	1.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Gemini 2.5 Flash Lite (Reasoning)	$0.0011	6.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Nemotron 3 Super	$0.0000	51.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Inception Mercury 2	$0.0024	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning)	$0.0010	5.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	ByteDance Seed 1.6 Flash	$0.0005	6.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	LFM2 24B	$0.0001	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Gemma 4 26B	$0.0003	2.8s	70%	100	100	100	100	100	100	100	100	100	50	95%
29	Ministral 3 8B	$0.0004	1.2s	56%	100	100	100	100	100	100	100	100	100	27	93%
36	GPT-5.1	$0.014	17.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
48	Gemma 4 31B (Reasoning)	$0.0018	2.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
37	Qwen 3.6 Flash	$0.011	31.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
34	GPT-5.4 Mini (Reasoning)	$0.0056	7.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
39	Aion 2.0	$0.0053	49.2s	55%	100	100	100	100	100	100	100	100	100	25	93%
35	MiniMax M2.7	$0.0022	26.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
33	Gemini 2.5 Flash (Reasoning)	$0.0047	7.7s	55%	100	100	100	100	100	100	100	100	100	25	93%
32	Mistral Small 4 (Reasoning)	$0.0015	12.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
31	Qwen 3 32B	$0.0004	10.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
30	Inception Mercury	$0.0002	5.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
41	Grok 4.3 (Reasoning)	$0.010	42.7s	50%	100	100	100	100	100	100	100	100	100	17	92%
43	Grok 4.20 (Beta, Reasoning)	$0.021	14.0s	50%	100	100	100	100	100	100	100	100	100	17	92%
46	ByteDance Seed 2.0 Mini	$0.0021	2.0m	50%	100	100	100	100	100	100	100	100	100	17	92%
38	GPT-5.4 Nano (Reasoning, Low)	$0.0006	3.2s	42%	100	100	100	100	100	100	100	100	100	4	90%
42	Z.AI GLM 4.5 Air	$0.0012	21.5s	44%	100	100	100	100	100	100	100	100	30	30	86%
52	Qwen 3.6 35B	$0.014	51.5s	40%	100	100	100	100	100	100	100	100	25	25	85%
45	DeepSeek V4 Flash (Reasoning)	$0.0005	18.9s	40%	100	100	100	100	100	100	100	100	25	25	85%
75	Gemini 2.5 Pro	$0.080	58.6s	40%	100	100	100	100	100	100	100	100	25	25	85%
49	Xiaomi MIMO v2.5 Pro	$0.0092	43.3s	40%	100	100	100	100	100	100	100	100	25	25	85%
44	GPT-5.4 Mini (Reasoning, Low)	$0.0023	3.5s	40%	100	100	100	100	100	100	100	100	25	25	85%
61	Z.AI GLM 4.7 Flash	$0.0034	2.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
62	Nemotron 3 Nano	$0.0021	2.3m	37%	100	100	100	100	100	100	100	100	25	17	84%
47	Arcee AI: Trinity Mini	$0.0003	15.8s	31%	100	100	100	100	100	100	100	100	25	5	83%
67	Z.AI GLM 5	$0.015	1.7m	31%	100	100	100	100	100	100	100	25	25	25	78%
146	Gemini 3 Pro (Preview)	$0.140	1.6m	31%	100	100	100	100	100	100	100	25	25	25	78%
53	Xiaomi MIMO v2.5	$0.0040	17.3s	31%	100	100	100	100	100	100	100	25	25	25	78%
60	GPT-5 Nano	$0.0040	1.3m	31%	100	100	100	100	100	100	100	25	25	25	78%
58	GPT-5.2	$0.0087	9.4s	24%	100	100	100	100	100	100	100	25	17	10	75%
55	Hermes 3 405B	$0.0026	1.7s	24%	100	100	100	100	100	100	100	25	17	10	75%
51	Claude Sonnet 4	$0.0096	2.1s	37%	100	100	100	100	100	100	50	42	42	17	75%
54	Claude Opus 4.7	$0.020	2.0s	38%	100	100	100	100	100	50	50	50	50	50	75%
50	GPT-5.4 Nano	$0.0004	1.4s	34%	100	100	100	100	100	100	50	31	28	25	73%
87	Qwen 3.5 9B	$0.0031	3.9m	32%	100	100	100	100	100	50	50	50	50	25	73%
57	MiniMax M2.5	$0.0016	17.5s	27%	100	100	100	100	100	100	25	25	25	25	70%
64	GPT-OSS 120B	$0.0006	52.6s	27%	100	100	100	100	100	100	25	25	25	25	70%
56	Stealth: Healer Alpha	$0.0000	19.6s	27%	100	100	100	100	100	100	25	25	25	25	70%
59	Ministral 8B	$0.0003	3.4s	21%	100	100	100	100	100	100	28	27	26	3	68%
66	Cohere Command R+ (Aug. 2024)	$0.0080	3.2s	14%	100	100	100	100	100	100	25	13	10	5	65%
65	Hermes 3 70B	$0.0008	7.2s	16%	100	100	100	100	100	42	38	35	8	7	63%
82	Z.AI GLM 4.6	$0.017	48.9s	11%	100	100	100	100	100	50	28	13	4	0	59%
137	Grok 4	$0.056	1.3m	11%	100	100	100	100	100	25	17	17	17	17	59%
149	MoonshotAI: Kimi K2.6	$0.041	5.8m	7%	100	100	100	100	25	25	25	25	25	25	55%
138	GPT-5	$0.042	1.4m	7%	100	100	100	100	25	25	25	25	25	25	55%
148	Qwen 3.5 397B A17B	$0.022	4.5m	7%	100	100	100	100	25	25	25	25	25	25	55%
115	MoonshotAI: Kimi K2.5	$0.013	1.6m	7%	100	100	100	100	25	25	25	25	25	25	55%
113	DeepSeek V4 Pro (Reasoning)	$0.0078	1.8m	7%	100	100	100	100	25	25	25	25	25	25	55%
112	Z.AI GLM 4.7	$0.016	1.4m	7%	100	100	100	100	25	25	25	25	25	25	55%
96	Gemini 3 Flash (Preview, Reasoning)	$0.021	38.5s	6%	100	100	100	100	25	25	25	25	25	17	54%
63	Claude Haiku 4.5	$0.0046	5.1s	35%	100	50	50	50	50	50	50	50	50	42	54%
90	Claude 3.5 Sonnet	$0.020	3.7s	5%	100	100	100	100	25	25	25	17	17	13	52%
150	Qwen 3.5 27B	$0.075	6.6m	11%	100	100	100	42	42	25	25	25	25	17	50%
68	DeepSeek V4 Pro	$0.0018	27.1s	19%	100	100	50	50	50	42	35	29	25	6	49%
73	GPT-4o, Aug. 6th (temp=1)	$0.0048	2.0s	11%	100	100	100	42	38	33	25	25	13	10	49%
78	Cydonia 24B V4.1	$0.0007	7.4s	4%	100	100	100	100	31	30	8	4	3	3	48%
117	GPT-5.5 (Reasoning)	$0.033	17.7s	8%	100	100	100	25	25	25	25	25	25	25	48%
92	Stealth: Hunter Alpha	$0.0000	55.9s	7%	100	100	100	25	25	25	25	25	25	17	47%
79	Grok 4 Fast	$0.0014	19.2s	7%	100	100	100	25	25	25	25	25	25	17	47%
151	Qwen 3.5 122B	$0.111	6.2m	7%	100	100	100	25	25	25	25	17	17	17	45%
81	Z.AI GLM 4.5	$0.0019	11.5s	7%	100	100	100	38	29	25	25	25	4	2	45%
69	WizardLM 2 8x22b	$0.0018	23.8s	24%	100	50	50	50	42	42	25	25	25	25	43%
91	GPT-4.1 Nano	$0.0005	6.5s	1%	100	100	100	100	25	2	1	1	1	1	43%
88	Skyfall 36B V2	$0.0010	4.9s	4%	100	100	100	50	30	13	8	7	6	6	42%
140	Qwen 3.5 35B	$0.026	1.5m	10%	100	100	25	25	25	25	25	25	25	17	39%
86	Writer: Palmyra X5	$0.0026	4.4s	9%	100	100	50	29	25	25	17	17	17	13	39%
102	Claude 3.7 Sonnet	$0.011	3.1s	6%	100	100	42	17	17	17	17	17	17	17	36%
80	Qwen 2.5 72B	$0.0005	9.4s	16%	100	42	35	31	31	30	29	29	13	13	35%
77	Claude Sonnet 4.6	$0.014	7.6s	29%	42	38	38	35	35	33	33	33	32	13	33%
99	Claude Opus 4.5	$0.016	2.9s	14%	100	25	25	25	25	25	25	25	25	25	33%
133	Qwen 3.5 Flash	$0.0062	1.8m	14%	100	25	25	25	25	25	25	25	25	25	33%
108	ByteDance Seed 2.0 Lite	$0.0049	49.0s	14%	100	25	25	25	25	25	25	25	25	25	33%
85	GPT-5.4 Mini	$0.0011	683ms	14%	100	25	25	25	25	25	25	25	25	25	33%
70	Mistral Medium 3.1	$0.0020	3.6s	29%	38	33	33	31	31	30	30	30	30	30	31%
105	Grok 4.3	$0.0031	3.0s	4%	100	100	28	17	17	13	13	10	7	4	31%
130	GPT-5.4 (Reasoning)	$0.027	27.0s	13%	100	25	25	25	25	25	25	17	17	17	30%
74	Mistral Small Creative	$0.0005	4.3s	26%	42	30	29	29	29	29	29	28	28	28	30%
72	Ministral 3 3B	$0.0003	3.0s	28%	32	32	32	31	30	29	28	28	28	28	30%
71	Ministral 3B	$0.0001	2.9s	29%	32	31	30	30	30	29	29	28	28	27	29%
98	Claude Sonnet 4.5	$0.010	3.1s	13%	100	25	25	25	25	25	17	17	17	17	29%
76	GPT-4.1 Mini	$0.0013	5.4s	26%	33	32	32	31	31	31	30	30	30	6	29%
89	Arcee AI: Trinity Large (Preview)	$0.0000	43.4s	27%	29	28	28	28	28	28	28	28	27	26	28%
135	Claude Opus 4	$0.049	4.0s	21%	50	25	25	25	25	25	25	25	25	25	28%
120	GPT-5.4 (Reasoning, Low)	$0.012	10.6s	9%	100	25	25	25	17	17	17	17	17	17	27%
95	Qwen3 235B A22B Instruct 2507	$0.0004	5.9s	11%	100	25	25	25	25	17	17	17	13	13	27%
83	DeepSeek V4 Flash	$0.0003	8.7s	22%	50	30	30	30	28	28	28	28	10	8	27%
109	Grok 4.20 (Beta)	$0.0041	2.6s	8%	100	38	30	30	28	10	7	5	5	3	26%
106	GPT-5.5 (Reasoning, Low)	$0.022	13.1s	25%	25	25	25	25	25	25	25	25	25	25	25%
84	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0049	1.3s	25%	25	25	25	25	25	25	25	25	25	25	25%
122	Rocinante 12B	$0.0011	20.4s	5%	100	50	25	17	13	10	10	8	7	0	24%
145	Qwen 3.5 Plus (2026-02-15)	$0.022	2.2m	20%	42	42	33	30	29	26	10	10	8	3	23%
93	DeepSeek V3 (2024-12-26)	$0.0010	4.1s	19%	50	25	25	25	25	25	25	13	7	6	23%
94	Ministral 3 14B	$0.0010	17.5s	22%	28	28	28	27	27	27	27	25	3	2	22%
100	DeepSeek V3.1	$0.0009	16.3s	17%	38	30	30	25	25	17	17	17	13	6	22%
127	Llama 3.1 70B	$0.0014	14.4s	3%	100	32	31	10	8	6	6	6	5	4	21%
97	DeepSeek V3.2	$0.0007	12.0s	17%	33	30	25	25	25	17	17	17	8	8	20%
103	Gemini 3.1 Flash Lite (Preview)	$0.0010	1.4s	14%	42	35	17	17	17	17	17	17	13	13	20%
101	Llama 3.1 Nemotron 70B	$0.0039	22.2s	22%	31	31	30	30	29	29	8	5	5	3	20%
126	Mistral NeMO	$0.0005	4.7s	2%	100	42	30	6	5	5	4	3	2	1	20%
114	GPT-4o, Aug. 6th (temp=0)	$0.0052	2.6s	15%	33	25	25	17	17	17	17	17	13	13	19%
104	Llama 3.1 8B	$0.0002	25.8s	20%	30	29	29	28	27	26	8	7	3	1	19%
119	Mistral Large 3	$0.0022	8.7s	13%	32	32	32	32	30	5	5	5	4	4	18%
107	Gemini 3.1 Flash Lite	$0.0010	1.4s	14%	38	17	17	17	17	17	17	17	13	10	18%
124	Mistral Large 2	$0.0093	9.4s	14%	33	31	30	29	29	8	4	4	4	3	17%
118	Mistral Small 4	$0.0007	9.2s	13%	31	31	30	30	28	6	5	4	4	3	17%
110	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	2.6s	15%	32	17	17	17	17	17	17	13	13	13	17%
111	Gemini 3 Flash (Preview)	$0.0012	2.0s	16%	25	17	17	17	17	17	17	13	13	13	16%
116	GPT-5.4	$0.0039	2.7s	16%	17	17	17	17	17	17	17	17	17	13	16%
121	Gemini 2.5 Flash	$0.0014	1.5s	11%	29	25	17	17	13	13	13	10	10	8	15%
129	Claude 3 Haiku	$0.0012	3.6s	5%	33	33	32	10	7	7	7	7	6	5	15%
134	GPT-4o, May 13th (temp=1)	$0.016	2.2s	11%	31	17	17	17	13	13	10	10	10	10	15%
123	DeepSeek V3 (2025-03-24)	$0.0006	8.0s	11%	25	25	17	13	13	13	13	10	7	7	14%
132	GPT-4o Mini (temp=0)	$0.0006	8.7s	6%	32	32	26	7	7	7	6	6	6	5	13%
128	GPT-4o Mini (temp=1)	$0.0004	5.3s	7%	38	33	13	10	10	8	8	6	5	4	13%
125	Grok 4.20	$0.0030	5.5s	13%	25	17	17	17	17	13	10	8	3	2	13%
131	DeepSeek-V2 Chat	$0.0012	6.8s	9%	25	17	13	13	10	10	8	6	6	5	11%
143	Mistral Large	$0.0088	11.3s	5%	32	29	7	7	7	6	6	4	4	4	11%
136	Mistral Small 3.2 24B	$0.0004	4.0s	5%	29	7	7	7	6	6	6	6	6	5	9%
147	GPT-4o, May 13th (temp=0)	$0.040	11.9s	8%	26	13	13	10	10	10	2	1	1	1	8%
139	Gemma 3 12B	$0.0003	13.1s	5%	29	7	7	6	6	6	6	5	5	2	8%
141	Gemini 2.5 Flash Lite	$0.0004	1.7s	4%	10	10	5	5	5	4	4	4	4	4	5%
142	Gemma 3 27B	$0.0003	11.4s	5%	6	6	6	6	5	5	5	5	5	5	5%
144	Gemma 3 4B	$0.0002	13.0s	2%	5	5	5	3	3	2	2	1	1	1	3%
57.36%

Median	Evaluator	Top 3	Flop 3
50.0%	Correct "no violations" response	100LFM2 24B 100Qwen3.6 Max Preview 100o4 Mini High	0DeepSeek V3 (2025-03-24) 0Gemini 3 Flash (Preview) 0Gemma 3 4B
65.0%	No hallucinated violations	100Qwen 3.6 27B 100Z.AI GLM 5 Turbo 100Inception Mercury 2	4Ministral 3 14B 5Arcee AI: Trinity Large (Preview) 5Gemma 3 4B

Long text (~1594 words), small codex (11 entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Sonnet 4.6 (Reasoning)	100%
Grok 4.3 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.1	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%

	Score	Cost	Time
GPT-4.1 Nano	93%	$0.0001	962ms
LFM2 24B	100%	$0.0001	1.8s
Gemini 2.5 Flash Lite	74%	$0.0003	516ms
Mistral Small 3.2 24B	72%	$0.0003	1.0s
Ministral 3 8B	90%	$0.0004	1.4s
Grok 4.20 (Beta)	77%	$0.0018	984ms
GPT-5.4 Nano	66%	$0.0004	1.6s
Gemini 3.1 Flash Lite	85%	$0.0007	741ms
Gemini 3.1 Flash Lite (Reasoning)	79%	$0.0008	874ms
Gemini 3.1 Flash Lite (Preview)	70%	$0.0008	882ms
Gemma 4 31B	100%	$0.0004	20.6s
Inception Mercury	100%	$0.0002	3.7s
Mistral Medium 3.1	95%	$0.0011	764ms
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.6s
Skyfall 36B V2	69%	$0.0010	1.9s
GPT-4.1	100%	$0.0022	815ms
Inception Mercury 2	100%	$0.0013	2.0s
Cydonia 24B V4.1	62%	$0.0008	9.4s
GPT-5.4 Nano (Reasoning)	100%	$0.0010	3.7s
ByteDance Seed 1.6 Flash	100%	$0.0005	7.4s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Qwen3.6 Max Preview	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
Grok 4.3 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5.5 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.5 (Reasoning, Low)	100%	100%	100%
GPT-5.1	100%	100%	100%
MoonshotAI: Kimi K2.6	100%	100%	100%
GPT-5	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%

	Score	Cost	Speed	Stability
LFM2 24B	100%	$0.0001	1.8s	100%
Inception Mercury	100%	$0.0002	3.7s	100%
Inception Mercury 2	100%	$0.0013	2.0s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.6s	100%
GPT-4.1	100%	$0.0022	815ms	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0010	3.7s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0021	3.0s	100%
Grok 4.1 Fast	100%	$0.0009	6.1s	100%
ByteDance Seed 1.6 Flash	100%	$0.0005	7.4s	100%
Stealth: Healer Alpha	100%	$0.0000	15.5s	100%
Grok 4 Fast	100%	$0.0010	13.9s	100%
Z.AI GLM 5 Turbo	100%	$0.0039	9.7s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0005	19.3s	100%
Gemma 4 31B	100%	$0.0004	20.6s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0065	7.8s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0077	5.5s	100%
Xiaomi MIMO v2.5	100%	$0.0035	14.7s	100%
GPT-5.2	100%	$0.0083	9.6s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0074	11.8s	100%
MiniMax M2.7	100%	$0.0020	27.5s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
47	Qwen3.7 Max	$0.036	59.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Claude Opus 4.6 (Reasoning)	$0.083	50.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
79	Qwen3.6 Max Preview	$0.065	4.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
37	Z.AI GLM 5.1	$0.012	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Z.AI GLM 5 Turbo	$0.0039	9.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
69	Claude Sonnet 4.6 (Reasoning)	$0.101	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Grok 4.3 (Reasoning)	$0.011	51.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5.4 (Reasoning)	$0.015	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	Claude Opus 4.7 (Reasoning)	$0.038	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.5 (Reasoning)	$0.019	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-5 Mini	$0.0044	29.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-5.5 (Reasoning, Low)	$0.016	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-5.1	$0.012	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
63	MoonshotAI: Kimi K2.6	$0.024	3.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
45	GPT-5	$0.030	57.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Gemma 4 31B (Reasoning)	$0.0014	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Qwen 3.5 Plus (2026-04-20)	$0.016	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
49	Gemma 4 26B (Reasoning)	$0.0018	2.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Grok 4.20 (Beta, Reasoning)	$0.015	10.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 (Reasoning, Low)	$0.0077	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Grok 4.20 (Reasoning)	$0.011	35.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Z.AI GLM 5	$0.0087	48.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	MoonshotAI: Kimi K2.5	$0.012	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
23	ByteDance Seed 1.6	$0.0033	31.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 Mini (Reasoning)	$0.0065	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	o4 Mini High	$0.018	33.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.2	$0.0083	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
56	Qwen 3.6 27B	$0.032	2.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Grok 4.1 Fast	$0.0009	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	MiniMax M2.7	$0.0020	27.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	DeepSeek V4 Flash (Reasoning)	$0.0005	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Z.AI GLM 4.7	$0.015	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-4.1	$0.0022	815ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	o4 Mini	$0.0085	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Xiaomi MIMO v2.5 Pro	$0.0095	45.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	ByteDance Seed 2.0 Mini	$0.0018	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Gemma 4 31B	$0.0004	20.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Gemini 2.5 Flash (Reasoning)	$0.0074	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-OSS 120B	$0.0006	32.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Grok 4 Fast	$0.0010	13.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Stealth: Healer Alpha	$0.0000	15.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 Mini (Reasoning, Low)	$0.0021	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Xiaomi MIMO v2.5	$0.0035	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Nemotron 3 Super	$0.0000	47.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0013	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	GPT-5 Nano	$0.0033	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Nano (Reasoning)	$0.0010	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Inception Mercury	$0.0002	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning, Low)	$0.0006	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Nemotron 3 Nano	$0.0016	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
9	ByteDance Seed 1.6 Flash	$0.0005	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	LFM2 24B	$0.0001	1.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Mistral Medium 3.1	$0.0011	764ms	70%	100	100	100	100	100	100	100	100	100	50	95%
51	Claude Sonnet 4.6	$0.019	12.6s	59%	100	100	100	100	100	100	100	100	100	32	93%
48	GPT-4.1 Nano	$0.0001	962ms	58%	100	100	100	100	100	100	100	100	100	30	93%
52	Stealth: Hunter Alpha	$0.0000	51.9s	57%	100	100	100	100	100	100	100	100	100	28	93%
55	Qwen 3.6 Flash	$0.013	38.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
61	DeepSeek V4 Pro (Reasoning)	$0.0041	1.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
59	Aion 2.0	$0.0062	58.5s	55%	100	100	100	100	100	100	100	100	100	25	93%
50	Gemini 2.5 Flash Lite (Reasoning)	$0.0020	14.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
58	Z.AI GLM 4.5 Air	$0.0041	1.0m	55%	100	100	100	100	100	100	100	100	100	25	93%
53	Ministral 3 8B	$0.0004	1.4s	41%	100	100	100	100	100	100	100	100	100	2	90%
54	MiniMax M2.5	$0.0020	24.5s	49%	100	100	100	100	100	100	100	100	50	25	88%
65	Qwen 3.6 35B	$0.0070	51.0s	40%	100	100	100	100	100	100	100	100	25	25	85%
57	Gemini 3.1 Flash Lite	$0.0007	741ms	40%	100	100	100	100	100	100	100	100	25	25	85%
76	Gemini 2.5 Pro	$0.045	32.3s	37%	100	100	100	100	100	100	100	100	25	17	84%
98	Grok 4	$0.063	1.6m	35%	100	100	100	100	100	100	100	100	25	13	84%
62	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	874ms	34%	100	100	100	100	100	100	100	50	25	17	79%
83	Gemini 3.5 Flash (Reasoning)	$0.059	26.0s	31%	100	100	100	100	100	100	100	25	25	25	78%
64	Grok 4.20 (Beta)	$0.0018	984ms	29%	100	100	100	100	100	100	100	33	33	6	77%
67	Gemini 2.5 Flash Lite	$0.0003	516ms	20%	100	100	100	100	100	100	100	17	17	6	74%
74	Mistral Small 3.2 24B	$0.0003	1.0s	14%	100	100	100	100	100	100	100	6	6	6	72%
66	Gemini 3.1 Flash Lite (Preview)	$0.0008	882ms	26%	100	100	100	100	100	100	42	25	25	13	70%
72	Mistral Small 4 (Reasoning)	$0.0018	16.7s	24%	100	100	100	100	100	100	25	25	25	17	69%
70	Hermes 3 70B	$0.0009	6.2s	21%	100	100	100	100	100	100	42	33	7	6	69%
71	Skyfall 36B V2	$0.0010	1.9s	20%	100	100	100	100	100	100	50	13	13	10	69%
81	Qwen 3 32B	$0.0015	1.3m	21%	100	100	100	100	100	100	25	25	17	13	68%
75	GPT-5.4 Nano	$0.0004	1.6s	17%	100	100	100	100	100	100	31	17	8	7	66%
73	Ministral 8B	$0.0004	4.4s	22%	100	100	100	100	100	50	27	27	26	26	66%
149	Qwen 3.5 27B	$0.052	4.7m	18%	100	100	100	100	100	50	25	25	17	13	63%
80	Cydonia 24B V4.1	$0.0008	9.4s	8%	100	100	100	100	100	100	8	7	6	4	62%
77	Z.AI GLM 4.5	$0.0022	16.0s	15%	100	100	100	100	100	32	30	29	25	3	62%
133	Z.AI GLM 4.7 Flash	$0.0040	3.1m	14%	100	100	100	100	100	25	25	25	25	17	62%
143	Qwen 3.5 9B	$0.0034	4.5m	22%	100	100	100	50	50	50	50	50	25	25	60%
120	Z.AI GLM 4.6	$0.033	1.6m	14%	100	100	100	100	50	50	29	25	25	7	59%
148	Gemini 3.1 Pro (Preview)	$0.110	1.3m	7%	100	100	100	100	25	25	25	25	25	25	55%
147	Qwen 3.5 397B A17B	$0.018	3.9m	5%	100	100	100	100	25	25	25	17	13	13	52%
92	Grok 4.20	$0.0059	14.1s	4%	100	100	100	100	29	27	27	6	6	2	50%
88	Arcee AI: Trinity Mini	$0.0003	8.2s	3%	100	100	100	100	25	17	17	17	13	6	49%
68	Claude Haiku 4.5	$0.0042	3.4s	48%	50	50	50	50	50	50	50	50	50	42	49%
151	Qwen 3.5 122B	$0.101	4.5m	7%	100	100	100	25	25	25	25	25	17	17	46%
78	Gemma 4 26B	$0.0004	10.2s	27%	100	50	50	50	50	42	42	25	25	25	46%
146	Qwen 3.5 35B	$0.047	2.4m	5%	100	100	100	25	25	17	17	17	13	13	43%
82	DeepSeek V4 Pro	$0.0047	29.4s	33%	50	50	50	42	42	42	29	28	25	25	38%
89	Claude Opus 4.7	$0.030	6.3s	37%	38	38	38	38	38	38	38	38	35	35	37%
95	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0099	3.9s	15%	100	50	50	35	35	25	25	17	17	10	36%
84	Claude Sonnet 4	$0.012	4.5s	30%	50	42	42	42	42	38	35	17	17	13	34%
87	DeepSeek V4 Flash	$0.0003	9.8s	21%	50	50	50	30	29	29	28	28	28	6	33%
130	Gemini 3 Flash (Preview, Reasoning)	$0.025	44.3s	14%	100	25	25	25	25	25	25	25	25	17	32%
150	Gemini 3 Pro (Preview)	$0.131	1.5m	14%	100	25	25	25	25	25	25	25	25	17	32%
91	Claude Sonnet 4.5	$0.016	7.6s	29%	35	35	33	33	33	33	33	32	32	10	31%
126	Claude Opus 4	$0.056	6.7s	27%	50	50	42	42	42	38	13	13	13	10	31%
112	WizardLM 2 8x22b	$0.0021	47.3s	8%	100	50	50	50	30	8	6	6	5	4	31%
100	Llama 3.1 Nemotron 70B	$0.0040	22.1s	15%	100	38	35	32	31	31	28	5	5	3	31%
96	GPT-5.4 Mini	$0.0013	787ms	13%	100	25	25	25	25	25	25	25	17	13	30%
94	GPT-4o Mini (temp=1)	$0.0004	4.8s	15%	100	38	32	32	31	29	13	13	8	6	30%
85	Ministral 3B	$0.0001	3.0s	25%	42	38	31	31	31	31	30	29	29	3	29%
103	GPT-4o, Aug. 6th (temp=1)	$0.0065	2.7s	8%	100	42	42	42	17	17	13	8	7	7	29%
93	Writer: Palmyra X5	$0.0066	13.0s	25%	42	35	32	32	31	30	30	30	29	2	29%
86	GPT-4.1 Mini	$0.0015	7.2s	25%	35	35	35	33	31	30	30	29	28	5	29%
90	Ministral 3 3B	$0.0004	5.0s	24%	38	32	30	30	29	29	29	29	27	1	27%
108	Claude Opus 4.6	$0.030	12.3s	23%	42	42	38	35	32	32	32	6	6	6	27%
99	Mistral Small 4	$0.0008	5.6s	12%	100	32	32	30	28	26	6	5	5	4	27%
102	Qwen 2.5 72B	$0.0006	9.9s	10%	100	35	31	29	25	17	13	6	6	6	27%
140	Qwen 3.5 Flash	$0.0061	1.6m	8%	100	25	25	25	17	17	17	17	13	13	27%
104	DeepSeek V3.1	$0.0011	18.9s	9%	100	31	30	29	25	13	13	8	8	7	26%
101	Qwen3 235B A22B Instruct 2507	$0.0009	27.7s	21%	42	35	32	31	30	29	28	5	4	4	24%
111	Mistral NeMO	$0.0005	7.8s	1%	100	100	6	4	4	4	4	3	3	1	23%
122	ByteDance Seed 2.0 Lite	$0.0070	1.2m	23%	25	25	25	25	25	25	25	17	17	17	23%
109	Rocinante 12B	$0.0008	9.3s	4%	100	33	31	17	10	8	7	6	4	3	22%
107	Hermes 3 405B	$0.0029	6.3s	6%	100	25	17	13	13	13	10	10	10	8	22%
97	GPT-5.4	$0.0034	2.2s	22%	25	25	25	25	25	25	25	17	13	7	21%
144	Qwen 3.5 Plus (2026-02-15)	$0.020	1.9m	14%	50	31	31	31	30	10	10	8	6	2	21%
116	GPT-4o, May 13th (temp=1)	$0.018	3.4s	13%	42	32	32	29	25	10	8	8	7	6	20%
117	Grok 4.3	$0.0036	5.4s	3%	100	32	17	13	7	6	6	4	4	3	19%
110	DeepSeek V3.2	$0.0009	27.4s	13%	42	30	29	28	17	17	13	5	5	4	19%
135	Cohere Command R+ (Aug. 2024)	$0.012	15.0s	4%	100	17	17	10	10	10	8	7	6	1	19%
128	Claude Opus 4.5	$0.021	5.2s	12%	38	38	17	17	17	13	10	10	10	10	18%
114	DeepSeek V3 (2025-03-24)	$0.0007	15.9s	7%	42	35	33	10	10	10	10	10	8	7	18%
105	DeepSeek-V2 Chat	$0.0011	4.8s	9%	50	25	17	17	13	13	10	10	10	6	17%
129	Claude 3.5 Sonnet	$0.024	6.3s	16%	25	17	17	17	17	17	17	13	13	13	16%
113	GPT-5.5	$0.011	3.1s	13%	25	25	25	17	17	13	10	10	10	8	16%
106	DeepSeek V3 (2024-12-26)	$0.0012	5.5s	11%	31	25	17	13	13	13	13	13	13	8	16%
134	Llama 3.1 8B	$0.0001	28.5s	5%	29	28	28	28	7	6	6	5	5	4	15%
136	Arcee AI: Trinity Large (Preview)	$0.0000	31.2s	4%	29	28	28	27	5	5	5	4	3	3	14%
119	Llama 3.1 70B	$0.0014	12.4s	8%	31	25	17	17	10	10	10	10	5	3	14%
124	Claude 3.7 Sonnet	$0.012	4.1s	12%	17	17	13	13	13	13	13	10	10	10	13%
115	Gemini 3 Flash (Preview)	$0.0018	3.3s	8%	35	13	13	13	10	10	8	8	8	8	13%
131	Mistral Small Creative	$0.0008	9.4s	3%	27	26	26	26	4	3	3	2	2	2	12%
121	Claude 3 Haiku	$0.0011	3.0s	7%	33	10	10	8	8	7	7	7	6	6	10%
137	Ministral 3 14B	$0.0009	12.9s	2%	27	26	26	3	3	3	3	2	2	1	10%
118	Gemini 2.5 Flash	$0.0015	1.7s	9%	13	13	13	10	10	10	8	7	6	5	9%
123	Gemma 3 12B	$0.0001	6.8s	8%	17	8	8	8	8	8	7	7	7	7	9%
127	Gemma 3 27B	$0.0003	8.8s	8%	10	10	10	10	8	8	8	8	7	5	9%
132	GPT-4o, Aug. 6th (temp=0)	$0.0071	2.9s	8%	10	10	8	8	8	8	7	7	6	6	8%
125	GPT-4o Mini (temp=0)	$0.0005	5.4s	8%	8	8	8	8	8	8	8	8	6	6	8%
141	Mistral Large 2	$0.011	15.1s	4%	29	6	5	5	5	4	4	3	3	3	6%
138	Mistral Large 3	$0.0026	12.1s	5%	6	6	6	6	6	5	5	5	3	3	5%
145	GPT-4o, May 13th (temp=0)	$0.035	9.4s	4%	8	8	7	7	6	3	1	1	1	1	4%
142	Mistral Large	$0.011	15.0s	4%	6	6	5	5	4	4	4	4	3	3	4%
139	Gemma 3 4B	$0.0002	11.0s	3%	4	3	3	3	3	3	3	2	2	2	3%
62.01%

Median	Evaluator	Top 3	Flop 3
65.0%	Correct "no violations" response	100Grok 4.3 (Reasoning) 100Z.AI GLM 5.1 100Inception Mercury 2	0Gemma 3 12B 0GPT-5.5 0Gemma 3 27B
73.5%	No hallucinated violations	100GPT-4.1 100Qwen 3.5 Plus (2026-04-20) 100Xiaomi MIMO v2.5 Pro	4Ministral 3 14B 4Mistral Small Creative 5Gemma 3 4B

Long text (~1594 words), big codex (51 entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
GPT-5.1	100%
DeepSeek V4 Pro (Reasoning)	100%
Aion 2.0	100%
Stealth: Healer Alpha	100%
Inception Mercury 2	100%
GPT-5 Nano	100%
GPT-5.4 Nano (Reasoning, Low)	100%
LFM2 24B	100%
Claude Opus 4.6	94%
Ministral 3 8B	93%
GPT-4.1 Nano	93%
Gemini 2.5 Flash Lite (Reasoning)	93%
Xiaomi MIMO v2.5	93%
Nemotron 3 Super	93%
Inception Mercury	93%
Nemotron 3 Nano	93%
ByteDance Seed 1.6 Flash	93%
Grok 4.3 (Reasoning)	92%
GPT-5	92%

	Score	Cost	Time
GPT-4.1 Nano	93%	$0.0003	2.2s
LFM2 24B	100%	$0.0001	1.3s
Ministral 3 8B	93%	$0.0006	1.9s
Cydonia 24B V4.1	71%	$0.0008	4.4s
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0011	6.4s
Inception Mercury	93%	$0.0002	11.6s
ByteDance Seed 1.6 Flash	93%	$0.0010	14.8s
Inception Mercury 2	100%	$0.0039	5.5s
GPT-5.4 Mini (Reasoning, Low)	85%	$0.0048	6.5s
Stealth: Healer Alpha	100%	$0.0000	27.0s
Mistral Small 4 (Reasoning)	92%	$0.0026	21.1s
Gemini 2.5 Flash Lite (Reasoning)	93%	$0.0033	22.0s
Grok 4.1 Fast	92%	$0.0028	27.0s
DeepSeek V4 Flash (Reasoning)	78%	$0.0010	39.3s
Z.AI GLM 5 Turbo	68%	$0.0096	25.3s
Gemini 2.5 Flash (Reasoning)	85%	$0.012	18.1s
GPT-5.2	92%	$0.015	17.4s
Xiaomi MIMO v2.5	93%	$0.011	47.4s
GPT-OSS 120B	85%	$0.0013	1.2m
GPT-5 Nano	100%	$0.0038	1.3m

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
GPT-5.1	100%	100%	100%
DeepSeek V4 Pro (Reasoning)	100%	100%	100%
Aion 2.0	100%	100%	100%
Stealth: Healer Alpha	100%	100%	100%
Inception Mercury 2	100%	100%	100%
GPT-5 Nano	100%	100%	100%
GPT-5.4 Nano (Reasoning, Low)	100%	100%	100%
LFM2 24B	100%	100%	100%
Claude Opus 4.6	94%	61%	61%
Ministral 3 8B	93%	56%	56%
GPT-4.1 Nano	93%	55%	55%
Gemini 2.5 Flash Lite (Reasoning)	93%	55%	55%
Xiaomi MIMO v2.5	93%	55%	55%
Nemotron 3 Super	93%	55%	55%
Inception Mercury	93%	55%	55%
Nemotron 3 Nano	93%	55%	55%
ByteDance Seed 1.6 Flash	93%	55%	55%
Grok 4.3 (Reasoning)	92%	50%	50%
GPT-5	92%	50%	50%

	Score	Cost	Speed	Stability
LFM2 24B	100%	$0.0001	1.3s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0011	6.4s	100%
Inception Mercury 2	100%	$0.0039	5.5s	100%
Stealth: Healer Alpha	100%	$0.0000	27.0s	100%
GPT-5 Nano	100%	$0.0038	1.3m	100%
GPT-5.1	100%	$0.029	28.6s	100%
Aion 2.0	100%	$0.0086	1.3m	100%
Ministral 3 8B	93%	$0.0006	1.9s	56%
GPT-4.1 Nano	93%	$0.0003	2.2s	55%
Inception Mercury	93%	$0.0002	11.6s	55%
ByteDance Seed 1.6 Flash	93%	$0.0010	14.8s	55%
Gemini 2.5 Flash Lite (Reasoning)	93%	$0.0033	22.0s	55%
Mistral Small 4 (Reasoning)	92%	$0.0026	21.1s	50%
DeepSeek V4 Pro (Reasoning)	100%	$0.013	4.9m	100%
Grok 4.1 Fast	92%	$0.0028	27.0s	50%
Xiaomi MIMO v2.5	93%	$0.011	47.4s	55%
GPT-5.2	92%	$0.015	17.4s	50%
Claude Opus 4.6	94%	$0.048	16.8s	61%
GPT-5.4 Mini (Reasoning, Low)	85%	$0.0048	6.5s	40%
Nemotron 3 Super	93%	$0.0000	2.3m	55%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
22	Claude Opus 4.6 (Reasoning)	$0.143	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.1	$0.029	28.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	DeepSeek V4 Pro (Reasoning)	$0.013	4.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Aion 2.0	$0.0086	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Stealth: Healer Alpha	$0.0000	27.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0039	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-5 Nano	$0.0038	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
2	GPT-5.4 Nano (Reasoning, Low)	$0.0011	6.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	LFM2 24B	$0.0001	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Claude Opus 4.6	$0.048	16.8s	61%	100	100	100	100	100	100	100	100	100	35	94%
8	Ministral 3 8B	$0.0006	1.9s	56%	100	100	100	100	100	100	100	100	100	26	93%
9	GPT-4.1 Nano	$0.0003	2.2s	55%	100	100	100	100	100	100	100	100	100	26	93%
12	Gemini 2.5 Flash Lite (Reasoning)	$0.0033	22.0s	55%	100	100	100	100	100	100	100	100	100	25	93%
16	Xiaomi MIMO v2.5	$0.011	47.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
20	Nemotron 3 Super	$0.0000	2.3m	55%	100	100	100	100	100	100	100	100	100	25	93%
10	Inception Mercury	$0.0002	11.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
32	Nemotron 3 Nano	$0.0044	5.8m	55%	100	100	100	100	100	100	100	100	100	25	93%
11	ByteDance Seed 1.6 Flash	$0.0010	14.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
21	Grok 4.3 (Reasoning)	$0.018	1.2m	50%	100	100	100	100	100	100	100	100	100	17	92%
31	GPT-5	$0.074	2.5m	50%	100	100	100	100	100	100	100	100	100	17	92%
17	GPT-5.2	$0.015	17.4s	50%	100	100	100	100	100	100	100	100	100	17	92%
15	Grok 4.1 Fast	$0.0028	27.0s	50%	100	100	100	100	100	100	100	100	100	17	92%
13	Mistral Small 4 (Reasoning)	$0.0026	21.1s	50%	100	100	100	100	100	100	100	100	100	17	92%
29	o4 Mini High	$0.045	1.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
25	o4 Mini	$0.021	41.4s	40%	100	100	100	100	100	100	100	100	25	25	85%
23	Gemini 2.5 Flash (Reasoning)	$0.012	18.1s	40%	100	100	100	100	100	100	100	100	25	25	85%
24	GPT-OSS 120B	$0.0013	1.2m	40%	100	100	100	100	100	100	100	100	25	25	85%
19	GPT-5.4 Mini (Reasoning, Low)	$0.0048	6.5s	40%	100	100	100	100	100	100	100	100	25	25	85%
140	Claude Sonnet 4.6 (Reasoning)	$0.221	3.4m	33%	100	100	100	100	100	100	100	100	17	17	83%
28	Z.AI GLM 5	$0.019	1.7m	33%	100	100	100	100	100	100	100	100	17	17	83%
35	Qwen 3.5 Plus (2026-04-20)	$0.027	2.6m	31%	100	100	100	100	100	100	100	25	25	25	78%
26	DeepSeek V4 Flash (Reasoning)	$0.0010	39.3s	31%	100	100	100	100	100	100	100	25	25	25	78%
38	MoonshotAI: Kimi K2.5	$0.019	2.8m	29%	100	100	100	100	100	100	100	25	25	17	77%
45	Z.AI GLM 4.7 Flash	$0.0058	4.4m	29%	100	100	100	100	100	100	100	25	25	17	77%
27	Cydonia 24B V4.1	$0.0008	4.4s	27%	100	100	100	100	100	100	38	38	38	2	71%
30	Z.AI GLM 5 Turbo	$0.0096	25.3s	20%	100	100	100	100	100	100	25	17	17	17	68%
145	MoonshotAI: Kimi K2.6	$0.068	8.4m	18%	100	100	100	100	100	100	17	17	17	17	67%
36	MiniMax M2.7	$0.0042	56.4s	16%	100	100	100	100	100	25	25	25	25	25	63%
34	Qwen 3 32B	$0.0011	28.7s	14%	100	100	100	100	100	25	25	25	25	13	61%
42	Stealth: Hunter Alpha	$0.0000	1.4m	12%	100	100	100	100	100	25	25	17	17	17	60%
33	Arcee AI: Trinity Mini	$0.0004	10.5s	16%	100	100	100	100	50	50	25	25	25	25	60%
39	MiniMax M2.5	$0.0035	36.5s	11%	100	100	100	100	100	25	25	17	17	10	59%
109	Z.AI GLM 5.1	$0.037	3.7m	11%	100	100	100	100	100	25	17	17	17	17	59%
112	Qwen 3.6 27B	$0.045	3.6m	11%	100	100	100	100	100	25	17	17	17	17	59%
56	Xiaomi MIMO v2.5 Pro	$0.021	1.7m	11%	100	100	100	100	100	25	17	17	17	17	59%
50	Claude Sonnet 4.6	$0.044	37.5s	13%	100	100	100	100	50	42	42	29	17	10	59%
54	GPT-5.4 (Reasoning)	$0.040	45.8s	10%	100	100	100	100	100	17	17	17	17	17	58%
37	GPT-5.4 Nano (Reasoning)	$0.0024	15.5s	10%	100	100	100	100	100	17	17	17	17	17	58%
40	Z.AI GLM 4.5 Air	$0.0027	41.1s	10%	100	100	100	100	100	25	25	17	13	4	58%
66	Z.AI GLM 4.6	$0.025	1.4m	8%	100	100	100	100	50	25	25	25	17	0	54%
41	GPT-5.4 Nano	$0.0007	2.5s	7%	100	100	100	100	50	27	17	17	10	2	52%
53	ByteDance Seed 1.6	$0.0060	55.9s	4%	100	100	100	100	25	17	17	17	17	17	51%
60	GPT-5.5 (Reasoning, Low)	$0.026	15.6s	3%	100	100	100	100	17	17	17	17	17	17	50%
76	Grok 4.20 (Reasoning)	$0.025	1.4m	3%	100	100	100	100	17	17	17	17	17	17	50%
88	Qwen 3.6 35B	$0.028	1.9m	7%	100	100	100	25	25	25	25	25	25	17	47%
122	Claude Opus 4.7 (Reasoning)	$0.098	26.9s	7%	100	100	100	25	25	25	25	17	17	17	45%
65	GPT-5 Mini	$0.0098	1.0m	7%	100	100	100	25	25	25	25	17	17	17	45%
44	GPT-4.1	$0.0053	2.7s	14%	100	100	50	42	35	33	33	30	17	8	45%
48	Ministral 8B	$0.0006	9.4s	6%	100	100	100	28	27	26	26	26	1	1	44%
49	Rocinante 12B	$0.0010	7.7s	7%	100	100	100	35	35	25	13	10	5	3	43%
129	Gemma 4 26B (Reasoning)	$0.0032	4.3m	4%	100	100	100	25	17	17	17	17	17	17	43%
81	Grok 4.20 (Beta, Reasoning)	$0.041	25.8s	4%	100	100	100	25	17	17	17	17	17	17	43%
61	GPT-5.4 (Reasoning, Low)	$0.014	10.3s	4%	100	100	100	25	17	17	17	17	17	17	43%
106	GPT-5.5 (Reasoning)	$0.062	31.3s	4%	100	100	100	17	17	17	17	17	17	17	42%
151	Gemini 3.1 Pro (Preview)	$0.203	2.6m	9%	100	100	25	25	25	25	17	17	17	13	36%
47	Claude Opus 4.7	$0.037	5.2s	30%	42	42	42	38	38	35	35	35	35	13	35%
77	Qwen 3.6 Flash	$0.023	1.1m	13%	100	50	25	25	25	25	25	25	25	17	34%
46	Claude Opus 4.5	$0.028	6.0s	30%	50	42	42	42	42	42	38	17	13	8	33%
142	Gemma 4 31B (Reasoning)	$0.0034	5.6m	6%	100	100	17	17	17	17	17	17	17	17	33%
147	Gemini 3 Pro (Preview)	$0.161	1.9m	14%	100	25	25	25	25	25	25	25	25	17	32%
70	Gemini 2.5 Flash Lite	$0.0010	4.5s	0%	100	100	100	4	4	2	2	2	1	1	31%
136	Mistral NeMO	$0.0007	4.1m	0%	100	100	100	4	3	2	2	2	0	0	31%
52	GPT-5.4 Mini	$0.0014	901ms	13%	100	25	25	25	25	25	25	25	17	17	31%
43	Claude 3 Haiku	$0.0014	3.1s	28%	38	38	38	38	38	38	35	13	13	6	29%
72	Hermes 3 405B	$0.0040	6.6s	3%	100	100	17	17	13	10	10	8	6	6	29%
134	Z.AI GLM 4.7	$0.028	3.5m	11%	100	25	25	25	25	17	17	17	17	17	28%
69	Grok 4.20 (Beta)	$0.0087	16.8s	12%	100	31	31	29	27	26	6	3	3	1	26%
148	Qwen3.6 Max Preview	$0.106	5.7m	25%	25	25	25	25	25	25	25	25	25	25	25%
132	Gemini 3.5 Flash (Reasoning)	$0.088	38.1s	8%	100	17	17	17	17	17	17	17	17	17	25%
144	Grok 4	$0.097	2.5m	8%	100	17	17	17	17	17	17	17	17	17	25%
55	Qwen 2.5 72B	$0.0009	31.4s	23%	31	29	29	28	28	28	27	26	10	7	24%
64	GPT-5.4 Mini (Reasoning)	$0.018	19.7s	24%	25	25	25	25	25	25	25	25	25	17	24%
51	Ministral 3B	$0.0002	6.2s	21%	38	32	29	28	28	27	26	26	5	3	24%
68	Writer: Palmyra X5	$0.014	26.5s	21%	42	30	29	27	27	27	27	26	2	2	24%
74	Skyfall 36B V2	$0.0018	6.8s	6%	100	38	32	17	13	13	10	10	3	3	24%
99	WizardLM 2 8x22b	$0.0037	2.2m	21%	35	28	27	27	26	25	25	25	13	1	23%
63	Claude Sonnet 4.5	$0.020	7.8s	24%	35	33	33	32	32	32	8	7	7	6	23%
143	Gemini 2.5 Pro	$0.128	1.5m	23%	25	25	25	25	25	25	25	17	17	17	23%
58	Mistral Small 4	$0.0013	8.3s	19%	50	29	29	28	27	27	26	4	3	2	22%
62	DeepSeek V4 Flash	$0.0007	24.5s	21%	33	28	28	27	27	26	26	26	1	1	22%
79	Z.AI GLM 4.5	$0.0028	18.9s	7%	100	28	25	17	17	13	10	6	4	1	22%
59	Mistral Small Creative	$0.0011	13.5s	21%	27	27	27	26	26	26	26	26	2	1	21%
57	GPT-4.1 Mini	$0.0016	6.2s	20%	29	29	25	25	25	25	25	25	4	2	21%
103	Arcee AI: Trinity Large (Preview)	$0.0000	2.5m	21%	26	26	26	26	26	26	25	25	6	0	21%
111	Qwen 3.5 35B	$0.033	1.7m	23%	25	25	25	25	25	25	17	17	17	13	21%
141	Qwen 3.5 9B	$0.0036	5.8m	23%	25	25	25	25	25	25	17	17	17	13	21%
82	DeepSeek V4 Pro	$0.0073	48.7s	15%	50	35	28	27	25	17	17	8	4	1	21%
75	Claude Haiku 4.5	$0.0062	4.5s	9%	50	38	38	17	13	13	13	10	10	10	21%
67	GPT-4o, Aug. 6th (temp=1)	$0.0092	5.9s	19%	35	33	30	29	25	25	8	7	7	6	21%
150	Qwen 3.5 27B	$0.074	6.4m	14%	38	25	25	17	17	17	17	17	17	17	20%
86	Claude Sonnet 4	$0.018	7.0s	10%	38	35	35	33	17	10	10	8	8	8	20%
92	Qwen3 235B A22B Instruct 2507	$0.0015	1.9m	21%	28	27	27	27	27	27	26	8	3	2	20%
116	Qwen 3.5 Flash	$0.0079	2.2m	15%	25	25	25	25	17	17	17	17	17	17	20%
91	Hermes 3 70B	$0.0013	17.8s	2%	100	50	13	7	6	6	5	5	4	4	20%
95	Llama 3.1 70B	$0.0018	21.1s	3%	100	29	17	17	8	6	5	4	3	3	19%
73	Llama 3.1 8B	$0.0003	54.9s	20%	31	30	28	28	27	26	17	3	3	0	19%
149	Qwen 3.5 122B	$0.099	5.0m	14%	42	17	17	17	17	17	17	17	17	13	19%
138	ByteDance Seed 2.0 Mini	$0.0041	4.3m	15%	35	17	17	17	17	17	17	17	17	17	19%
90	Ministral 3 14B	$0.0029	1.5m	20%	26	26	26	26	25	25	25	2	2	1	18%
100	Cohere Command R+ (Aug. 2024)	$0.013	6.3s	4%	100	17	17	10	8	8	7	7	5	5	18%
71	Ministral 3 3B	$0.0013	35.1s	20%	28	27	27	26	25	25	17	4	2	1	18%
130	Qwen3.7 Max	$0.052	1.4m	16%	25	17	17	17	17	17	17	17	17	17	18%
127	Gemini 3 Flash (Preview, Reasoning)	$0.043	1.2m	12%	38	25	17	17	17	13	13	13	13	10	17%
84	Llama 3.1 Nemotron 70B	$0.0057	28.1s	13%	31	30	28	28	28	6	6	5	5	5	17%
146	Qwen 3.5 397B A17B	$0.029	5.6m	16%	25	17	17	17	17	17	17	17	17	13	17%
135	Claude Opus 4	$0.087	10.8s	9%	38	35	31	13	13	10	8	8	8	5	17%
102	ByteDance Seed 2.0 Lite	$0.0079	1.4m	16%	25	17	17	17	17	17	17	17	13	13	17%
78	GPT-5.5	$0.015	3.6s	15%	25	25	17	17	17	17	13	13	13	8	16%
97	GPT-4o Mini (temp=1)	$0.0007	9.6s	4%	38	31	31	30	6	5	4	4	4	4	16%
105	GPT-4o, May 13th (temp=1)	$0.025	3.9s	9%	35	33	31	13	13	10	7	6	4	3	15%
137	Gemma 4 26B	$0.0049	3.2m	6%	42	31	31	13	8	7	6	6	6	6	15%
80	Grok 4 Fast	$0.0029	33.5s	16%	17	17	17	17	17	17	17	13	13	13	15%
101	Grok 4.3	$0.0062	6.8s	2%	100	8	8	7	6	5	5	5	3	2	15%
85	DeepSeek V3 (2024-12-26)	$0.0018	11.1s	10%	30	25	25	17	13	13	10	5	4	2	14%
98	Gemma 4 31B	$0.0007	26.8s	8%	35	33	13	13	10	10	8	8	6	6	14%
83	GPT-5.4	$0.0053	3.8s	12%	17	17	17	17	13	13	13	13	10	10	14%
115	Claude 3.5 Sonnet	$0.034	8.0s	8%	35	17	17	13	10	10	10	10	8	7	14%
108	Mistral Medium 3.1	$0.0043	12.9s	3%	28	28	28	27	3	3	3	3	2	2	13%
114	DeepSeek V3.1	$0.0025	56.9s	6%	31	26	25	8	8	6	5	5	4	4	12%
89	Gemini 3.5 Flash (Reasoning, Minimal)	$0.011	3.2s	12%	13	13	13	13	13	13	13	13	10	8	12%
96	Gemini 3.1 Flash Lite	$0.0017	6.0s	8%	35	10	10	10	10	8	8	8	7	7	11%
94	Gemini 3.1 Flash Lite (Reasoning)	$0.0017	2.7s	8%	31	10	10	10	10	8	8	8	8	6	11%
87	Gemini 2.5 Flash	$0.0021	2.0s	10%	17	17	13	13	13	10	8	7	5	5	11%
93	Gemini 3.1 Flash Lite (Preview)	$0.0017	2.2s	10%	13	10	10	10	10	10	10	8	8	5	9%
104	Gemini 3 Flash (Preview)	$0.0031	4.9s	6%	33	8	7	7	7	7	5	5	5	3	9%
107	DeepSeek V3 (2025-03-24)	$0.0011	19.7s	7%	13	13	10	10	8	7	7	6	6	4	8%
110	DeepSeek-V2 Chat	$0.0018	12.6s	5%	25	17	8	6	6	6	6	5	3	2	8%
131	DeepSeek V3.2	$0.0016	1.5m	3%	26	26	6	5	3	3	3	3	2	1	8%
124	Grok 4.20	$0.011	29.2s	2%	33	27	3	3	3	3	2	2	1	1	8%
113	Claude 3.7 Sonnet	$0.019	6.4s	8%	10	8	8	8	8	8	7	7	6	5	8%
117	GPT-4o, Aug. 6th (temp=0)	$0.011	4.7s	5%	7	7	6	6	6	6	5	4	4	4	5%
139	Qwen 3.5 Plus (2026-02-15)	$0.018	1.9m	5%	8	7	6	6	6	5	4	4	4	1	5%
123	Mistral Large 2	$0.013	12.9s	4%	8	6	6	6	5	4	4	3	3	2	5%
118	Gemma 3 27B	$0.0005	18.5s	4%	6	6	6	5	5	5	4	4	3	2	4%
119	Gemma 3 12B	$0.0006	16.9s	3%	13	5	4	4	4	4	3	3	3	2	4%
121	Mistral Large 3	$0.0034	14.1s	3%	7	6	5	5	4	3	3	3	3	2	4%
128	Mistral Large	$0.015	17.6s	3%	7	4	3	3	3	3	3	2	2	2	3%
133	GPT-4o, May 13th (temp=0)	$0.039	8.0s	2%	5	5	4	4	3	2	2	2	1	1	3%
120	Mistral Small 3.2 24B	$0.0007	7.5s	3%	4	4	3	3	3	3	3	2	2	1	3%
126	GPT-4o Mini (temp=0)	$0.0016	38.4s	3%	4	3	3	3	3	3	3	2	2	0	3%
125	Gemma 3 4B	$0.0003	23.6s	1%	1	1	1	1	1	1	1	1	1	1	1%
41.49%

Median	Evaluator	Top 3	Flop 3
30.0%	Correct "no violations" response	100GPT-5.1 100Aion 2.0 100GPT-5 Nano	0GPT-5.4 0Qwen 3.5 Plus (2026-02-15) 0GPT-4o, May 13th (temp=0)
40.0%	No hallucinated violations	100Inception Mercury 2 100DeepSeek V4 Pro (Reasoning) 100GPT-5.4 Nano (Reasoning, Low)	2Ministral 3 14B 2Gemma 3 4B 3Arcee AI: Trinity Large (Preview)

Short text (~524 words), small codex (11 detailed entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
Gemma 4 31B (Reasoning)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
Claude Sonnet 4.6	100%
Qwen 3.5 27B	100%
ByteDance Seed 1.6	100%
GPT-5.4 Mini (Reasoning)	100%
o4 Mini High	100%
Claude Opus 4.7	100%
Claude Opus 4.5	100%
Grok 4.1 Fast	100%
GPT-4.1	100%
Grok 4	100%
Gemma 4 31B	100%

	Score	Cost	Time
LFM2 24B	62%	$0.0004	56.5s
Ministral 8B	100%	$0.0004	338ms
Mistral Small 3.2 24B	63%	$0.0004	1.7s
GPT-5.4 Nano	83%	$0.0005	1.3s
Ministral 3 8B	100%	$0.0006	339ms
Gemma 4 26B	100%	$0.0004	3.9s
Gemma 4 31B	100%	$0.0005	7.1s
GPT-4.1 Mini	93%	$0.0007	1.6s
Cydonia 24B V4.1	83%	$0.0007	1.4s
Ministral 3 14B	100%	$0.0008	531ms
GPT-5.4 Nano (Reasoning, Low)	93%	$0.0006	2.8s
Arcee AI: Trinity Mini	93%	$0.0013	41.5s
Inception Mercury	100%	$0.0003	6.3s
Mistral Large 3	100%	$0.0020	774ms
ByteDance Seed 1.6 Flash	84%	$0.0006	7.9s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0023	3.9s
GPT-5.4 Nano (Reasoning)	100%	$0.0012	7.5s
Grok 4.1 Fast	100%	$0.0011	8.6s
GPT-4.1	100%	$0.0035	613ms
Inception Mercury 2	85%	$0.0023	3.4s

	Score	Consistency	Stability
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Grok 4.20 (Beta, Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
Qwen 3.5 27B	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
o4 Mini High	100%	100%	100%
Claude Opus 4.7	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Grok 4.1 Fast	100%	100%	100%
GPT-4.1	100%	100%	100%
Grok 4	100%	100%	100%
Gemma 4 31B	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 8B	100%	$0.0004	338ms	100%
Ministral 3 8B	100%	$0.0006	339ms	100%
Ministral 3 14B	100%	$0.0008	531ms	100%
Gemma 4 26B	100%	$0.0004	3.9s	100%
Mistral Large 3	100%	$0.0020	774ms	100%
Inception Mercury	100%	$0.0003	6.3s	100%
Gemma 4 31B	100%	$0.0005	7.1s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0023	3.9s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0012	7.5s	100%
GPT-4.1	100%	$0.0035	613ms	100%
Grok 4.1 Fast	100%	$0.0011	8.6s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0050	6.1s	100%
Gemini 2.5 Flash Lite (Reasoning)	100%	$0.0021	15.1s	100%
Mistral Large 2	100%	$0.0078	650ms	100%
Mistral Large	100%	$0.0078	1.0s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0068	5.9s	100%
Z.AI GLM 5 Turbo	100%	$0.0055	11.5s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0060	21.5s	100%
Claude Sonnet 4.6	100%	$0.013	1.0s	100%
ByteDance Seed 1.6	100%	$0.0035	29.7s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
32	Z.AI GLM 5.1	$0.020	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Z.AI GLM 5 Turbo	$0.0055	11.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Claude Opus 4.7 (Reasoning)	$0.028	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	GPT-5 Mini	$0.0047	29.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Gemma 4 31B (Reasoning)	$0.0017	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Gemma 4 26B (Reasoning)	$0.0026	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Grok 4.20 (Beta, Reasoning)	$0.022	13.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 (Reasoning, Low)	$0.0068	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Z.AI GLM 5	$0.012	57.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Claude Sonnet 4.6	$0.013	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Qwen 3.5 27B	$0.037	3.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
20	ByteDance Seed 1.6	$0.0035	29.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-5.4 Mini (Reasoning)	$0.0050	6.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	o4 Mini High	$0.023	51.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Claude Opus 4.7	$0.028	1.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Claude Opus 4.5	$0.021	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Grok 4.1 Fast	$0.0011	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-4.1	$0.0035	613ms	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Grok 4	$0.043	52.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Gemma 4 31B	$0.0005	7.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Gemini 2.5 Flash (Reasoning)	$0.0060	21.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	GPT-OSS 120B	$0.0008	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Gemma 4 26B	$0.0004	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 Mini (Reasoning, Low)	$0.0023	3.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Gemini 2.5 Flash Lite (Reasoning)	$0.0021	15.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Mistral Large 3	$0.0020	774ms	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Nemotron 3 Super	$0.0000	52.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Mistral Large 2	$0.0078	650ms	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-5.4 Nano (Reasoning)	$0.0012	7.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Mistral Large	$0.0078	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Inception Mercury	$0.0003	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Ministral 3 14B	$0.0008	531ms	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 8B	$0.0006	339ms	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 8B	$0.0004	338ms	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Claude Haiku 4.5	$0.0044	1.3s	70%	100	100	100	100	100	100	100	100	100	50	95%
35	GPT-5.4 Nano (Reasoning, Low)	$0.0006	2.8s	60%	100	100	100	100	100	100	100	100	100	33	93%
36	GPT-4.1 Mini	$0.0007	1.6s	59%	100	100	100	100	100	100	100	100	100	32	93%
62	Qwen3.7 Max	$0.047	1.2m	55%	100	100	100	100	100	100	100	100	100	25	93%
47	GPT-5.1	$0.022	27.2s	55%	100	100	100	100	100	100	100	100	100	25	93%
52	Qwen 3.5 Plus (2026-04-20)	$0.016	1.6m	55%	100	100	100	100	100	100	100	100	100	25	93%
46	Grok 4.20 (Reasoning)	$0.012	39.2s	55%	100	100	100	100	100	100	100	100	100	25	93%
49	Aion 2.0	$0.0088	1.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
38	MiniMax M2.7	$0.0033	17.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
43	o4 Mini	$0.012	22.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
45	Xiaomi MIMO v2.5 Pro	$0.0085	36.9s	55%	100	100	100	100	100	100	100	100	100	25	93%
41	Stealth: Hunter Alpha	$0.0000	45.6s	55%	100	100	100	100	100	100	100	100	100	25	93%
37	Grok 4 Fast	$0.0013	13.5s	55%	100	100	100	100	100	100	100	100	100	25	93%
42	GPT-5 Nano	$0.0023	43.0s	55%	100	100	100	100	100	100	100	100	100	25	93%
40	Arcee AI: Trinity Mini	$0.0013	41.5s	55%	100	100	100	100	100	100	100	100	100	25	93%
44	Xiaomi MIMO v2.5	$0.0042	17.1s	50%	100	100	100	100	100	100	100	100	100	17	92%
58	Claude Opus 4.6	$0.036	11.3s	49%	100	100	100	100	100	100	100	100	50	25	88%
73	Claude Opus 4.6 (Reasoning)	$0.079	37.1s	40%	100	100	100	100	100	100	100	100	25	25	85%
60	Grok 4.3 (Reasoning)	$0.013	50.7s	40%	100	100	100	100	100	100	100	100	25	25	85%
59	GPT-5.4 (Reasoning)	$0.020	20.9s	40%	100	100	100	100	100	100	100	100	25	25	85%
151	Qwen 3.5 122B	$0.166	8.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
56	GPT-5.2	$0.013	16.3s	40%	100	100	100	100	100	100	100	100	25	25	85%
70	Qwen 3.6 27B	$0.028	1.9m	40%	100	100	100	100	100	100	100	100	25	25	85%
54	Z.AI GLM 4.6	$0.0038	29.3s	40%	100	100	100	100	100	100	100	100	25	25	85%
53	DeepSeek V4 Flash (Reasoning)	$0.0007	26.8s	40%	100	100	100	100	100	100	100	100	25	25	85%
66	Z.AI GLM 4.7	$0.018	1.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
51	Stealth: Healer Alpha	$0.0000	25.2s	40%	100	100	100	100	100	100	100	100	25	25	85%
50	Inception Mercury 2	$0.0023	3.4s	40%	100	100	100	100	100	100	100	100	25	25	85%
65	Nemotron 3 Nano	$0.0022	2.1m	40%	100	100	100	100	100	100	100	100	25	25	85%
61	Z.AI GLM 4.5 Air	$0.0028	1.0m	37%	100	100	100	100	100	100	100	100	25	17	84%
55	ByteDance Seed 1.6 Flash	$0.0006	7.9s	35%	100	100	100	100	100	100	100	100	25	13	84%
57	Cydonia 24B V4.1	$0.0007	1.4s	32%	100	100	100	100	100	100	100	100	17	13	83%
48	GPT-5.4 Nano	$0.0005	1.3s	47%	100	100	100	100	100	100	100	50	50	29	83%
63	Cohere Command R+ (Aug. 2024)	$0.010	2.1s	27%	100	100	100	100	100	100	100	100	10	8	82%
127	Gemini 3 Pro (Preview)	$0.118	1.3m	31%	100	100	100	100	100	100	100	25	25	25	78%
64	MiniMax M2.5	$0.0029	22.7s	31%	100	100	100	100	100	100	100	25	25	25	78%
69	Z.AI GLM 4.7 Flash	$0.0024	1.5m	31%	100	100	100	100	100	100	100	25	25	25	78%
67	Mistral Small 4 (Reasoning)	$0.0022	18.2s	26%	100	100	100	100	100	100	100	25	17	17	76%
68	Hermes 3 405B	$0.0039	2.5s	21%	100	100	100	100	100	100	100	17	13	13	74%
71	Qwen 3.6 Flash	$0.013	39.2s	27%	100	100	100	100	100	100	25	25	25	25	70%
108	Qwen 3.5 9B	$0.0034	4.5m	22%	100	100	100	100	50	50	50	50	50	25	68%
75	Mistral Small 3.2 24B	$0.0004	1.7s	8%	100	100	100	100	100	100	8	6	6	5	63%
128	MoonshotAI: Kimi K2.5	$0.017	3.9m	16%	100	100	100	100	100	25	25	25	25	25	63%
83	Gemini 3 Flash (Preview, Reasoning)	$0.024	43.4s	16%	100	100	100	100	100	25	25	25	25	25	63%
122	Gemini 2.5 Pro	$0.069	49.8s	16%	100	100	100	100	100	25	25	25	25	25	63%
72	Skyfall 36B V2	$0.0014	6.3s	16%	100	100	100	100	100	38	38	17	17	13	62%
82	LFM2 24B	$0.0004	56.5s	6%	100	100	100	100	100	100	6	5	5	0	62%
74	Llama 3.1 70B	$0.0019	3.5s	14%	100	100	100	100	42	42	38	25	25	25	60%
76	GPT-4o, Aug. 6th (temp=1)	$0.0065	1.1s	13%	100	100	100	100	42	42	25	25	25	25	58%
79	Z.AI GLM 4.5	$0.0032	21.3s	9%	100	100	100	100	100	29	29	13	4	3	58%
138	Claude Sonnet 4.6 (Reasoning)	$0.065	51.6s	7%	100	100	100	100	25	25	25	25	25	25	55%
133	GPT-5	$0.045	1.3m	7%	100	100	100	100	25	25	25	25	25	25	55%
147	DeepSeek V4 Pro (Reasoning)	$0.029	5.7m	7%	100	100	100	100	25	25	25	25	25	25	55%
114	Qwen 3.5 Flash	$0.0070	2.0m	6%	100	100	100	100	25	25	25	25	25	17	54%
81	GPT-4o, Aug. 6th (temp=0)	$0.0055	1.2s	6%	100	100	100	100	25	25	25	25	25	17	54%
84	Qwen 3 32B	$0.0010	33.7s	6%	100	100	100	100	25	25	25	25	25	17	54%
146	Qwen 3.5 397B A17B	$0.024	5.4m	6%	100	100	100	100	25	25	25	25	17	17	53%
78	Mistral Medium 3.1	$0.0018	2.6s	13%	100	100	100	50	42	32	25	25	25	17	52%
100	Claude Sonnet 4	$0.014	2.9s	3%	100	100	100	100	17	17	17	17	17	17	50%
80	GPT-4.1 Nano	$0.0004	4.9s	10%	100	100	100	30	29	28	28	27	27	27	50%
134	Qwen 3.5 35B	$0.029	1.6m	7%	100	100	100	25	25	25	25	25	25	17	47%
97	Rocinante 12B	$0.0009	8.3s	2%	100	100	100	100	25	10	6	4	4	3	45%
86	Hermes 3 70B	$0.0012	8.3s	7%	100	100	100	50	31	25	17	13	10	6	45%
125	Claude 3.5 Sonnet	$0.031	6.5s	4%	100	100	100	25	17	17	17	17	13	10	41%
145	Gemini 3.1 Pro (Preview)	$0.084	58.8s	10%	100	100	25	25	25	25	25	25	25	25	40%
135	Gemini 3.5 Flash (Reasoning)	$0.050	20.6s	10%	100	100	25	25	25	25	25	25	25	25	40%
115	ByteDance Seed 2.0 Lite	$0.0068	1.1m	10%	100	100	25	25	25	25	25	25	25	25	40%
150	Qwen3.6 Max Preview	$0.068	3.7m	10%	100	100	25	25	25	25	25	25	25	17	39%
148	MoonshotAI: Kimi K2.6	$0.053	4.1m	10%	100	100	25	25	25	25	25	25	25	17	39%
106	Grok 4.3	$0.0052	2.2s	2%	100	100	100	25	13	13	13	10	10	8	39%
92	Mistral Small Creative	$0.0005	2.6s	10%	100	100	35	29	29	29	29	17	8	7	38%
113	Claude 3.7 Sonnet	$0.015	3.7s	7%	100	100	38	35	25	17	13	13	13	13	36%
144	Claude Opus 4	$0.071	5.2s	7%	100	100	25	25	25	17	17	17	17	17	36%
87	Qwen 2.5 72B	$0.0007	10.8s	17%	100	31	31	30	30	29	29	25	25	25	35%
77	Claude 3 Haiku	$0.0014	2.9s	31%	42	42	42	38	38	38	35	35	35	10	35%
130	GPT-5.5 (Reasoning)	$0.036	15.8s	14%	100	25	25	25	25	25	25	25	25	25	33%
121	Qwen 3.6 35B	$0.013	53.2s	14%	100	25	25	25	25	25	25	25	25	25	33%
96	GPT-5.4 Mini	$0.0015	653ms	14%	100	25	25	25	25	25	25	25	25	25	33%
98	DeepSeek V3 (2025-03-24)	$0.0008	4.3s	14%	100	25	25	25	25	25	25	25	25	25	33%
85	Ministral 3B	$0.0002	3.8s	23%	50	42	33	32	30	29	29	29	29	4	31%
119	Grok 4.20	$0.0046	4.1s	4%	100	100	13	13	13	13	10	10	10	10	29%
149	ByteDance Seed 2.0 Mini	$0.0052	5.8m	11%	100	25	25	25	25	17	17	17	17	17	28%
109	DeepSeek V4 Pro	$0.0040	30.4s	17%	50	50	50	33	28	25	25	17	3	3	28%
126	Arcee AI: Trinity Large (Preview)	$0.0000	2.0m	21%	50	35	28	27	27	27	27	26	26	4	28%
91	Llama 3.1 Nemotron 70B	$0.0051	12.9s	26%	38	38	38	35	35	35	33	17	6	4	28%
140	Qwen 3.5 Plus (2026-02-15)	$0.023	2.2m	21%	50	42	38	35	33	25	17	13	10	10	27%
93	Gemini 3.1 Flash Lite (Preview)	$0.0011	1.2s	21%	50	25	25	25	25	25	25	25	25	17	27%
105	DeepSeek V4 Flash	$0.0003	9.7s	19%	50	50	33	28	28	28	25	13	2	2	26%
99	Ministral 3 3B	$0.0006	8.5s	21%	42	38	33	29	28	28	27	26	3	1	26%
111	GPT-5.5 (Reasoning, Low)	$0.023	11.0s	25%	25	25	25	25	25	25	25	25	25	25	25%
102	GPT-5.5	$0.0093	2.9s	25%	25	25	25	25	25	25	25	25	25	25	25%
94	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0067	1.4s	25%	25	25	25	25	25	25	25	25	25	25	25%
88	Gemini 3.1 Flash Lite (Reasoning)	$0.0011	1.4s	25%	25	25	25	25	25	25	25	25	25	25	25%
89	Gemini 3.1 Flash Lite	$0.0011	1.8s	25%	25	25	25	25	25	25	25	25	25	25	25%
90	DeepSeek V3 (2024-12-26)	$0.0014	2.4s	25%	25	25	25	25	25	25	25	25	25	25	25%
123	Grok 4.20 (Beta)	$0.0029	1.3s	6%	100	42	17	17	13	13	13	10	10	7	24%
101	GPT-4o Mini (temp=1)	$0.0007	6.7s	23%	35	33	32	31	31	30	29	5	4	4	23%
95	DeepSeek-V2 Chat	$0.0013	2.1s	23%	25	25	25	25	25	25	25	25	17	17	23%
103	GPT-5.4	$0.0031	2.2s	23%	25	25	25	25	25	25	25	17	17	17	23%
104	DeepSeek V3.1	$0.0008	8.0s	23%	25	25	25	25	25	25	25	25	13	13	23%
107	Llama 3.1 8B	$0.0002	31.4s	21%	38	30	29	28	28	27	27	8	6	4	22%
129	GPT-4o, May 13th (temp=1)	$0.023	3.3s	16%	42	35	33	29	25	17	17	13	10	4	22%
110	Qwen3 235B A22B Instruct 2507	$0.0007	17.5s	20%	42	28	25	25	25	25	25	10	8	3	22%
117	DeepSeek V3.2	$0.0010	14.7s	14%	38	33	25	17	17	17	17	17	13	10	20%
112	Mistral Small 4	$0.0008	4.1s	16%	31	31	30	29	28	13	13	8	6	6	19%
124	WizardLM 2 8x22b	$0.0027	26.8s	15%	42	25	25	25	25	13	13	10	8	4	19%
120	Writer: Palmyra X5	$0.0038	5.3s	15%	25	25	25	25	17	17	17	10	10	10	18%
131	Claude Sonnet 4.5	$0.016	4.9s	15%	25	25	17	17	17	17	17	17	13	10	17%
116	Gemini 2.5 Flash	$0.0013	1.7s	17%	25	25	25	25	25	17	13	13	3	2	17%
118	Gemini 3 Flash (Preview)	$0.0017	2.3s	15%	25	17	17	17	17	17	17	17	10	10	16%
136	GPT-4o, May 13th (temp=0)	$0.023	2.4s	14%	32	17	17	17	17	17	10	8	7	7	15%
137	Gemini 2.5 Flash Lite	$0.0006	2.2s	2%	100	6	6	5	4	4	3	3	3	3	13%
132	Gemma 3 12B	$0.0003	5.8s	12%	17	17	13	13	13	13	13	8	7	6	12%
139	Gemma 3 27B	$0.0005	9.5s	7%	13	10	8	8	7	7	6	6	6	5	8%
141	Mistral NeMO	$0.0007	4.7s	5%	8	6	6	5	5	5	4	4	4	3	5%
142	Gemma 3 4B	$0.0002	6.2s	4%	6	6	5	5	5	5	5	4	4	3	5%
143	GPT-4o Mini (temp=0)	$0.0007	9.9s	4%	4	4	4	4	4	4	4	4	4	4	4%
63.12%

Median	Evaluator	Top 3	Flop 3
60.0%	Correct "no violations" response	100Gemma 4 31B (Reasoning) 100Gemma 4 26B 100Mistral Large 2	0Gemini 3.5 Flash (Reasoning, Minimal) 0DeepSeek V3 (2024-12-26) 0GPT-4o Mini (temp=0)
75.0%	No hallucinated violations	100GPT-5 Mini 100Z.AI GLM 5.1 100Nemotron 3 Super	8GPT-4o Mini (temp=0) 9Gemma 3 4B 10Mistral NeMO

Short text (~524 words), big codex (51 detailed entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Qwen3.7 Max	100%
Z.AI GLM 5 Turbo	100%
GPT-5.4 (Reasoning)	100%
GPT-5 Mini	100%
Claude Opus 4.6	100%
Gemma 4 31B (Reasoning)	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Claude Sonnet 4.6	100%
ByteDance Seed 1.6	100%
GPT-5.4 Mini (Reasoning)	100%
o4 Mini High	100%
GPT-5.2	100%
Claude Opus 4.5	100%
Grok 4.1 Fast	100%
MiniMax M2.7	100%
DeepSeek V4 Flash (Reasoning)	100%
GPT-4.1	100%
o4 Mini	100%
Grok 4	100%

	Score	Cost	Time
GPT-5.4 Nano	74%	$0.0006	1.4s
GPT-5.4 Nano (Reasoning, Low)	93%	$0.0008	3.4s
Ministral 8B	100%	$0.0013	564ms
Gemma 4 26B	88%	$0.0012	5.3s
Arcee AI: Trinity Mini	100%	$0.0007	6.9s
Gemma 4 31B	100%	$0.0018	3.1s
Inception Mercury	100%	$0.0009	8.6s
Ministral 3 8B	100%	$0.0020	589ms
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0038	2.7s
ByteDance Seed 1.6 Flash	93%	$0.0013	7.7s
Inception Mercury 2	100%	$0.0031	3.7s
GPT-5.4 Nano (Reasoning)	100%	$0.0020	8.1s
Grok 4 Fast	100%	$0.0025	16.0s
Grok 4.1 Fast	100%	$0.0028	7.6s
DeepSeek V4 Flash (Reasoning)	100%	$0.0009	19.7s
GPT-5.4 Mini (Reasoning)	100%	$0.0063	5.2s
Gemini 2.5 Flash Lite (Reasoning)	85%	$0.0023	14.2s
Mistral Small 4 (Reasoning)	93%	$0.0028	23.8s
GPT-4.1	100%	$0.0086	1.0s
Mistral Large 3	100%	$0.0066	1.4s

	Score	Consistency	Stability
Qwen3.7 Max	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
Claude Opus 4.6	100%	100%	100%
Gemma 4 31B (Reasoning)	100%	100%	100%
Qwen 3.5 Plus (2026-04-20)	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
Claude Sonnet 4.6	100%	100%	100%
ByteDance Seed 1.6	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
o4 Mini High	100%	100%	100%
GPT-5.2	100%	100%	100%
Claude Opus 4.5	100%	100%	100%
Grok 4.1 Fast	100%	100%	100%
MiniMax M2.7	100%	100%	100%
DeepSeek V4 Flash (Reasoning)	100%	100%	100%
GPT-4.1	100%	100%	100%
o4 Mini	100%	100%	100%
Grok 4	100%	100%	100%

	Score	Cost	Speed	Stability
Ministral 8B	100%	$0.0013	564ms	100%
Ministral 3 8B	100%	$0.0020	589ms	100%
Gemma 4 31B	100%	$0.0018	3.1s	100%
Arcee AI: Trinity Mini	100%	$0.0007	6.9s	100%
Inception Mercury 2	100%	$0.0031	3.7s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0038	2.7s	100%
Inception Mercury	100%	$0.0009	8.6s	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0020	8.1s	100%
Grok 4.1 Fast	100%	$0.0028	7.6s	100%
Mistral Large 3	100%	$0.0066	1.4s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0063	5.2s	100%
GPT-4.1	100%	$0.0086	1.0s	100%
Grok 4 Fast	100%	$0.0025	16.0s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0009	19.7s	100%
MiniMax M2.7	100%	$0.0045	17.4s	100%
Z.AI GLM 5 Turbo	100%	$0.0077	13.6s	100%
ByteDance Seed 1.6	100%	$0.0050	19.7s	100%
GPT-5.2	100%	$0.014	11.3s	100%
GPT-5 Mini	100%	$0.0049	30.6s	100%
GPT-5 Nano	100%	$0.0020	36.0s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
36	Qwen3.7 Max	$0.064	58.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Z.AI GLM 5 Turbo	$0.0077	13.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.4 (Reasoning)	$0.032	23.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5 Mini	$0.0049	30.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Claude Opus 4.6	$0.082	9.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Gemma 4 31B (Reasoning)	$0.0030	2.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Qwen 3.5 Plus (2026-04-20)	$0.017	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Gemma 4 26B (Reasoning)	$0.0029	2.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
28	Claude Sonnet 4.6	$0.043	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	ByteDance Seed 1.6	$0.0050	19.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.4 Mini (Reasoning)	$0.0063	5.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	o4 Mini High	$0.020	33.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	GPT-5.2	$0.014	11.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Claude Opus 4.5	$0.072	2.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	Grok 4.1 Fast	$0.0028	7.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	MiniMax M2.7	$0.0045	17.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	DeepSeek V4 Flash (Reasoning)	$0.0009	19.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	GPT-4.1	$0.0086	1.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	o4 Mini	$0.012	20.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Grok 4	$0.063	52.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	Xiaomi MIMO v2.5 Pro	$0.013	49.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Gemma 4 31B	$0.0018	3.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-OSS 120B	$0.0019	59.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	Grok 4 Fast	$0.0025	16.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Mini (Reasoning, Low)	$0.0038	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Mistral Large 3	$0.0066	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Nemotron 3 Super	$0.0000	51.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury 2	$0.0031	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5 Nano	$0.0020	36.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Mistral Large 2	$0.026	1.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 Nano (Reasoning)	$0.0020	8.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Mistral Large	$0.026	1.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Inception Mercury	$0.0009	8.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 8B	$0.0020	589ms	100%	100	100	100	100	100	100	100	100	100	100	100%
4	Arcee AI: Trinity Mini	$0.0007	6.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 8B	$0.0013	564ms	100%	100	100	100	100	100	100	100	100	100	100	100%
37	GPT-5.4 Nano (Reasoning, Low)	$0.0008	3.4s	57%	100	100	100	100	100	100	100	100	100	29	93%
62	Qwen3.6 Max Preview	$0.059	2.5m	55%	100	100	100	100	100	100	100	100	100	25	93%
46	Grok 4.3 (Reasoning)	$0.018	30.7s	55%	100	100	100	100	100	100	100	100	100	25	93%
59	Claude Opus 4.7 (Reasoning)	$0.119	10.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
43	GPT-5.4 (Reasoning, Low)	$0.017	6.5s	55%	100	100	100	100	100	100	100	100	100	25	93%
50	Z.AI GLM 5	$0.020	1.3m	55%	100	100	100	100	100	100	100	100	100	25	93%
48	Aion 2.0	$0.014	1.2m	55%	100	100	100	100	100	100	100	100	100	25	93%
42	MiniMax M2.5	$0.0049	21.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
55	Gemini 2.5 Pro	$0.067	45.2s	55%	100	100	100	100	100	100	100	100	100	25	93%
40	Gemini 2.5 Flash (Reasoning)	$0.0092	11.7s	55%	100	100	100	100	100	100	100	100	100	25	93%
45	Z.AI GLM 4.5	$0.0079	42.0s	55%	100	100	100	100	100	100	100	100	100	25	93%
51	Z.AI GLM 4.7 Flash	$0.0036	2.2m	55%	100	100	100	100	100	100	100	100	100	25	93%
41	Mistral Small 4 (Reasoning)	$0.0028	23.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
38	ByteDance Seed 1.6 Flash	$0.0013	7.7s	55%	100	100	100	100	100	100	100	100	100	25	93%
47	Grok 4.20 (Beta, Reasoning)	$0.025	15.5s	50%	100	100	100	100	100	100	100	100	100	17	92%
39	Z.AI GLM 4.6	$0.0053	12.9s	60%	100	100	100	100	100	100	100	100	50	50	90%
44	Gemma 4 26B	$0.0012	5.3s	49%	100	100	100	100	100	100	100	100	50	25	88%
68	Z.AI GLM 5.1	$0.031	2.6m	40%	100	100	100	100	100	100	100	100	25	25	85%
53	GPT-5.1	$0.025	23.5s	40%	100	100	100	100	100	100	100	100	25	25	85%
148	Qwen 3.5 122B	$0.138	7.0m	40%	100	100	100	100	100	100	100	100	25	25	85%
56	Gemini 3 Flash (Preview, Reasoning)	$0.025	40.3s	40%	100	100	100	100	100	100	100	100	25	25	85%
66	DeepSeek V4 Pro (Reasoning)	$0.023	2.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
65	Qwen 3.6 27B	$0.032	2.1m	40%	100	100	100	100	100	100	100	100	25	25	85%
49	Gemini 2.5 Flash Lite (Reasoning)	$0.0023	14.2s	40%	100	100	100	100	100	100	100	100	25	25	85%
54	Z.AI GLM 4.5 Air	$0.0033	26.9s	32%	100	100	100	100	100	100	100	100	30	3	83%
76	Qwen 3.5 9B	$0.0044	4.4m	45%	100	100	100	100	100	100	100	50	50	25	83%
63	Qwen 3.6 35B	$0.018	1.1m	31%	100	100	100	100	100	100	100	25	25	25	78%
97	Gemini 3 Pro (Preview)	$0.109	1.2m	31%	100	100	100	100	100	100	100	25	25	25	78%
74	Qwen 3.5 35B	$0.032	1.8m	31%	100	100	100	100	100	100	100	25	25	25	78%
57	Xiaomi MIMO v2.5	$0.0056	19.2s	31%	100	100	100	100	100	100	100	25	25	25	78%
61	ByteDance Seed 2.0 Lite	$0.0085	1.0m	31%	100	100	100	100	100	100	100	25	25	25	78%
64	Nemotron 3 Nano	$0.0022	1.6m	31%	100	100	100	100	100	100	100	25	25	25	78%
85	MoonshotAI: Kimi K2.6	$0.038	2.5m	29%	100	100	100	100	100	100	100	25	25	17	77%
79	Z.AI GLM 4.7	$0.029	2.4m	29%	100	100	100	100	100	100	100	25	25	17	77%
60	Stealth: Hunter Alpha	$0.0000	56.8s	29%	100	100	100	100	100	100	100	25	25	17	77%
52	GPT-5.4 Nano	$0.0006	1.4s	37%	100	100	100	100	100	100	42	38	38	28	74%
70	Cohere Command R+ (Aug. 2024)	$0.037	14.6s	18%	100	100	100	100	100	100	100	17	17	1	73%
58	Gemini 3.5 Flash (Reasoning, Minimal)	$0.020	1.5s	31%	100	100	100	100	100	100	50	25	25	25	73%
73	Qwen 3.5 Flash	$0.0077	2.2m	31%	100	100	100	100	100	100	50	25	25	25	73%
104	Claude Opus 4.6 (Reasoning)	$0.117	33.8s	27%	100	100	100	100	100	100	25	25	25	25	70%
71	GPT-5	$0.033	46.9s	27%	100	100	100	100	100	100	25	25	25	25	70%
86	MoonshotAI: Kimi K2.5	$0.018	2.7m	27%	100	100	100	100	100	100	25	25	25	25	70%
144	Qwen 3.5 27B	$0.060	4.9m	27%	100	100	100	100	100	100	25	25	25	25	70%
124	ByteDance Seed 2.0 Mini	$0.0050	4.5m	22%	100	100	100	100	100	100	25	25	17	17	68%
67	Grok 4.3	$0.016	1.8s	18%	100	100	100	100	100	100	33	13	13	10	67%
69	Stealth: Healer Alpha	$0.0000	22.4s	16%	100	100	100	100	100	25	25	25	25	25	63%
87	Grok 4.20 (Reasoning)	$0.023	59.7s	13%	100	100	100	100	100	25	25	25	17	17	61%
72	GPT-4.1 Mini	$0.0025	3.5s	13%	100	100	100	100	50	31	31	29	25	25	59%
75	Mistral Medium 3.1	$0.0058	3.8s	11%	100	100	100	100	50	30	29	29	17	17	57%
117	Gemini 3.5 Flash (Reasoning)	$0.061	23.1s	7%	100	100	100	100	25	25	25	25	25	25	55%
90	Qwen 3.6 Flash	$0.013	32.4s	7%	100	100	100	100	25	25	25	25	25	25	55%
78	GPT-5.4 Mini	$0.0039	834ms	7%	100	100	100	100	25	25	25	25	25	25	55%
83	Qwen 3 32B	$0.0024	24.4s	7%	100	100	100	100	25	25	25	25	25	25	55%
147	Qwen 3.5 397B A17B	$0.032	5.1m	6%	100	100	100	100	25	25	25	25	25	17	54%
102	Claude 3.7 Sonnet	$0.044	2.7s	6%	100	100	100	100	25	25	25	17	17	17	53%
81	Cydonia 24B V4.1	$0.0029	8.3s	7%	100	100	100	100	42	31	28	10	7	3	52%
88	DeepSeek V4 Pro	$0.014	36.5s	13%	100	100	100	50	50	29	28	25	17	17	51%
82	Claude Opus 4.7	$0.100	3.7s	50%	50	50	50	50	50	50	50	50	50	50	50%
140	Gemini 3.1 Pro (Preview)	$0.078	55.6s	8%	100	100	100	25	25	25	25	25	25	25	48%
84	Qwen 2.5 72B	$0.0017	10.6s	13%	100	100	42	38	32	31	29	28	25	17	44%
116	WizardLM 2 8x22b	$0.0087	1.2m	10%	100	100	50	42	28	25	25	25	17	1	41%
139	Claude 3.5 Sonnet	$0.093	6.9s	10%	100	100	50	50	42	17	17	13	13	10	41%
146	Claude Sonnet 4.6 (Reasoning)	$0.110	59.4s	10%	100	100	25	25	25	25	25	25	25	17	39%
130	Claude Sonnet 4	$0.046	4.9s	2%	100	100	100	17	13	13	10	10	10	10	38%
77	Claude Haiku 4.5	$0.016	4.7s	32%	50	50	50	42	42	42	38	25	25	17	38%
95	GPT-4.1 Nano	$0.0009	8.8s	9%	100	100	42	27	27	27	26	26	1	1	38%
100	Qwen3 235B A22B Instruct 2507	$0.0018	16.2s	8%	100	100	50	25	25	25	17	17	8	3	37%
99	DeepSeek V3 (2025-03-24)	$0.0032	5.3s	9%	100	100	25	25	25	25	17	17	13	8	35%
107	Gemini 2.5 Flash Lite	$0.0008	2.2s	2%	100	100	100	13	13	13	4	2	2	2	35%
150	Claude Opus 4	$0.225	6.0s	8%	100	50	50	50	17	17	17	17	17	13	35%
119	Ministral 3 14B	$0.0044	1.4m	15%	100	28	28	28	27	26	26	26	25	25	34%
80	DeepSeek V4 Flash	$0.0007	7.4s	27%	50	42	38	38	35	30	27	25	25	25	33%
115	Mistral Small 3.2 24B	$0.0014	3.4s	1%	100	100	38	38	6	6	5	5	5	5	31%
136	Qwen 3.5 Plus (2026-02-15)	$0.023	1.9m	20%	50	50	50	42	33	25	25	17	7	6	31%
118	Grok 4.20 (Beta)	$0.0086	1.5s	3%	100	100	33	13	10	10	10	10	10	8	30%
93	Mistral Small Creative	$0.0017	7.0s	23%	31	31	29	28	28	28	28	28	27	2	26%
112	GPT-5.5 (Reasoning)	$0.033	13.7s	25%	25	25	25	25	25	25	25	25	25	25	25%
108	GPT-5.5 (Reasoning, Low)	$0.028	9.5s	25%	25	25	25	25	25	25	25	25	25	25	25%
96	GPT-5.5	$0.012	3.5s	25%	25	25	25	25	25	25	25	25	25	25	25%
89	Gemini 3.1 Flash Lite (Reasoning)	$0.0023	1.8s	25%	25	25	25	25	25	25	25	25	25	25	25%
92	Gemini 3.1 Flash Lite	$0.0032	2.8s	25%	25	25	25	25	25	25	25	25	25	25	25%
91	Gemini 2.5 Flash	$0.0039	1.0s	25%	25	25	25	25	25	25	25	25	25	25	25%
94	GPT-5.4	$0.0052	2.3s	24%	25	25	25	25	25	25	25	25	25	17	24%
109	Hermes 3 70B	$0.0039	13.9s	16%	50	38	33	32	32	13	13	10	8	8	24%
98	Ministral 3B	$0.0006	3.6s	20%	42	38	32	29	27	27	26	6	5	5	24%
101	Writer: Palmyra X5	$0.010	9.4s	22%	35	28	27	25	25	25	17	17	17	17	23%
129	Llama 3.1 70B	$0.0053	14.3s	3%	100	50	29	17	8	7	6	5	5	4	23%
103	GPT-4o, Aug. 6th (temp=1)	$0.017	1.6s	23%	25	25	25	25	25	25	25	25	17	13	23%
105	GPT-4o, Aug. 6th (temp=0)	$0.019	1.5s	23%	25	25	25	25	25	25	25	17	17	17	23%
111	Skyfall 36B V2	$0.0041	9.8s	14%	50	38	32	32	28	13	10	8	7	5	22%
106	Gemini 3.1 Flash Lite (Preview)	$0.0030	1.3s	16%	50	25	25	25	25	17	17	13	13	13	22%
143	GPT-4o, May 13th (temp=1)	$0.067	3.0s	13%	42	38	35	17	17	17	17	17	17	4	22%
120	Llama 3.1 8B	$0.0005	54.6s	20%	38	32	31	29	28	26	10	5	3	0	20%
113	Ministral 3 3B	$0.0021	33.2s	21%	29	28	28	28	27	27	26	6	1	0	20%
131	Hermes 3 405B	$0.013	7.0s	6%	100	17	13	13	13	13	10	10	7	6	20%
134	Arcee AI: Trinity Large (Preview)	$0.0000	1.6m	20%	30	28	28	27	27	26	26	4	2	1	20%
138	GPT-4o, May 13th (temp=0)	$0.068	2.8s	21%	33	25	25	25	25	25	13	10	10	7	20%
123	GPT-4o Mini (temp=1)	$0.0013	6.0s	9%	38	35	32	29	13	10	10	10	10	6	19%
110	DeepSeek V3 (2024-12-26)	$0.0045	4.4s	18%	25	25	25	25	25	17	17	13	10	8	19%
114	DeepSeek V3.1	$0.0028	11.8s	16%	29	25	25	25	25	13	13	13	13	10	19%
127	Llama 3.1 Nemotron 70B	$0.016	28.9s	18%	31	30	30	30	30	17	6	5	5	4	18%
125	DeepSeek V3.2	$0.0031	21.6s	14%	29	25	25	17	17	17	17	10	10	8	17%
137	Claude Sonnet 4.5	$0.047	5.4s	15%	25	25	17	17	17	17	17	13	13	13	17%
122	Mistral Small 4	$0.0022	8.4s	13%	32	30	29	29	28	6	5	4	3	1	17%
121	DeepSeek-V2 Chat	$0.0049	6.9s	14%	25	25	25	17	17	17	13	13	8	5	16%
128	Gemini 3 Flash (Preview)	$0.0074	3.0s	11%	25	17	17	17	13	13	13	13	10	10	15%
132	Claude 3 Haiku	$0.0041	4.2s	7%	33	32	17	10	10	8	7	7	7	6	14%
135	Rocinante 12B	$0.0028	11.7s	7%	33	31	17	13	10	8	6	6	6	4	13%
133	Grok 4.20	$0.014	4.3s	12%	17	17	17	13	13	13	13	10	8	8	13%
126	GPT-4o Mini (temp=0)	$0.0012	3.9s	12%	13	13	13	13	13	13	13	13	13	10	12%
141	Gemma 3 12B	$0.0010	15.2s	4%	29	7	6	6	5	5	5	4	3	3	7%
142	Gemma 3 27B	$0.0012	11.5s	5%	6	6	5	5	5	5	5	5	5	4	5%
149	LFM2 24B	$0.0013	2.7m	0%	28	3	2	2	0	0	0	0	0	0	4%
145	Gemma 3 4B	$0.0007	20.4s	1%	2	2	2	1	1	1	1	1	1	1	1%
151	Mistral NeMO	$0.0056	5.0m	1%	3	3	2	2	1	1	1	0	0	0	1%
62.30%

Median	Evaluator	Top 3	Flop 3
60.0%	Correct "no violations" response	100GPT-5 Nano 100Mistral Large 3 100MiniMax M2.7	0GPT-5.5 0DeepSeek V3 (2024-12-26) 0Gemma 3 4B
80.0%	No hallucinated violations	100Inception Mercury 100GPT-5.4 Mini (Reasoning) 100Grok 4	2LFM2 24B 2Mistral NeMO 3Gemma 3 4B

Long text (~1594 words), small codex (11 detailed entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Gemini 3.5 Flash (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
GPT-5.4 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.1	100%
Gemma 4 26B (Reasoning)	100%
GPT-5.4 (Reasoning, Low)	100%
Z.AI GLM 5	100%
GPT-5.4 Mini (Reasoning)	100%
o4 Mini High	100%
GPT-4.1	100%
Stealth: Healer Alpha	100%
GPT-5.4 Mini (Reasoning, Low)	100%
Nemotron 3 Super	100%
Inception Mercury 2	100%
Inception Mercury	100%

	Score	Cost	Time
LFM2 24B	100%	$0.0002	1.3s
GPT-4.1 Nano	78%	$0.0003	1.4s
GPT-4o Mini (temp=1)	100%	$0.0004	597ms
GPT-4o Mini (temp=0)	100%	$0.0005	670ms
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.0s
Inception Mercury	100%	$0.0003	4.6s
Inception Mercury 2	100%	$0.0018	2.7s
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0029	3.0s
GPT-5.4 Nano (Reasoning)	93%	$0.0014	6.7s
GPT-4.1	100%	$0.0045	728ms
ByteDance Seed 1.6 Flash	100%	$0.0008	9.1s
Stealth: Healer Alpha	100%	$0.0000	15.3s
Grok 4.1 Fast	85%	$0.0022	20.0s
GPT-OSS 120B	93%	$0.0008	34.8s
DeepSeek V4 Flash (Reasoning)	85%	$0.0010	35.4s
Z.AI GLM 5 Turbo	100%	$0.0064	16.6s
MiniMax M2.5	73%	$0.0029	22.1s
GPT-5.4 Mini (Reasoning)	100%	$0.0084	8.9s
Mistral Small 4 (Reasoning)	78%	$0.0030	31.2s
Gemini 2.5 Flash Lite (Reasoning)	78%	$0.0030	24.9s

	Score	Consistency	Stability
Claude Opus 4.6 (Reasoning)	100%	100%	100%
Z.AI GLM 5.1	100%	100%	100%
Z.AI GLM 5 Turbo	100%	100%	100%
Gemini 3.5 Flash (Reasoning)	100%	100%	100%
Claude Sonnet 4.6 (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning)	100%	100%	100%
Claude Opus 4.7 (Reasoning)	100%	100%	100%
GPT-5 Mini	100%	100%	100%
GPT-5.1	100%	100%	100%
Gemma 4 26B (Reasoning)	100%	100%	100%
GPT-5.4 (Reasoning, Low)	100%	100%	100%
Z.AI GLM 5	100%	100%	100%
GPT-5.4 Mini (Reasoning)	100%	100%	100%
o4 Mini High	100%	100%	100%
GPT-4.1	100%	100%	100%
Stealth: Healer Alpha	100%	100%	100%
GPT-5.4 Mini (Reasoning, Low)	100%	100%	100%
Nemotron 3 Super	100%	100%	100%
Inception Mercury 2	100%	100%	100%
Inception Mercury	100%	100%	100%

	Score	Cost	Speed	Stability
GPT-4o Mini (temp=1)	100%	$0.0004	597ms	100%
LFM2 24B	100%	$0.0002	1.3s	100%
GPT-4o Mini (temp=0)	100%	$0.0005	670ms	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.0s	100%
Inception Mercury	100%	$0.0003	4.6s	100%
Inception Mercury 2	100%	$0.0018	2.7s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0029	3.0s	100%
ByteDance Seed 1.6 Flash	100%	$0.0008	9.1s	100%
GPT-4.1	100%	$0.0045	728ms	100%
Stealth: Healer Alpha	100%	$0.0000	15.3s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0084	8.9s	100%
Z.AI GLM 5 Turbo	100%	$0.0064	16.6s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.010	9.1s	100%
GPT-5 Mini	100%	$0.0060	40.1s	100%
Nemotron 3 Super	100%	$0.0000	1.1m	100%
GPT-5.4 (Reasoning)	100%	$0.029	27.7s	100%
GPT-5.1	100%	$0.028	32.0s	100%
o4 Mini High	100%	$0.022	48.0s	100%
Z.AI GLM 5	100%	$0.014	1.3m	100%
Z.AI GLM 5.1	100%	$0.021	1.8m	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
45	Claude Opus 4.6 (Reasoning)	$0.144	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Z.AI GLM 5.1	$0.021	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Z.AI GLM 5 Turbo	$0.0064	16.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Gemini 3.5 Flash (Reasoning)	$0.057	25.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Claude Sonnet 4.6 (Reasoning)	$0.150	2.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	GPT-5.4 (Reasoning)	$0.029	27.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	Claude Opus 4.7 (Reasoning)	$0.073	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5 Mini	$0.0060	40.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	GPT-5.1	$0.028	32.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Gemma 4 26B (Reasoning)	$0.0031	3.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-5.4 (Reasoning, Low)	$0.010	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Z.AI GLM 5	$0.014	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.4 Mini (Reasoning)	$0.0084	8.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	o4 Mini High	$0.022	48.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
9	GPT-4.1	$0.0045	728ms	100%	100	100	100	100	100	100	100	100	100	100	100%
10	Stealth: Healer Alpha	$0.0000	15.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.4 Mini (Reasoning, Low)	$0.0029	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	Nemotron 3 Super	$0.0000	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Inception Mercury 2	$0.0018	2.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	Inception Mercury	$0.0003	4.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning, Low)	$0.0006	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	GPT-4o Mini (temp=1)	$0.0004	597ms	100%	100	100	100	100	100	100	100	100	100	100	100%
3	GPT-4o Mini (temp=0)	$0.0005	670ms	100%	100	100	100	100	100	100	100	100	100	100	100%
8	ByteDance Seed 1.6 Flash	$0.0008	9.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	LFM2 24B	$0.0002	1.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
77	Gemini 3.1 Pro (Preview)	$0.144	1.7m	55%	100	100	100	100	100	100	100	100	100	25	93%
27	Grok 4.3 (Reasoning)	$0.012	51.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
33	GPT-5.5 (Reasoning)	$0.042	20.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
42	GPT-5	$0.045	1.3m	55%	100	100	100	100	100	100	100	100	100	25	93%
29	Grok 4.20 (Reasoning)	$0.017	48.4s	55%	100	100	100	100	100	100	100	100	100	25	93%
28	Qwen 3.6 Flash	$0.015	45.1s	55%	100	100	100	100	100	100	100	100	100	25	93%
44	Qwen 3.6 27B	$0.031	2.1m	55%	100	100	100	100	100	100	100	100	100	25	93%
31	Qwen 3.6 35B	$0.015	1.1m	55%	100	100	100	100	100	100	100	100	100	25	93%
106	Gemini 3 Pro (Preview)	$0.181	2.1m	55%	100	100	100	100	100	100	100	100	100	25	93%
26	o4 Mini	$0.0094	17.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
32	ByteDance Seed 2.0 Mini	$0.0025	2.0m	55%	100	100	100	100	100	100	100	100	100	25	93%
25	GPT-OSS 120B	$0.0008	34.8s	55%	100	100	100	100	100	100	100	100	100	25	93%
37	Z.AI GLM 4.7 Flash	$0.0038	2.5m	55%	100	100	100	100	100	100	100	100	100	25	93%
30	GPT-5 Nano	$0.0044	1.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
24	GPT-5.4 Nano (Reasoning)	$0.0014	6.7s	55%	100	100	100	100	100	100	100	100	100	25	93%
52	Qwen 3.5 9B	$0.0038	4.5m	60%	100	100	100	100	100	100	100	100	50	50	90%
39	Claude Sonnet 4.6	$0.029	15.0s	43%	100	100	100	100	100	100	100	100	33	25	86%
41	Grok 4.20 (Beta, Reasoning)	$0.027	16.6s	40%	100	100	100	100	100	100	100	100	25	25	85%
34	Grok 4.1 Fast	$0.0022	20.0s	40%	100	100	100	100	100	100	100	100	25	25	85%
35	DeepSeek V4 Flash (Reasoning)	$0.0010	35.4s	40%	100	100	100	100	100	100	100	100	25	25	85%
38	Xiaomi MIMO v2.5	$0.0092	38.1s	40%	100	100	100	100	100	100	100	100	25	25	85%
40	Z.AI GLM 4.5 Air	$0.0025	1.1m	40%	100	100	100	100	100	100	100	100	25	25	85%
36	Qwen 3 32B	$0.0015	48.1s	40%	100	100	100	100	100	100	100	100	25	25	85%
51	Nemotron 3 Nano	$0.0022	2.1m	37%	100	100	100	100	100	100	100	100	25	17	84%
43	GPT-4.1 Nano	$0.0003	1.4s	29%	100	100	100	100	100	100	100	50	25	3	78%
50	GPT-5.5 (Reasoning, Low)	$0.021	10.6s	31%	100	100	100	100	100	100	100	25	25	25	78%
59	DeepSeek V4 Pro (Reasoning)	$0.0045	2.3m	31%	100	100	100	100	100	100	100	25	25	25	78%
48	MiniMax M2.7	$0.0066	29.8s	31%	100	100	100	100	100	100	100	25	25	25	78%
56	Xiaomi MIMO v2.5 Pro	$0.018	1.4m	31%	100	100	100	100	100	100	100	25	25	25	78%
57	Qwen 3.5 Flash	$0.0070	1.8m	31%	100	100	100	100	100	100	100	25	25	25	78%
46	Gemini 2.5 Flash Lite (Reasoning)	$0.0030	24.9s	31%	100	100	100	100	100	100	100	25	25	25	78%
47	Mistral Small 4 (Reasoning)	$0.0030	31.2s	31%	100	100	100	100	100	100	100	25	25	25	78%
49	MiniMax M2.5	$0.0029	22.1s	31%	100	100	100	100	100	100	50	25	25	25	73%
54	Z.AI GLM 4.5	$0.0047	42.7s	28%	100	100	100	100	100	100	50	33	26	8	72%
72	Qwen 3.5 Plus (2026-04-20)	$0.025	2.4m	27%	100	100	100	100	100	100	25	25	25	25	70%
144	Qwen 3.5 27B	$0.056	5.6m	27%	100	100	100	100	100	100	25	25	25	25	70%
124	Qwen 3.5 35B	$0.064	3.9m	27%	100	100	100	100	100	100	25	25	25	25	70%
58	Stealth: Hunter Alpha	$0.0000	1.3m	27%	100	100	100	100	100	100	25	25	25	25	70%
69	Z.AI GLM 4.6	$0.023	1.8m	22%	100	100	100	100	100	100	42	25	25	0	69%
60	Cohere Command R+ (Aug. 2024)	$0.013	2.6s	15%	100	100	100	100	100	100	17	13	13	10	65%
102	Qwen3.7 Max	$0.058	1.7m	16%	100	100	100	100	100	25	25	25	25	25	63%
92	Z.AI GLM 4.7	$0.029	2.4m	16%	100	100	100	100	100	25	25	25	25	25	63%
62	Grok 4 Fast	$0.0020	24.0s	16%	100	100	100	100	100	25	25	25	25	25	63%
67	GPT-5.2	$0.019	20.2s	14%	100	100	100	100	100	25	25	25	25	17	62%
61	GPT-4o, Aug. 6th (temp=1)	$0.0075	1.3s	15%	100	100	100	100	100	42	38	17	10	10	62%
64	Skyfall 36B V2	$0.0017	5.2s	13%	100	100	100	100	100	50	31	10	7	5	60%
65	Gemma 4 26B	$0.0008	27.0s	14%	100	100	100	100	42	42	38	32	32	13	60%
66	Mistral Medium 3.1	$0.0027	4.4s	11%	100	100	100	100	42	33	33	33	30	6	58%
63	Hermes 3 70B	$0.0016	12.9s	19%	100	100	100	50	50	50	38	33	32	8	56%
146	Gemma 4 31B (Reasoning)	$0.0030	5.5m	7%	100	100	100	100	25	25	25	25	25	25	55%
88	Aion 2.0	$0.011	1.6m	7%	100	100	100	100	25	25	25	25	25	25	55%
68	Cydonia 24B V4.1	$0.0012	7.0s	7%	100	100	100	100	35	31	29	25	8	7	54%
73	Arcee AI: Trinity Large (Preview)	$0.0000	20.5s	5%	100	100	100	100	29	28	28	10	8	4	51%
81	ByteDance Seed 1.6	$0.0056	46.9s	8%	100	100	100	25	25	25	25	25	25	25	48%
55	Claude Haiku 4.5	$0.0076	5.4s	44%	50	50	50	50	50	50	50	42	38	35	46%
147	Grok 4	$0.108	2.5m	7%	100	100	100	25	25	25	25	17	17	17	45%
149	Qwen3.6 Max Preview	$0.079	4.2m	7%	100	100	100	25	25	25	25	17	17	13	45%
96	Gemini 3 Flash (Preview, Reasoning)	$0.025	46.9s	7%	100	100	100	25	25	25	25	17	17	13	45%
151	Qwen 3.5 122B	$0.166	7.7m	7%	100	100	100	25	25	25	25	17	13	13	44%
130	Gemini 2.5 Pro	$0.060	45.6s	10%	100	100	25	25	25	25	25	25	25	25	40%
83	Gemini 2.5 Flash (Reasoning)	$0.0094	15.1s	10%	100	100	25	25	25	25	25	25	25	25	40%
70	Claude Opus 4.5	$0.033	5.9s	36%	42	42	42	42	38	38	38	38	38	35	39%
82	Claude Opus 4.6	$0.043	14.0s	30%	50	50	50	50	42	42	42	38	13	10	38%
85	Ministral 8B	$0.0007	9.6s	4%	100	100	100	27	26	26	2	1	1	1	38%
78	Qwen 2.5 72B	$0.0007	6.7s	10%	100	100	38	35	31	31	10	10	8	7	37%
80	Claude Opus 4.7	$0.046	4.6s	32%	42	42	42	42	42	38	38	38	38	10	37%
86	Llama 3.1 Nemotron 70B	$0.0068	17.7s	9%	100	100	42	35	31	27	10	7	6	6	36%
75	GPT-5.4 Nano	$0.0004	1.7s	14%	100	50	50	35	29	25	25	25	17	6	36%
89	Claude Sonnet 4	$0.020	5.8s	13%	100	50	42	38	38	17	13	13	13	10	33%
84	DeepSeek V4 Pro	$0.0064	56.4s	25%	50	50	50	50	42	35	28	10	8	4	33%
148	MoonshotAI: Kimi K2.6	$0.052	4.5m	14%	100	25	25	25	25	25	25	25	25	25	33%
71	GPT-4.1 Mini	$0.0023	7.3s	24%	50	50	33	33	33	32	31	29	28	2	32%
135	MoonshotAI: Kimi K2.5	$0.019	2.4m	14%	100	25	25	25	25	25	25	25	25	17	32%
97	Arcee AI: Trinity Mini	$0.0014	45.3s	6%	100	100	25	25	25	17	13	10	2	0	32%
94	Hermes 3 405B	$0.0052	6.8s	4%	100	100	17	13	13	13	13	10	10	10	30%
141	Claude Opus 4	$0.098	8.1s	27%	50	42	42	38	38	38	17	13	13	7	29%
95	Llama 3.1 70B	$0.0024	9.1s	3%	100	100	25	17	13	10	8	6	6	6	29%
131	Qwen 3.5 Plus (2026-02-15)	$0.024	2.2m	20%	50	50	50	32	31	30	28	8	6	6	29%
87	Mistral Small 4	$0.0013	8.8s	13%	100	35	28	28	27	27	27	2	2	2	28%
74	Ministral 3B	$0.0003	7.5s	26%	32	31	29	28	27	27	26	26	26	26	28%
101	GPT-5.5	$0.015	3.0s	8%	100	25	25	25	17	17	17	13	13	13	26%
105	Grok 4.20 (Beta)	$0.0060	3.1s	1%	100	100	30	5	5	5	4	4	4	4	26%
120	Ministral 3 8B	$0.0020	53.4s	0%	100	100	26	26	2	2	1	1	1	0	26%
150	Qwen 3.5 397B A17B	$0.037	7.1m	25%	25	25	25	25	25	25	25	25	25	25	25%
76	Gemma 4 31B	$0.0008	5.5s	25%	25	25	25	25	25	25	25	25	25	25	25%
93	WizardLM 2 8x22b	$0.0037	57.8s	21%	50	31	29	29	29	28	28	13	5	4	25%
104	Gemini 2.5 Flash Lite	$0.0007	2.1s	1%	100	100	8	7	7	5	5	4	3	1	24%
79	GPT-5.4 Mini	$0.0015	930ms	23%	25	25	25	25	25	25	25	25	17	17	23%
113	GPT-4o, May 13th (temp=1)	$0.029	3.2s	14%	38	33	33	33	25	13	8	8	8	7	21%
90	Llama 3.1 8B	$0.0002	16.1s	17%	42	31	30	30	28	17	10	8	6	5	21%
112	Grok 4.3	$0.0065	6.5s	3%	100	38	29	8	6	6	6	5	4	4	21%
110	Claude 3.7 Sonnet	$0.019	4.1s	11%	50	42	17	17	17	13	13	13	13	13	20%
91	Gemini 3.1 Flash Lite	$0.0017	5.0s	14%	38	33	17	17	17	17	17	17	17	10	20%
99	Claude 3 Haiku	$0.0018	3.8s	9%	38	38	33	33	13	13	10	8	6	5	20%
100	DeepSeek V4 Flash	$0.0004	13.6s	11%	42	42	31	30	28	5	5	4	2	2	19%
118	GPT-5.4	$0.0089	8.3s	4%	100	17	17	10	8	8	5	4	4	4	18%
122	ByteDance Seed 2.0 Lite	$0.0079	1.3m	16%	25	17	17	17	17	17	17	17	17	17	18%
98	DeepSeek V3 (2024-12-26)	$0.0019	6.1s	12%	33	25	25	25	17	13	13	8	8	8	18%
116	Mistral Small 3.2 24B	$0.0010	13.9s	2%	100	32	6	6	6	6	5	4	4	3	17%
103	Gemini 3.1 Flash Lite (Reasoning)	$0.0016	2.1s	11%	38	17	17	17	13	13	13	13	13	10	16%
108	Mistral Large 3	$0.0043	19.7s	12%	29	29	29	29	28	4	3	3	3	3	16%
125	DeepSeek V3.1	$0.0016	38.9s	6%	50	29	25	10	10	7	7	5	5	1	15%
123	Ministral 3 3B	$0.0017	49.7s	10%	28	28	26	26	25	2	2	1	0	0	14%
138	Claude 3.5 Sonnet	$0.041	8.2s	12%	17	17	17	13	13	13	13	13	13	10	14%
107	Gemini 3.1 Flash Lite (Preview)	$0.0019	1.9s	10%	33	13	13	13	13	10	10	10	10	8	13%
109	DeepSeek V3 (2025-03-24)	$0.0012	12.4s	11%	25	17	13	13	13	13	13	10	8	8	13%
121	DeepSeek V3.2	$0.0015	31.6s	8%	28	26	13	13	10	10	7	7	6	5	12%
115	DeepSeek-V2 Chat	$0.0021	8.9s	8%	35	13	13	13	10	10	8	8	6	6	12%
111	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0063	2.5s	12%	17	17	13	13	13	13	10	10	10	6	12%
140	Mistral Large 2	$0.017	17.6s	3%	29	28	27	4	4	4	4	4	4	3	11%
139	Claude Sonnet 4.5	$0.025	8.9s	7%	33	8	8	8	8	7	7	7	7	6	10%
114	Gemini 3 Flash (Preview)	$0.0023	3.7s	10%	13	13	13	10	10	10	8	8	8	7	10%
133	Ministral 3 14B	$0.0015	20.5s	2%	29	28	25	3	3	2	2	1	1	1	9%
129	Mistral Small Creative	$0.0011	10.7s	2%	27	27	27	2	2	2	2	2	2	1	9%
117	Gemma 3 12B	$0.0002	8.5s	8%	17	13	13	10	10	7	6	6	6	6	9%
134	Qwen3 235B A22B Instruct 2507	$0.0012	39.6s	4%	28	28	6	5	5	5	5	4	2	2	9%
127	Rocinante 12B	$0.0014	20.1s	6%	30	13	10	7	7	6	4	4	4	3	9%
143	Mistral Large	$0.017	16.5s	3%	29	28	5	4	4	4	4	4	3	3	9%
142	Writer: Palmyra X5	$0.013	22.2s	4%	28	27	5	5	5	4	4	3	2	2	8%
119	Gemini 2.5 Flash	$0.0021	2.0s	8%	10	10	8	8	8	8	8	8	7	5	8%
128	GPT-4o, Aug. 6th (temp=0)	$0.011	2.8s	7%	10	10	10	10	8	7	7	6	5	5	8%
126	Gemma 3 27B	$0.0006	11.4s	7%	10	8	8	8	7	7	7	7	6	5	7%
145	GPT-4o, May 13th (temp=0)	$0.033	4.9s	6%	8	7	7	7	6	6	6	6	5	5	6%
132	Mistral NeMO	$0.0009	7.8s	4%	7	7	6	5	4	4	4	4	3	2	5%
137	Grok 4.20	$0.0083	12.3s	4%	6	6	5	5	5	5	5	4	2	2	4%
136	Gemma 3 4B	$0.0003	9.9s	3%	4	3	3	3	3	3	3	3	2	2	3%
54.69%

Median	Evaluator	Top 3	Flop 3
50.0%	Correct "no violations" response	100Nemotron 3 Super 100Stealth: Healer Alpha 100GPT-5.4 Nano (Reasoning, Low)	0Gemma 3 27B 0Gemma 3 12B 0Grok 4.20
60.0%	No hallucinated violations	100GPT-4o Mini (temp=1) 100Z.AI GLM 5 Turbo 100GPT-5.4 Mini (Reasoning)	3Ministral 3 3B 4Mistral Small Creative 4Ministral 3 14B

Long text (~1594 words), big codex (51 detailed entries)

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
Claude Opus 4.6 (Reasoning)	100%
Qwen3.6 Max Preview	100%
Z.AI GLM 5.1	100%
Z.AI GLM 5 Turbo	100%
Grok 4.3 (Reasoning)	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5 Mini	100%
GPT-5.1	100%
Claude Opus 4.6	100%
MoonshotAI: Kimi K2.6	100%
GPT-5	100%
Qwen 3.5 Plus (2026-04-20)	100%
Gemma 4 26B (Reasoning)	100%
Grok 4.20 (Beta, Reasoning)	100%
Grok 4.20 (Reasoning)	100%
Z.AI GLM 5	100%
o4 Mini High	100%
Qwen 3.6 27B	100%
Grok 4.1 Fast	100%
Aion 2.0	100%

		basic entries				detailed entries
Model	Total ▼	Short text (~524 words), small codex (11 entries)	Short text (~524 words), big codex (51 entries)	Long text (~1594 words), small codex (11 entries)	Long text (~1594 words), big codex (51 entries)	Short text (~524 words), small codex (11 detailed entries)	Short text (~524 words), big codex (51 detailed entries)	Long text (~1594 words), small codex (11 detailed entries)	Long text (~1594 words), big codex (51 detailed entries)
Nemotron 3 Super	99%	100%	100%	100%	93%	100%	100%	100%	100%
Inception Mercury	98%	100%	93%	100%	93%	100%	100%	100%	100%
o4 Mini High	97%	93%	100%	100%	85%	100%	100%	100%	100%
Grok 4.1 Fast	97%	100%	100%	100%	92%	100%	100%	85%	100%
GPT-5.4 Nano (Reasoning, Low)	97%	100%	90%	100%	100%	93%	93%	100%	100%
o4 Mini	96%	100%	100%	100%	85%	93%	100%	93%	100%
Inception Mercury 2	96%	100%	100%	100%	100%	85%	100%	100%	85%
Z.AI GLM 5 Turbo	96%	100%	100%	100%	68%	100%	100%	100%	100%
GPT-5.1	95%	93%	93%	100%	100%	93%	85%	100%	100%
GPT-5.4 Mini (Reasoning, Low)	95%	93%	85%	100%	85%	100%	100%	100%	100%
Claude Opus 4.6 (Reasoning)	94%	100%	100%	100%	100%	85%	70%	100%	100%
ByteDance Seed 1.6 Flash	94%	100%	100%	100%	93%	84%	93%	100%	84%
GPT-5.4 Nano (Reasoning)	94%	100%	100%	100%	58%	100%	100%	93%	100%
Z.AI GLM 5	93%	93%	78%	100%	83%	100%	93%	100%	100%
GPT-5 Mini	93%	100%	100%	100%	45%	100%	100%	100%	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
56	Claude Opus 4.6 (Reasoning)	$0.322	2.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Qwen3.6 Max Preview	$0.117	5.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
32	Z.AI GLM 5.1	$0.050	3.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
11	Z.AI GLM 5 Turbo	$0.016	33.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	Grok 4.3 (Reasoning)	$0.027	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Claude Opus 4.7 (Reasoning)	$0.215	38.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
13	GPT-5 Mini	$0.0090	53.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	GPT-5.1	$0.051	44.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
25	Claude Opus 4.6	$0.104	19.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	MoonshotAI: Kimi K2.6	$0.067	7.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5	$0.066	2.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
29	Qwen 3.5 Plus (2026-04-20)	$0.036	3.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Gemma 4 26B (Reasoning)	$0.0051	4.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Grok 4.20 (Beta, Reasoning)	$0.033	18.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Grok 4.20 (Reasoning)	$0.027	57.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	Z.AI GLM 5	$0.031	2.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
23	o4 Mini High	$0.048	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
30	Qwen 3.6 27B	$0.045	3.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
6	Grok 4.1 Fast	$0.0031	13.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
21	Aion 2.0	$0.017	1.7m	100%	100	100	100	100	100	100	100	100	100	100	100%
15	DeepSeek V4 Flash (Reasoning)	$0.0021	1.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-4.1	$0.0097	972ms	100%	100	100	100	100	100	100	100	100	100	100	100%
16	o4 Mini	$0.026	43.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Xiaomi MIMO v2.5 Pro	$0.028	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
14	Stealth: Hunter Alpha	$0.0000	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
27	ByteDance Seed 2.0 Mini	$0.0043	3.2m	100%	100	100	100	100	100	100	100	100	100	100	100%
8	Stealth: Healer Alpha	$0.0000	27.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-5.4 Mini (Reasoning, Low)	$0.0073	5.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Xiaomi MIMO v2.5	$0.017	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
9	ByteDance Seed 2.0 Lite	$0.0056	25.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
24	Nemotron 3 Super	$0.0000	2.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.4 Nano (Reasoning)	$0.0035	40.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	Inception Mercury	$0.0007	20.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	GPT-5.4 Nano (Reasoning, Low)	$0.0014	6.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
2	Ministral 3 8B	$0.0022	678ms	100%	100	100	100	100	100	100	100	100	100	100	100%
1	Ministral 8B	$0.0014	525ms	100%	100	100	100	100	100	100	100	100	100	100	100%
33	Ministral 3 14B	$0.0029	2.7s	56%	100	100	100	100	100	100	100	100	100	28	93%
146	Claude Sonnet 4.6 (Reasoning)	$0.404	6.7m	55%	100	100	100	100	100	100	100	100	100	25	93%
37	GPT-5.4 Mini (Reasoning)	$0.018	22.2s	55%	100	100	100	100	100	100	100	100	100	25	93%
38	GPT-5.2	$0.021	20.9s	55%	100	100	100	100	100	100	100	100	100	25	93%
69	DeepSeek V4 Pro (Reasoning)	$0.048	7.1m	55%	100	100	100	100	100	100	100	100	100	25	93%
41	MiniMax M2.7	$0.014	1.3m	55%	100	100	100	100	100	100	100	100	100	25	93%
34	Grok 4 Fast	$0.0032	25.0s	55%	100	100	100	100	100	100	100	100	100	25	93%
35	Gemini 2.5 Flash Lite (Reasoning)	$0.0038	27.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
40	GPT-5 Nano	$0.0046	1.3m	55%	100	100	100	100	100	100	100	100	100	25	93%
59	Qwen3.7 Max	$0.116	2.5m	50%	100	100	100	100	100	100	100	100	100	17	92%
54	Gemini 3.5 Flash (Reasoning)	$0.145	1.1m	50%	100	100	100	100	100	100	100	100	100	17	92%
39	GPT-5.4 (Reasoning, Low)	$0.019	14.5s	50%	100	100	100	100	100	100	100	100	100	17	92%
53	MoonshotAI: Kimi K2.5	$0.024	3.2m	50%	100	100	100	100	100	100	100	100	100	17	92%
44	Gemini 3 Flash (Preview, Reasoning)	$0.031	52.9s	46%	100	100	100	100	100	100	100	100	100	10	91%
43	Arcee AI: Trinity Mini	$0.0018	45.5s	40%	100	100	100	100	100	100	100	100	100	0	90%
60	Gemma 4 31B (Reasoning)	$0.0047	3.5m	40%	100	100	100	100	100	100	100	100	25	25	85%
47	ByteDance Seed 1.6	$0.0074	45.3s	40%	100	100	100	100	100	100	100	100	25	25	85%
50	Qwen 3.6 Flash	$0.026	1.1m	40%	100	100	100	100	100	100	100	100	25	25	85%
45	Gemini 2.5 Flash (Reasoning)	$0.015	19.0s	40%	100	100	100	100	100	100	100	100	25	25	85%
42	Inception Mercury 2	$0.0056	7.7s	40%	100	100	100	100	100	100	100	100	25	25	85%
71	Nemotron 3 Nano	$0.0055	6.2m	40%	100	100	100	100	100	100	100	100	25	25	85%
147	Qwen 3.5 122B	$0.211	8.8m	37%	100	100	100	100	100	100	100	100	25	17	84%
46	ByteDance Seed 1.6 Flash	$0.0016	13.8s	37%	100	100	100	100	100	100	100	100	25	17	84%
61	Qwen 3.5 Flash	$0.010	2.8m	35%	100	100	100	100	100	100	100	100	25	13	84%
52	MiniMax M2.5	$0.0064	50.3s	30%	100	100	100	100	100	100	100	100	25	2	83%
49	GPT-5.4 Nano	$0.0008	1.0s	31%	100	100	100	100	100	100	100	25	25	25	78%
63	Qwen 3.6 35B	$0.033	2.5m	29%	100	100	100	100	100	100	100	25	25	17	77%
58	GPT-5.5 (Reasoning, Low)	$0.045	17.7s	26%	100	100	100	100	100	100	100	25	17	17	76%
70	Grok 4	$0.099	1.7m	24%	100	100	100	100	100	100	100	25	17	10	75%
57	Z.AI GLM 4.5	$0.0061	34.6s	27%	100	100	100	100	100	100	31	29	25	17	70%
74	Z.AI GLM 4.7	$0.037	3.0m	23%	100	100	100	100	100	100	25	25	25	13	69%
120	Qwen 3.5 35B	$0.094	5.0m	22%	100	100	100	100	100	100	25	25	17	17	68%
66	GPT-5.4 (Reasoning)	$0.069	59.0s	21%	100	100	100	100	100	100	25	25	17	13	68%
143	Gemini 3.1 Pro (Preview)	$0.259	3.3m	17%	100	100	100	100	100	100	17	17	17	13	66%
62	Qwen 2.5 72B	$0.0018	5.5s	17%	100	100	100	100	100	38	33	27	25	6	63%
67	Z.AI GLM 4.6	$0.013	1.3m	15%	100	100	100	100	100	25	25	25	25	17	62%
64	Mistral Small 4 (Reasoning)	$0.0048	48.0s	13%	100	100	100	100	100	25	25	25	17	17	61%
65	Qwen 3 32B	$0.0027	1.1m	14%	100	100	100	100	100	29	25	25	17	13	61%
78	GPT-OSS 120B	$0.0027	1.3m	7%	100	100	100	100	25	25	25	25	25	25	55%
79	Claude Sonnet 4.6	$0.096	57.8s	26%	100	100	50	50	50	50	50	35	32	31	55%
77	Cohere Command R+ (Aug. 2024)	$0.040	12.8s	5%	100	100	100	100	100	17	13	13	3	1	55%
150	Qwen 3.5 397B A17B	$0.041	7.4m	6%	100	100	100	100	25	25	25	25	17	13	53%
141	Gemini 3 Pro (Preview)	$0.197	2.2m	5%	100	100	100	100	25	25	25	17	13	13	52%
126	GPT-5.5 (Reasoning)	$0.143	1.1m	3%	100	100	100	100	17	17	17	17	17	17	50%
55	Claude Haiku 4.5	$0.018	5.5s	48%	50	50	50	50	50	50	50	50	50	42	49%
72	GPT-4.1 Nano	$0.0010	8.3s	4%	100	100	100	100	26	26	25	3	2	1	48%
76	Claude Sonnet 4.5	$0.051	5.8s	16%	100	100	42	42	38	38	38	33	17	17	46%
122	Arcee AI: Trinity Large (Preview)	$0.0000	3.8m	7%	100	100	100	26	26	26	26	26	26	0	46%
89	Z.AI GLM 4.5 Air	$0.0041	48.3s	2%	100	100	100	100	17	17	10	8	3	1	46%
145	Qwen 3.5 9B	$0.0061	6.8m	10%	100	100	50	50	42	17	17	17	13	3	41%
81	GPT-5.4 Mini	$0.0045	1.2s	9%	100	100	25	25	25	25	25	25	17	13	38%
84	GPT-4o, Aug. 6th (temp=1)	$0.019	2.0s	9%	100	100	35	35	25	25	17	17	17	8	38%
73	DeepSeek V4 Pro	$0.015	1.3m	30%	50	50	50	50	50	38	38	26	25	1	38%
93	Gemini 2.5 Flash Lite	$0.0038	18.0s	2%	100	100	100	26	25	3	2	2	0	0	36%
68	Mistral Medium 3.1	$0.0070	6.2s	29%	42	38	33	33	31	31	30	29	29	27	32%
112	Mistral Small 3.2 24B	$0.0038	1.0m	0%	100	100	100	2	2	2	1	1	1	0	31%
108	WizardLM 2 8x22b	$0.0094	58.3s	4%	100	100	38	26	17	10	7	4	3	3	31%
87	Qwen3 235B A22B Instruct 2507	$0.0021	31.8s	14%	100	38	35	29	28	28	26	10	8	5	31%
88	Cydonia 24B V4.1	$0.0033	25.4s	14%	100	33	33	31	31	30	26	5	2	2	29%
90	Skyfall 36B V2	$0.0049	10.3s	10%	100	42	35	31	28	17	17	13	5	4	29%
133	Z.AI GLM 4.7 Flash	$0.0066	3.3m	11%	100	25	25	25	25	17	17	17	17	13	28%
103	Grok 4.3	$0.019	7.5s	2%	100	100	26	17	10	8	6	5	2	1	28%
105	Claude Opus 4.7	$0.120	7.2s	26%	38	35	35	35	33	33	31	13	13	8	27%
75	GPT-4.1 Mini	$0.0039	19.8s	27%	30	28	28	28	27	27	27	27	27	25	27%
83	DeepSeek V4 Flash	$0.0007	16.8s	21%	50	38	29	29	27	26	26	17	10	10	26%
95	GPT-4o, May 13th (temp=1)	$0.074	2.9s	20%	50	42	38	33	31	25	17	10	8	7	26%
85	Mistral Small Creative	$0.0025	19.9s	20%	50	26	26	26	26	26	26	26	25	1	26%
97	GPT-5.5	$0.028	4.0s	8%	100	25	25	17	17	17	17	13	13	10	25%
80	Gemma 4 31B	$0.0021	16.5s	25%	25	25	25	25	25	25	25	25	25	25	25%
86	Rocinante 12B	$0.0032	17.1s	18%	50	50	32	31	31	25	6	6	5	4	24%
82	GPT-5.4	$0.0058	2.0s	23%	25	25	25	25	25	25	25	25	25	13	24%
149	Claude Opus 4	$0.254	10.0s	9%	50	42	38	35	13	13	13	10	10	7	23%
115	Claude Opus 4.5	$0.087	8.3s	17%	35	33	33	25	25	17	17	17	10	8	22%
91	Writer: Palmyra X5	$0.015	17.0s	21%	42	28	27	27	26	26	17	13	6	5	22%
113	Grok 4.20 (Beta)	$0.015	7.5s	1%	100	42	33	27	5	2	2	1	1	1	21%
96	GPT-4o, Aug. 6th (temp=0)	$0.027	3.9s	13%	42	42	42	35	31	7	6	5	3	2	21%
119	Claude 3.7 Sonnet	$0.052	6.8s	5%	100	35	13	10	10	10	10	8	7	7	21%
92	Gemini 2.5 Flash	$0.0036	1.1s	15%	25	25	25	25	17	17	17	17	17	17	20%
94	Llama 3.1 8B	$0.0005	38.9s	20%	33	33	33	29	27	27	6	6	2	0	20%
151	Qwen 3.5 27B	$0.064	4.8m	14%	35	25	25	25	17	17	17	13	13	10	20%
110	Gemma 4 26B	$0.0017	1.1m	14%	38	33	17	17	17	17	17	17	13	8	19%
98	Ministral 3B	$0.0012	1.1m	20%	27	27	27	26	26	26	26	2	1	0	19%
116	Hermes 3 70B	$0.0044	24.6s	3%	100	30	10	8	8	7	6	5	5	4	18%
127	DeepSeek V3.2	$0.0049	2.1m	12%	50	27	26	25	25	10	7	3	1	0	17%
99	Claude 3 Haiku	$0.0043	4.6s	9%	42	38	33	13	13	13	6	6	6	6	17%
114	DeepSeek-V2 Chat	$0.0056	21.8s	6%	50	30	25	25	10	7	7	6	4	1	16%
102	Mistral Small 4	$0.0024	9.7s	10%	35	31	27	27	17	10	7	6	2	1	16%
107	GPT-4o Mini (temp=1)	$0.0017	8.0s	8%	35	32	31	10	10	10	8	8	8	4	16%
100	Gemini 3.5 Flash (Reasoning, Minimal)	$0.024	2.9s	15%	25	17	17	17	17	17	13	13	13	10	16%
117	Ministral 3 3B	$0.0042	1.8m	19%	27	26	26	25	25	25	1	0	0	0	16%
106	Gemini 3 Flash (Preview)	$0.0086	4.7s	10%	35	31	13	13	13	13	13	10	10	5	15%
118	Claude Sonnet 4	$0.051	6.4s	10%	42	13	13	13	13	13	13	13	13	10	15%
128	Gemini 2.5 Pro	$0.064	40.8s	13%	25	17	17	17	17	13	13	13	10	10	15%
109	Hermes 3 405B	$0.014	7.7s	10%	38	17	17	17	13	13	10	10	7	6	15%
134	DeepSeek V3.1	$0.0048	2.2m	11%	27	26	26	25	25	4	3	2	2	1	14%
101	Gemini 3.1 Flash Lite (Reasoning)	$0.0030	2.1s	12%	17	17	17	13	13	13	13	13	13	10	14%
104	Gemini 3.1 Flash Lite	$0.0033	6.1s	12%	17	17	17	17	13	13	13	10	10	10	13%
125	Llama 3.1 Nemotron 70B	$0.018	29.9s	4%	33	31	28	6	6	6	6	6	4	3	13%
111	Gemini 3.1 Flash Lite (Preview)	$0.0035	2.6s	9%	29	13	10	10	10	10	10	10	8	7	12%
132	Mistral Large	$0.037	28.1s	4%	27	27	27	6	5	5	5	4	4	2	11%
121	Llama 3.1 70B	$0.0076	18.2s	6%	28	17	10	10	8	6	5	5	5	3	10%
123	DeepSeek V3 (2024-12-26)	$0.0058	16.0s	5%	25	17	10	7	6	6	5	5	4	3	9%
140	Claude 3.5 Sonnet	$0.105	9.6s	8%	10	8	8	8	8	8	7	7	7	7	8%
139	LFM2 24B	$0.0009	1.4m	1%	27	25	13	6	2	1	1	0	0	0	7%
142	Qwen 3.5 Plus (2026-02-15)	$0.025	2.2m	7%	13	13	10	10	8	7	5	3	2	1	7%
130	Mistral Large 3	$0.0091	28.3s	4%	27	8	6	6	5	4	4	3	3	2	7%
137	Mistral Large 2	$0.036	26.7s	3%	27	8	6	5	4	4	4	4	3	2	7%
129	GPT-4o Mini (temp=0)	$0.0016	45.6s	6%	8	8	7	7	7	6	6	5	4	4	6%
124	Gemma 3 12B	$0.0011	16.5s	5%	8	8	8	6	6	5	4	4	4	1	5%
135	Grok 4.20	$0.017	22.6s	2%	29	4	3	3	3	2	2	2	2	1	5%
136	DeepSeek V3 (2025-03-24)	$0.0038	54.7s	5%	8	8	6	5	5	5	5	5	1	1	5%
131	Gemma 3 27B	$0.0018	21.0s	3%	7	4	4	3	3	3	3	3	2	2	3%
148	Mistral NeMO	$0.0054	3.1m	2%	10	7	5	4	3	1	1	1	0	0	3%
144	GPT-4o, May 13th (temp=0)	$0.094	10.4s	3%	5	5	4	3	3	3	3	3	3	2	3%
138	Gemma 3 4B	$0.0008	30.9s	1%	2	1	1	1	1	1	1	1	1	1	1%
56.39%

Median	Evaluator	Top 3	Flop 3
50.0%	Correct "no violations" response	100Ministral 3 8B 100GPT-5.4 Nano (Reasoning) 100o4 Mini High	0Gemini 3.1 Flash Lite 0Gemma 3 27B 0Gemini 2.5 Flash
63.3%	No hallucinated violations	100GPT-5.4 Mini (Reasoning, Low) 100Inception Mercury 100Claude Opus 4.7 (Reasoning)	1Ministral 3 3B 2Gemma 3 4B 2Ministral 3B