Long text (~1594 words), small codex (11 entries)

Codex Red Herring (False Positive Detection)

Tests whether models correctly report "no violations" when a codex is fully consistent with the prose passage. Models that hallucinate false violations (false positives) fail. Uses a 2×2 matrix of text length × codex size, with bare and detailed-entry variants.

Hallucination

Performance Score Distribution (Top 20)

Click a model name to view its detail page.

	Score
GPT-5.6 Sol (Reasoning)	100%
Claude Opus 4.6 (Reasoning)	100%
Qwen3.7 Max	100%
Grok 4.5 (Reasoning, High)	100%
GPT-5.4 (Reasoning)	100%
Z.AI GLM 5.1	100%
Qwen3.6 Max Preview	100%
GPT-5.5 (Reasoning)	100%
Claude Sonnet 4.6 (Reasoning)	100%
Z.AI GLM 5.2 (Reasoning, High)	100%
Z.AI GLM 5 Turbo	100%
MoonshotAI: Kimi K2.6	100%
Claude Opus 4.7 (Reasoning)	100%
GPT-5.5 (Reasoning, Low)	100%
GPT-5.6 Terra (Reasoning)	100%
GPT-5	100%
GPT-5 Mini	100%
Grok 4.3 (Reasoning)	100%
Grok 4.5 (Reasoning, Low)	100%
GPT-5.4 (Reasoning, Low)	100%

	Score	Cost	Time
GPT-4.1 Nano	93%	$0.0001	962ms
Gemini 2.5 Flash Lite	74%	$0.0003	516ms
Mistral Small 3.2 24B	72%	$0.0003	1.0s
Ministral 3 8B	90%	$0.0004	1.4s
GPT-5.6 Luna	100%	$0.0006	765ms
GPT-5.4 Nano	66%	$0.0004	1.6s
Gemini 3.1 Flash Lite	85%	$0.0007	741ms
Gemini 3.1 Flash Lite (Reasoning)	79%	$0.0008	874ms
Gemini 3.1 Flash Lite (Preview)	70%	$0.0008	882ms
GPT-5.6 Terra	100%	$0.0014	992ms
Gemma 4 31B	100%	$0.0004	20.6s
Mistral Medium 3.1	95%	$0.0011	764ms
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.6s
GPT-4.1	100%	$0.0022	815ms
Inception Mercury 2	100%	$0.0013	2.0s
Cydonia 24B V4.1	62%	$0.0008	9.4s
GPT-5.6 Sol	100%	$0.0044	1.1s
GPT-5.4 Nano (Reasoning)	100%	$0.0010	3.7s
ByteDance Seed 1.6 Flash	100%	$0.0005	7.4s
GPT-5.6 Luna (Reasoning)	100%	$0.0021	2.8s

	Score	Cost	Speed	Stability
GPT-5.6 Luna	100%	$0.0006	765ms	100%
GPT-5.6 Terra	100%	$0.0014	992ms	100%
Inception Mercury 2	100%	$0.0013	2.0s	100%
GPT-5.4 Nano (Reasoning, Low)	100%	$0.0006	3.6s	100%
GPT-4.1	100%	$0.0022	815ms	100%
GPT-5.4 Nano (Reasoning)	100%	$0.0010	3.7s	100%
GPT-5.6 Luna (Reasoning)	100%	$0.0021	2.8s	100%
GPT-5.4 Mini (Reasoning, Low)	100%	$0.0021	3.0s	100%
ByteDance Seed 1.6 Flash	100%	$0.0005	7.4s	100%
GPT-5.6 Terra (Reasoning)	100%	$0.0035	2.4s	100%
GPT-5.6 Sol	100%	$0.0044	1.1s	100%
Z.AI GLM 5 Turbo	100%	$0.0039	9.7s	100%
DeepSeek V4 Flash (Reasoning)	100%	$0.0005	19.3s	100%
GPT-5.4 Mini (Reasoning)	100%	$0.0065	7.8s	100%
GPT-5.4 (Reasoning, Low)	100%	$0.0077	5.5s	100%
Gemma 4 31B	100%	$0.0004	20.6s	100%
Xiaomi MIMO v2.5	100%	$0.0035	14.7s	100%
Z.AI GLM 5.2 (Reasoning, High)	100%	$0.0040	14.1s	100%
GPT-5.2	100%	$0.0083	9.6s	100%
Gemini 2.5 Flash (Reasoning)	100%	$0.0074	11.8s	100%

Rank	Model	Avg. Cost	Avg. Time	Stability	# 1	# 2	# 3	# 4	# 5	# 6	# 7	# 8	# 9	# 10	Total
21	GPT-5.6 Sol (Reasoning)	$0.012	4.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
61	Claude Opus 4.6 (Reasoning)	$0.083	50.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
52	Qwen3.7 Max	$0.036	59.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
40	Grok 4.5 (Reasoning, High)	$0.019	36.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
30	GPT-5.4 (Reasoning)	$0.015	14.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
42	Z.AI GLM 5.1	$0.012	1.1m	100%	100	100	100	100	100	100	100	100	100	100	100%
80	Qwen3.6 Max Preview	$0.065	4.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
33	GPT-5.5 (Reasoning)	$0.019	10.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
70	Claude Sonnet 4.6 (Reasoning)	$0.101	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
18	Z.AI GLM 5.2 (Reasoning, High)	$0.0040	14.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
12	Z.AI GLM 5 Turbo	$0.0039	9.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
68	MoonshotAI: Kimi K2.6	$0.024	3.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
41	Claude Opus 4.7 (Reasoning)	$0.038	9.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
29	GPT-5.5 (Reasoning, Low)	$0.016	7.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
10	GPT-5.6 Terra (Reasoning)	$0.0035	2.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
49	GPT-5	$0.030	57.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
28	GPT-5 Mini	$0.0044	29.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
39	Grok 4.3 (Reasoning)	$0.011	51.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
22	Grok 4.5 (Reasoning, Low)	$0.0080	12.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
15	GPT-5.4 (Reasoning, Low)	$0.0077	5.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
34	Grok 4.20 (Reasoning)	$0.011	35.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
50	MoonshotAI: Kimi K2.5	$0.012	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
11	GPT-5.6 Sol	$0.0044	1.1s	100%	100	100	100	100	100	100	100	100	100	100	100%
26	GPT-5.1	$0.012	13.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
7	GPT-5.6 Luna (Reasoning)	$0.0021	2.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
32	MiniMax M3	$0.0023	43.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
53	Claude Sonnet 5 (Reasoning)	$0.047	42.9s	100%	100	100	100	100	100	100	100	100	100	100	100%
14	GPT-5.4 Mini (Reasoning)	$0.0065	7.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
51	Qwen 3.5 Plus (2026-04-20)	$0.016	1.6m	100%	100	100	100	100	100	100	100	100	100	100	100%
47	Gemma 4 31B (Reasoning)	$0.0014	1.9m	100%	100	100	100	100	100	100	100	100	100	100	100%
36	Z.AI GLM 5	$0.0087	48.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
27	ByteDance Seed 1.6	$0.0033	31.2s	100%	100	100	100	100	100	100	100	100	100	100	100%
19	GPT-5.2	$0.0083	9.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
55	Gemma 4 26B (Reasoning)	$0.0018	2.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
37	o4 Mini High	$0.018	33.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
60	Qwen 3.6 27B	$0.032	2.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
2	GPT-5.6 Terra	$0.0014	992ms	100%	100	100	100	100	100	100	100	100	100	100	100%
13	DeepSeek V4 Flash (Reasoning)	$0.0005	19.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
48	Z.AI GLM 4.7	$0.015	1.4m	100%	100	100	100	100	100	100	100	100	100	100	100%
5	GPT-4.1	$0.0022	815ms	100%	100	100	100	100	100	100	100	100	100	100	100%
24	o4 Mini	$0.0085	15.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
23	MiniMax M2.7	$0.0020	27.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
35	Xiaomi MIMO v2.5 Pro	$0.0095	45.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
44	ByteDance Seed 2.0 Mini	$0.0018	1.5m	100%	100	100	100	100	100	100	100	100	100	100	100%
16	Gemma 4 31B	$0.0004	20.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
1	GPT-5.6 Luna	$0.0006	765ms	100%	100	100	100	100	100	100	100	100	100	100	100%
25	GPT-OSS 120B	$0.0006	32.3s	100%	100	100	100	100	100	100	100	100	100	100	100%
20	Gemini 2.5 Flash (Reasoning)	$0.0074	11.8s	100%	100	100	100	100	100	100	100	100	100	100	100%
17	Xiaomi MIMO v2.5	$0.0035	14.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
43	Aion 3.0 Mini	$0.0060	1.3m	100%	100	100	100	100	100	100	100	100	100	100	100%
8	GPT-5.4 Mini (Reasoning, Low)	$0.0021	3.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
3	Inception Mercury 2	$0.0013	2.0s	100%	100	100	100	100	100	100	100	100	100	100	100%
31	Nemotron 3 Super	$0.0000	47.5s	100%	100	100	100	100	100	100	100	100	100	100	100%
38	GPT-5 Nano	$0.0033	1.0m	100%	100	100	100	100	100	100	100	100	100	100	100%
6	GPT-5.4 Nano (Reasoning)	$0.0010	3.7s	100%	100	100	100	100	100	100	100	100	100	100	100%
4	GPT-5.4 Nano (Reasoning, Low)	$0.0006	3.6s	100%	100	100	100	100	100	100	100	100	100	100	100%
46	Nemotron 3 Nano	$0.0016	1.8m	100%	100	100	100	100	100	100	100	100	100	100	100%
9	ByteDance Seed 1.6 Flash	$0.0005	7.4s	100%	100	100	100	100	100	100	100	100	100	100	100%
45	Mistral Medium 3.1	$0.0011	764ms	70%	100	100	100	100	100	100	100	100	100	50	95%
57	Claude Sonnet 4.6	$0.019	12.6s	59%	100	100	100	100	100	100	100	100	100	32	93%
54	GPT-4.1 Nano	$0.0001	962ms	58%	100	100	100	100	100	100	100	100	100	30	93%
62	Qwen 3.6 Flash	$0.013	38.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
66	DeepSeek V4 Pro (Reasoning)	$0.0041	1.4m	55%	100	100	100	100	100	100	100	100	100	25	93%
64	Aion 2.0	$0.0062	58.5s	55%	100	100	100	100	100	100	100	100	100	25	93%
56	Gemini 2.5 Flash Lite (Reasoning)	$0.0020	14.3s	55%	100	100	100	100	100	100	100	100	100	25	93%
65	Z.AI GLM 4.5 Air	$0.0041	1.0m	55%	100	100	100	100	100	100	100	100	100	25	93%
58	Ministral 3 8B	$0.0004	1.4s	41%	100	100	100	100	100	100	100	100	100	2	90%
88	Aion 3.0	$0.047	2.3m	49%	100	100	100	100	100	100	100	100	50	25	88%
59	MiniMax M2.5	$0.0020	24.5s	49%	100	100	100	100	100	100	100	100	50	25	88%
84	Claude Sonnet 5 (Reasoning, Low)	$0.059	55.5s	40%	100	100	100	100	100	100	100	100	25	25	85%
69	Qwen 3.6 35B	$0.0070	51.0s	40%	100	100	100	100	100	100	100	100	25	25	85%
63	Gemini 3.1 Flash Lite	$0.0007	741ms	40%	100	100	100	100	100	100	100	100	25	25	85%
79	Gemini 2.5 Pro	$0.045	32.3s	37%	100	100	100	100	100	100	100	100	25	17	84%
67	Gemini 3.1 Flash Lite (Reasoning)	$0.0008	874ms	34%	100	100	100	100	100	100	100	50	25	17	79%
86	Gemini 3.5 Flash (Reasoning)	$0.059	26.0s	31%	100	100	100	100	100	100	100	25	25	25	78%
72	Gemini 2.5 Flash Lite	$0.0003	516ms	20%	100	100	100	100	100	100	100	17	17	6	74%
77	Mistral Small 3.2 24B	$0.0003	1.0s	14%	100	100	100	100	100	100	100	6	6	6	72%
71	Gemini 3.1 Flash Lite (Preview)	$0.0008	882ms	26%	100	100	100	100	100	100	42	25	25	13	70%
138	Claude Opus 4.8 (Reasoning, Low)	$0.122	52.5s	27%	100	100	100	100	100	100	25	25	25	25	70%
141	Claude Opus 4.8 (Reasoning)	$0.144	1.1m	24%	100	100	100	100	100	100	25	25	25	17	69%
75	Mistral Small 4 (Reasoning)	$0.0018	16.7s	24%	100	100	100	100	100	100	25	25	25	17	69%
74	Hermes 3 70B	$0.0009	6.2s	21%	100	100	100	100	100	100	42	33	7	6	69%
85	Qwen 3 32B	$0.0015	1.3m	21%	100	100	100	100	100	100	25	25	17	13	68%
78	GPT-5.4 Nano	$0.0004	1.6s	17%	100	100	100	100	100	100	31	17	8	7	66%
76	Ministral 8B	$0.0004	4.4s	22%	100	100	100	100	100	50	27	27	26	26	66%
145	Qwen 3.5 27B	$0.052	4.7m	18%	100	100	100	100	100	50	25	25	17	13	63%
83	Cydonia 24B V4.1	$0.0008	9.4s	8%	100	100	100	100	100	100	8	7	6	4	62%
81	Z.AI GLM 4.5	$0.0022	16.0s	15%	100	100	100	100	100	32	30	29	25	3	62%
131	Z.AI GLM 4.7 Flash	$0.0040	3.1m	14%	100	100	100	100	100	25	25	25	25	17	62%
139	Qwen 3.5 9B	$0.0034	4.5m	22%	100	100	100	50	50	50	50	50	25	25	60%
119	Z.AI GLM 4.6	$0.033	1.6m	14%	100	100	100	100	50	50	29	25	25	7	59%
144	Gemini 3.1 Pro (Preview)	$0.110	1.3m	7%	100	100	100	100	25	25	25	25	25	25	55%
143	Qwen 3.5 397B A17B	$0.018	3.9m	5%	100	100	100	100	25	25	25	17	13	13	52%
97	Grok 4.20	$0.0059	14.1s	4%	100	100	100	100	29	27	27	6	6	2	50%
94	Arcee AI: Trinity Mini	$0.0003	8.2s	3%	100	100	100	100	25	17	17	17	13	6	49%
73	Claude Haiku 4.5	$0.0042	3.4s	48%	50	50	50	50	50	50	50	50	50	42	49%
146	Qwen 3.5 122B	$0.101	4.5m	7%	100	100	100	25	25	25	25	25	17	17	46%
82	Gemma 4 26B	$0.0004	10.2s	27%	100	50	50	50	50	42	42	25	25	25	46%
142	Qwen 3.5 35B	$0.047	2.4m	5%	100	100	100	25	25	17	17	17	13	13	43%
87	DeepSeek V4 Pro	$0.0047	29.4s	33%	50	50	50	42	42	42	29	28	25	25	38%
91	Claude Opus 4.7	$0.030	6.3s	37%	38	38	38	38	38	38	38	38	35	35	37%
99	Gemini 3.5 Flash (Reasoning, Minimal)	$0.0099	3.9s	15%	100	50	50	35	35	25	25	17	17	10	36%
89	Claude Sonnet 4	$0.012	4.5s	30%	50	42	42	42	42	38	35	17	17	13	34%
93	DeepSeek V4 Flash	$0.0003	9.8s	21%	50	50	50	30	29	29	28	28	28	6	33%
129	Gemini 3 Flash (Preview, Reasoning)	$0.025	44.3s	14%	100	25	25	25	25	25	25	25	25	17	32%
96	Claude Sonnet 4.5	$0.016	7.6s	29%	35	35	33	33	33	33	33	32	32	10	31%
122	Claude Opus 4	$0.056	6.7s	27%	50	50	42	42	42	38	13	13	13	10	31%
114	WizardLM 2 8x22b	$0.0021	47.3s	8%	100	50	50	50	30	8	6	6	5	4	31%
101	GPT-5.4 Mini	$0.0013	787ms	13%	100	25	25	25	25	25	25	25	17	13	30%
100	GPT-4o Mini (temp=1)	$0.0004	4.8s	15%	100	38	32	32	31	29	13	13	8	6	30%
90	Ministral 3B	$0.0001	3.0s	25%	42	38	31	31	31	31	30	29	29	3	29%
107	GPT-4o, Aug. 6th (temp=1)	$0.0065	2.7s	8%	100	42	42	42	17	17	13	8	7	7	29%
98	Writer: Palmyra X5	$0.0066	13.0s	25%	42	35	32	32	31	30	30	30	29	2	29%
92	GPT-4.1 Mini	$0.0015	7.2s	25%	35	35	35	33	31	30	30	29	28	5	29%
95	Ministral 3 3B	$0.0004	5.0s	24%	38	32	30	30	29	29	29	29	27	1	27%
109	Claude Opus 4.6	$0.030	12.3s	23%	42	42	38	35	32	32	32	6	6	6	27%
104	Mistral Small 4	$0.0008	5.6s	12%	100	32	32	30	28	26	6	5	5	4	27%
106	Qwen 2.5 72B	$0.0006	9.9s	10%	100	35	31	29	25	17	13	6	6	6	27%
136	Qwen 3.5 Flash	$0.0061	1.6m	8%	100	25	25	25	17	17	17	17	13	13	27%
108	DeepSeek V3.1	$0.0011	18.9s	9%	100	31	30	29	25	13	13	8	8	7	26%
103	Claude Sonnet 5	$0.012	7.3s	24%	42	38	35	33	33	32	13	10	10	7	25%
105	Qwen3 235B A22B Instruct 2507	$0.0009	27.7s	21%	42	35	32	31	30	29	28	5	4	4	24%
115	Mistral NeMO	$0.0005	7.8s	1%	100	100	6	4	4	4	4	3	3	1	23%
124	ByteDance Seed 2.0 Lite	$0.0070	1.2m	23%	25	25	25	25	25	25	25	17	17	17	23%
112	Hermes 3 405B	$0.0029	6.3s	6%	100	25	17	13	13	13	10	10	10	8	22%
102	GPT-5.4	$0.0034	2.2s	22%	25	25	25	25	25	25	25	17	13	7	21%
140	Qwen 3.5 Plus (2026-02-15)	$0.020	1.9m	14%	50	31	31	31	30	10	10	8	6	2	21%
120	Grok 4.3	$0.0036	5.4s	3%	100	32	17	13	7	6	6	4	4	3	19%
113	DeepSeek V3.2	$0.0009	27.4s	13%	42	30	29	28	17	17	13	5	5	4	19%
132	Cohere Command R+ (Aug. 2024)	$0.012	15.0s	4%	100	17	17	10	10	10	8	7	6	1	19%
127	Claude Opus 4.5	$0.021	5.2s	12%	38	38	17	17	17	13	10	10	10	10	18%
117	DeepSeek V3 (2025-03-24)	$0.0007	15.9s	7%	42	35	33	10	10	10	10	10	8	7	18%
110	DeepSeek-V2 Chat	$0.0011	4.8s	9%	50	25	17	17	13	13	10	10	10	6	17%
116	GPT-5.5	$0.011	3.1s	13%	25	25	25	17	17	13	10	10	10	8	16%
111	DeepSeek V3 (2024-12-26)	$0.0012	5.5s	11%	31	25	17	13	13	13	13	13	13	8	16%
123	Llama 3.1 70B	$0.0014	12.4s	8%	31	25	17	17	10	10	10	10	5	3	14%
118	Gemini 3 Flash (Preview)	$0.0018	3.3s	8%	35	13	13	13	10	10	8	8	8	8	13%
133	Ministral 3 14B	$0.0009	12.9s	2%	27	26	26	3	3	3	3	2	2	1	10%
121	Gemini 2.5 Flash	$0.0015	1.7s	9%	13	13	13	10	10	10	8	7	6	5	9%
125	Gemma 3 12B	$0.0001	6.8s	8%	17	8	8	8	8	8	7	7	7	7	9%
128	Gemma 3 27B	$0.0003	8.8s	8%	10	10	10	10	8	8	8	8	7	5	9%
130	GPT-4o, Aug. 6th (temp=0)	$0.0071	2.9s	8%	10	10	8	8	8	8	7	7	6	6	8%
126	GPT-4o Mini (temp=0)	$0.0005	5.4s	8%	8	8	8	8	8	8	8	8	6	6	8%
137	Mistral Large 2	$0.011	15.1s	4%	29	6	5	5	5	4	4	3	3	3	6%
134	Mistral Large 3	$0.0026	12.1s	5%	6	6	6	6	6	5	5	5	3	3	5%
135	Gemma 3 4B	$0.0002	11.0s	3%	4	3	3	3	3	3	3	2	2	2	3%
67.03%

Median	Evaluator	Top 3	Flop 3
77.5%	Correct "no violations" response	100Nemotron 3 Super 100Nemotron 3 Nano 100Inception Mercury 2	0GPT-4o Mini (temp=0) 0ByteDance Seed 2.0 Lite 0Gemma 3 12B
89.2%	No hallucinated violations	100Inception Mercury 2 100MiniMax M3 100Gemma 4 31B	4Ministral 3 14B 5Gemma 3 4B 8Mistral Large 2

Codex Red Herring (False Positive Detection)

Long text (~1594 words), small codex (11 entries)

Performance Score Distribution (Top 20)

Price-Performance Score Distribution (Top 20)

Most Stable Models (Top 20)

Top Overall Models (Top 20)