False Positives

Subcategory of Hallucination. 146 models scored.

Model Leaderboard

All models ranked by their False Positives subcategory score.

#	Model	False Positives	Hallucination	Overall
1	o4 Mini High	98.59%	99.53%	88.78%
2	Inception Mercury 2	98.13%	93.22%	81.99%
3	Z.AI GLM 5 Turbo	97.97%	99.32%	93.29%
4	Claude Opus 4.6 (Reasoning)	97.19%	99.06%	95.06%
5	Grok 4.5 (Reasoning, High)	97.19%	99.06%	94.12%
6	Grok 4.5 (Reasoning, Low)	97.03%	99.01%	90.94%
7	Z.AI GLM 5.2 (Reasoning, High)	96.98%	98.99%	93.41%
8	Z.AI GLM 5.1	96.51%	98.84%	93.74%
9	Gemma 4 26B (Reasoning)	96.41%	98.79%	89.02%
10	GPT-5.4 Mini (Reasoning, Low)	96.36%	98.78%	83.57%
11	Qwen 3.5 Plus (2026-04-20)	96.25%	98.38%	89.79%
12	Claude Opus 4.7 (Reasoning)	96.09%	98.69%	92.53%
13	GPT-5.6 Luna (Reasoning)	95.94%	98.65%	90.61%
14	Gemini 2.5 Flash Lite (Reasoning)	95.78%	96.99%	83.10%
15	o4 Mini	95.63%	98.54%	86.56%
16	GPT-5 Mini	94.85%	98.28%	91.31%
17	GPT-5.4 Mini (Reasoning)	94.32%	98.11%	89.82%
18	DeepSeek V4 Flash (Reasoning)	94.32%	96.92%	88.06%
19	Z.AI GLM 5	94.11%	98.04%	89.60%
20	Grok 4.3 (Reasoning)	93.59%	97.86%	90.99%
21	MiniMax M3	93.49%	97.83%	90.45%
22	Gemini 2.5 Flash (Reasoning)	93.44%	97.79%	84.14%
23	GPT-OSS 120B	92.97%	97.63%	84.81%
24	Xiaomi MIMO v2.5	92.92%	97.61%	83.95%
25	ByteDance Seed 1.6	92.71%	97.57%	89.59%
26	GPT-5.2	92.64%	97.55%	89.45%
27	Qwen 3.6 27B	92.33%	97.42%	88.33%
28	Claude Opus 4.8 (Reasoning)	92.24%	97.41%	92.33%
29	Nemotron 3 Super	92.03%	97.34%	81.69%
30	Claude Opus 4.8 (Reasoning, Low)	91.98%	97.33%	91.89%
31	Qwen3.7 Max	91.51%	97.15%	94.55%
32	Xiaomi MIMO v2.5 Pro	91.05%	97.02%	86.05%
33	GPT-5.4 Nano (Reasoning)	90.95%	96.98%	80.02%
34	Claude Sonnet 4.6 (Reasoning)	90.94%	96.98%	93.64%
35	GPT-5 Nano	90.90%	92.99%	80.16%
36	Claude Opus 4.6	90.40%	96.80%	92.31%
37	Claude Sonnet 5 (Reasoning)	90.31%	96.77%	90.40%
38	Claude Sonnet 5 (Reasoning, Low)	89.32%	96.44%	90.16%
39	Gemma 4 31B (Reasoning)	89.11%	96.37%	89.64%
40	Grok 4.20 (Reasoning)	88.89%	96.30%	90.87%
41	GPT-5.1	88.65%	96.22%	90.73%
42	Qwen 3.6 Flash	88.39%	96.13%	89.31%
43	Aion 3.0 Mini	88.15%	94.08%	83.69%
44	GPT-5	87.76%	95.92%	91.48%
45	GPT-5.6 Sol	87.60%	95.87%	90.76%
46	Qwen3.6 Max Preview	87.58%	95.86%	93.72%
47	GPT-5.4 (Reasoning, Low)	87.14%	95.71%	90.91%
48	GPT-5.4 Nano (Reasoning, Low)	87.13%	95.71%	77.46%
49	DeepSeek V4 Pro (Reasoning)	86.87%	95.25%	89.28%
50	Gemini 3.5 Flash (Reasoning)	86.82%	95.61%	93.35%
51	Aion 3.0	86.82%	95.57%	88.78%
52	GPT-4.1	86.82%	95.60%	86.82%
53	Aion 2.0	86.41%	93.10%	86.66%
54	Nemotron 3 Nano	85.80%	88.55%	74.50%
55	GPT-5.4 (Reasoning)	85.65%	95.22%	93.85%
56	Gemma 4 31B	85.26%	95.09%	85.23%
57	Claude Sonnet 4.6	84.99%	94.99%	90.66%
58	GPT-5.6 Terra (Reasoning)	84.95%	94.98%	92.49%
59	MiniMax M2.5	84.66%	94.72%	86.71%
60	Z.AI GLM 4.6	84.38%	94.42%	87.64%
61	MiniMax M2.7	84.34%	94.69%	86.23%
62	Gemini 3.1 Pro (Preview)	83.59%	94.53%	94.08%
63	Qwen 3.6 35B	83.33%	94.07%	87.66%
64	MoonshotAI: Kimi K2.6	83.28%	94.43%	92.57%
65	Z.AI GLM 4.5 Air	83.12%	94.00%	80.74%
66	Mistral Small 4 (Reasoning)	83.11%	93.18%	79.48%
67	ByteDance Seed 1.6 Flash	83.03%	90.83%	70.92%
68	Z.AI GLM 4.7	82.73%	94.23%	87.67%
69	Gemma 4 26B	82.67%	94.22%	84.89%
70	ByteDance Seed 2.0 Mini	82.30%	94.07%	85.69%
71	Ministral 3 8B	82.06%	94.02%	69.98%
72	MoonshotAI: Kimi K2.5	82.03%	94.01%	90.86%
73	Qwen 3.5 9B	81.32%	91.81%	84.05%
74	GPT-5.6 Luna	80.10%	93.37%	85.06%
75	Qwen 3.5 122B	79.87%	93.29%	90.32%
76	Qwen 3.5 27B	79.86%	93.29%	90.05%
77	Gemini 2.5 Pro	79.16%	93.05%	88.44%
78	Claude Opus 4.7	78.84%	92.95%	89.90%
79	Gemini 3 Flash (Preview, Reasoning)	77.99%	92.65%	89.93%
80	Z.AI GLM 4.7 Flash	77.13%	90.00%	82.21%
81	Z.AI GLM 4.5	76.65%	91.83%	84.95%
82	GPT-5.5 (Reasoning)	76.35%	92.12%	93.72%
83	Claude Haiku 4.5	75.80%	91.93%	83.36%
84	Ministral 8B	75.68%	91.89%	63.77%
85	GPT-5.6 Sol (Reasoning)	75.16%	91.72%	95.15%
86	Qwen 3.5 35B	74.87%	89.24%	87.01%
87	GPT-5.5 (Reasoning, Low)	74.11%	91.37%	92.51%
88	Qwen 3.5 Flash	73.21%	88.70%	85.66%
89	Claude Opus 4.5	73.09%	91.03%	89.60%
90	GPT-5.6 Terra	71.90%	90.63%	88.23%
91	GPT-5.5	70.85%	90.28%	89.37%
92	ByteDance Seed 2.0 Lite	70.73%	89.50%	84.27%
93	GPT-4.1 Nano	70.27%	90.07%	69.90%
94	Qwen 3.5 397B A17B	70.17%	90.04%	91.09%
95	Claude Sonnet 4	70.11%	90.04%	87.64%
96	Gemini 3.5 Flash (Reasoning, Minimal)	68.64%	89.55%	85.88%
97	DeepSeek V4 Pro	68.09%	89.36%	82.05%
98	Qwen 3 32B	67.79%	89.06%	79.37%
99	Cydonia 24B V4.1	66.97%	85.22%	72.68%
100	Mistral Medium 3.1	66.78%	88.93%	76.08%
101	Claude Sonnet 5	66.23%	88.74%	87.34%
102	Arcee AI: Trinity Mini	65.05%	88.35%	67.68%
103	Gemini 2.5 Flash Lite	64.28%	88.08%	79.91%
104	Gemini 3.1 Flash Lite	63.57%	87.86%	85.09%
105	Claude Opus 4	63.52%	87.84%	87.22%
106	Grok 4.3	63.41%	87.79%	78.00%
107	Claude Sonnet 4.5	63.35%	87.78%	87.54%
108	DeepSeek V4 Flash	63.20%	87.73%	82.02%
109	Gemini 3.1 Flash Lite (Reasoning)	62.89%	87.63%	85.91%
110	Mistral Small 3.2 24B	62.38%	86.84%	77.36%
111	Gemini 3.1 Flash Lite (Preview)	61.89%	87.29%	85.41%
112	Llama 3.1 70B	61.33%	80.47%	77.41%
113	Hermes 3 405B	61.06%	87.02%	80.80%
114	Cohere Command R+ (Aug. 2024)	61.00%	66.30%	67.04%
115	GPT-5.4 Nano	60.58%	86.86%	72.16%
116	Qwen 3.5 Plus (2026-02-15)	60.20%	86.62%	86.17%
117	GPT-5.4	58.96%	86.32%	84.31%
118	DeepSeek V3.2	58.75%	86.25%	82.22%
119	GPT-4.1 Mini	58.70%	86.23%	81.40%
120	Qwen 2.5 72B	58.36%	85.54%	73.17%
121	GPT-4o, Aug. 6th (temp=1)	58.17%	86.00%	81.28%
122	DeepSeek V3 (2024-12-26)	57.07%	85.69%	82.62%
123	WizardLM 2 8x22b	57.02%	79.28%	71.45%
124	DeepSeek-V2 Chat	56.98%	82.48%	84.09%
125	Gemini 3 Flash (Preview)	56.88%	85.61%	85.47%
126	DeepSeek V3.1	56.76%	85.55%	82.35%
127	Gemini 2.5 Flash	56.72%	85.27%	80.61%
128	Mistral Large 2	56.35%	85.45%	81.50%
129	GPT-4o Mini (temp=1)	55.83%	85.28%	77.82%
130	Mistral Large 3	55.54%	85.18%	84.29%
131	Hermes 3 70B	53.99%	70.71%	69.74%
132	GPT-4o, Aug. 6th (temp=0)	50.00%	83.33%	82.18%
133	Ministral 3 14B	49.57%	83.19%	70.45%
134	Writer: Palmyra X5	48.62%	80.49%	78.11%
135	DeepSeek V3 (2025-03-24)	47.98%	76.88%	79.93%
136	GPT-4o Mini (temp=0)	46.70%	82.23%	76.86%
137	GPT-5.4 Mini	45.55%	81.85%	80.45%
138	Mistral Small 4	45.50%	81.83%	75.23%
139	Qwen3 235B A22B Instruct 2507	43.34%	76.34%	78.07%
140	Gemma 3 27B	41.59%	80.53%	75.70%
141	Grok 4.20	41.45%	80.48%	81.21%
142	Ministral 3 3B	36.00%	75.10%	65.02%
143	Ministral 3B	35.66%	73.79%	59.25%
144	Mistral NeMO	31.81%	69.32%	63.80%
145	Gemma 3 12B	31.38%	77.13%	76.07%
146	Gemma 3 4B	27.83%	75.94%	66.33%