Categories

NC Bench evaluates models across 8 categories and 23 subcategories.

Category Distribution

Shows the number of scenarios in each category. Some scenarios may be in multiple categories.

Tooling (15)

Creative Writing (18)

Language (9)

Utility (32)

Reasoning (21)

Text Editing (18)

Rule Following (12)

Hallucination (30)

Creative Writing

18 scenarios · 6 subcategories

Top Models

91.17%	GPT-5.4 (Reasoning)
91.04%	GPT-5.6 Sol
91.03%	GPT-5.6 Sol (Reasoning)

Subcategories

82.84%	AI-isms
68.36%	Prose Variety
80.23%	Dialogue
89.13%	Purple Prose
86.84%	Mechanical Style
78.71%	Clichés

Tooling

15 scenarios · 1 subcategory

Top Models

100.00%	GPT-5.6 Sol (Reasoning)
100.00%	Claude Opus 4.6 (Reasoning)
100.00%	Qwen3.7 Max

Subcategories

96.41%

XML

Language

9 scenarios · 2 subcategories

Top Models

100.00%	Qwen3.6 Max Preview
100.00%	Claude Sonnet 4.6
100.00%	DeepSeek-V2 Chat

Subcategories

85.10%	Comprehension
89.14%	Generation

Utility

32 scenarios · 5 subcategories

Top Models

99.91%	Gemini 3.1 Pro (Preview)
99.54%	Qwen3.7 Max
99.26%	Claude Opus 4.8 (Reasoning)

Subcategories

68.16%	Word Counting
91.44%	Sentence Counting
97.17%	Paragraph Counting
76.42%	Structural Counting
98.39%	Data Extraction

Reasoning

21 scenarios · 2 subcategories

Top Models

96.86%	GPT-5.6 Sol (Reasoning)
94.89%	GPT-5.4 (Reasoning)
94.45%	Grok 4.5 (Reasoning, High)

Subcategories

72.24%	Deduction
80.16%	Attention

Text Editing

18 scenarios · 3 subcategories

Top Models

99.13%	Claude Sonnet 4
99.02%	Claude Sonnet 4.5
98.90%	Z.AI GLM 5.2 (Reasoning, High)

Subcategories

85.77%	Transformation
94.72%	Preservation
98.73%	Structural Integrity

Rule Following

12 scenarios · 1 subcategory

Top Models

95.76%	Qwen3.7 Max
92.04%	Gemini 3.5 Flash (Reasoning)
91.21%	Gemini 3.1 Pro (Preview)

Subcategories

63.71%

Constraint Adherence

Hallucination

30 scenarios · 3 subcategories

Top Models

99.53%	o4 Mini High
99.32%	Z.AI GLM 5 Turbo
99.06%	Claude Opus 4.6 (Reasoning)

Subcategories

75.58%	False Positives
97.74%	Content Invention
99.65%	Output Corruption