NC Bench

A comprehensive benchmark for creative writing models.

Created by Novelcrafter.

Learn more here

This project is in early access and still work in progress.

Focused on Creativity

NC Bench benchmarks creativity-focused tasks in LLMs, like creative writing, instruction following, utility, tooling, and language skills.

AI as an Assistant

We test how well models enhance the writing process through text manipulation, idea generation, summarization, and translation.

Comprehensive Testing

From generating quality prose to hallucination-free extraction, NC Bench evaluates capabilities using objective tests, not AI judges.

Benchmark Overview

Tests

15

Scenarios

113

Models

161

Results

152,865

Samples per Run

8.13 runs/scen.

Category Distribution

Shows the number of scenarios in each category. Some scenarios may be in multiple categories.

Tooling (15)Creative Writing (18)Language (9)Utility (32)Reasoning (21)Text Editing (18)Rule Following (12)Hallucination (30)

Top Results

Top Models

95.15%	GPT-5.6 Sol (Reasoning)
95.06%	Claude Opus 4.6 (Reasoning)
94.90%	Gemini 3.6 Flash (Reasoning)

Tooling

100.00%	GPT-5.6 Sol (Reasoning)
100.00%	Claude Opus 4.6 (Reasoning)
100.00%	Gemini 3.6 Flash (Reasoning)

Creative Writing

91.17%	GPT-5.4 (Reasoning)
91.04%	GPT-5.6 Sol
91.03%	GPT-5.6 Sol (Reasoning)

Language

100.00%	Qwen3.6 Max Preview
100.00%	MoonshotAI: Kimi K3 (Reasoning, High)
100.00%	Claude Sonnet 4.6

Utility

99.91%	Gemini 3.1 Pro (Preview)
99.54%	Qwen3.7 Max
99.40%	Muse Spark 1.1 (Reasoning, Medium)

Reasoning

96.86%	GPT-5.6 Sol (Reasoning)
94.89%	GPT-5.4 (Reasoning)
94.48%	Gemini 3.6 Flash (Reasoning)

Text Editing

99.13%	Claude Sonnet 4
99.04%	Gemini 3.6 Flash (Reasoning)
99.02%	Claude Sonnet 4.5

Rule Following

95.76%	Qwen3.7 Max
92.04%	Gemini 3.5 Flash (Reasoning)
91.21%	Gemini 3.1 Pro (Preview)

Hallucination

99.53%	o4 Mini High
99.32%	Z.AI GLM 5 Turbo
99.06%	Claude Opus 4.6 (Reasoning)