Novel outline

Handle questions about the outline of a novel in various formats

Model Total â–¼Count chaptersCount chapters (indented)Count actsCount acts (indented)Count scenesCount scenes (indented)Count point of views for Jack HarperCount point of views for Jack Harper (indented)Count point of views for OliviaCount point of views for Olivia (indented)Count point of views for Jack and OliviaCount point of views for Jack and Olivia (indented)
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro99%100%100%100%100%100%100%100%100%100%100%100%90%
Z.AI GLM 4.698%100%100%100%100%90%100%100%100%90%100%100%95%
Z.AI GLM 4.796%100%100%100%100%90%100%90%100%100%100%80%90%
Claude Opus 4.695%100%100%100%100%100%100%100%100%100%100%40%100%
Claude 3.5 Sonnet (new)92%100%100%100%100%40%80%100%100%100%100%95%90%
o4 Mini92%100%100%100%100%100%100%100%100%100%100%40%60%
Claude Sonnet 492%100%100%100%100%80%90%100%100%90%90%70%80%
o4 Mini High90%100%100%100%100%100%80%100%90%100%100%50%60%
Z.AI GLM 4.7 Flash88%90%100%100%100%90%90%80%90%100%90%45%75%
Llama 3.1 Nemotron 70B87%100%100%100%100%80%60%90%90%90%50%95%95%
GPT-4.187%100%100%100%100%60%70%100%100%60%90%85%75%
Claude Opus 4.586%100%100%100%100%80%100%70%60%100%100%55%70%
Claude Sonnet 4.582%100%100%100%100%80%100%100%100%50%90%50%10%
1–15 of 93
Page 1 / 7

Count chapters

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Claude 3.5 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3.7 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3 Haiku100%100%100%100%100%100%100%100%100%100%100%
Magnum 72B100%100%100%100%100%100%100%100%100%100%100%
Gemini Flash 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemini Pro 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 9B100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 27B100%100%100%100%100%100%100%100%100%100%100%
Phi-3 Medium 128k100%100%100%100%100%100%100%100%100%100%100%
Phi-3 Mini 128k100%100%100%100%100%100%100%100%100%100%100%
Phi-3.5 Mini 128k100%100%100%100%100%100%100%100%100%100%100%
Hermes 2 Theta 8B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 70B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 405B100%100%100%100%100%100%100%100%100%100%100%
WizardLM 2 8x22b100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Apr. 2024)100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Aug. 2024)100%100%100%100%100%100%100%100%100%100%100%
Mistral Large100%100%100%100%100%100%100%100%100%100%100%
Mistral Large 2100%100%100%100%100%100%100%100%100%100%100%
Ministral 8B100%100%100%100%100%100%100%100%100%100%100%
Mistral Medium100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Euryale 70B v2.2100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2.5 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 7B100%100%100%100%100%100%100%100%100%100%100%
lzlv 70B100%100%100%100%100%100%100%100%100%100%100%
MythoMist 7B100%100%100%100%100%100%100%100%100%100%100%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%100%100%100%
Toppy M 7B100%100%100%100%100%100%100%100%100%100%100%
Claude 2.0100%100%100%100%100%100%100%100%100%100%100%
Claude 2.1100%100%100%100%100%100%100%100%100%100%100%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%100%100%100%
GPT-4 Turbo100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Mistral NeMO100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Fimbulvetr 11B v2100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 8B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 70B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 3B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 11B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%100%100%100%
AI21 Jamba 1.5 Large100%100%100%100%100%100%100%100%100%100%100%
Lumimaid v0.2 8B100%100%100%100%100%100%100%100%100%100%100%
Rocinante 12B100%100%100%100%100%100%100%100%100%100%100%
Magnum v2 72B100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (Productivity)100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (PI)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%100%100%
Sao10K L3.1 70B Hanami x1100%100%100%100%100%100%100%100%100%100%100%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%100%100%100%100%100%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Nano100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Flash (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
Mistral Small Creative100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Llama 3 Euryale 70B v2.1100%100%100%100%100%100%100%100%100%0%90%
Goliath 120B100%100%100%100%100%100%100%100%100%0%90%
Llama 3.2 1B100%100%100%100%100%100%100%100%100%0%90%
Mistral Nemo 12B Celeste100%100%100%100%100%100%100%100%100%0%90%
Liquid: LFM 40B MoE100%100%100%100%100%100%100%100%100%0%90%
EVA Qwen 2.5 14B100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%0%90%
Ministral 3B100%100%100%100%100%100%100%100%0%0%80%
AI21 Jamba100%100%100%100%100%100%100%100%0%0%80%
AI21 Jamba 1.5 Mini100%100%100%100%100%100%100%100%0%0%80%
MythoMax 13B100%100%100%100%100%100%100%0%0%0%70%
98.28%

Count chapters (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Claude 3.5 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3.7 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3 Haiku100%100%100%100%100%100%100%100%100%100%100%
Gemini Flash 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemini Pro 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 9B100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 27B100%100%100%100%100%100%100%100%100%100%100%
Phi-3.5 Mini 128k100%100%100%100%100%100%100%100%100%100%100%
Hermes 2 Theta 8B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 70B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 405B100%100%100%100%100%100%100%100%100%100%100%
WizardLM 2 8x22b100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Apr. 2024)100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Aug. 2024)100%100%100%100%100%100%100%100%100%100%100%
Mistral Large100%100%100%100%100%100%100%100%100%100%100%
Mistral Large 2100%100%100%100%100%100%100%100%100%100%100%
Ministral 3B100%100%100%100%100%100%100%100%100%100%100%
Mistral Medium100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Llama 3 Euryale 70B v2.1100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2.5 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 7B100%100%100%100%100%100%100%100%100%100%100%
lzlv 70B100%100%100%100%100%100%100%100%100%100%100%
MythoMist 7B100%100%100%100%100%100%100%100%100%100%100%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%100%100%100%
Toppy M 7B100%100%100%100%100%100%100%100%100%100%100%
Claude 2.0100%100%100%100%100%100%100%100%100%100%100%
Claude 2.1100%100%100%100%100%100%100%100%100%100%100%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Goliath 120B100%100%100%100%100%100%100%100%100%100%100%
GPT-4 Turbo100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Mistral NeMO100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Fimbulvetr 11B v2100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 8B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 70B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 1B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 3B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 11B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Mistral Nemo 12B Celeste100%100%100%100%100%100%100%100%100%100%100%
Liquid: LFM 40B MoE100%100%100%100%100%100%100%100%100%100%100%
Rocinante 12B100%100%100%100%100%100%100%100%100%100%100%
EVA Qwen 2.5 14B100%100%100%100%100%100%100%100%100%100%100%
Magnum v2 72B100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (Productivity)100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (PI)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%100%100%
Sao10K L3.1 70B Hanami x1100%100%100%100%100%100%100%100%100%100%100%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%100%100%100%100%100%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Nano100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Flash (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%100%100%
Mistral Small Creative100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Magnum 72B100%100%100%100%100%100%100%100%100%0%90%
Ministral 8B100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 Euryale 70B v2.2100%100%100%100%100%100%100%100%100%0%90%
AI21 Jamba100%100%100%100%100%100%100%100%100%0%90%
MythoMax 13B100%100%100%100%100%100%100%100%100%0%90%
Lumimaid v0.2 8B100%100%100%100%100%100%100%100%100%0%90%
Phi-3 Mini 128k100%100%100%100%100%100%100%100%0%0%80%
AI21 Jamba 1.5 Mini100%100%100%100%100%100%100%100%0%0%80%
AI21 Jamba 1.5 Large100%100%100%100%100%100%100%100%0%0%80%
Phi-3 Medium 128k0%0%0%0%0%0%0%0%0%0%0%
97.63%

Count acts

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Claude 3.5 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3.7 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3 Haiku100%100%100%100%100%100%100%100%100%100%100%
Gemini Flash 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemini Pro 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 9B100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 27B100%100%100%100%100%100%100%100%100%100%100%
Phi-3 Medium 128k100%100%100%100%100%100%100%100%100%100%100%
Phi-3.5 Mini 128k100%100%100%100%100%100%100%100%100%100%100%
Hermes 2 Theta 8B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 70B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 405B100%100%100%100%100%100%100%100%100%100%100%
WizardLM 2 8x22b100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Apr. 2024)100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Aug. 2024)100%100%100%100%100%100%100%100%100%100%100%
Mistral Large100%100%100%100%100%100%100%100%100%100%100%
Mistral Large 2100%100%100%100%100%100%100%100%100%100%100%
Ministral 3B100%100%100%100%100%100%100%100%100%100%100%
Ministral 8B100%100%100%100%100%100%100%100%100%100%100%
Mistral Medium100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Llama 3 Euryale 70B v2.1100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Euryale 70B v2.2100%100%100%100%100%100%100%100%100%100%100%
AI21 Jamba100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2.5 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 7B100%100%100%100%100%100%100%100%100%100%100%
lzlv 70B100%100%100%100%100%100%100%100%100%100%100%
MythoMax 13B100%100%100%100%100%100%100%100%100%100%100%
MythoMist 7B100%100%100%100%100%100%100%100%100%100%100%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%100%100%100%
Toppy M 7B100%100%100%100%100%100%100%100%100%100%100%
Claude 2.0100%100%100%100%100%100%100%100%100%100%100%
Claude 2.1100%100%100%100%100%100%100%100%100%100%100%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Goliath 120B100%100%100%100%100%100%100%100%100%100%100%
GPT-4 Turbo100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Mistral NeMO100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Fimbulvetr 11B v2100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 8B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 70B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 3B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 11B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Lumimaid v0.2 8B100%100%100%100%100%100%100%100%100%100%100%
Rocinante 12B100%100%100%100%100%100%100%100%100%100%100%
EVA Qwen 2.5 14B100%100%100%100%100%100%100%100%100%100%100%
Magnum v2 72B100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (Productivity)100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (PI)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%100%100%
Sao10K L3.1 70B Hanami x1100%100%100%100%100%100%100%100%100%100%100%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%100%100%100%100%100%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Nano100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Flash (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%100%100%
Mistral Small Creative100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Magnum 72B100%100%100%100%100%100%100%100%100%0%90%
Phi-3 Mini 128k100%100%100%100%100%100%100%100%100%0%90%
Mistral Nemo 12B Celeste100%100%100%100%100%100%100%100%100%0%90%
AI21 Jamba 1.5 Mini100%100%100%100%100%100%100%100%100%0%90%
Liquid: LFM 40B MoE100%100%100%100%100%100%100%100%100%0%90%
AI21 Jamba 1.5 Large100%100%100%100%100%100%100%100%0%0%80%
Llama 3.2 1B100%100%100%100%0%0%0%0%0%0%40%
98.60%

Count acts (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Claude 3.5 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3.7 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Claude 3 Haiku100%100%100%100%100%100%100%100%100%100%100%
Magnum 72B100%100%100%100%100%100%100%100%100%100%100%
Gemini Flash 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemini Pro 1.5100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 9B100%100%100%100%100%100%100%100%100%100%100%
Gemma 2 27B100%100%100%100%100%100%100%100%100%100%100%
Phi-3.5 Mini 128k100%100%100%100%100%100%100%100%100%100%100%
Hermes 2 Theta 8B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 70B100%100%100%100%100%100%100%100%100%100%100%
Hermes 3 405B100%100%100%100%100%100%100%100%100%100%100%
WizardLM 2 8x22b100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Apr. 2024)100%100%100%100%100%100%100%100%100%100%100%
Cohere Command R+ (Aug. 2024)100%100%100%100%100%100%100%100%100%100%100%
Mistral Large100%100%100%100%100%100%100%100%100%100%100%
Mistral Large 2100%100%100%100%100%100%100%100%100%100%100%
Ministral 3B100%100%100%100%100%100%100%100%100%100%100%
Ministral 8B100%100%100%100%100%100%100%100%100%100%100%
Mistral Medium100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Llama 3 Euryale 70B v2.1100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Euryale 70B v2.2100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2.5 72B100%100%100%100%100%100%100%100%100%100%100%
Qwen 2 7B100%100%100%100%100%100%100%100%100%100%100%
lzlv 70B100%100%100%100%100%100%100%100%100%100%100%
MythoMax 13B100%100%100%100%100%100%100%100%100%100%100%
MythoMist 7B100%100%100%100%100%100%100%100%100%100%100%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%100%100%100%
Toppy M 7B100%100%100%100%100%100%100%100%100%100%100%
Claude 2.0100%100%100%100%100%100%100%100%100%100%100%
Claude 2.1100%100%100%100%100%100%100%100%100%100%100%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Goliath 120B100%100%100%100%100%100%100%100%100%100%100%
GPT-4 Turbo100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=0)100%100%100%100%100%100%100%100%100%100%100%
GPT-4o Mini (temp=1)100%100%100%100%100%100%100%100%100%100%100%
Mistral NeMO100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 8B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 70B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 3B100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 11B (Vision)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%100%100%100%
AI21 Jamba 1.5 Large100%100%100%100%100%100%100%100%100%100%100%
Lumimaid v0.2 8B100%100%100%100%100%100%100%100%100%100%100%
Liquid: LFM 40B MoE100%100%100%100%100%100%100%100%100%100%100%
Rocinante 12B100%100%100%100%100%100%100%100%100%100%100%
EVA Qwen 2.5 14B100%100%100%100%100%100%100%100%100%100%100%
Magnum v2 72B100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (Productivity)100%100%100%100%100%100%100%100%100%100%100%
Inflection 3 (PI)100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%100%100%
Sao10K L3.1 70B Hanami x1100%100%100%100%100%100%100%100%100%100%100%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%100%100%100%100%100%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1 Nano100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Flash (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%100%100%
Mistral Small Creative100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Phi-3 Mini 128k100%100%100%100%100%100%100%100%100%0%90%
Fimbulvetr 11B v2100%100%100%100%100%100%100%100%100%0%90%
Mistral Nemo 12B Celeste100%100%100%100%100%100%100%100%100%0%90%
AI21 Jamba 1.5 Mini100%100%100%100%100%100%100%100%100%0%90%
AI21 Jamba100%100%100%100%100%100%100%100%0%0%80%
Llama 3.2 1B100%100%100%100%0%0%0%0%0%0%40%
Phi-3 Medium 128k100%0%0%0%0%0%0%0%0%0%10%
97.74%

Count scenes

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Mistral NeMO100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%0%90%
Mistral Large 2100%100%100%100%100%100%100%100%0%0%80%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%0%0%80%
Claude Sonnet 4100%100%100%100%100%100%100%100%0%0%80%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%0%0%80%
Claude Opus 4.5100%100%100%100%100%100%100%100%0%0%80%
GPT-4.1100%100%100%100%100%100%0%0%0%0%60%
Claude Haiku 4.5100%100%100%100%100%0%0%0%0%0%50%
Claude 3.5 Sonnet100%100%100%100%0%0%0%0%0%0%40%
Mistral Nemo 12B Celeste100%100%100%100%0%0%0%0%0%0%40%
Claude 3.5 Sonnet (new)100%100%100%100%0%0%0%0%0%0%40%
Claude 3.7 Sonnet100%100%100%0%0%0%0%0%0%0%30%
Mistral Medium100%100%100%0%0%0%0%0%0%0%30%
DeepSeek-V2 Chat100%100%100%0%0%0%0%0%0%0%30%
Llama 3.2 11B (Vision)100%100%100%0%0%0%0%0%0%0%30%
Llama 3.2 90B (Vision)100%100%100%0%0%0%0%0%0%0%30%
Claude Opus 4100%100%100%0%0%0%0%0%0%0%30%
Claude 3 Haiku100%100%0%0%0%0%0%0%0%0%20%
WizardLM 2 8x22b100%100%0%0%0%0%0%0%0%0%20%
GPT-4o, May 13th (temp=1)100%100%0%0%0%0%0%0%0%0%20%
Qwen 2 72B100%100%0%0%0%0%0%0%0%0%20%
Claude 3.5 Haiku100%100%0%0%0%0%0%0%0%0%20%
Z.AI GLM 4.5100%100%0%0%0%0%0%0%0%0%20%
Gemini Flash 1.5100%0%0%0%0%0%0%0%0%0%10%
Phi-3 Medium 128k100%0%0%0%0%0%0%0%0%0%10%
Hermes 3 70B100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Apr. 2024)100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Aug. 2024)100%0%0%0%0%0%0%0%0%0%10%
Mistral Large100%0%0%0%0%0%0%0%0%0%10%
Ministral 8B100%0%0%0%0%0%0%0%0%0%10%
MythoMist 7B100%0%0%0%0%0%0%0%0%0%10%
Toppy M 7B100%0%0%0%0%0%0%0%0%0%10%
Claude 2.0100%0%0%0%0%0%0%0%0%0%10%
Claude 3.0 Sonnet100%0%0%0%0%0%0%0%0%0%10%
GPT-4 Turbo100%0%0%0%0%0%0%0%0%0%10%
GPT-4o Mini (temp=1)100%0%0%0%0%0%0%0%0%0%10%
Llama 3 70B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.1 8B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.1 70B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.1 405B100%0%0%0%0%0%0%0%0%0%10%
EVA Qwen 2.5 14B100%0%0%0%0%0%0%0%0%0%10%
Magnum v2 72B100%0%0%0%0%0%0%0%0%0%10%
Inflection 3 (Productivity)100%0%0%0%0%0%0%0%0%0%10%
GPT-4.1 Mini100%0%0%0%0%0%0%0%0%0%10%
Mistral Small Creative100%0%0%0%0%0%0%0%0%0%10%
Writer: Palmyra X5100%0%0%0%0%0%0%0%0%0%10%
Magnum 72B0%0%0%0%0%0%0%0%0%0%0%
Gemini Pro 1.50%0%0%0%0%0%0%0%0%0%0%
Gemma 2 9B0%0%0%0%0%0%0%0%0%0%0%
Gemma 2 27B0%0%0%0%0%0%0%0%0%0%0%
Phi-3 Mini 128k0%0%0%0%0%0%0%0%0%0%0%
Phi-3.5 Mini 128k0%0%0%0%0%0%0%0%0%0%0%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Hermes 3 405B0%0%0%0%0%0%0%0%0%0%0%
Ministral 3B0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, May 13th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Llama 3 Euryale 70B v2.10%0%0%0%0%0%0%0%0%0%0%
Llama 3.1 Euryale 70B v2.20%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba0%0%0%0%0%0%0%0%0%0%0%
Qwen 2.5 72B0%0%0%0%0%0%0%0%0%0%0%
Qwen 2 7B0%0%0%0%0%0%0%0%0%0%0%
lzlv 70B0%0%0%0%0%0%0%0%0%0%0%
MythoMax 13B0%0%0%0%0%0%0%0%0%0%0%
Claude 2.10%0%0%0%0%0%0%0%0%0%0%
Goliath 120B0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
Fimbulvetr 11B v20%0%0%0%0%0%0%0%0%0%0%
Llama 3.2 1B0%0%0%0%0%0%0%0%0%0%0%
Llama 3.2 3B0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Mini0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Large0%0%0%0%0%0%0%0%0%0%0%
Lumimaid v0.2 8B0%0%0%0%0%0%0%0%0%0%0%
Liquid: LFM 40B MoE0%0%0%0%0%0%0%0%0%0%0%
Rocinante 12B0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
Sao10K L3.1 70B Hanami x10%0%0%0%0%0%0%0%0%0%0%
Llama 3 TenyxChat-DaybreakStorywriter 70B0%0%0%0%0%0%0%0%0%0%0%
MN GRAND Gutenberg Lyra4 12B Madness0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash Lite0%0%0%0%0%0%0%0%0%0%0%
Gemini 3 Flash (Preview)0%0%0%0%0%0%0%0%0%0%0%
22.80%

Count scenes (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Mistral NeMO100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%0%90%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%0%0%80%
o4 Mini High100%100%100%100%100%100%100%100%0%0%80%
Claude 2.1100%100%100%100%100%100%100%0%0%0%70%
GPT-4.1100%100%100%100%100%100%100%0%0%0%70%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%0%0%0%0%60%
Claude 3.5 Sonnet100%100%100%100%0%0%0%0%0%0%40%
WizardLM 2 8x22b100%100%100%100%0%0%0%0%0%0%40%
Claude Haiku 4.5100%100%100%100%0%0%0%0%0%0%40%
Claude 3.7 Sonnet100%100%100%0%0%0%0%0%0%0%30%
Gemma 2 27B100%100%100%0%0%0%0%0%0%0%30%
GPT-4o, May 13th (temp=1)100%100%100%0%0%0%0%0%0%0%30%
Llama 3.1 405B100%100%100%0%0%0%0%0%0%0%30%
Sao10K L3.1 70B Hanami x1100%100%100%0%0%0%0%0%0%0%30%
Hermes 3 70B100%100%0%0%0%0%0%0%0%0%20%
Mistral Medium100%100%0%0%0%0%0%0%0%0%20%
Qwen 2 72B100%100%0%0%0%0%0%0%0%0%20%
Claude 2.0100%100%0%0%0%0%0%0%0%0%20%
Llama 3 70B100%100%0%0%0%0%0%0%0%0%20%
Llama 3.1 8B100%100%0%0%0%0%0%0%0%0%20%
Mistral Nemo 12B Celeste100%100%0%0%0%0%0%0%0%0%20%
Inflection 3 (Productivity)100%100%0%0%0%0%0%0%0%0%20%
Claude Opus 4100%100%0%0%0%0%0%0%0%0%20%
Writer: Palmyra X5100%100%0%0%0%0%0%0%0%0%20%
Magnum 72B100%0%0%0%0%0%0%0%0%0%10%
Hermes 3 405B100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Apr. 2024)100%0%0%0%0%0%0%0%0%0%10%
Mistral Large100%0%0%0%0%0%0%0%0%0%10%
Mistral Large 2100%0%0%0%0%0%0%0%0%0%10%
Ministral 3B100%0%0%0%0%0%0%0%0%0%10%
Qwen 2.5 72B100%0%0%0%0%0%0%0%0%0%10%
MythoMax 13B100%0%0%0%0%0%0%0%0%0%10%
DeepSeek-V2 Chat100%0%0%0%0%0%0%0%0%0%10%
Llama 3.1 70B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.2 11B (Vision)100%0%0%0%0%0%0%0%0%0%10%
Llama 3.2 90B (Vision)100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba 1.5 Mini100%0%0%0%0%0%0%0%0%0%10%
EVA Qwen 2.5 14B100%0%0%0%0%0%0%0%0%0%10%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%0%0%0%0%0%0%0%0%0%10%
MN GRAND Gutenberg Lyra4 12B Madness100%0%0%0%0%0%0%0%0%0%10%
Claude 3.5 Haiku100%0%0%0%0%0%0%0%0%0%10%
GPT-4.1 Mini100%0%0%0%0%0%0%0%0%0%10%
Gemini 2.5 Flash Lite100%0%0%0%0%0%0%0%0%0%10%
Z.AI GLM 4.5100%0%0%0%0%0%0%0%0%0%10%
Claude 3 Haiku0%0%0%0%0%0%0%0%0%0%0%
Gemini Flash 1.50%0%0%0%0%0%0%0%0%0%0%
Gemini Pro 1.50%0%0%0%0%0%0%0%0%0%0%
Gemma 2 9B0%0%0%0%0%0%0%0%0%0%0%
Phi-3 Medium 128k0%0%0%0%0%0%0%0%0%0%0%
Phi-3 Mini 128k0%0%0%0%0%0%0%0%0%0%0%
Phi-3.5 Mini 128k0%0%0%0%0%0%0%0%0%0%0%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Cohere Command R+ (Aug. 2024)0%0%0%0%0%0%0%0%0%0%0%
Ministral 8B0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, May 13th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Llama 3 Euryale 70B v2.10%0%0%0%0%0%0%0%0%0%0%
Llama 3.1 Euryale 70B v2.20%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba0%0%0%0%0%0%0%0%0%0%0%
Qwen 2 7B0%0%0%0%0%0%0%0%0%0%0%
lzlv 70B0%0%0%0%0%0%0%0%0%0%0%
MythoMist 7B0%0%0%0%0%0%0%0%0%0%0%
Toppy M 7B0%0%0%0%0%0%0%0%0%0%0%
Claude 3.0 Sonnet0%0%0%0%0%0%0%0%0%0%0%
Goliath 120B0%0%0%0%0%0%0%0%0%0%0%
GPT-4 Turbo0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Fimbulvetr 11B v20%0%0%0%0%0%0%0%0%0%0%
Llama 3.2 1B0%0%0%0%0%0%0%0%0%0%0%
Llama 3.2 3B0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Large0%0%0%0%0%0%0%0%0%0%0%
Lumimaid v0.2 8B0%0%0%0%0%0%0%0%0%0%0%
Liquid: LFM 40B MoE0%0%0%0%0%0%0%0%0%0%0%
Rocinante 12B0%0%0%0%0%0%0%0%0%0%0%
Magnum v2 72B0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash0%0%0%0%0%0%0%0%0%0%0%
Gemini 3 Flash (Preview)0%0%0%0%0%0%0%0%0%0%0%
Mistral Small Creative0%0%0%0%0%0%0%0%0%0%0%
23.76%

Count point of views for Jack Harper

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100% – – – – – – – – 100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Claude 2.0100%100%100%100%100%100%100%100%100%0%90%
Claude 2.1100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%0%90%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%0%90%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%0%90%
Mistral Small Creative100%100%100%100%100%100%100%100%100%0%90%
Claude 3.5 Sonnet100%100%100%100%100%100%100%100%0%0%80%
Claude 3.7 Sonnet100%100%100%100%100%100%100%100%0%0%80%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%0%0%80%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%0%0%80%
Llama 3 70B100%100%100%100%100%100%100%100%0%0%80%
Inflection 3 (Productivity)100%100%100%100%100%100%100%100%0%0%80%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%0%0%80%
Mistral Large 2100%100%100%100%100%100%100%0%0%0%70%
DeepSeek-V2 Chat100%100%100%100%100%100%100%0%0%0%70%
Llama 3.1 70B100%100%100%100%100%100%100%0%0%0%70%
Claude Opus 4.5100%100%100%100%100%100%100%0%0%0%70%
Z.AI GLM 4.5100%100%100%100%100%100%100%0%0%0%70%
Gemini Pro 1.5100%100%100%100%100%100%0%0%0%0%60%
Mistral Large100%100%100%100%100%100%0%0%0%0%60%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%0%0%0%0%60%
Magnum v2 72B100%100%100%100%100%0%0%0%0%0%50%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%0%0%0%0%0%50%
Gemini 3 Flash (Preview)100%100%100%100%100%0%0%0%0%0%50%
Claude 3 Haiku100%100%100%100%0%0%0%0%0%0%40%
Gemini Flash 1.5100%100%100%100%0%0%0%0%0%0%40%
Phi-3.5 Mini 128k100%100%100%100%0%0%0%0%0%0%40%
Ministral 8B100%100%100%100%0%0%0%0%0%0%40%
Mistral Medium100%100%100%100%0%0%0%0%0%0%40%
Mistral NeMO100%100%100%100%0%0%0%0%0%0%40%
Rocinante 12B100%100%100%100%0%0%0%0%0%0%40%
Gemini 2.5 Flash Lite100%100%100%100%0%0%0%0%0%0%40%
Gemma 2 27B100%100%100%0%0%0%0%0%0%0%30%
Phi-3 Medium 128k100%100%100%0%0%0%0%0%0%0%30%
Phi-3 Mini 128k100%100%100%0%0%0%0%0%0%0%30%
Ministral 3B100%100%100%0%0%0%0%0%0%0%30%
GPT-4o, Aug. 6th (temp=1)100%100%100%0%0%0%0%0%0%0%30%
Qwen 2.5 72B100%100%100%0%0%0%0%0%0%0%30%
Goliath 120B100%100%100%0%0%0%0%0%0%0%30%
Llama 3.1 8B100%100%100%0%0%0%0%0%0%0%30%
Llama 3.2 3B100%100%100%0%0%0%0%0%0%0%30%
Llama 3.2 11B (Vision)100%100%100%0%0%0%0%0%0%0%30%
Liquid: LFM 40B MoE100%100%100%0%0%0%0%0%0%0%30%
Sao10K L3.1 70B Hanami x1100%100%100%0%0%0%0%0%0%0%30%
GPT-4.1 Mini100%100%100%0%0%0%0%0%0%0%30%
Magnum 72B100%100%0%0%0%0%0%0%0%0%20%
Gemma 2 9B100%100%0%0%0%0%0%0%0%0%20%
Hermes 3 70B100%100%0%0%0%0%0%0%0%0%20%
WizardLM 2 8x22b100%100%0%0%0%0%0%0%0%0%20%
GPT-4o, Aug. 6th (temp=0)100%100%0%0%0%0%0%0%0%0%20%
Qwen 2 72B100%100%0%0%0%0%0%0%0%0%20%
lzlv 70B100%100%0%0%0%0%0%0%0%0%20%
MythoMist 7B100%100%0%0%0%0%0%0%0%0%20%
Llama 3.2 1B100%100%0%0%0%0%0%0%0%0%20%
Hermes 3 405B100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Apr. 2024)100%0%0%0%0%0%0%0%0%0%10%
Llama 3 Euryale 70B v2.1100%0%0%0%0%0%0%0%0%0%10%
Qwen 2 7B100%0%0%0%0%0%0%0%0%0%10%
Toppy M 7B100%0%0%0%0%0%0%0%0%0%10%
EVA Qwen 2.5 14B100%0%0%0%0%0%0%0%0%0%10%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Cohere Command R+ (Aug. 2024)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, May 13th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
Llama 3.1 Euryale 70B v2.20%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba0%0%0%0%0%0%0%0%0%0%0%
MythoMax 13B0%0%0%0%0%0%0%0%0%0%0%
GPT-4 Turbo0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Fimbulvetr 11B v20%0%0%0%0%0%0%0%0%0%0%
Mistral Nemo 12B Celeste0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Mini0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Large0%0%0%0%0%0%0%0%0%0%0%
Lumimaid v0.2 8B0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash0%0%0%0%0%0%0%0%0%0%0%
46.34%

Count point of views for Jack Harper (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
Claude 2.1100%100%100%100%100%100%100%100%100%100%100%
Claude 3.0 Sonnet100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 70B100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
GPT-4.1100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%100%0%90%
Qwen 2.5 72B100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 405B100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%0%90%
o4 Mini High100%100%100%100%100%100%100%100%100%0%90%
Claude Haiku 4.5100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%0%90%
Mistral Large 2100%100%100%100%100%100%100%100%0%0%80%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%0%0%80%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%0%0%80%
Llama 3.2 90B (Vision)100%100%100%100%100%100%100%100%0%0%80%
Claude 3.7 Sonnet100%100%100%100%100%100%100%0%0%0%70%
Gemma 2 9B100%100%100%100%100%100%100%0%0%0%70%
Llama 3 Euryale 70B v2.1100%100%100%100%100%100%100%0%0%0%70%
Claude 2.0100%100%100%100%100%100%100%0%0%0%70%
Llama 3 70B100%100%100%100%100%100%100%0%0%0%70%
Mistral Small Creative100%100%100%100%100%100%100%0%0%0%70%
Claude 3.5 Sonnet100%100%100%100%100%100%0%0%0%0%60%
Gemini Flash 1.5100%100%100%100%100%100%0%0%0%0%60%
Qwen 2 72B100%100%100%100%100%100%0%0%0%0%60%
Llama 3.2 11B (Vision)100%100%100%100%100%100%0%0%0%0%60%
Gemini 2.5 Flash Lite100%100%100%100%100%100%0%0%0%0%60%
Claude Opus 4.5100%100%100%100%100%100%0%0%0%0%60%
Claude 3 Haiku100%100%100%100%100%0%0%0%0%0%50%
Gemma 2 27B100%100%100%100%100%0%0%0%0%0%50%
Goliath 120B100%100%100%100%100%0%0%0%0%0%50%
Llama 3.2 3B100%100%100%100%100%0%0%0%0%0%50%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%0%0%0%0%0%50%
Gemini 3 Flash (Preview)100%100%100%100%100%0%0%0%0%0%50%
WizardLM 2 8x22b100%100%100%100%0%0%0%0%0%0%40%
Mistral Large100%100%100%100%0%0%0%0%0%0%40%
Ministral 3B100%100%100%100%0%0%0%0%0%0%40%
Magnum 72B100%100%100%0%0%0%0%0%0%0%30%
Phi-3 Mini 128k100%100%100%0%0%0%0%0%0%0%30%
Phi-3.5 Mini 128k100%100%100%0%0%0%0%0%0%0%30%
Mistral Medium100%100%100%0%0%0%0%0%0%0%30%
GPT-4o, May 13th (temp=0)100%100%100%0%0%0%0%0%0%0%30%
Llama 3.1 Euryale 70B v2.2100%100%100%0%0%0%0%0%0%0%30%
Qwen 2 7B100%100%100%0%0%0%0%0%0%0%30%
lzlv 70B100%100%100%0%0%0%0%0%0%0%30%
Llama 3.2 1B100%100%100%0%0%0%0%0%0%0%30%
EVA Qwen 2.5 14B100%100%100%0%0%0%0%0%0%0%30%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%0%0%0%0%0%0%0%30%
Claude Opus 4100%100%100%0%0%0%0%0%0%0%30%
Z.AI GLM 4.5100%100%100%0%0%0%0%0%0%0%30%
GPT-4 Turbo100%100%0%0%0%0%0%0%0%0%20%
Mistral NeMO100%100%0%0%0%0%0%0%0%0%20%
Lumimaid v0.2 8B100%100%0%0%0%0%0%0%0%0%20%
Liquid: LFM 40B MoE100%100%0%0%0%0%0%0%0%0%20%
Rocinante 12B100%100%0%0%0%0%0%0%0%0%20%
Magnum v2 72B100%100%0%0%0%0%0%0%0%0%20%
Inflection 3 (Productivity)100%100%0%0%0%0%0%0%0%0%20%
Hermes 3 405B100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Apr. 2024)100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Aug. 2024)100%0%0%0%0%0%0%0%0%0%10%
Ministral 8B100%0%0%0%0%0%0%0%0%0%10%
MythoMist 7B100%0%0%0%0%0%0%0%0%0%10%
Toppy M 7B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.1 8B100%0%0%0%0%0%0%0%0%0%10%
Mistral Nemo 12B Celeste100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba 1.5 Large100%0%0%0%0%0%0%0%0%0%10%
Gemini Pro 1.50%0%0%0%0%0%0%0%0%0%0%
Phi-3 Medium 128k0%0%0%0%0%0%0%0%0%0%0%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Hermes 3 70B0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba0%0%0%0%0%0%0%0%0%0%0%
MythoMax 13B0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Fimbulvetr 11B v20%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Mini0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
Sao10K L3.1 70B Hanami x10%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Mini0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash0%0%0%0%0%0%0%0%0%0%0%
47.50%

Count point of views for Olivia

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Llama 3.1 405B100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%0%90%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%0%90%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%0%90%
Claude Opus 4100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%0%90%
Gemini Pro 1.5100%100%100%100%100%100%100%100%0%0%80%
Mistral Medium100%100%100%100%100%100%100%100%0%0%80%
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%0%0%80%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%0%0%80%
Llama 3 70B100%100%100%100%100%100%100%0%0%0%70%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%100%0%0%0%70%
Claude 3.7 Sonnet100%100%100%100%100%100%0%0%0%0%60%
Mistral Large 2100%100%100%100%100%100%0%0%0%0%60%
GPT-4.1100%100%100%100%100%100%0%0%0%0%60%
Qwen 2.5 72B100%100%100%100%100%0%0%0%0%0%50%
Qwen 2 7B100%100%100%100%100%0%0%0%0%0%50%
lzlv 70B100%100%100%100%100%0%0%0%0%0%50%
Llama 3.1 8B100%100%100%100%100%0%0%0%0%0%50%
Llama 3.1 70B100%100%100%100%100%0%0%0%0%0%50%
Llama 3.2 11B (Vision)100%100%100%100%100%0%0%0%0%0%50%
Llama 3.2 90B (Vision)100%100%100%100%100%0%0%0%0%0%50%
Claude Sonnet 4.5100%100%100%100%100%0%0%0%0%0%50%
Writer: Palmyra X5100%100%100%0%0%0%0% – – – 43%
Gemma 2 27B100%100%100%100%0%0%0%0%0%0%40%
Phi-3 Medium 128k100%100%100%100%0%0%0%0%0%0%40%
Phi-3.5 Mini 128k100%100%100%100%0%0%0%0%0%0%40%
Ministral 3B100%100%100%100%0%0%0%0%0%0%40%
Mistral NeMO100%100%100%100%0%0%0%0%0%0%40%
Llama 3.2 3B100%100%100%100%0%0%0%0%0%0%40%
Magnum v2 72B100%100%100%100%0%0%0%0%0%0%40%
Sao10K L3.1 70B Hanami x1100%100%100%100%0%0%0%0%0%0%40%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%0%0%0%0%0%0%40%
Gemini 2.5 Flash100%100%100%100%0%0%0%0%0%0%40%
Claude Haiku 4.5100%100%100%100%0%0%0%0%0%0%40%
Z.AI GLM 4.5100%100%100%100%0%0%0%0%0%0%40%
Gemma 2 9B100%100%100%0%0%0%0%0%0%0%30%
Llama 3 Euryale 70B v2.1100%100%100%0%0%0%0%0%0%0%30%
Llama 3.1 Euryale 70B v2.2100%100%100%0%0%0%0%0%0%0%30%
Mistral Nemo 12B Celeste100%100%100%0%0%0%0%0%0%0%30%
Gemini 3 Flash (Preview)100%100%100%0%0%0%0%0%0%0%30%
Magnum 72B100%100%0%0%0%0%0%0%0%0%20%
Gemini Flash 1.5100%100%0%0%0%0%0%0%0%0%20%
Hermes 3 70B100%100%0%0%0%0%0%0%0%0%20%
WizardLM 2 8x22b100%100%0%0%0%0%0%0%0%0%20%
Qwen 2 72B100%100%0%0%0%0%0%0%0%0%20%
MythoMist 7B100%100%0%0%0%0%0%0%0%0%20%
DeepSeek-V2 Chat100%100%0%0%0%0%0%0%0%0%20%
GPT-4o Mini (temp=1)100%100%0%0%0%0%0%0%0%0%20%
Lumimaid v0.2 8B100%100%0%0%0%0%0%0%0%0%20%
Liquid: LFM 40B MoE100%100%0%0%0%0%0%0%0%0%20%
Rocinante 12B100%100%0%0%0%0%0%0%0%0%20%
EVA Qwen 2.5 14B100%100%0%0%0%0%0%0%0%0%20%
Inflection 3 (Productivity)100%100%0%0%0%0%0%0%0%0%20%
Claude 3 Haiku100%0%0%0%0%0%0%0%0%0%10%
Hermes 3 405B100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Aug. 2024)100%0%0%0%0%0%0%0%0%0%10%
Ministral 8B100%0%0%0%0%0%0%0%0%0%10%
GPT-4o, May 13th (temp=1)100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba100%0%0%0%0%0%0%0%0%0%10%
MythoMax 13B100%0%0%0%0%0%0%0%0%0%10%
Toppy M 7B100%0%0%0%0%0%0%0%0%0%10%
Claude 2.0100%0%0%0%0%0%0%0%0%0%10%
Goliath 120B100%0%0%0%0%0%0%0%0%0%10%
Fimbulvetr 11B v2100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba 1.5 Mini100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba 1.5 Large100%0%0%0%0%0%0%0%0%0%10%
Claude 3.5 Sonnet0%0%0%0%0%0%0%0%0%0%0%
Phi-3 Mini 128k0%0%0%0%0%0%0%0%0%0%0%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Cohere Command R+ (Apr. 2024)0%0%0%0%0%0%0%0%0%0%0%
Mistral Large0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, Aug. 6th (temp=1)0%0%0%0%0%0%0%0%0%0%0%
Claude 2.10%0%0%0%0%0%0%0%0%0%0%
Claude 3.0 Sonnet0%0%0%0%0%0%0%0%0%0%0%
GPT-4 Turbo0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
Llama 3.2 1B0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
Gemini 2.5 Flash Lite0%0%0%0%0%0%0%0%0%0%0%
Mistral Small Creative0%0%0%0%0%0%0%0%0%0%0%
39.28%

Count point of views for Olivia (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%100%100%
o4 Mini100%100%100%100%100%100%100%100%100%100%100%
o4 Mini High100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.5100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
Mistral Large 2100%100%100%100%100%100%100%100%100%0%90%
GPT-4.1100%100%100%100%100%100%100%100%100%0%90%
GPT-4.1 Mini100%100%100%100%100%100%100%100%100%0%90%
Claude Sonnet 4100%100%100%100%100%100%100%100%100%0%90%
Claude Sonnet 4.5100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%100%100%0%90%
Llama 3.1 405B100%100%100%100%100%100%100%100%0%0%80%
Llama 3.1 70B100%100%100%100%100%100%100%0%0%0%70%
Claude 3.7 Sonnet100%100%100%100%100%100%0%0%0%0%60%
Phi-3.5 Mini 128k100%100%100%100%100%100%0%0%0%0%60%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%0%0%0%0%60%
Llama 3.2 90B (Vision)100%100%100%100%100%100%0%0%0%0%60%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%100%100%0%0%0%0%60%
Claude 3.5 Haiku100%100%100%100%100%100%0%0%0%0%60%
Magnum 72B100%100%100%100%100%0%0%0%0%0%50%
GPT-4o, May 13th (temp=0)100%100%100%100%100%0%0%0%0%0%50%
Qwen 2 7B100%100%100%100%100%0%0%0%0%0%50%
lzlv 70B100%100%100%100%100%0%0%0%0%0%50%
Llama 3.2 11B (Vision)100%100%100%100%100%0%0%0%0%0%50%
Llama 3.1 Nemotron 70B100%100%100%100%100%0%0%0%0%0%50%
Sao10K L3.1 70B Hanami x1100%100%100%100%100%0%0%0%0%0%50%
Llama 3 Euryale 70B v2.1100%100%100%100%0%0%0%0%0%0%40%
Llama 3.1 Euryale 70B v2.2100%100%100%100%0%0%0%0%0%0%40%
Qwen 2 72B100%100%100%100%0%0%0%0%0%0%40%
Qwen 2.5 72B100%100%100%100%0%0%0%0%0%0%40%
Goliath 120B100%100%100%100%0%0%0%0%0%0%40%
Mistral NeMO100%100%100%100%0%0%0%0%0%0%40%
Llama 3.2 3B100%100%100%100%0%0%0%0%0%0%40%
Z.AI GLM 4.5100%100%100%100%0%0%0%0%0%0%40%
Phi-3 Mini 128k100%100%100%0%0%0%0%0%0%0%30%
Hermes 3 405B100%100%100%0%0%0%0%0%0%0%30%
Ministral 3B100%100%100%0%0%0%0%0%0%0%30%
Ministral 8B100%100%100%0%0%0%0%0%0%0%30%
Liquid: LFM 40B MoE100%100%100%0%0%0%0%0%0%0%30%
Rocinante 12B100%100%100%0%0%0%0%0%0%0%30%
EVA Qwen 2.5 14B100%100%100%0%0%0%0%0%0%0%30%
Gemini 2.5 Flash100%100%100%0%0%0%0%0%0%0%30%
Mistral Small Creative100%100%100%0%0%0%0%0%0%0%30%
Writer: Palmyra X5100%100%0%0%0%0%0%0% – – 25%
Gemma 2 9B100%100%0%0%0%0%0%0%0%0%20%
Hermes 3 70B100%100%0%0%0%0%0%0%0%0%20%
WizardLM 2 8x22b100%100%0%0%0%0%0%0%0%0%20%
Toppy M 7B100%100%0%0%0%0%0%0%0%0%20%
Claude 2.0100%100%0%0%0%0%0%0%0%0%20%
Fimbulvetr 11B v2100%100%0%0%0%0%0%0%0%0%20%
Llama 3.1 8B100%100%0%0%0%0%0%0%0%0%20%
Magnum v2 72B100%100%0%0%0%0%0%0%0%0%20%
Inflection 3 (Productivity)100%100%0%0%0%0%0%0%0%0%20%
MN GRAND Gutenberg Lyra4 12B Madness100%100%0%0%0%0%0%0%0%0%20%
Gemini 2.5 Flash Lite100%100%0%0%0%0%0%0%0%0%20%
Claude Haiku 4.5100%100%0%0%0%0%0%0%0%0%20%
Claude 3 Haiku100%0%0%0%0%0%0%0%0%0%10%
Gemini Pro 1.5100%0%0%0%0%0%0%0%0%0%10%
Cohere Command R+ (Apr. 2024)100%0%0%0%0%0%0%0%0%0%10%
Mistral Medium100%0%0%0%0%0%0%0%0%0%10%
GPT-4o, Aug. 6th (temp=1)100%0%0%0%0%0%0%0%0%0%10%
MythoMist 7B100%0%0%0%0%0%0%0%0%0%10%
Llama 3.2 1B100%0%0%0%0%0%0%0%0%0%10%
Mistral Nemo 12B Celeste100%0%0%0%0%0%0%0%0%0%10%
Lumimaid v0.2 8B100%0%0%0%0%0%0%0%0%0%10%
Gemini 3 Flash (Preview)100%0%0%0%0%0%0%0%0%0%10%
Claude 3.5 Sonnet0%0%0%0%0%0%0%0%0%0%0%
Gemini Flash 1.50%0%0%0%0%0%0%0%0%0%0%
Gemma 2 27B0%0%0%0%0%0%0%0%0%0%0%
Phi-3 Medium 128k0%0%0%0%0%0%0%0%0%0%0%
Hermes 2 Theta 8B0%0%0%0%0%0%0%0%0%0%0%
Cohere Command R+ (Aug. 2024)0%0%0%0%0%0%0%0%0%0%0%
Mistral Large0%0%0%0%0%0%0%0%0%0%0%
GPT-4o, May 13th (temp=1)0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba0%0%0%0%0%0%0%0%0%0%0%
MythoMax 13B0%0%0%0%0%0%0%0%0%0%0%
DeepSeek-V2 Chat0%0%0%0%0%0%0%0%0%0%0%
Claude 2.10%0%0%0%0%0%0%0%0%0%0%
Claude 3.0 Sonnet0%0%0%0%0%0%0%0%0%0%0%
GPT-4 Turbo0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=0)0%0%0%0%0%0%0%0%0%0%0%
GPT-4o Mini (temp=1)0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Mini0%0%0%0%0%0%0%0%0%0%0%
AI21 Jamba 1.5 Large0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
GPT-4.1 Nano0%0%0%0%0%0%0%0%0%0%0%
38.23%

Count point of views for Jack and Olivia

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%100%100%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%100%100%100%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%100%100%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
DeepSeek-V2 Chat100%100%100%100%100%100%100%100%100%50%95%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%50%95%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%100%50%95%
Claude Opus 4100%100%100%100%100%100%100%100%100%50%95%
Mistral Large100%100%100%100%100%100%100%50%50%50%85%
GPT-4.1100%100%100%100%100%100%100%100%50%0%85%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%0%0%80%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%50%50%50%50%50%75%
Qwen 2 72B100%100%100%100%100%100%100%50%0%0%75%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%50%50%0%0%70%
Qwen 2.5 72B100%100%100%100%100%50%50%50%50%0%70%
Claude Sonnet 4100%100%100%100%100%50%50%50%50%0%70%
GPT-4o, May 13th (temp=1)100%100%100%100%100%50%50%50%0%0%65%
Claude 2.1100%100%100%100%100%50%50%50%0%0%65%
Llama 3.1 70B100%100%100%100%100%100%50%0%0%0%65%
GPT-4.1 Mini100%100%100%100%100%50%50%50%0%0%65%
GPT-4.1 Nano100%100%100%50%50%50%50%50%50%50%65%
GPT-4o Mini (temp=1)100%100%50%50%50%50%50%50%50%50%60%
Llama 3.2 11B (Vision)100%100%100%100%50%50%50%50%0%0%60%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%100%50%50%50%50%0%0%60%
Claude Haiku 4.5100%100%100%100%100%100%0%0%0%0%60%
Hermes 3 70B100%100%100%100%100%50%0%0%0%0%55%
Claude 2.0100%100%100%100%50%50%50%0%0%0%55%
Claude 3.0 Sonnet100%100%100%100%50%50%50%0%0%0%55%
Claude Opus 4.5100%100%50%50%50%50%50%50%50%0%55%
WizardLM 2 8x22b100%100%100%50%50%50%50%0%0%0%50%
GPT-4o Mini (temp=0)50%50%50%50%50%50%50%50%50%50%50%
Magnum v2 72B100%100%100%100%50%50%0%0%0%0%50%
o4 Mini High100%100%100%100%100%0%0%0%0%0%50%
Gemini 2.5 Flash100%100%100%50%50%50%50%0%0%0%50%
Claude Sonnet 4.5100%100%100%100%50%50%0%0%0%0%50%
Mistral Large 2100%50%50%50%50%50%50%50%0%0%45%
Llama 3.1 Euryale 70B v2.2100%50%50%50%50%50%50%50%0%0%45%
Z.AI GLM 4.7 Flash100%100%100%100%50%0%0%0%0%0%45%
Gemini Flash 1.5100%100%100%50%50%0%0%0%0%0%40%
Phi-3.5 Mini 128k100%100%100%50%50%0%0%0%0%0%40%
Llama 3.1 405B100%100%50%50%50%50%0%0%0%0%40%
o4 Mini100%100%100%100%0%0%0%0%0%0%40%
Gemini 3 Flash (Preview)100%50%50%50%50%50%50%0%0%0%40%
Claude Opus 4.6100%100%100%100%0%0%0%0%0%0%40%
Mistral Small Creative100%50%50%50%50%50%50%0%0%0%40%
Claude 3 Haiku100%100%100%50%0%0%0%0%0%0%35%
Rocinante 12B100%50%50%50%50%50%0%0%0%0%35%
EVA Qwen 2.5 14B100%100%50%50%50%0%0%0%0%0%35%
Sao10K L3.1 70B Hanami x150%50%50%50%50%50%50%0%0%0%35%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%50%0%0%0%0%0%0%35%
Ministral 3B100%100%50%50%0%0%0%0%0%0%30%
Mistral NeMO100%100%50%50%0%0%0%0%0%0%30%
Llama 3.1 8B100%100%50%50%0%0%0%0%0%0%30%
Llama 3.2 90B (Vision)100%100%50%50%0%0%0%0%0%0%30%
Hermes 3 405B50%50%50%50%50%0%0%0%0%0%25%
Cohere Command R+ (Aug. 2024)50%50%50%50%50%0%0%0%0%0%25%
MythoMax 13B100%50%50%50%0%0%0%0%0%0%25%
Goliath 120B100%50%50%50%0%0%0%0%0%0%25%
Llama 3.2 3B50%50%50%50%50%0%0%0%0%0%25%
Gemma 2 27B100%50%50%0%0%0%0%0%0%0%20%
Claude 3.7 Sonnet100%50%0%0%0%0%0%0%0%0%15%
Gemini Pro 1.550%50%50%0%0%0%0%0%0%0%15%
Hermes 2 Theta 8B50%50%50%0%0%0%0%0%0%0%15%
Cohere Command R+ (Apr. 2024)100%50%0%0%0%0%0%0%0%0%15%
Ministral 8B100%50%0%0%0%0%0%0%0%0%15%
Toppy M 7B50%50%50%0%0%0%0%0%0%0%15%
GPT-4 Turbo100%50%0%0%0%0%0%0%0%0%15%
AI21 Jamba 1.5 Large50%50%50%0%0%0%0%0%0%0%15%
Lumimaid v0.2 8B50%50%50%0%0%0%0%0%0%0%15%
Liquid: LFM 40B MoE50%50%50%0%0%0%0%0%0%0%15%
Claude 3.5 Sonnet50%50%0%0%0%0%0%0%0%0%10%
Gemma 2 9B50%50%0%0%0%0%0%0%0%0%10%
Phi-3 Medium 128k50%50%0%0%0%0%0%0%0%0%10%
Phi-3 Mini 128k50%50%0%0%0%0%0%0%0%0%10%
Mistral Medium50%50%0%0%0%0%0%0%0%0%10%
Llama 3 Euryale 70B v2.150%50%0%0%0%0%0%0%0%0%10%
AI21 Jamba50%50%0%0%0%0%0%0%0%0%10%
Qwen 2 7B50%50%0%0%0%0%0%0%0%0%10%
Fimbulvetr 11B v250%50%0%0%0%0%0%0%0%0%10%
Magnum 72B50%0%0%0%0%0%0%0%0%0%5%
lzlv 70B50%0%0%0%0%0%0%0%0%0%5%
MythoMist 7B50%0%0%0%0%0%0%0%0%0%5%
Llama 3.2 1B50%0%0%0%0%0%0%0%0%0%5%
Mistral Nemo 12B Celeste50%0%0%0%0%0%0%0%0%0%5%
AI21 Jamba 1.5 Mini50%0%0%0%0%0%0%0%0%0%5%
Inflection 3 (Productivity)50%0%0%0%0%0%0%0%0%0%5%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
45.22%

Count point of views for Jack and Olivia (indented)

0-shot ToolingUtility
Model Run 1 Run 2 Run 3 Run 4 Run 5 Run 6 Run 7 Run 8 Run 9 Run 10 Total
GPT-4o, May 13th (temp=0)100%100%100%100%100%100%100%100%100%100%100%
Llama 3 70B100%100%100%100%100%100%100%100%100%100%100%
Claude 3.5 Haiku100%100%100%100%100%100%100%100%100%100%100%
Gemini 3 Pro (Preview)100%100%100%100%100%100%100%100%100%100%100%
Claude Opus 4.6100%100%100%100%100%100%100%100%100%100%100%
MoonshotAI: Kimi K2.5100%100%100%100%100%100%100%100%100%100%100%
GPT-4o, Aug. 6th (temp=0)100%100%100%100%100%100%100%100%100%50%95%
Llama 3.1 Nemotron 70B100%100%100%100%100%100%100%100%100%50%95%
Z.AI GLM 4.6100%100%100%100%100%100%100%100%100%50%95%
Writer: Palmyra X5100%100%100%100%100%100%100%100%100%50%95%
GPT-4o, May 13th (temp=1)100%100%100%100%100%100%100%100%50%50%90%
GPT-4o, Aug. 6th (temp=1)100%100%100%100%100%100%100%100%50%50%90%
Qwen 2 72B100%100%100%100%100%100%100%100%100%0%90%
Claude 3.5 Sonnet (new)100%100%100%100%100%100%100%100%50%50%90%
Gemini 2.5 Pro100%100%100%100%100%100%100%100%100%0%90%
Gemini 2.5 Flash Lite100%100%100%100%100%100%100%100%100%0%90%
Z.AI GLM 4.7100%100%100%100%100%100%100%100%100%0%90%
Claude 2.1100%100%100%100%100%100%50%50%50%50%80%
Claude Sonnet 4100%100%100%100%100%100%100%50%50%0%80%
Z.AI GLM 4.5100%100%100%100%100%100%100%100%0%0%80%
Mistral Small Creative100%100%100%100%100%100%50%50%50%50%80%
Qwen 2.5 72B100%100%100%100%100%50%50%50%50%50%75%
GPT-4.1100%100%100%100%100%100%100%50%0%0%75%
Claude Opus 4100%100%100%100%100%100%100%50%0%0%75%
Z.AI GLM 4.7 Flash100%100%100%100%100%100%100%50%0%0%75%
Claude Opus 4.5100%100%100%100%100%50%50%50%50%0%70%
WizardLM 2 8x22b100%100%100%100%50%50%50%50%50%0%65%
Llama 3.2 11B (Vision)100%100%100%100%100%50%50%50%0%0%65%
Magnum v2 72B100%100%100%100%100%100%50%0%0%0%65%
MN GRAND Gutenberg Lyra4 12B Madness100%100%100%100%100%50%50%50%0%0%65%
GPT-4.1 Nano100%100%100%50%50%50%50%50%50%50%65%
Claude 2.0100%100%100%100%100%100%0%0%0%0%60%
Llama 3.1 70B100%100%100%100%100%50%50%0%0%0%60%
Llama 3.1 405B100%100%100%100%50%50%50%50%0%0%60%
o4 Mini100%100%100%100%100%100%0%0%0%0%60%
o4 Mini High100%100%100%100%100%100%0%0%0%0%60%
DeepSeek-V2 Chat100%100%100%100%50%50%50%0%0%0%55%
GPT-4o Mini (temp=0)100%50%50%50%50%50%50%50%50%50%55%
GPT-4o Mini (temp=1)100%100%50%50%50%50%50%50%50%0%55%
Gemini 2.5 Flash100%100%100%100%50%50%50%0%0%0%55%
Gemini 3 Flash (Preview)100%50%50%50%50%50%50%50%50%50%55%
Hermes 3 70B100%100%100%50%50%50%50%0%0%0%50%
Cohere Command R+ (Aug. 2024)100%100%100%50%50%50%50%0%0%0%50%
Claude Haiku 4.5100%100%100%100%50%50%0%0%0%0%50%
Goliath 120B100%100%100%50%50%50%0%0%0%0%45%
Llama 3.2 90B (Vision)100%100%100%100%50%0%0%0%0%0%45%
EVA Qwen 2.5 14B100%100%100%50%50%50%0%0%0%0%45%
GPT-4.1 Mini100%100%100%100%50%0%0%0%0%0%45%
Hermes 3 405B100%100%50%50%50%50%0%0%0%0%40%
Mistral Large 2100%100%50%50%50%50%0%0%0%0%40%
Ministral 3B100%100%50%50%50%50%0%0%0%0%40%
Ministral 8B100%100%100%50%50%0%0%0%0%0%40%
Llama 3 TenyxChat-DaybreakStorywriter 70B100%100%100%50%50%0%0%0%0%0%40%
Llama 3.2 3B100%100%100%50%0%0%0%0%0%0%35%
Claude 3 Haiku100%50%50%50%50%0%0%0%0%0%30%
Gemini Flash 1.5100%100%100%0%0%0%0%0%0%0%30%
Claude 3.0 Sonnet100%100%100%0%0%0%0%0%0%0%30%
Mistral NeMO50%50%50%50%50%50%0%0%0%0%30%
Claude 3.7 Sonnet100%100%50%0%0%0%0%0%0%0%25%
lzlv 70B100%50%50%50%0%0%0%0%0%0%25%
Llama 3.1 8B100%50%50%50%0%0%0%0%0%0%25%
Sao10K L3.1 70B Hanami x1100%50%50%50%0%0%0%0%0%0%25%
Magnum 72B100%50%50%0%0%0%0%0%0%0%20%
Gemma 2 9B50%50%50%50%0%0%0%0%0%0%20%
Gemma 2 27B50%50%50%50%0%0%0%0%0%0%20%
Phi-3.5 Mini 128k100%50%50%0%0%0%0%0%0%0%20%
Hermes 2 Theta 8B100%50%50%0%0%0%0%0%0%0%20%
Qwen 2 7B100%50%50%0%0%0%0%0%0%0%20%
Mistral Nemo 12B Celeste100%50%50%0%0%0%0%0%0%0%20%
Claude 3.5 Sonnet50%50%50%0%0%0%0%0%0%0%15%
Mistral Medium50%50%50%0%0%0%0%0%0%0%15%
Fimbulvetr 11B v250%50%50%0%0%0%0%0%0%0%15%
AI21 Jamba 1.5 Large50%50%50%0%0%0%0%0%0%0%15%
Rocinante 12B100%50%0%0%0%0%0%0%0%0%15%
Phi-3 Medium 128k50%50%0%0%0%0%0%0%0%0%10%
Llama 3 Euryale 70B v2.150%50%0%0%0%0%0%0%0%0%10%
Llama 3.1 Euryale 70B v2.250%50%0%0%0%0%0%0%0%0%10%
MythoMax 13B50%50%0%0%0%0%0%0%0%0%10%
Toppy M 7B50%50%0%0%0%0%0%0%0%0%10%
GPT-4 Turbo100%0%0%0%0%0%0%0%0%0%10%
AI21 Jamba 1.5 Mini50%50%0%0%0%0%0%0%0%0%10%
Liquid: LFM 40B MoE50%50%0%0%0%0%0%0%0%0%10%
Claude Sonnet 4.550%50%0%0%0%0%0%0%0%0%10%
Phi-3 Mini 128k50%0%0%0%0%0%0%0%0%0%5%
AI21 Jamba50%0%0%0%0%0%0%0%0%0%5%
MythoMist 7B50%0%0%0%0%0%0%0%0%0%5%
Llama 3.2 1B50%0%0%0%0%0%0%0%0%0%5%
Lumimaid v0.2 8B50%0%0%0%0%0%0%0%0%0%5%
Inflection 3 (Productivity)50%0%0%0%0%0%0%0%0%0%5%
Gemini Pro 1.50%0%0%0%0%0%0%0%0%0%0%
Cohere Command R+ (Apr. 2024)0%0%0%0%0%0%0%0%0%0%0%
Mistral Large0%0%0%0%0%0%0%0%0%0%0%
Inflection 3 (PI)0%0%0%0%0%0%0%0%0%0%0%
46.45%