用OpenAI模型写小说、剧本、散文或品牌故事,最常见的误区是把“最新”直接等同于“最会写”。但创意写作看重的不是单题正确率,而是声音、节奏、克制感、角色一致性,以及改稿时能不能保住原来的气质。
OpenAI的写作用例页把ChatGPT描述为写作者的想法回音板、故事顾问、研究助手和编辑;这说明ChatGPT可以进入写作流程,但并不等于官方给出了一个创意写作模型排行榜。[19]
更稳妥的结论是:先按任务选候选模型,再用同一份提示词盲测。 如果你的账号或API环境能使用GPT-4.5,创意写作可以优先把它放进候选;如果没有,GPT-4.1通常是更务实的日常主力,GPT-4.1 mini适合发散想法和低风险初稿。GPT-5系列值得一起测,但目前可用来源不足以证明它已经在创意写作上明确胜过GPT-4.5。[2][
13][
16]
先看这张选择表
| 写作任务 | 建议先试 | 为什么 |
|---|---|---|
| 小说、散文、人物对白、品牌故事、高质量润色 | GPT-4.5 | OpenAI有独立的GPT-4.5介绍页,包含人机协作训练以及在ChatGPT/API中的使用说明;第三方写作比较也把GPT-4.5描述为偏自然对话和写作辅助取向。[ |
| 博客、 newsletter、长文初稿、日常改写 | GPT-4.1 | OpenAI的ChatGPT发布说明显示,GPT-4.1已面向所有付费用户提供;第三方模型选择资料也把GPT-4系列归入rich conversation、writing、long reads等任务。[ |
| 标题脑暴、短文变体、人物设定清单、初稿打底 | GPT-4.1 mini | OpenAI发布说明显示,GPT-4.1 mini已取代GPT-4o mini,成为ChatGPT所有用户可用的选项。[ |
| 剧情漏洞、世界观规则、结构检查、工具流程 | o-series辅助 | 第三方模型比较把o-series描述为更偏推理、工具使用、STEM、代码和agent flows;它适合查逻辑,不一定适合做最终文风模型。[ |
| 想比较最新模型 | 把GPT-5系列纳入同题盲测 | OpenAI模型发布说明已经列出GPT-5相关更新;但本文来源没有提供GPT-5与GPT-4.5在小说、散文或角色声音上的官方直接比较。[ |
为什么不能只按发布时间选?
创意写作不是填选择题。一个模型也许在推理、代码或工具调用上更强,却未必更会保留人物口吻、段落气味和叙事节奏。
比如,你让模型改一段小说,它可能把文字“优化”得更顺,却顺手抹掉了角色的别扭、冷淡、犹豫和地方感。对创作来说,这不一定是进步。OpenAI的写作用例可以支持ChatGPT适合作为写作伙伴这一点,但不能推出“某个最新模型一定是最佳文学模型”的结论。[19]
这也是看待GPT-5时需要保守的原因。OpenAI的模型发布说明能支持GPT-5系列已有更新,但发布说明本身不是创意写作基准测试;在本文可用来源中,没有官方资料直接证明GPT-5已经全面取代GPT-4.5,成为小说或散文首选。[2]
GPT-4.5:最值得先放进创意写作候选名单
如果你的ChatGPT或API环境能选GPT-4.5,小说开场、散文段落、人物对白、品牌故事和高质量润色,可以先从它开始测。
这不是因为OpenAI明文宣布GPT-4.5是写作冠军,而是目前信号比较集中:OpenAI为GPT-4.5提供独立介绍页,并列出人机协作训练以及ChatGPT/API使用方式;第三方写作比较也把它描述为自然、直觉式对话和强写作辅助取向。[16][
9]
适合用GPT-4.5测试的任务包括:
- 写一段有气氛但不过度煽情的小说开场
- 让两个角色用不同口吻对话
- 把平淡草稿改得更有风格,但不改变原意
- 为品牌写一段不那么像广告的故事
- 在不增加信息的前提下提升段落节奏
这些是基于模型定位和写作需求的实务匹配,不是官方排行榜。[16][
19]
GPT-4.1:没有GPT-4.5时的稳定主力
GPT-4.1的优势在于可用性和通用写作流程。OpenAI的ChatGPT发布说明显示,GPT-4.1已提供给所有付费用户;因此它更适合需要长期稳定产出的场景,比如博客、newsletter、访谈整理、长文结构、段落扩写和日常文案改写。[13]
如果你的真实需求是“每天都要写、要稳定、要容易取得”,GPT-4.1往往比追逐少数高阶模型更实际。第三方模型选择资料也把GPT-4系列放在rich conversation、writing、long reads这类任务中;这个信号不是官方保证,但与日常写作场景相符。[4]
GPT-4.1 mini:适合发散,不必负责最后定稿
GPT-4.1 mini适合标题变体、短文改写、角色设定清单、冲突点发想和低风险初稿。它的最大优点是可取得性:OpenAI发布说明显示,GPT-4.1 mini已取代GPT-4o mini,成为ChatGPT所有用户可用的选项。[13]
但如果作品进入定稿阶段,尤其要求细腻文风、角色声音稳定和长段落节奏,建议把mini产出的初稿再交给GPT-4.5或GPT-4.1精修。这不是说mini不能写,而是把它放在更适合的位置:先发散,后打磨。
o-series和GPT-5该怎么放进流程?
o-series更适合当“逻辑检查员”。第三方模型比较把o-series归入deliberate reasoning、tool use、STEM、code、agent flows等方向,因此可以用来检查剧情漏洞、世界观规则、章节因果和资料整理;但最后的文风统一,仍建议回到你在盲测中表现最稳的GPT系列模型。[4]
GPT-5则应该纳入同场测试,而不是默认胜出。OpenAI的模型发布说明显示GPT-5系列持续有更新;但在本文可用来源中,这只能支持“GPT-5值得测”,不能支持“GPT-5已经是创意写作最佳”。[2]
用20分钟做一次公平盲测
不要每个模型问不同题目。最简单的方法是把GPT-4.5、GPT-4.1、GPT-4.1 mini和GPT-5放进同一份提示词,隐藏模型名称后按结果评分。
可以用这个测试题:
请写一段约700字的短篇小说开场。主角是一位离开上海十年的摄影师,回到县城老家整理父亲遗物。语气要克制,带一点悬疑,不要过度煽情。避免常见AI式华丽形容词,让场景细节推动情绪。
评分时看六件事:
- 文字是否自然,不像模板文案
- 角色声音是否稳定
- 场景是否有画面感
- 是否遵守字数、语气和禁忌限制
- 改稿时是否保留原本风格
- 是否避免过度解释角色心理
接着再测一次改稿能力:
保留原本克制的语气,但让第二段更有张力。不要增加新角色,不要解释主角心理,只通过物件和动作呈现。
如果模型一改稿就把文字洗成通用、情绪过满或解释太多的版本,它就不适合作为你的主要创意写作模型。
最后怎么选?
保守排序可以这样看:GPT-4.5优先用于小说、散文、角色声音和高质量润色;GPT-4.1是没有GPT-4.5时的日常主力;GPT-4.1 mini适合脑暴和初稿;o-series用来检查逻辑;GPT-5加入盲测,但不要只因为名称更新就自动排第一。[2][
4][
13][
16]
真正适合创意写作的模型,不一定是最新或最大,而是能稳定产出你要的声音、节奏和改稿质量的模型。




