GPT-5.4 模型专题视觉
GPT-5.4模型定位
模型定位:根据 OpenAI 在 2026 年 3 月发布的官方说明,GPT-5.4 是当前面向专业工作负载的主力前沿模型,其目标不是单纯提升问答能力,而是把推理、编程、工具调用、专业知识工作与长任务执行整合进统一模型框架。
产品形态:GPT-5.4 目前主要以 GPT-5.4 Thinking 和 GPT-5.4 Pro 两种形态出现。Thinking 面向复杂但日常可见的专业任务,Pro 面向更高难度、持续时间更长、对可靠性要求更高的研究型工作流。
为什么 GPT-5.4 受到关注
能力整合:OpenAI 对 GPT-5.4 的定义重点,在于它继承并融合了 GPT-5.3-Codex 的编程优势,同时增强了文档、表格、演示文稿、工具生态和网页研究能力,因此它并不只是“更会聊天”,而是更适合承担真实工作链路中的核心执行角色。
输出方式:在 ChatGPT 中,GPT-5.4 Thinking 会在处理复杂问题时给出简短前言,说明接下来准备怎么做。用户还可以在模型思考过程中继续追加要求,调整方向,而不是等答案输出完再重新开始。
核心能力结构
- 深度推理能力:深度推理能力是 GPT-5.4 处理多步骤问题的核心,适用于方案比较、复杂问答、结构化分析和研究型任务。
- 长上下文能力:长上下文能力是 GPT-5.4 承担长文档理解和长流程任务的关键。官方资料显示,Codex 与 API 场景下可实验性支持最高 1M 上下文,用于更长周期的规划、执行与验证。
- 工具调用能力:工具调用能力是 GPT-5.4 与传统纯文本模型的明显差异。它不仅能调用工具,还能更准确地判断何时调用、调用哪些工具以及如何降低多步流程的额外开销。
- 联网研究能力:联网研究能力是 GPT-5.4 在信息整合任务中的重要优势。官方说明提到,它更擅长处理需要在网络上反复搜索、筛选线索并汇总结论的难题。
- 计算机使用能力:计算机使用能力是 GPT-5.4 最有代表性的升级之一。官方将其定义为首个具备原生且顶尖计算机使用能力的通用模型,可以通过代码、浏览器交互和屏幕理解来完成跨应用工作流程。
GPT-5.4 的关键官方指标
专业知识工作表现:OpenAI 公布的 GDPval 评测中,GPT-5.4 达到 83.0% 的胜出或持平结果,高于 GPT-5.2 的 70.9%。这类测试并非简单问答,而是更贴近销售演示、会计表格、排班表与短视频脚本等明确产出型工作。
编程与任务执行表现:在 SWE-Bench Pro 公共评测中,GPT-5.4 为 57.7%,略高于 GPT-5.3-Codex 的 56.8%。在 Toolathlon、BrowseComp 等工具和搜索评测里,GPT-5.4 也明显高于 GPT-5.2,说明它更适合多步工具工作流。
计算机使用表现:在 OSWorld-Verified 测试中,GPT-5.4 官方成绩为 75.0%,显著高于 GPT-5.2 的 47.3%。这意味着 GPT-5.4 在桌面操作、浏览器交互、视觉定位与鼠标键盘执行链路上有了更强的稳定性。
工具搜索与工作流效率
工具搜索机制:GPT-5.4 在 API 层新增了工具搜索能力。传统模式需要把所有工具定义提前塞进上下文,这会带来大量 Token 开销;工具搜索模式则允许模型先看到精简列表,需要时再动态拉取工具定义,因此更适合大型 MCP、连接器和企业工具生态。
效率价值:OpenAI 给出的案例显示,在保持准确率的前提下,工具搜索可以明显减少 Token 消耗,降低延迟,也更有利于智能体在更大规模的工具体系里工作。
文档、表格与前端任务
表格处理:GPT-5.4 在电子表格建模上的官方内部基准分数明显高于 GPT-5.2,说明它在公式组织、结构设计和专业格式化任务上更适合企业办公场景。
演示文稿生成:官方评估中,人工评分者更偏好 GPT-5.4 输出的演示文稿,主要原因在于审美质量、视觉元素组织以及图像能力配合更强。
前端与交互:OpenAI 还特别强调 GPT-5.4 在复杂垂直前端任务中的表现优于此前模型,说明它不仅适合回答代码问题,也适合直接参与页面构建、交互修复与视觉实现。
适合哪些任务
- 长篇报告整理、二次改写与跨来源汇总
- 法律、金融、咨询、运营等高密度知识工作
- 复杂代码需求拆解、前端开发与调试
- 需要联网搜索、判断信源并形成结论的研究型问题
- 需要调用外部工具、跨网页或软件流程执行的智能体任务
与 Codex 和 Images 2.0 的区别
模型分工:如果说 Codex 更像面向开发任务的专业编码执行代理,Images 2.0 更像面向视觉生成与设计表达的图像引擎,那么 GPT-5.4 更像总控型核心模型,适合承担长任务规划、信息整合、工具协调与最终结果交付。
使用建议
任务选择:如果任务本质是复杂分析、文档处理、多来源研究、工具串联或长工作流执行,优先选择 GPT-5.4 会更稳。如果只是单次轻量问答,速度型模型往往更经济;如果是纯代码深挖,则可结合 Codex;如果是视觉出图,则可交给 Images 2.0。
结论
GPT-5.4 的核心价值不在于“更聪明一点”,而在于它已经开始以统一模型的方式接管推理、工具、研究、编程和计算机使用等真实工作链路,这也是它成为当前 ChatGPT 核心模型的原因。