上周,Altman 发内部信说进入 Code Red,全力保 ChatGPT 刚刚,GPT-5.2 来了,包含三个版本 模型肯定是更强的,比如在AIME 2025 中取得满分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相当) 今天开始向付费用户推送,API 已上线,标准版比 GPT-5.1 贵 40% 如下图所示,是 GPT-5.2 的相关核心数据 注意: GDPval 是 OpenAI 新出的 benchmark 测的是 44 个职业的真实工作任务: GPT-5.2 Thinking 在 70.9% 的任务上胜过或打平行业专家 速度是人类专家的 11 倍,成本不到 1% 在投行分析师的表格建模任务上 官方放了几个对比 要用这个功能,需要付费版(Plus、Pro、Business、Enterprise),选 GPT-5.2 Thinking 或 Pro 复杂任务可能要跑好几分钟 SWE-Bench Pro 是新的代码 benchmark 测四种语言,不只是 Python,更接近真实软件工程 前端能力也提升了,尤其是 3D 和复杂 UI 对此,Windsurf 的 CEO 表示 视觉能力提升明显,错误率基本减半 此外,一个很明显的区别是:空间位置理解更强了 GPT-5.1 只能标几个,位置也不太对 GPT-5.2 能准确标注各个组件,位置基本对 OpenAI MRCRv2,测的是长文档中多个信息点的整合能力 4 needle 变体,GPT-5.2 Thinking 在 256k token 长度接近 100% 这是第一个在 4-needle 变体上达到接近 100%(256k)的模型 8 needle 更难,GPT-5.2 也有显著提升 API 还支持新的 Tau2-bench 测的是多轮对话中的工具使用,模拟客服场景 官方举了个例子 GPT-5.1 漏了好几步 GPT-5.2 一次性处理完:改签、特殊座位、赔偿,全部搞定 AIME 2025 100%,满分,无工具 ARC-AGI 是测抽象推理的 ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一个突破 90% ARC-AGI-2 更难,GPT-5.2 Thinking 52.9%,Pro 版 54.2% GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6% 在 ChatGPT 真实用户查询上测试 有错误的回复比例从 8.8% 降到 6.2%,相对减少 30% 涨了 官方解释:虽然单价更高,但 token 效率更高,达到同样效果的总成本反而更低 ChatGPT 订阅价格不变 ChatGPT 今天开始向付费用户推送:Plus、Pro、Go、Business、Enterprise GPT-5.1 在 ChatGPT 中还会保留三个月,之后下线 新增 延续了 GPT-5 的 safe completion 研究 开始部署年龄预测模型,18 岁以下用户自动限制敏感内容核心评测
处理真实工作
做 PPT、做表格、写分析报告
GPT-5.2 Pro 更高,74.1%
一个评审员的评价:
「看起来像是一个有员工的专业公司做的,布局和建议都很专业,虽然还有一些小错误需要修正」
比如给 Fortune 500 公司做三表模型、做 LBO 模型
平均分从 59.1% 提升到 68.4%
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精细很多写代码
比 SWE-bench Verified 更难
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%
官方放了几个 demo,单 prompt 生成的
「这是 GPT-5 以来 agentic coding 最大的跃升,版本号的小幅升级低估了智能的大幅提升。我们会把它设为 Windsurf 和 Devin 核心工作流的默认模型」看图
CharXiv Reasoning:科学论文图表问答,88.7%,GPT-5.1 是 80.3%ScreenSpot-Pro,GUI 截图理解,86.3%,GPT-5.1 是 64.2%
官方放了个主板识别的对比:给一张低质量的主板图片,让模型标注各个组件的位置长文档
在文档里插入多个相同的「针/needl」,然后问模型第 n 个针的内容是什么
GPT-5.1 在同样长度只有 30% 左右/compact 端点,可以扩展有效上下文窗口,适合工具多、跑得久的任务工具调用
Telecom 领域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 领域,82.0%,GPT-5.1 是 77.9%
用户说:我从巴黎飞纽约的航班延误了,错过了转机去奥斯汀,行李也丢了,需要在纽约过夜,还有医疗原因需要前排座位数学和科学
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(无工具),45.5%(有工具)幻觉
价格
GPT-5.2 比 GPT-5.1 贵 40%;GPT-5.2 Pro 的价格,一如既往的贵到离谱可用性
如果还没看到,过几天再试
API 已经上线:gpt-5.2:Thinking 版gpt-5.2-chat-latest:Instant 版gpt-5.2-pro:Pro 版xhigh reasoning effort,适合对质量要求最高的任务
GPT-5.1、GPT-5、GPT-4.1 在 API 中暂时不会下线
Codex 优化版即将推出安全
在自杀、自残、心理健康、情感依赖等敏感对话上的表现改进了
官方说过度拒绝的问题还在改进中

優(yōu)網(wǎng)科技秉承"專業(yè)團(tuán)隊(duì)、品質(zhì)服務(wù)" 的經(jīng)營理念,誠信務(wù)實(shí)的服務(wù)了近萬家客戶,成為眾多世界500強(qiáng)、集團(tuán)和上市公司的長期合作伙伴!
優(yōu)網(wǎng)科技成立于2001年,擅長網(wǎng)站建設(shè)、網(wǎng)站與各類業(yè)務(wù)系統(tǒng)深度整合,致力于提供完善的企業(yè)互聯(lián)網(wǎng)解決方案。優(yōu)網(wǎng)科技提供PC端網(wǎng)站建設(shè)(品牌展示型、官方門戶型、營銷商務(wù)型、電子商務(wù)型、信息門戶型、微信小程序定制開發(fā)、移動(dòng)端應(yīng)用(手機(jī)站、APP開發(fā))、微信定制開發(fā)(微信官網(wǎng)、微信商城、企業(yè)微信)等一系列互聯(lián)網(wǎng)應(yīng)用服務(wù)。
公安局備案號(hào):
