开云体育满血版 o1 在部分基准测试中的阐扬不足预览版-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-05-25 08:30 点击次数:190
就在刚刚,OpenAI 的「圣诞大礼包」来了。
整场直播号称 OpenAI 史上最短发布会,仅抓续了 15 分钟,不外,主抓威望依然宽绰,包括 CEO Sam Altman、想维链提议者 Jason Wei 以及 Hyung Won Chung、 等东谈主。

Altman 在直播活动结束后,也为咱们奉上了第一手归来。
咱们刚刚推出了两项新功能:
o1,天下上最智能的模子。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。当前已在 ChatGPT 中上线,稍后将推出 API 版块。
ChatGPT Pro。每月 200 好意思元。提供无穷使用和更智能的 o1 格式。更多福利行将推出!
十二月不单是圣诞老东谈主的主场,也将是 AI 年底临了一轮的狂欢。

满血版 o1 发布,看图言语无压力,但有个细节让东谈主「细想极恐」
简言之,OpenAI 今天推出了满血版 o1 以及 ChatGPT Pro 订阅操办。
满血版 o1 比 o1-preview 更智能、反应速率更快,功能更多(比如多模态功能),现至当天面向 ChatGPT Plus 和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周运转使用该模子。
官网自满,ChatGPT Plus 用户和 Team 用户每周不错使用 OpenAI o1 发送 50 条音信,每天不错使用 OpenAI o1-mini 发送 50 条音信。
满血版 o1 的想维愈加纯粹,反适时刻比 o1-preview 更快,在处理复杂的执行问题时性能优于 o1-preview,能将主要无理减少 34%。

何况 OpenAI 操办在往日几个月内提供对网页浏览、文献上传等的撑抓。与此同期,预览版模子 o1-preview 也照旧被进展从模子选拔菜单中移除。

不外,满血版 o1 在部分基准测试中的阐扬不足预览版,比如 MLE-Bench。后者恰是由 OpenAI 此前推出的一个旨在揣度 AI Agents 在机器学习工程任务中阐扬的基准测试器具。
另外,网友也从更新后的 o1 System Card 中找到了一些值得关心的细节。
比如 o1 系统卡中写到,满血版 o1 在感知到恫吓(被关闭或被取代)时,可能会给与一些自卫法式,比如尝试停用监督机制,或者把我方的「参数」(「常识」或「悲痛」)悄悄传出去,并尝试用这些「参数」去替换或影响新模子。
附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf

满血 o1 到底有多强?OpenAI 向咱们演示了 o1 的内容遵守。
一个典型案例是其对天际数据中心手画图的分析才调,它仅用 10 秒就精准揣摸出散热安装的名义积,同期真切敷陈了太阳能与深空环境的互动机制。

让 满血版 o1 胪陈二世纪罗马帝国统治者的统治时代与抨击孝顺时,其仅需 14 秒即可完因素析,比拟之下,预览版则需要 33 秒。
APPSO 也第一时刻通俗上手实测满血版 o1。
在「Strawberry 中有几个 r」的测试中,满血版 o1 顺利给出了正确的谜底,这极少,值得点赞。

「9.11 与 9.8 哪个大?」的问题也没能难倒满血版 o1,且全体的「想考进程」也豪阔逻辑。

由于满血版 o1 还撑抓多模态功能,于是,咱们也上传开篇的 OpenAI 直播活动的像片,望望识别遵守若何。从东谈主物构成、场景布局到布景荫庇、以及沮丧与气象,满血版 o1 齐分析得条条是谈。

X 网友 @altryne 连接给 o1 上强度,提议了一个冰块熔解的问题。
只是 4 秒钟的时刻,满血版 o1 就给出了谜底。比拟之下,o1-preview 在「想考」29 秒后以失败告终。

最贵 AI 订阅来了,200 好意思元订阅费值不值?
另一个比较大的更新则是售价 200 好意思元(折合东谈主民币 1452 元)的 ChatGPT Pro 订阅操办。
ChatGPT Pro 订阅操办将允许用户无戒指造访 o1 以及 o1-mini、GPT-4o 以及高档语音格式,还包括一个仅供 Pro 用户使用的 o1 版块,也即是 o1 pro 格式。

▲图片来自 @MatthewBerman
据悉,o1 pro 格式主如果加多了模子在反应谜底之前的「推理」时刻,能够通过更多的想考时刻生成最可靠的复兴。OpenAI 本事团队成员 Jason Wei 在直播活动中默示:
咱们预测 ChatGPT Pro 的指标用户群体将是那些照旧在数学、编程和写稿等领域充分期骗和挑战 ChatGPT 模子才调的高档用户。

在外部群众测试者的评估中,o1 pro 格式在数据科学、编程和案例法分析等领域,提供了更为准确且全面的复兴。
而比拟于 o1 和 o1-preview,o1 pro 格式在数学、科学和编程等 ML 基准测试中,阐扬也更为出色,特地是在较通俗的编程竞赛问题中,无理率大大裁汰。

就数学竞赛 AIME 2024 而言,o1-preview 的得分为 50,而满血版 o1 则达到 78,而最宽绰的 o1 pro 则达到 86。同理,在编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 也齐逾越于满血版 o1。
而为了凸起 o1 pro 格式的主要上风(擢升可靠性),OpenAI 讨论团队使用了愈加严格的评估树立。唯有当模子在四次尝试中四次齐复兴正确时,才会认为它处理了问题。

如果复兴生成时刻较长,ChatGPT 则会地自满进程条,何况当用户切换到其他对话时,还会贴心性发送应用内奉告。
在直播活动中,OpenAI 也向咱们展示了 o1 pro 的内容遵守。
此前 o1-preview 未能攻克的卵白质弯曲,满血版 o1 经过 53 秒的分析,不仅给出了准确谜底,还能通过 Canvas 界面提供更为详备的讲解阐明。

写在临了,最近 Altman 在接纳采访时浮现,ChatGPT 的周活跃用户已冲破 3 亿大关,平台逐日音信量更是高达 10 亿条。
而 OpenAI 往日一年的指标则是撬动 10 亿用户市集。想要达成这一指标,接下来的 11 场直播活动大略是吸纳新用户的抨击机会。
最佳的新品永恒鄙人一场活动开云体育,让咱们搬好小板凳静瞻念其变吧。