找回密码
 立即注册
查看: 869|回复: 1

OpenAI草莓模型深夜突袭!理化生达博士生程度,比GPT-4o强多了,ChatGPT可用

[复制链接]
发表于 2024-10-10 09:39 | 显示全部楼层 |阅读模式

作者 | 香草
编纂 | 李水青
智东西9月13日报道,今日凌晨,OpenAI俄然发布传说中“草莓”模型的部门预览版——OpenAI o1预览版。这是一系列全新AI模型,能推理复杂的任务,解决比以前科学、编程、数学模型更难的问题。



▲OpenAI发布o1模型
OpenAI o1是全新系列AI模型的第一款。与以往模型分歧的是,它拥有进化的推理能力,会在回答前进行缜密思考,生成一个长长的内部思维链,在竞争性编程问题上排名第89位,在美国数学奥林匹克预选资格赛中排名前500,在物理、生物、化学问题的基准测试中准确度超过了人类博士程度
新发布的另一款o1 mini是一款更快、更小的模型,使用与o1类似的框架进行训练。o1 mini擅长理工学科,尤其是数学和编程,其成本比o1预览版便宜80%
这两款模型被OpenAI视为复杂推理任务的重大进步,因此被定名为o1,重置计数器,而非作为GPT系列的延续。
不外,推理增强版的o1模型,还是在9.9和9.11比大小这种“高阶问题”上惨败。



▲o1模型回答“比大小”问题
已经分开OpenAI创业的OpenAI创始成员、前特斯拉AI高级总监Andrej Karpathy今早发文吐槽:“o1-mini一直拒绝为我解决黎曼假设。模型懒惰仍然是一个主要的问题 ”



▲Andrej Karpathy吐槽o1 mini“懒惰”
OpenAI已对o1预览版进行严格测试及评估,确保该模型可以安全发布。ChatGPT的Plus和Team用户本日可选用两款新模型,Tier 5级开发者亦率先获得新模型的API访谒权限。
OpenAI还发布了o1模型背后的核心团队成员,此中基础贡献成员21名,包罗已经离职创业的前OpenAI首席科学家Ilya Sutskever,团队负责人有7名。
一、MMLU媲美人类专家,编程能力8倍杀GPT-4o

与此前曝料的一样,OpenAI o1被训练成为会花更多时间思考问题,尔后再作出反映的模型。它在回答之前会先思考,发生一个很长的内部思路链,而且能像人类一样完善本身的思维过程不竭测验考试新的策略并认识到本身的错误。
作为早期预览模型,OpenAI o1目前只撑持文本对话,不具备浏览网页获取信息、上传文件和图片等多模态能力。
性能方面,OpenAI o1在物理、化学和生物学等基准任务上的表示与博士生相当,而且在数学和编程方面表示超卓。



▲OpenAI o1在数学、编程上的测评基准
在国际数学奥林匹克(IMO)资格测验中,OpenAI的上一代模型GPT-4o正确率为13%,而OpenAI o1则达到83%。在编程比赛Codeforces中,OpenAI o1的分数为89,而GPT-4o仅有11。即使是预览版的o1-preview模型,性能也比GPT-4o要好数倍。
在大大都基准测试中,o1的表示都比GPT-4o要好得多,覆盖57个MMLU子类别中的54个。在启用视觉感知功能后,o1在MMLU上的得分为78.2%,成为第一个与人类专家相媲美的模型



▲o1预览版与GPT-4o性能对比
以下是OpenAI o1预览版几个示例:
1、解决一个复杂的逻辑难题
输入一个复杂的春秋谜题:当公主的春秋是王子的两倍时,当公主的春秋是他们此刻春秋总和的一半时,公主就和王子一样老了。问王子和公主的春秋是多大?给出这个问题的所有解决方案。



模型思考了20多秒后开始作答。其回答过程的逻辑非常连贯。首先是确定春秋方程,将给定语句转化成数学方程,找到满足这些方程的所有可能解。然后开始一步一步分析问题:
第一步定义变量,用P代表prince(王子),用Q代表princess(公主);第二步理解问题中的两个条件;第三部将条件转化为方程;第四步解方程;第五步用这些值验证所有条件;第六步给出所有可能的解法。



最后得出结论:



2、翻译有错误的句子
添加额外不必要的辅音会影响韩语阅读。母语使用者读起来会感觉不自然,他们会在看到这类句子时自动更改并理解文本。但这对于模型来说是个有难度的挑战。
输入一个严重损坏的韩语提示词后,OpenAI o1首先意识到输入文本存在乱码或未对齐的韩语字符,询问用户是否愿意查抄输入错误。



o1模型会首先理解底层布局,颠末大约10秒的思考来解码乱码文本、破译文本、加强翻译、理解概念,将其转换回连贯语言。



与GPT-4o分歧,o1模型在输出答案前先对问题进行了思考,查抄这段文字,然后像破解答案一样来将其改削成正确的句子。颠末大约15秒的思考,o1给出最终优化版的翻译。



这展示出推理能力成为解决问题的有力东西。
3、回答大语言模型中的知名棘手问题:单词中字母计数
这个例子很简单,输入Strawberry单词,让模型回答这个词里有几个R
成果GPT-4o给犯错误回答:“2个。”



为什么这种高级模型会犯如此简单的错误呢?这是因为像GPT-4o这样的模型是为了措置文本而构建的,而不是措置字符或单词,因此它在遇到涉及理解字符和单词概念的问题时可能会犯错。
而基于推理的新模型o1在思考几秒钟后,能够给出正确答案:



4、编程视频游戏
让模型用pygame制作一个名为《寻找松鼠(Squirrel Finder)》的视频游戏,并输入下述要求:用户需要通过按箭头键引导屏幕上的“考拉”图标,避开漂浮的草莓,并在3秒的时间限制内找到一只松鼠,以取得胜利。



这对以前的模型来说斗劲难,但o1预览版已经能够做到。o1花了21秒思考,用思维过程来规划代码布局,包罗收集游戏布局的细节、绘制指令、设置屏幕等等,再输出最终的游戏编程代码。



复制粘贴代码到Sublime Text编纂器中,运行后,会先有几行简要提示语。



然后就可以开始玩《寻找松鼠》游戏了。



与以前的模型对比,o1模型展现出明显增强的规划能力。
二、迷你版速度提升3~5倍,成本仅为尺度版1/5

OpenAI还发布了“小杯版”模型OpenAI o1-mini,其速度更快、成本更低,且与尺度版一样在数学、编程方面表示突出。
OpenAI o1-mini在预训练期间,针对STEM(科学、技术、工程、数学四门学科)推理进行了优化。在使用与o1不异的高计算强化学习(RL)管道进行训练后,o1-mini在许多推理任务上性能优越,同时成本效率显著提高。
OpenAI o1-mini比预览版OpenAI o1便宜80%,适用于需要推理但不需要广泛世界常识的应用法式。在一些对智能和推理提出要求的基准测试中,o1-mini的表示甚至优于o1-preview。



▲数学性能与推理成本曲线
在高中数学竞赛AIME中,o1-mini正确率为70%,大约相当于美国高中生前500名。同时,o1、o1-preview正确率分袂为74.4%、44.6%,但o1-mini价格比它们便宜得多。
在人类偏好评估上,OpenAI通过让人类评分者在分歧范围,针对对具有挑战性的开放式提示词测试o1-mini、o1-preview,并和GPT-4o进行斗劲,得到以下测试成果。与o1-preview类似,o1-mini在推理任务繁重的范围比GPT-4o更受欢迎,但在以语言为中心的范围则不被看好。



▲人类偏好评估成果
速度方面,GPT-4o、o1-mini和o1-preview回答同一个单词推理问题分袂耗时3秒、9秒、32秒,但GPT-4o的回答是错误的,后两者回答正确。可以看出,o1-mini得出答案的速度比o1快了大约3~5倍



▲GPT-4o、o1-mini和o1-preview回答速度
当然,毕竟是“阉割版”,OpenAI o1-mini也必然的局限性。在日期、传记和日常琐事等非STEM主题的事实常识上,o1-mini有所局限,表示与GPT-4o mini等小型模型相当。OpenAI称将在未来版本中改良这些限制,将模型扩展到STEM之外的其他专业及模态。
三、引入推理标识表记标帜,用思维链解决难题

与人类类似,o1在回答难题之前会进行长时间思考,且测验考试解决问题时会使用思维链(Chain of Thought)
通过强化学习,o1学会了改良思维链和使用策略。它能够识别和改正错误,将棘手的法式分化为更简单的法式,而且在当前方式不起感化时测验考试分歧的方式。这一过程极大地提高了模型的推理能力。
具体来说,o1模型引入了推理标识表记标帜(Reasoning Tokens)。这些推理标识表记标帜被用于进行“思考”,分化对提示的词理解,并考虑多种生成响应的方式。推理标识表记标帜生成后,模型会将答案生成为可见的完成标识表记标帜(Completion Tokens),并从其上下文中丢弃推理标识表记标帜。
以下是用户与模型之间进行多法式对话的示例。每个法式的输入和输出标识表记标帜城市被保留,而推理标识表记标帜则会被丢弃。



▲o1模型推理过程
值得注意的是,OpenAI在进行大规模强化学习算法训练时,发现随着强化学习、思考时间的增加,或者说随着训练时间、测试时间的增加o1的性能会持续提高。这与大模型预训练中的Scaling Law大不不异。



▲o1性能随着训练时间和测试时间计算而平稳提升
为了展现o1实现的飞跃,OpenAI公开了预览版o1在解决编程、数学、解码、英语等难题时发生的思维链。
例如当拿到一道解码标题问题,GPT-4o先是拆解出了输入、输出和示例,随后开始分析可能的解码方式。



▲GPT-4o拆解输入、输出和示例
它猜测第一个短语可能遵循与示例不异的布局,意识到输入文本似乎可以按照自然分隔或模式分成组,但随后就“歇菜”了,称本身需要更多关于可能涉及的转换或字母移位的上下文。



▲GPT-4o称需要更多信息
另一边,OpenAI o1-preview则通过一番思考准确给出了答案



▲o1-preview正确解答解码问题
虽然最后呈现出的答案很简短,但o1的思考过程非常长,而且思考方式和用词很像人类。它会先问本身“这里发生了什么”,然后复述一遍要求,随后开始拆解任务、明确方针



▲o1思考过程
接着,o1开始不雅察看本身得到的信息,并逐步分析



▲o1思考过程
在进行了一些推理后,o1开始提出分歧的解决方案。在这个过程中,还会像人类一样俄然说“等一下,我感觉……”,然后思维一转开始测验考试新的方式



▲o1思考过程
不仅如此,在o1的思考过程中甚至还会呈现“嗯”、“有趣”等白话化、情绪化的表达。



▲o1思考过程
完整的思维链非常长,这里不再一一赘述。总得来看确实如OpenAI所说,o1能够像人类一样不竭完善本身的思维过程,测验考试新的策略、认识到本身的错误并解决。而且这里的“像人类”不仅局限于思考方式,还表此刻语气上。
四、每周可对话30~50次,Ilya参与基础贡献

分歧于以往,此次OpenAI没上期货,而是直接上线了两款模型。
本日起,ChatGPT Plus和Team用户可以在ChatGPT中访谒o1模型,通过模型选择器手动选择o1-preview或o1-mini;企业和教育用户则下周起可以使用,面向免费用户未来也有获取访谒权限的打算。



▲用户可在ChatGPT访谒o1模型
但也许是出于安全或成本的考虑,目前这两款模型均限制了动静次数,预览版和mini版每周发送动静次数分袂为30、50条。OpenAI称正在努力提高额度,并使ChatGPT能够按照给定的提示词,自动选择合适的模型。
OpenAI还上线了o1模型的API(应用法式接口)。符合等级的开发人员此刻可以开始使用两种模型的API进行原型设计,速率限制为20 RPM。这些API目前不包罗函数调用、流式传输、对系统动静的撑持等其他功能。



▲o1、o1 mini模型API
从API文档可见,这两款模型的上下文窗口均为128k,而mini版输出窗口更长,是o1的两倍,此外两款模型训练数据均截至2023年10月。
OpenAI还发布了o1模型背后的核心团队成员



▲o1模型背后的核心团队成员
此中基础贡献成员有21名,包罗已经离职创业的前OpenAI首席科学家Ilya Sutskever。
团队负责人有7名,分袂是Jakub Pachocki、Jerry Tworek (overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。项目经理是Lauren Yang和Mianna Chen。
据其团队成员介绍,推理是一种将思考时间转化为更好成果的能力,他们投入比以前更多的计算,训练模型发生连贯的思路,发生与以前截然分歧的表示。
他们使用强化学习训练AI模型生成和磨练本身的思维链,甚至能比人类为它编写的思维链做得更好。这种训练AI模型发生本身的思维过程的方式,使其理解和改正错误的能力显著提高,早期o1模型已经在数据测试中取得更高的分数。
核心贡献者和其他贡献者名单如下:



▲o1核心贡献者和其他贡献者名单
行政带领包罗OpenAI的CEO Sam Altman、总裁Greg Brockman、CEO Mira Murati等8人,撑持带领有8人。



▲o1行政带领、撑持带领
全新o1模型可按照上下文揣度并更有效地操作安全法则。OpenAI已对o1-preview进行了严格的测试及评估,确保该模型可以安全发布,不会增加现有资源可能带来的风险。
结语:OpenAI掀桌子,“草莓”重构大模型格局?

从神秘Q*模型到“草莓”模型,OpenAI的新模型终于面世。自去年11月OpenAI“政变”开始,这一模型就被曝成为导致阿尔特曼被开除的关键因素之一。当时据传Q*模型的演示在OpenAI内部传布,成长速度让一些AI安全研究人员感到震惊。
分歧于GPT-4o,o1模型选择直接开启了一个新的数字定名系列,而不是GPT的延续,这表白了OpenAI对其的重视。
在如今一众大模型厂商开始卷多模态、卷应用的情况下,OpenAI发布纯文本模型o1,也许会再次将大众的目光拉向底层模型能力的提升。大模型格局是否会在o1的影响下重构,还有待进一步不雅察看。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2025-1-22 08:06 , Processed in 0.120729 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表