OpenAI发布首款具备推理能力的模型o1 拥有初步的事实查核能力
OpenAI 正在发布一款名为 o1 的新模型,这是计划中的一系列"推理"模型中的第一个,这些模型经过训练,可以比人类更快地回答更复杂的问题。它将与 o1-mini 同时发布,后者是一个更小、更便宜的版本。没错,如果你对人工智能的传言很熟悉的话:这就是被炒得沸沸扬扬的草莓模型。
4D572D8282E2B8E7A1C1C8B657C8BA8892404D9B_size75_w1920_h1081.webp
对于 OpenAI 来说,o1 代表着它向类人人工智能的更广泛目标迈进了一步。更实际的是,它在编写代码和解决多步骤问题方面比以前的模型做得更好。但与GPT-4o 相比,它的成本更高,速度更慢。OpenAI 将这次发布的 o1 称为"预览版",以强调它的雏形。
ChatGPT Plus 和 Team 用户从今天开始可以访问 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将在下周初访问。开发者访问 o1 的费用非常 昂贵:在 API 中,o1-preview 每 100 万个输入令牌(即模型解析的文本块)收费 15 美元,每 100 万个输出令牌收费 60 美元。相比之下,GPT-4o 的价格为每 100 万个输入词组 5 美元,每 100 万个输出词组 15 美元。
OpenAI的研究负责人杰里-特沃瑞克(Jerry Tworek)告诉我,o1背后的训练与前代产品有本质区别,不过公司对具体细节含糊其辞。他说,o1"采用了全新的优化算法和专门为其定制的新训练数据集"。
OpenAI 正在培训以前的 GPT 模型模仿训练数据中的模式。在使用 o1 时,OpenAI 利用一种名为"强化学习"的技术训练模型自行解决问题,该技术通过奖惩来教导系统。然后,它使用"思维链"来处理查询,这与人类逐步解决问题的方式类似。
OpenAI 表示,由于采用了这种新的训练方法,模型应该会更加准确。"我们注意到,这个模型产生幻觉的情况减少了,"Tworek 说。但问题依然存在。"我们不能说我们解决了幻觉问题"。这个新模型与 GPT-4o 不同之处主要在于,它能比前代模型更好地处理复杂问题,如编码和数学问题,同时还能解释自己的推理。
OpenAI的首席研究官鲍勃-麦格鲁(Bob McGrew)告诉我:"这个模型在解决AP数学考试方面绝对比我强,而我在大学里辅修的是数学。他说,OpenAI 还用国际数学奥林匹克竞赛的资格考试对 o1 进行了测试,GPT-4o 只正确解决了 13% 的问题,而 o1 则达到了 83%。"
"我们不能说我们解决了幻觉问题"
在被称为"Codeforces"的在线编程竞赛中,这种新模型在参赛者中的排名达到了第89位,OpenAI声称,这种模型的下一个更新版本将在"物理、化学和生物学领域具有挑战性的基准任务中取得与博士生类似的表现"。
同时,o1 在很多方面的能力都不如 GPT-4o。它在对世界的实际了解方面做得不够好。它也不具备浏览网页或处理文件和图像的能力。尽管如此,该公司仍认为它代表了一种全新的能力。它被命名为 o1,表示"将计数器重置回 1"。
麦克格鲁说:"老实说,我认为我们在传统命名方面做得很糟糕。所以我希望这是我们迈出的第一步,我们会用更新、更理智的名字,更好地向世界其他地方传达我们正在做的事情。"
McGrew 和 Tworek 本周通过视频通话展示了o1。他们要求它解决这个难题:"当公主的年龄是王子年龄的两倍时,公主的年龄就是王子年龄的两倍。王子和公主的年龄是多少?请提供该问题的所有答案"。
模型运算了 30 秒钟,然后给出了正确答案。OpenAI 设计的界面可以在模型思考时显示推理步骤。让我印象深刻的并不是它展示了自己的工作--GPT-4o 可以在提示下做到这一点--而是 o1 是如何刻意模仿人类的思维。诸如"我很好奇"、"我正在思考"和"好的,让我看看"这样的句子营造出一种循序渐进的思考假象。
但这个模型不会思考,更不是人类。那么,为什么要把它设计得像人一样呢?