当前位置:首页 > 壁挂炉 > 文章正文

若何看待 OpenAI Q 谣言

编辑:[db:作者] 时间:2024-08-25 00:12:41

译者 | 核子可乐

策划 | Tina

OpenAI 仍未明确阐明 Q究竟是什么,但透露的线索倒是相称不少。

若何看待 OpenAI Q 谣言

11 月 22 日,就在 OpenAI 决定开除(后又重新聘任)CEO Sam Altman 的几天之后,技能媒体 The Information 宣布称 OpenAI 取得了一项重大技能打破,使其能够“开拓出更强大的 AI 模型”。
新模型被命名为 Q(音为「Q star」),“具备办理全新数学问题的能力。

路透社也揭橥了类似的宣布,但细节同样暗昧不清。

两篇宣布都将这项打破与董事会开除 Altman 的决策联系起来。
路透社在宣布中指出,几名 OpenAI 员工向董事会发函,“警告称这项强大的 AI 创造可能对人类构成威胁。
”然而,“路透社未能拿到这封信的副本”,随后的宣布也没有连续将 Altman 下台与 Q一事联系起来。

The Information 指出,今年早些时候,OpenAI 开拓出“能够办理基本数学问题的系统,占领了这一对现有 AI 模型来说颇为艰巨的任务。
”路透社则表示 Q“具备小学生水平的数学打算能力。

为了避免妄下结论,我们又花了几天韶光搜集干系内容。
OpenAI 确实没有公布 Q项目的详细信息,但揭橥了两篇关于其办理小学数学问题的论文。
在 OpenAI 之外,不少研究职员(包括 Google DeepMind 的研究职员)也一贯在这方面开展探索。

我个人疑惑 Q正是指向通用人工智能(AGI)的关键技能打破。
虽然不一定会对人类构成威胁,但这可能标志着迈向具有一样平常推理能力的 AI 的主要一步。

在本文中,我们将一同理解 AI 研究领域的这一重大事宜,并阐明专为数学问题设计的分步推理技能如何发挥关键浸染。

分步推理的力量

我们首先考虑以下数学问题:

John 给了 Susan 五个苹果,之后又给了她六个。
之后 Susan 吃掉个中三个,又给了 Charlie 三个苹果。
她把剩下的苹果给了 Bob,Bob 吃掉一个。
接下来,Bob 把手中半数苹果给了 Charlie。
John 给了 Charlie 七个苹果,Charlie 将手中三分之二的苹果给了 Susan,末了 Susan 又把个中四个还给了 Charlie。
问,现在 Charlie 还剩几个苹果?

大家可以先试着自己算算。

实在我们都在小学阶段学过大略的加减乘除,以是看到问题里说“John 给了 Susan 五个苹果,之后又给了她六个”,就知道这时候 Susan 有 11 个苹果。

但对付更繁芜的问题,那人类在考试测验办理时就须要借助笔算或者心算了。
比如在此问题中,先有 5+6=11,之后是 11-3=8,接着 8-3=5,以此类推。
通过一步步思考,我们终极会得到精确答案:8。

同样的技巧也适用于大措辞模型。
在 2022 年 1 月揭橥的著名论文中,谷歌研究职员指出,如果大措辞模型能按照提示词分步进行推理,就会产生更好的结果。
以下是论文中的一份关键图表:

这篇论文的揭橥韶光还早于“零样本”提示技能,因此研究职员通过给出示例答案的办法来提示模型。
在左图中,系统会提示模型直接给出终极答案,但结果是划的。
而在右侧,系统会一步步提示模型并终极推理出精确答案。
谷歌研究职员将这项技能称为“思维链提示法”,且至今仍被广泛运用。

对付大措辞模型来说,“五”和“六”这样的数字只是 token,跟“这”、“那”或者“猫”没什么差异。
这些模型之以是能把大写数字转换成 5+6=11,是由于这个 token 序列曾经在演习数据中涌现过。
但大模型的演习数据中可能并不包含长打算示例,比如((5+6-3-3-1)/2+3+7)/3+4=8,以是如果哀求模型直接给出打算结果,那它就很可能搞不清状况并天生缺点答案。

或者用另一种思路来阐明,大措辞模型没有可用于影象中间结果(例如 5+6=11)的外部“临时空间”。
而思维链推理使得大模型能够有效利用自己的输出作为暂时影象空间,从而将繁芜问题拆分成更多步骤——每个步骤都可能与模型演习数据中的示例相匹配。

办理更繁芜的数学难题

在谷歌揭橥关于思维链提示法论文的几个月前,OpenAI 曾经推出一套包含 8500 道小学数学运用题的 GSM8K 数据集,以及一篇描述问题解法新技能的论文。
OpenAI 没有让模型逐一给出答案,而是哀求其一次性给出 100 个思路答案,再通过名为验证器的另一套模型对各个答案进行评分。
在这 100 条回答中,系统将只返回评分最高的答案。

乍看起来,演习验证器模型也须要大费周章,难度不啻于演习大措辞模型来天生精确答案。
但从 OpenAI 的测试结果来看,情形并非如此。
OpenAI 创造只需小型天生器与小型验证器的组合,就能供应与单独利用超大天生器模型(参数是前者的 30 倍)相称的结果。

2023 年 5 月的一篇论文先容了 OpenAI 在该领域的最新研究情形。
OpenAI 已经超过小学数学,开始研究更具寻衅性的 MATH 数据集。
OpenAI 现在不再让验证器对完全答案打分,而是演习验证用具体评估各个步骤,详细拜会论文给出的下图:

每一步都有一个绿色笑脸符号,代表该步骤处于精确的思路之上,直到末了一步模型得出“x=7”,这时打出的是赤色的皱眉符号。

文章得出的结论是,在推理过程中的各个步骤上都利用验证器,其结果比直接验证终极答案更好。

这种逐步验证方法的最大缺陷,便是更难实现自动化。
MATH 演习数据集中包含每个问题的精确答案,因此很随意马虎自动检讨模型是否得出了精确的结论。
但 OpenAI 未能找到更好的方法来自动验证中间步骤。
于是,该公司只能聘请了一些审查员,为 7.5 万个解题思路的共 80 万个打算步骤供应反馈。

求解路漫漫

须要把稳的是,GSMK8K 和 MATH 数据集中的问题至少还可以通过分步办法大略办理。
但在实际运用中,相称一部分数学问题根本无法拆解,例如:

你正在方案一场分五张餐桌、每桌三位客人的婚宴。

Alice 不想跟 Bethany、Ellen 或者 Kimmie 一起坐。

Bethany 不想跟 Margaret 一起坐。

Chuck 不想跟 Nancy 一起坐。

Fiona 不想跟 Henry 或者 Chuck 一起坐。

Jason 不想跟 Bethany 或 Donald 一起坐。

Grant 不想跟 Ingrid、Nancy 或 Olivia 一起坐。

Henry 不想跟 Olivia、Louise 或 Margaret 一起坐。

Louise 不想跟 Margaret 或 Olivia 一起坐。

要如何安排客人座位,才能充分知足他们的哀求?

在把这样的提示词输入 GPT_4 时,它开始分步进行问题推理:

餐桌 1:Alice、Chcuk 和 Donald。
餐桌 2:Bethany、Fiona 和 Ellen。
餐桌 3:Jason、Grant 和 Ingrid。

但到第四张餐桌时,它就卡住了。
这时候 Henry、Margaret 和 Louise 还没有入座,他们彼此都不想坐在一起,但接下来只剩两张桌子可以安排。

在这个问题中,我们不知道 GPT-4 详细错在哪个详细步骤上。
它在前三张桌子的安排上完备知足规则,但这些前期选择也导致余下的客人没办法精确入座。

这便是打算机科学家们所说的 NP 难题,即不存在通用算法以线性办法加以办理。
唯一的办法便是考试测验一种可能的安排,看看是否符合哀求,如果弗成则推倒重来。

GPT-4 可以通过在高下文窗口中添加更多文本来完成回溯,但其扩展能力仍旧有限。
更好的方法是为 GPT-4 供应一个“退格键”,这样它就能删除末了一个或几个推理步骤,然后重试。
为此,系统还须要一种方法来跟踪它已经考试测验过的组合,避免重复考试测验。
如此一来,大措辞模型就能探索下图所示的可能性树:

今年 5 月,普林斯顿大学和 Google DeepMind 的研究职员共同揭橥论文,提出一种名为“思路树”的方法。
思路树不再用单一推理链来办理问题,而是许可大模型系统探索一系列指向不同方向的推理链“分支”。

研究职员创造,该算法在办理某些传统大措辞模型难以办理的问题上表现良好。
个中不仅包括所谓“24 点游戏”(即通过添加运算符号将随机给出的几个数字打算为 24),还实现了创意写作能力。

AlphaGo 模型

以上,便是 OpenAI 和 DeepMind 迄今为止揭橥过的所有研究成果,可以看到他们都在让大措辞模型更好地办理数学问题方面付出了不懈努力。
现在,我们一起来推测这项研究终极可能会走向何方。
当然,这些预测没有任何依据,大家也可以根据自己节制的情形做出展望。

今年 10 月,播客 Dwarkesh Patel 曾就通用人工智能开拓操持采访过 DeepMind 联合创始人兼首席科学家 Shane Legg。
Legg 认为,迈向 AGI 的关键一步便是把大措辞模型跟搜索可能相应的树构造结合起来:

这些根本模型属于某种天下模型,通过搜索办法实现问题的创造性办理能力。
以 AlphaGo 为例,它那惊人的棋路到底是从何而来?是学习了人类棋手的履历,还是参考了原有数据?不,根本没有。
它实在是选择了一个非常罕见、但也极为合理的棋步,再通过搜索过程思考这步棋会造成若何的后续影响。
也便是说,要想得到真正的创造力,必须探索可能性空间并找出隐蔽个中的最佳答案。

Legg 在这里提到了著名的“第 37 手”,即 2016 年 DeepMind AlphaGo 软件与顶尖棋手李世石第二场比赛中的一步。
大多数人类选手最初都以为 AlphaGo 在这步棋上涌现了失落误,但其终极刻了比赛,且复盘剖析创造这是一手强棋。
换言之,AlphaGo 表现出了超越人类棋手的布局洞察力。

AlphaGo 能够根据当前棋盘状态仿照出数千种可能的后续发展,从而获取类似的见地。
对付打算机来说,潜在棋序实在太多,根本不可能逐一检讨,以是 AlphaGO 利用神经网络来简化全体过程。

个中的策略网络能够预测出哪些棋路最有希望,值得进一步做仿照剖析。
而代价网络则卖力估算棋盘确当前状态是对白方有利、还是对黑方有利。
根据这些估算,AlphaGo 再逆向打算下面一步该怎么走。

Legg 的不雅观点是,这类树搜索方法有望提高大措辞模型的推理能力。
大措辞模型要预测的不但是单个最可能涌现的 token,而应在给出回答之前探索数千种不同的相应。
事实上,DeepMind 的思维树论文彷佛便是朝这个方向迈出的第一步。

前文提到,OpenAI 曾经考试测验利用天生器(天生潜在答案)与验证器(估算这些答案是否精确)组合来办理数学问题。
这与 AlphaGo 明显有几分相似,同样可以理解成策略网络(天生潜在棋步)与代价网络(估算这些棋步能否导向更有利的盘面状态)。

如果将 OpenAI 的天生器/验证器网络与 DeepMind 的思维树观点相结合,就能得到一套与 AlphaGo 非常相似的措辞模型,同时保留 AlphaGo 的强大推理能力。

为何命名为 Q

在 AlphaGO 之前,DeepMind 曾在 2013 年揭橥过一篇关于演习神经网络以打通雅达利电子游戏的论文。
DeepMind 并没有手动录入每款游戏的规则,而是让网络不断嬉戏这些游戏,通过反复试验自行理解玩法。

参考早期强化学习技能 Q-learning,DeepMind 将这套雅达利办理方案命名为 Deep Q-learning。
DeepMind 的雅达利 AI 中包含一个 Q 函数,用于估算任意特定操作(例如向左或向右推操纵杆)可能得到的褒奖(比如更高的得分)。
当系统嬉戏雅达利游戏时,它会不断优化 Q 函数,提升获取更佳得分的估算能力。

DeepMind 2016 年在 AlphaGo 论文同样利用字母 Q 来表示 AlphaGo 中的棋步代价函数——该函数用于估算任意给定棋步有多大可能通往对局胜利。

AlphaGo 和 DeepMind 的雅达利 AI 都属于强化学习的范畴,这是一种从履历中学习知识的机器学习技能。
在大措辞模型兴起之前,OpenA 也 I 一贯将强化学习作为关注重点。
例如,OpenAI 曾在 2019 年利用强化学习让机器臂在自行探索中学会解开魔方。

参考这些背景,我们彷佛可以对 Q做出有理有据的解读:它是将大措辞模型同 AlphaGo 式搜索能力相结合的产物,而且该当是在以强化学习的办法进行稠浊模型演习。
其重点便是找到一种在困难的推理任务中“自我较劲”的办法,借此改进措辞模型的实际能力。

个中一条主要线索,便是 OpenAI 今年早些时候决定聘请打算机科学家 Noam Brown。
Brown 在卡耐基梅隆大学得到博士学位,并在那里开拓出首个能够超越人类水平的扑克 AI。
之后 Brown 加入 Meta,并开拓出玩《强权外交》桌游的 AI。
这款游戏的成功窍门在于同其他玩家结成同盟,因此 AI 必须把计策思维与自然措辞能力结合起来。

由此看来,这彷佛便是帮助大措辞模型提高推理能力的绝佳案例。

Brown 今年 6 月在推文中表示,“多年以来,我一贯在研究扑克和〈强权外交〉桌游中的 AI 自我对弈和推理课题。
现在,我想探索如何将成果转化为普适性能力。

AlphaGo 和 Brown 扑克 AI 中利用的搜索方法,明显只适用于这些特定游戏。
但 Brown 预测称,“如果我们能创造一个通用版本,则一定带来巨大的收益。
没错,推理速率可能会降落至千分之一且本钱迅速膨胀,但如果能够创造新的抗癌药物、或者证明黎曼猜想,这统统难道不值得吗?”

而在 Brown 于今年早些时候离职之后,Meta 公司首席 AI 科学家 Yann LeCun 表示,他认为 Brown 研究的便是 Q。

LeCun 在 11 月的推文中指出,“看起来 OpenAI 更进一步的探索便是 Q,他们还聘请了 Noam Brown 来帮忙办理这个问题。

两大寻衅

如果大家跟科学家或者工程师共事时,就会把稳到他们特殊喜好用白板。
当我自己在研究生院学习打算机科学时,我们就常常站在白板前面绘制图表或者议程。
随后在谷歌的演习经历,也让我意识到技能大厂里同样到处都是白板。

白板确实很有启示意义,由于面对极为困难的技能问题,人们刚开始根本不知道该如何下手。
他们可能会花几小时勾勒出了种潜在的办理思路,却创造根本就不适用。
之后他们就擦掉统统,从零开始找个不同的切入角度。
或者,他们也可能以为方案的前半部分还行,于是擦掉后半部分再换条新的探索路线。

这实质上便是一种智能树搜索:对多种可能的办理方案进行迭代,直到找出一个彷佛可以实际办理问题的路线。

OpenAI 和 DeepMind 之以是对大措辞模型加 AlphaGo 搜索树感到如此愉快,便是由于他们希望打算机也能实行同样的开放式智能探索。
到那个时候,我们只须要把充满寻衅的数学问题输入给大措辞模型,然后安心上床睡觉。
第二天早上醒来,它已经考虑了几千种可能的办理方案,并终极给出一些可能有希望的探索方向。

这当然是个鼓舞民气的愿景,但 OpenAI 至少还要战胜两大寻衅才能将其转化为现实。

首先,便是找到一种让大措辞模型进行“自我对弈”的方法。
AlphaGo 便是通过自我对弈完成了对顶尖人类棋手的碾压。
OpenAI 也在仿照物理环境中进行魔方实验,通过判断魔方是否处于“解开”状态来判断哪些操作有正向浸染。

而他们的梦想便是建立起一套大措辞模型,通过类似的自动化“自我对弈”办法提高推理能力。
但这就须要一种能够自动检讨特定办理方案是否精确的办法。
如果系统还须要人类来检讨每条答案精确与否,那么演习规模将非常有限、难以带来可与人类匹敌的推理水平。

就在 2023 年 5 月揭橥的论文中,OpenAI 还在聘任审查员来核对数学答案的精确性。
以是如果真的涌现了打破,那肯定是发生在过去这几个月间。

学习是个动态的过程

我认为第二个寻衅才是根本:通用推理算法,必须在探索各种可能性时表现出动态学习能力。

当人们考试测验在白板上推衍解题思路时,他们并不是在机器地迭代各种可能路线。
相反,每试过一个失落误的路线,人们对问题的理解也就又加深了一步。
在推理过程中,他们的生理模型也在不断演进,逐渐生出能快速判断哪种方法更好的强大直觉。

换句话说,人类内心的“策略网络”和“代价网络”并非一成不变。
我们在同一个问题上花费的韶光越多,在思考潜在答案时的判断能力也就增强,自然更长于预测当前思路是否有效。
如果没有这种实时学习能力,我们一定会迷失落在无穷无尽的潜在推理步骤当中。

比较之下,目前大多数神经网络在演习和推理之间保持着严格的边界。
一旦演习完成,AlphaGo 的策略和代价网络就被固定下来了——后续任何比赛过程都不会产生改变。
这对围棋来说没有问题,由于这项游戏的规则足够大略,可以在自我对弈的过程中体验各种可能的情形。

但现实天下要比方寸棋枰繁芜得多。
从定义上讲,研究者想要办理的因此往未能办理过的问题,以是实际情形很可能与演习期间碰着的任何问题都存在巨大差异。

因此,通用推理算法的实现必须在推理过程中持续获取见地,以便在模型办理问题的同时不断增强后续决策质量。
然而,目前的大措辞模型完备通过高下文窗口来坚持状态,而思维树方法在现有模型的一个分支跳往另一分支时,之前的影象信息会被新的高下文窗口直接删除。

一种可能的办理方案,便是利用图搜索来取代树搜索。
今年 8 月的一篇论文就提到这种方法,考试测验让大措辞模型将来自多个“分支”的见地结合起来。

但我高度疑惑,真正的通用推理引擎恐怕须要在底层架构上做根本性创新。
措辞模型必须借助新的方法来学习超越演习数据的抽象观点,并利用这些不断发展的抽象观点强化探索潜在办理方案空间时的详细选择。

我们都知道这绝非妄语,毕竟人类的大脑就能做到这一点。
而 OpenAI、DeepMind 乃至其他厂商可能还须要一段韶光,才能搞清楚如何把这种方法照搬到硅芯片之上。

原文链接:

https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/bgl/40536.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com