当前位置:首页 > 热水器 > 文章正文

斯坦福大年夜学联合团队宣告全新智能体图解 AgentQ 的立异与实验结果

编辑:[db:作者] 时间:2024-08-25 08:33:19

大模型近年来取得了显著进展,展示了在自然措辞处理任务中的强大能力。
这些模型如ChatGPT、Gemini、Opus和LLaMA-3,不仅在文本天生和理解方面表现出色,还在代码天生、设备掌握和网页运用等动态环境中展现了潜力。

斯坦福大年夜学联合团队宣告全新智能体图解 AgentQ 的立异与实验结果

然而只管这些模型在静态任务中表现精良,它们在须要多步推理和决策的交互环境中仍面临巨大寻衅。

大模型在交互环境中的多步推理和决策能力是一个繁芜的问题。
传统的监督预演习方法在动态环境中表现不佳,而现有的监督微调方法也存在缺点累积和探索数据有限的问题。
这些限定使得LLMs难以在繁芜的决策任务中实现自主代理能力,特殊是在须要连续决策和反馈的场景中,如网页导航和电子商务平台。

为理解决上述问题,近日斯坦福大学与「MultiOn」联合提出了Agent Q框架。
该框架结合了蒙特卡洛树搜索(MCTS)和自我批评机制,并利用直接偏好优化(DPO)算法进行迭代微调。
通过这种方法,Agent Q能够从成功和失落败的轨迹中学习,从而提高其在繁芜任务中的泛化能力。
本文的目标是通过Agent Q框架,显著提升LLMs在动态环境中的自主代理能力,使其在实际运用中表现更加可靠和高效。

Agent Q框架由斯坦福大学和AGI公司(MultiOn)的研究职员共同完成。
团队成员包括Pranav Putta、Edmund Mills、Naman Garg、Sumeet Motwani、Chelsea Finn、Divyansh Garg和Rafael Rafailov。
斯坦福大学在人工智能和机器学习领域具有深厚的研究根本,而AGI公司(MultiOn)则在实际运用和技能开拓方面拥有丰富的履历。
两者的互助为Agent Q框架的开拓和验证供应了坚实的支持。

图1:他们利用蒙特卡洛树搜索(MCTS)来辅导轨迹网络,并利用直接偏好优化(DPO)迭代提高模型性能。
他们从左侧开始,从数据集中的任务列表中采样用户查询。
他们利用UCB1作为启示式方法迭代扩展搜索树,以平衡不同动作的探索和利用。
他们将每个节点得到的累积褒奖存储在树中,在这张图片中,深绿色表示更高的褒奖,深赤色表示更低的褒奖。
为了构建偏好数据集,他们打算MCTS均匀Q值和反馈措辞模型天生的分数的加权分数,以构建DPO的比拟对。
该策略已优化,可以迭代改进。

研究动机与寻衅

在当前的人工智能研究中,大型措辞模型(LLMs)已经展示了其在自然措辞处理任务中的强大能力。
但是当这些模型运用于须要多步推理和决策的动态交互环境时,仍旧面临许多寻衅。
传统的监督预演习方法紧张依赖于静态数据集,这使得模型在面对动态环境时表现不佳。

传统的监督预演习方法依赖于静态数据集,这些数据集无法涵盖所有可能的环境变革和繁芜决策场景。
因此模型在实际运用中随意马虎涌现泛化能力不敷的问题。

在多步决策过程中,早期步骤中的缺点会逐步累积,导致终极决策的质量低落。
现有的监督微调方法每每无法有效地纠正这些缺点,导致模型在繁芜任务中的表现不理想。

现有方法常日依赖于专家演示数据进行微调,但这些数据的覆盖范围有限,无法充分探索所有可能的决策路径。
这限定了模型在未知环境中的探索和学习能力。

为了战胜上述局限性,研究职员须要一种能够在繁芜决策任务中有效学习和泛化的新方法。
Agent Q框架的提出正是基于这一动机。

提升模型的泛化能力:通过结合蒙特卡洛树搜索(MCTS)和自我批评机制,Agent Q框架旨在提升模型在动态环境中的泛化能力,使其能够在不同的任务和环境中表现出色。

减少缺点累积:通过引入自我批评机制,模型能够在每一步决策中进行自我评估和反馈,从而减少缺点的累积效应,提高终极决策的质量。

增强探索能力:通过利用MCTS进行搜索,Agent Q框架能够更全面地探索可能的决策路径,从而提高模型在未知环境中的探索和学习能力。

Agent Q框架的研究动机在于开拓一种能够在繁芜、多变的环境中进行自主决策和学习的AI代理,为实现更高等的人工智能运用奠定根本。

Agent Q框架

Agent Q框架旨在提升大型措辞模型(LLMs)在动态交互环境中的多步推理和决策能力。
该框架结合了蒙特卡洛树搜索(MCTS)和自我批评机制,并利用直接偏好优化(DPO)算法进行迭代微调。
通过这种方法,Agent Q能够从成功和失落败的轨迹中学习,从而提高其在繁芜任务中的泛化能力。

详细说Agent Q框架的核心思想是利用MCTS进行搜索,以辅导轨迹网络和优化模型性能。
同时通过引入自我批评机制,模型能够在每一步决策中进行自我评估和反馈,从而改进搜索步骤。
DPO算法则用于在离线环境中对模型进行微调,使其能够更好地适应动态环境中的繁芜决策任务。

蒙特卡洛树搜索(MCTS)是一种用于决策过程中的搜索算法,广泛运用于游戏和繁芜决策任务中。
在Agent Q框架中,MCTS用于辅导轨迹网络和优化模型性能。
详细步骤如下:

选择阶段:利用UCB1公式选择节点,平衡探索和利用。
扩展阶段:在选择的节点上实行动作,天生新的节点(网页)。
仿照阶段:重新节点开始,利用当前策略进行轨迹滚动,直到达到终止状态。
反向传播阶段:从叶节点向上更新每个节点的值,优化策略。

通过MCTS,Agent Q能够在繁芜的网页环境中进行有效的搜索和决策,提高任务完成的成功率。

自我批评机制 自我批评机制通过AI反馈供应过程监督,改进搜索步骤。
在每一步决策中,模型会天生多个可能的动作,并通过AI反馈对这些动作进行评分。
详细步骤如下。

动作天生:在每个节点上,模型天生多个可能的动作。
AI反馈:利用AI模型对天生的动作进行评分,评估其在完成任务中的效用。
动作选择:根据评分选择最优动作,辅导下一步的搜索和决策。

通过自我批评机制,Agent Q能够在每一步决策中进行自我评估和反馈,从而减少缺点的累积效应,提高终极决策的质量。

图2:他们为Agent供应了以下输入格式,包括系统提示、实行历史、作为DOM表示确当前不雅观察以及包含目标的用户查询。
他们将代理输出格式分为总体分步操持、思想、命令和状态代码。

直接偏好优化(DPO)算法 DPO算法是一种离线强化学习方法,适用于在离线环境中对模型进行微调。

偏好对天生:在每个节点上,天生成功和失落败轨迹的偏好对。

目标优化:利用DPO算法对偏好对进行优化,调度模型参数。

通过DPO算法,Agent Q能够在离线环境中进行有效的学习和微调,提高其在动态环境中的泛化能力。

总的来说,Agent Q框架通过结合MCTS搜索、自我批评机制和DPO算法,实现了在繁芜决策任务中的有效学习和优化,显著提升了LLMs在动态交互环境中的自主代理能力。

实验设置与结果

实验环境

WebShop仿照电商平台 WebShop是一个仿照的电子商务平台,用于测试Agent Q在繁芜、多步决策任务中的表现。
在这个环境中,代理须要浏览网页、搜索产品并完成购买任务。
WebShop环境供应了一个动态且繁芜的测试平台,能够有效评估代理的搜索和决策能力。

实际预订网站(OpenTable) OpenTable是一个实际的餐厅预订网站,任务是为用户预订餐厅座位。
代理须要在网站上找到餐厅页面,选择预订日期和韶光,填写用户信息并提交预订要求。
OpenTable环境的繁芜性在于其动态网页内容和多步交互过程,这对代理的推理和决策能力提出了更高的哀求。

实验结果

WebShop环境 在WebShop环境中,Agent Q展示了显著的性能提升。
通过结合MCTS搜索和自我批评机制,Agent Q能够更有效地探索和决策。
实验结果显示,Agent Q在具备在线搜索能力时,成功率从根本模型的28.6%提升到50.5%,超过了均匀人类表现。
这表明,Agent Q在繁芜的电子商务任务中具有较强的泛化能力和决策效率。

OpenTable环境 在OpenTable环境中,Agent Q同样表现出色。
由于预订任务的繁芜性和多步交互过程,传统方法难以达到高成功率。
然而Agent Q结合MCTS搜索后,成功率显著提升。
实验结果显示,根本模型的零样本成功率为18.6%,通过强化微调(RFT)和DPO算法,成功率提升至71.8%。
进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。
这表明Agent Q在实际预订任务中的表现优于其他方法,能够有效应对繁芜的动态环境。

实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。
通过结合MCTS搜索、自我批评机制和DPO算法,Agent Q在繁芜、多变的环境中展示了强大的推理和决策能力,为实现更高等的人工智能运用奠定了根本。

方法细节

POMDP框架

Agent Q框架采取部分可不雅观测马尔可夫决策过程(POMDP)来建模网络交互。
POMDP包括以下几个关键组件:

不雅观察空间():代理能够不雅观察到的环境信息。
未不雅观察状态空间():环境的真实状态,但代理无法直接不雅观察。
动作空间():代理可以实行的动作凑集。
转移分布():描述状态转移的概率分布。
褒奖函数():评估代理在特定状态下实行特定动作的收益。
初始状态分布(0):环境的初始状态分布。
折扣因子():用于折扣未来褒奖的权重。

在POMDP框架下,代理的不雅观察包括用户指令和网页内容,动作由操持、推理、环境交互和解释组成。
通过这种办法,Agent Q能够在繁芜的网页环境中进行有效的搜索和决策。

动作选择与扩展

在Agent Q框架中,动作选择和扩展是通过利用UCB1公式和AI反馈进行的。
详细步骤如下:

选择阶段:利用UCB1公式选择节点,平衡探索和利用。
UCB1公式如下:

个中,N(ht)表示状态ht的访问频率,Cexp是探索常数。

扩展阶段:在选择的节点上实行动作,天生新的节点(网页)。
在每个节点上,模型天生多个可能的动作,并通过AI反馈对这些动作进行评分。
AI反馈模型会对天生的动作进行排序,评估其在完成任务中的效用。

通过这种办法,Agent Q能够在每一步决策中进行自我评估和反馈,从而减少缺点的累积效应,提高终极决策的质量。

反向传播

反向传播阶段通过更新节点值来优化策略。
详细步骤如下:

仿照阶段:重新节点开始,利用当前策略进行轨迹滚动,直到达到终止状态。
环境返回一个褒奖R,如果代理成功完成任务,则R=1,否则R=0。

反向传播阶段:从叶节点向上更新每个节点的值,优化策略。
更新公式如下:

个中,Q(ht, ai)表示在状态ht选择动作ai的均匀褒奖,N(ht, ai)表示在搜索过程中访问该状态动为难刁难的次数。

通过反向传播,Agent Q能够有效地更新策略,提高在繁芜环境中的决策能力。

总的来说,Agent Q框架通过POMDP建模、UCB1公式和AI反馈进行动作选择与扩展,以及反向传播优化策略,实现了在繁芜决策任务中的有效学习和优化,显著提升了LLMs在动态交互环境中的自主代理能力。

图3:WebShop Yao等人(2022)任务中不同方法的成功率。
所有模型均基于xLAM-v0.1-r Zhang等人(2024c)。
与xLAM-v0.1-r比较,RFT和DPO的性能分别从28.6%提高到31.3%和37.5%。
然而这些方法仍旧掉队于50.0%的人类均匀表现。
他们的方法,Agent Q+MCTS比基本模型得到了显著的收益(76.57%的相对改进),在WebShop上的表现优于人类的均匀表现,成功率为50.5%。

强化学习与微调

强化学习方法

在Agent Q框架中,强化学习(RL)方法的运用是提升模型在繁芜决策任务中表现的关键。
本文采取了离线RL和直接偏好优化(DPO)算法,以实现高效的模型微调。

离线RL是一种在预先网络的数据集上进行演习的方法,避免了在线RL在实际环境中可能带来的高本钱和风险。
离线RL通过利用已有的轨迹数据,优化模型的决策策略,使其在面对类似任务时能够做出更优的决策。

直接偏好优化(DPO)算法是一种适用于离线环境的RL方法,特殊适宜于多步推理问题。
DPO通过成比拟较反馈来优化模型,详细步骤如下:

偏好对天生:在每个节点上,天生成功和失落败轨迹的偏好对。
目标优化:利用DPO算法对偏好对进行优化,调度模型参数。

DPO算法的上风在于能够利用离线数据进行高效演习,不须要在线数据采集,从而降落了演习本钱和风险。

实验结果

在实验中,Agent Q框架结合了MCTS搜索和DPO算法,显著提升了模型在WebShop和OpenTable任务中的成功率。

WebShop环境 在WebShop仿照电商平台中,Agent Q展示了显著的性能提升。
通过结合MCTS搜索和DPO算法,Agent Q能够更有效地探索和决策。
实验结果显示,Agent Q在具备在线搜索能力时,成功率从根本模型的28.6%提升到50.5%,超过了均匀人类表现。
这表明,Agent Q在繁芜的电子商务任务中具有较强的泛化能力和决策效率。

OpenTable环境 在OpenTable实际预订网站中,Agent Q同样表现出色。
由于预订任务的繁芜性和多步交互过程,传统方法难以达到高成功率。
然而Agent Q结合MCTS搜索后,成功率显著提升。
实验结果显示,根本模型的零样本成功率为18.6%,通过强化微调(RFT)和DPO算法,成功率提升至71.8%。
进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。
这表明,Agent Q在实际预订任务中的表现优于其他方法,能够有效应对繁芜的动态环境。

图4:该策略在推理韶光搜索的每一步都提出了K个操作。
评论家也被初始化为策略利用的相同根本LLM模型,对策略提出的行动进行排名。
该排名用于辅导扩展后的节点选择,并用于在策略演习期间构建偏好对。

总的来说,实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。
通过结合MCTS搜索、自我批评机制和DPO算法,Agent Q在繁芜、多变的环境中展示了强大的推理和决策能力,为实现更高等的人工智能运用奠定了根本。

实际运用与扩展

在OpenTable环境中的初步实验结果显示,Agent Q在实际运用中表现出色。
OpenTable是一个实际的餐厅预订网站,任务是为用户预订餐厅座位。
代理须要在网站上找到餐厅页面,选择预订日期和韶光,填写用户信息并提交预订要求。
由于OpenTable环境的繁芜性和多步交互过程,传统方法难以达到高成功率。

图5:在轨迹结束时,调用GPT-4-V评估器,根据终极的不雅观察和行动历史供应对代理性能的反馈,以确定成功分数。
该模型会显示轨迹的压缩实行历史和终极状态的屏幕截图。
成功度量是一个二进制0/1值。

实验结果显示,根本模型的零样本成功率为18.6%。
通过强化微调(RFT)和DPO算法,成功率提升至71.8%。
进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。
这表明,Agent Q在实际预订任务中的表现优于其他方法,能够有效应对繁芜的动态环境。

图6:OpenTable上不同方法的成功率。
除非另有解释,否则所有型号均基于LLaMA-3-70B-Instruct Touvron等人(2023)。
将DPO和RFT与MCTS结合利用,性能分别从18.6%提高到71.8%和84.3%。
我们创造,Agent Q本身达到了81.7%,Agent Q+MCTS的性能明显优于所有其他技能,在OpenTable上的性能为95.4%。

只管Agent Q在实验中表现出色,但在实际运用中仍面临一些寻衅和须要进一步优化的方向。

在实际运用中,代理可能会在搜索过程中犯错,特殊是在处理敏感信息(如支付和个人信息)时。
这些缺点可能难以修复或逆转,因此须要额外的安全方法和人类监督。

在繁芜的动态环境中,代理须要与用户进行有效的交互,以确保任务的成功完成。
例如,当预订日期和韶光不可用时,代理须要与用户沟通以选择最得当的替代选项。
这须要代理具备强大的自然措辞理解和天生能力。

只管Agent Q在实验中表现出色,但仍有改进空间。
例如,可以进一步优化搜索算法,减少搜索过程中的风险和缺点。
此外,可以探索更多的自我监督和AI反馈机制,以提高代理的决策质量。

未来的研究可以探索Agent Q在其他实际运用处景中的表现,如电子商务、金融交易和客户做事等。
这些场景同样须要繁芜的多步决策和推理能力,Agent Q的框架和方法可以为这些运用供应有力支持。

Agent Q在实际运用中的初步实验结果令人鼓舞,但在实现全面支配之前,仍需办理在线安全、交互问题和进一步优化等寻衅。
未来的研究将连续探索这些方向,以提升自主AI代理的能力和可靠性。
(END)

参考资料:https://arxiv.org/abs/2408.07199

颠簸天下(PoppleWorld)是噬元兽数字容器的一款AI运用,是由AI技能驱动的帮助用户进行感情管理的工具和通报感情代价的社交产品,基于意识科学和感情代价的理论根本。
颠簸天下将人的意识和感情作为研究和运用的工具,探索人的意识机制和特色,培养人的意识技能和习气,知足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人得到真正的自由快乐和内在的力量。
颠簸天下将建立一个辅导我们的感情和反应的代价体系。
这是一款针对普通人的基于人类认知和行为模式的情绪管理Dapp运用程序。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/197318.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com