编辑:[db:作者] 时间:2024-08-25 07:16:48
机器之心编辑部
中山大学和华为等机构的研究者提出了 LEGO-Prover,实现了数学定理的天生、整理、储存、检索和复用的全流程闭环。
背景
作为长链条严格推理的典范,数学推理被认为是衡量措辞模型推理能力的主要基准,GSM8K 和 MATH 等数学笔墨问题(math word problem)数据集被广泛运用于措辞模型的测评和比较中。事实上,数学作为一项科学研究并不仅仅包括打算详细实例,还包括推演一样平常性的定理。不同于大略的打算问题仅仅须要验证终极的结果与答案是否匹配,定理的证明哀求对数学观点拥有更严格的理解,而这种定理证明的精确性是难以通过直接的自然措辞天生和判别或是大略的程序调用就能够完成的。
正如自然措辞处理希望能够利用打算机直接对人类措辞进行数字化打算一样,对付数学工具的数字化也有着数十年的探索,乃至当代形式逻辑的出身在很大程度上也正是源于对数学命题进行演算的想法。从工作势化验证的打算机科学家致力于为数学论述布局表达自然且打算高效的形式措辞和证明验证器,人工编写的形式化数学代码在通过打算机的形式化验证后被认为具有高度的严格性。然而,这一过程须要大量的人工本钱,著名的 Flyspeck project 乃至花费了二十年的韶光才完成开普勒猜想的证明,而自动化的证明搜索算法则面临着搜索空间的组合爆炸问题,导致非平凡的定理证明每每超出了当前的打算能力限定。
深度学习的发展为形式化数学和自动定理证明供应了新的机遇。近年来,一种名为神经定理证明(neural theorem proving)的新范式以两种办法考试测验将神经网络与形式定理证明相结合:利用神经网络对数学库中的定理和当前的证明目标分别进行向量表征并进行匹配,筛选出最可能被利用的定理,帮助纯符号打算的自动定理证明器缩小证明搜索空间;或者将证明目标作为提示输入措辞模型,使其直接天生相应的形式化数学证明代码,再利用相应的形式化验证器来判断该证明的精确性,这种直接代替人类编码者完成紧张证明内容书写的直接模式在大措辞模型取得打破后备受关注。
然而,与数学笔墨问题一样,当提高行定理证明的方法常日是 “一次性的”,也即推理过程和中间结论仅仅作为通向终极证明的临时性路径,在完成证明的验证后即被丢弃、并不对后续的定理证明产生贡献。这种办法更像是对大措辞模型进行静态测试,而没有对其能力的持续提升做出贡献。
事实上,数学的发展并不仅仅是大略的重复考试测验解题,还包括从实例中「抽象」出普遍的数学构造和定理、从分外的定理推广到一样平常的定理和根据已有的定理演绎地「推出」新的结论。
随着这一过程的演进,数学家对更繁芜的问题拥有更强大的工具和更深刻的理解,终极才能办理先前无法办理的困难问题。
为理解决这一问题,仿照人类数学家在进行定理证明时常日进行的分解繁芜问题、引用已有知识,并积累成功证明的新定理的迭代过程,中山大学和华为等机构的研究者提出了 LEGO-Prover,实现了数学定理的天生、整理、储存、检索和复用的全流程闭环。
LEGO-Prover 使 GPT-3.5 在形式化定理证明数据集 miniF2F-valid(证明成功率从 48.0% 提高到 57.0%)和 miniF2F-test(证明成功率从 45.5% 提高到 50.0%)上都达到了新的 SOTA。在证明过程中,LEGO-Prover 还成功地天生了超过 20,000 个引理并将它们添加到了不断增长的定理库中。
溶解研究表明,这些新添加的技能确实对证明定理有帮助,在 miniF2F-valid 上的证明成功率从 47.1% 提高到 50.4%。
论文地址:https://arxiv.org/abs/2310.00656
代码地址:https://github.com/wiio12/LEGO-Prover
方法
LEGO-Prover 采纳了一系列的流程来实现对定理证明的方案、履行和可复用定理库的网络:
1. 给定一个以自然措辞描述的数学定理及其人类编写的形式化描述,利用 GPT-3.5(informal solver)直接天生的自然措辞证明。
2. 利用分解器(decomposer)将这一自然措辞证明分解为详细的证明步骤,并以引理的形式对这些证明步骤中的子目标进行对应的形式措辞描述(作为检索的 request)。
3. 利用这些以形式措辞描述的子目标考试测验从定理库(也即 skill library)中检索干系的已证明定理,将其与上述内容一同输入 GPT-3.5(formalizer),在这些提示的根本上进行目标定理的形式化证明,并利用形式化验证器考验证明的精确性。
4. 从通过验证的形式化证明中,提取出除目标定理外的其他通过验证的定理(或引理)和在分解过程后得到的子目标形式措辞描述,对它们进行 embedding 后加入到掩护的定理库中。
此外,LEGO-Prover 还对定理库进行了专门的整理和掩护流程,对分解过程中网络到的子目标进行单独的证明考试测验,通过多种类别的 prompt 勾引 GPT-3.5 对证明过程中网络到的成功证明的定理进行蜕变,从详细的证明实例抽象出一样平常的数学命题,以匆匆进定理库中命题的多样性、概括性和可复用性:
实验
实验表明,这些蜕变得到的新定理在后续的定理证明中起到了关键性的浸染,miniF2F 数据集中的许多定理都是在利用这些从定理库中抽取得到的结果才得以证明的。利用网络和蜕变得到的定理库后,LEGO-Prover 的证明成功率从 47.1% 提高到 50.4%,而在利用定理库的环境下,有 24% 的问题是在技能库的帮助下完成的,这表明技能库的利用对付大措辞模型进行定理证明任务而言帮助很大。此外,利用定理库技能的上风在较小的考试测验次数下具有较高的比例,表明这一方法对付打算资源相称有限的环境下具有相称可不雅观的利用代价。
末了,实验结果表明 LEGO-Prover 在 miniF2F 数据集上的证明成功率显著优于基于先前的方法。利用人类编写的证明,LEGO-Prover 在验证集和测试集上的证明成功率分别比先前最好的方法赶过 19% 和 3.5%。当利用模型天生的非正式证明替代人类编写的非正式证明时,LEGO-Prover 在验证集上的证明成功率仍旧达到了 52.4%,靠近于利用人类编写的非正式证明的证明成功率 55.3%。
LEGO-Prover 探索了如何以块状的办法证明定理。然而数据稀缺问题在定理证明这个领域内依旧非常严重。因此,与此同时,中山大学联合北京大学还推出了基于三角函数的定理证明基准数据集 TRIGO (https://arxiv.org/abs/2310.10180),揭橥于EMNLP 2023。
TRIGO 对自动引理天生以及如何从合成的引理数据的分布泛化到真实天下数据的分布进行了进一步的探索。当前的自动定理证明数据集紧张侧重于符号推理,很少涉及繁芜数字组合推理的理解。TRIGO 不仅哀求模型通过逐步证明来简化三角函数表达式,还评估了天生式措辞模型在公式和数字术语的操作、分组和因式分解方面的推理能力。研究团队从网络上网络了三角函数表达式及其简化形式,人工标注了简化过程,然后将其转化为 LEAN 形式系统下的措辞。在有一定的来自于真实天下的形式化定理数据后,研究团队利用引理天生器,从已标注的样本中初始化 Lean-gym 来自动天生新的引理以扩展数据集。
此外,TRIGO 还开拓了基于 lean-gym 的自动天生器,用以创建不同难度和分布的数据集拆分,以全面剖析模型的泛化能力。TRIGO 在定理证明领域供应了新的寻衅,同时也供应了一种研究天生式措辞模型在形式和数学推理方面能力的新工具。
此外,为了探索定理证明模型的能力在更难的数据集上的表现,中山大学联合北京大学还提出了 FIMO 基准数据集(https://arxiv.org/abs/2309.04295)。形式化数学数据稀缺,手工形式化本钱非常高昂。当前主流的数据集紧张聚焦于初高中水平的运用题,难度普遍偏低,对付 IMO 等须要高水平解题技巧的数学竞赛题目关注较少,而且常常不包括自然措辞题解。
针对现有数据集的问题,FIMO 探索了利用反馈信息的自动形式化方法,利用 GPT-4 和自动、手动两种反馈信息,将数量较为丰富的 IMO Shortlisted 候选题转换为了 Lean 措辞描述的形式措辞。
实验结果表明,反馈机制的加入大大缓解了先前自动形式化的语法缺点和语义缺点,显著提升了自动形式化的成功率(32.6%→60.8),成功形式化了 89 道代数和 60 道数论的高难度题目。进一步的实验表明,虽然 GPT-4 无法直接天生 IMO 级别题目的形式化题解,但是它可以跟随自然措辞答案的解题思路,暗示了利用自然措辞赞助机器定理证明的可能性。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxbj/172975.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com