Llama版o1来了，来自上海AI Lab，强化学习代码已开源

发布日期：2024-11-11 16:44 点击次数：93

梦晨发自凹非寺量子位 | 公众号 QbitAI
复刻OpenAI o1推理大模子，开源界传来最新发达：
LLaMA版o1名目刚刚发布，来自上海AI Lab团队。
简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重政策范式（先验政策+价值评估）。

在2024年6月，o1发布之前，团队就开动探索蒙特卡洛树搜索提浩瀚模子数学智商，积存了一些怜惜。
此次最新开源代码，也在开荒者社区引起热议。

OpenAI o1系列发布后，团队开动升级算法，专注于数学奥赛问题，手脚OpenAI草莓名见地开源版块。
10月初，团队上传新论文，使用成对优化（不径直给出十足分数，而是比拟两个谜底的相对优劣）普及Llama模子数学奥赛智商。
在最难的AIME2024基准测试30谈题中，原版LLaMA-3.1-8B-Instruct作念对2谈，优化后作念对8谈，进步了除o1-preview和o1-mini以外的其他生意闭源有计算。

10月底，团队文书在基于AlphaGo Zero架构复刻OpenAI o1的勤奋中取得了要紧发达：
已得胜使模子在学习经过中通过与搜索树交互取得高等想维智商，无需东谈主工标注。
不到一周时刻，名目便开源了。

LLaMA版o1最新发达
现在已开源执行包括：预检修数据集、预检修模子、强化学习检修代码。
OpenLongCoT-Pretrain数据集，包含10万+条长想维链数据。

每条数据包含一个齐全的数知识题推理经过，包含想考执行和评分适度。
举例一个几何问题，包含了问题形容、图形坐标、蓄意经过和论断推导等齐全的推理链路，以及对各个推理要领的品评和考证执行，对推理经过进行评价和伙同。

在此数据集不竭预检修后，模子可读取和输出近似o1的长想维链经过。
预检修代码尚未发布，现在保举使用LLaMaFactory代替。
有趣味的是诚然名目名为LLaMA-O1，但现在官方给的预检修模子基于谷歌Gemma 2。

现在在预检修模子基础上，不错不竭进行强化学习检修，从代码中不错看出检修经过如下：
使用蒙特卡洛树搜索进行自我对弈(self-play)以生成造就将造就存储在优先造就回放缓冲区中从缓冲区采样批次数据进行检修更新模子参数和造就优先级论文中也给出了检修经过的图示。

同期检修代码中使用了以下重要本事点：
使用LoRA进行参数高效微调使用PPO算法手脚政策优化措施达成了GAE(Generalized Advantage Estimation)算法用于蓄意上风函数使用优先造就回放普及检修成果临了，LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，并莫得尽头简介，还比拟好意思妙。
其他与SimpleBerry估量的账号和官网中，只可看出性质是一个辩论实验室，也并未夸耀更多辩论见地信息。

其他o1复刻名目发达
除LLaMA-O1以外，另一个公开发达的o1复刻名目O1-Journey来自上交大团队。
团队在十月初发布了第一份发达讲明注解，其中先容了革命Journey Learning范式，以收用一个得胜将搜索和学习整合到数学推理中的模子。

O1-Journey中枢开荒团队主要由上交大大三、大四本科生，以及上交大GAIR实验室（生成式东谈主工智能辩论实验室）的一年龄博士生构成。
伙同教师包括上交大副熟练刘鹏飞，姚班学友、斯隆奖得主李远志等。

LLaMA-O1：https://github.com/SimpleBerry/LLaMA-O1相关论文：https://arxiv.org/abs/2406.07394https://arxiv.org/abs/2410.02884
O1-Journey：https://github.com/GAIR-NLP/O1-Journey/

上一篇：怎样通过饮食改善便秘
下一篇：东吴证券处罚落地，“东吴苏园产园REIT”区间领涨

让建站和SEO变得简单

Llama版o1来了，来自上海AI Lab，强化学习代码已开源

热点资讯

相关资讯