谷歌DeepMind的IMO金牌模型,完整技术全公开了!延续DeepMind的命

量子位看科技 2025-11-13 20:53:52

谷歌DeepMind的IMO金牌模型,完整技术全公开了!延续DeepMind的命名传统,这次叫:AlphaProof。依然是Nature刊发的形式,放出了AlphaProof的完整论文,首次详细公开了其背后的技术架构和训练方法。值得一提的是,无师自通的下棋AlphaZero,也在这次论文里被多次提及。【图1】作者Tom Zahavy也趁此机会分享了一些开发过程中的细节:AlphaProof团队规模并不大。大部分时间里只有大约10个人,临近IMO比赛时才有更多人加入。真正带来突破的核心团队成员是IMO金牌得主Miklós Horváth。他想出一个方法可以创建AI正在处理的问题的各种变体,并将它们作为初始状态,让智能体在这些变体上进行训练。【图2】在整整一年里,这支团队还探索了各种研究思路,虽然很多都失败了,但成功的那些都被整合到了AlphaProof系统里,现在全面公开。技术细节:

0 阅读:2

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注