aimo-progress-prize

aimo-progress-prize

AI数学奥林匹克解决方案

  • 微调DeepSeekMath-Base 7B模型以解决数学问题
  • 使用两个高质量的数学问题和解决方案数据集进行训练
  • 自洽解码算法生成解决方案候选项
  • 使用来自AMC、AIME和MATH的验证集指导模型选择
  • 使用开源库TRL、PyTorch、vLLM和DeepSpeed训练模型
  • 模型训练分为两个阶段:CoT训练和TIR训练

产品详情

这个GitHub仓库包含了训练和推理代码,用于复制我们在AI数学奥林匹克(AIMO)进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成:一个用于微调DeepSeekMath-Base 7B以使用工具集成推理(TIR)解决数学问题的配方;两个约100万个数学问题和解决方案的高质量训练数据集;一个自洽解码算法,用于生成具有代码执行反馈的解决方案候选项(SC-TIR);四个来自AMC、AIME和MATH的精心选择的验证集,以指导模型选择并避免对公共排行榜的过拟合。