aimo-progress-prize

AI数学奥林匹克解决方案

微调DeepSeekMath-Base 7B模型以解决数学问题
使用两个高质量的数学问题和解决方案数据集进行训练
自洽解码算法生成解决方案候选项
使用来自AMC、AIME和MATH的验证集指导模型选择
使用开源库TRL、PyTorch、vLLM和DeepSpeed训练模型
模型训练分为两个阶段：CoT训练和TIR训练

产品详情

这个GitHub仓库包含了训练和推理代码，用于复制我们在AI数学奥林匹克（AIMO）进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成：一个用于微调DeepSeekMath-Base 7B以使用工具集成推理（TIR）解决数学问题的配方；两个约100万个数学问题和解决方案的高质量训练数据集；一个自洽解码算法，用于生成具有代码执行反馈的解决方案候选项（SC-TIR）；四个来自AMC、AIME和MATH的精心选择的验证集，以指导模型选择并避免对公共排行榜的过拟合。

aimo-progress-prize

产品详情

相关项目

Kipps.AI

ZETIC.ai

Airtable Cobuilder

AI Generated Diagram