DCLM-7B

DCLM-7B

7亿参数的语言模型,展示数据整理技术的有效性。

  • 使用Decoder-only Transformer架构,专注于解码任务。
  • 支持英语(主要是)的语言处理。
  • 使用AdamW优化器,具有2e-3的峰值学习率。
  • 结合了StarCoder和ProofPile2数据集,达到4.1T token的数据量。
  • 在多个任务上进行了评估,如MMLU、HellaSwag、Jeopardy等。
  • 提供了详细的训练细节和评估结果,方便用户了解模型性能。

产品详情

DCLM-Baseline-7B是一个7亿参数的语言模型,由DataComp for Language Models (DCLM)团队开发,主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架,优化器为AdamW,学习率为2e-3,权重衰减为0.05,批次大小为2048序列,序列长度为2048个token,总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。