
DCLM-7B
7亿参数的语言模型,展示数据整理技术的有效性。
- 使用Decoder-only Transformer架构,专注于解码任务。
- 支持英语(主要是)的语言处理。
- 使用AdamW优化器,具有2e-3的峰值学习率。
- 结合了StarCoder和ProofPile2数据集,达到4.1T token的数据量。
- 在多个任务上进行了评估,如MMLU、HellaSwag、Jeopardy等。
- 提供了详细的训练细节和评估结果,方便用户了解模型性能。
产品详情
DCLM-Baseline-7B是一个7亿参数的语言模型,由DataComp for Language Models (DCLM)团队开发,主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架,优化器为AdamW,学习率为2e-3,权重衰减为0.05,批次大小为2048序列,序列长度为2048个token,总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。