DCLM-7B

7亿参数的语言模型，展示数据整理技术的有效性。

使用Decoder-only Transformer架构，专注于解码任务。
支持英语（主要是）的语言处理。
使用AdamW优化器，具有2e-3的峰值学习率。
结合了StarCoder和ProofPile2数据集，达到4.1T token的数据量。
在多个任务上进行了评估，如MMLU、HellaSwag、Jeopardy等。
提供了详细的训练细节和评估结果，方便用户了解模型性能。

产品详情

DCLM-Baseline-7B是一个7亿参数的语言模型，由DataComp for Language Models (DCLM)团队开发，主要使用英语。该模型旨在通过系统化的数据整理技术来提高语言模型的性能。模型训练使用了PyTorch与OpenLM框架，优化器为AdamW，学习率为2e-3，权重衰减为0.05，批次大小为2048序列，序列长度为2048个token，总训练token数达到了2.5T。模型训练硬件使用了H100 GPU。

DCLM-7B

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

CrossPrism for MacOS