DCLM-baseline

DCLM-baseline

高性能语言模型基准测试数据集

用于语言模型基准测试的高性能数据集
包含大量的token和文档，适合大规模训练
经过清洗、过滤和去重，保证数据质量
提供了研究语言模型性能的基准
不适用于生产环境或特定领域的模型训练
有助于研究者理解数据策划对模型性能的影响
促进了高效语言模型的研究和开发

产品详情

DCLM-baseline是一个用于语言模型基准测试的预训练数据集，包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤，从Common Crawl数据集中提取，旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用，不适用于生产环境或特定领域的模型训练，如代码和数学。

相关项目

知了zKnown

知了zKnown

MBox AI Meet

MBox AI Meet

Klee

Klee

CrossPrism for MacOS

CrossPrism for MacOS