DCLM-baseline

DCLM-baseline

高性能语言模型基准测试数据集

  • 用于语言模型基准测试的高性能数据集
  • 包含大量的token和文档,适合大规模训练
  • 经过清洗、过滤和去重,保证数据质量
  • 提供了研究语言模型性能的基准
  • 不适用于生产环境或特定领域的模型训练
  • 有助于研究者理解数据策划对模型性能的影响
  • 促进了高效语言模型的研究和开发

产品详情

DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。