
DCLM-baseline
高性能语言模型基准测试数据集
- 用于语言模型基准测试的高性能数据集
- 包含大量的token和文档,适合大规模训练
- 经过清洗、过滤和去重,保证数据质量
- 提供了研究语言模型性能的基准
- 不适用于生产环境或特定领域的模型训练
- 有助于研究者理解数据策划对模型性能的影响
- 促进了高效语言模型的研究和开发
产品详情
DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。