dolmino-mix-1124

高质量数据集，用于OLMo2训练的第二阶段。

包含多个来源的数据，如DCLM、Flan、Pes2o、Wiki等。
数据集被分为不同的类别，如HQ Web Pages、STEM Papers、Encyclopedic等。
支持多种自然语言处理任务，特别是在文本生成领域。
数据集被用于训练和优化大型语言模型，如OLMo2。
数据集包含大量的文本数据，适合进行大规模的机器学习训练。
遵循开放数据许可，允许研究者和开发者自由使用。

产品详情

DOLMino dataset mix for OLMo2 stage 2 annealing training是一个混合了多种高质数据的数据集，用于在OLMo2模型训练的第二阶段。这个数据集包含了网页页面、STEM论文、百科全书等多种类型的数据，旨在提升模型在文本生成任务中的表现。它的重要性在于为开发更智能、更准确的自然语言处理模型提供了丰富的训练资源。

dolmino-mix-1124

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

CrossPrism for MacOS