Mistral-Nemo-Base-2407

Mistral-Nemo-Base-2407

12B参数的大型语言模型

  • 支持多种语言和代码数据的文本生成
  • 128k上下文窗口训练,提升文本理解和生成能力
  • 预训练和指令版本,满足不同应用需求
  • Apache 2.0许可证发布,使用灵活
  • 模型架构包括40层、5120维、128头维,优化模型性能
  • 在多个基准测试中表现出色,如HellaSwag、Winogrande等
  • 支持多种框架使用,如mistral_inference、transformers、NeMo

产品详情

Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA联合训练的12B参数大型预训练生成文本模型。该模型在多语言和代码数据上进行了训练,显著优于相同或更小规模的现有模型。其主要特点包括:Apache 2.0许可证发布,支持预训练和指令版本,128k上下文窗口训练,支持多种语言和代码数据,是Mistral 7B的替代品。模型架构包括40层、5120维、128头维、14364隐藏维、32头数、8个kv头(GQA)、词汇量约128k、旋转嵌入(theta=1M)。该模型在多个基准测试中表现出色,如HellaSwag、Winogrande、OpenBookQA等。