Mistral-Nemo-Base-2407

12B参数的大型语言模型

支持多种语言和代码数据的文本生成
128k上下文窗口训练，提升文本理解和生成能力
预训练和指令版本，满足不同应用需求
Apache 2.0许可证发布，使用灵活
模型架构包括40层、5120维、128头维，优化模型性能
在多个基准测试中表现出色，如HellaSwag、Winogrande等
支持多种框架使用，如mistral_inference、transformers、NeMo

产品详情

Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA联合训练的12B参数大型预训练生成文本模型。该模型在多语言和代码数据上进行了训练，显著优于相同或更小规模的现有模型。其主要特点包括：Apache 2.0许可证发布，支持预训练和指令版本，128k上下文窗口训练，支持多种语言和代码数据，是Mistral 7B的替代品。模型架构包括40层、5120维、128头维、14364隐藏维、32头数、8个kv头（GQA）、词汇量约128k、旋转嵌入（theta=1M）。该模型在多个基准测试中表现出色，如HellaSwag、Winogrande、OpenBookQA等。

Mistral-Nemo-Base-2407

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

CrossPrism for MacOS