Mistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407

大型语言模型,支持多语言和代码数据

  • 支持多语言和代码数据训练,适用于多语言环境
  • 具有128k的上下文窗口,能够处理大量文本数据
  • 模型架构包括40层、5120维、128头维、1436隐藏维,提供强大的文本处理能力
  • 在多种基准测试中表现出色,如HellaSwag、Winogrande、OpenBookQA等
  • 支持三种不同的框架:mistral_inference、transformers、NeMo
  • 可以通过mistral-chat CLI命令与模型进行交互
  • 支持函数调用,能够获取当前天气等信息

产品详情

Mistral-Nemo-Instruct-2407是由Mistral AI和NVIDIA联合训练的大型语言模型(LLM),是Mistral-Nemo-Base-2407的指导微调版本。该模型在多语言和代码数据上进行了训练,显著优于大小相似或更小的现有模型。其主要特点包括:支持多语言和代码数据训练、128k上下文窗口、可替代Mistral 7B。模型架构包括40层、5120维、128头维、1436隐藏维、32个头、8个kv头(GQA)、2^17词汇量(约128k)、旋转嵌入(theta=1M)。该模型在多种基准测试中表现出色,如HellaSwag(0-shot)、Winogrande(0-shot)、OpenBookQA(0-shot)等。