Mistral-Nemo-Instruct-2407

大型语言模型，支持多语言和代码数据

支持多语言和代码数据训练，适用于多语言环境
具有128k的上下文窗口，能够处理大量文本数据
模型架构包括40层、5120维、128头维、1436隐藏维，提供强大的文本处理能力
在多种基准测试中表现出色，如HellaSwag、Winogrande、OpenBookQA等
支持三种不同的框架：mistral_inference、transformers、NeMo
可以通过mistral-chat CLI命令与模型进行交互
支持函数调用，能够获取当前天气等信息

产品详情

Mistral-Nemo-Instruct-2407是由Mistral AI和NVIDIA联合训练的大型语言模型（LLM），是Mistral-Nemo-Base-2407的指导微调版本。该模型在多语言和代码数据上进行了训练，显著优于大小相似或更小的现有模型。其主要特点包括：支持多语言和代码数据训练、128k上下文窗口、可替代Mistral 7B。模型架构包括40层、5120维、128头维、1436隐藏维、32个头、8个kv头（GQA）、2^17词汇量（约128k）、旋转嵌入（theta=1M）。该模型在多种基准测试中表现出色，如HellaSwag（0-shot）、Winogrande（0-shot）、OpenBookQA（0-shot）等。

Mistral-Nemo-Instruct-2407

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

CrossPrism for MacOS