英伟达Mistral AI联袂出击！120亿小模型王者强势登场，碾压Llama 3单张4090可跑

机器学习研究组订阅 · 公众号 · AI · 2024-07-20 21:49

主要观点总结

本文介绍了欧洲最强AI初创公司Mistral发布旗下最新最强小模型Mistral NeMo，由Mistral AI和英伟达联手打造，支持多项基准测试，瞄准企业用户的使用。文章详细描述了Mistral NeMo的性能特点、训练过程、优势、兼容性、安全性和部署等方面的信息。

关键观点总结

关键观点1: Mistral NeMo发布背景及时机

本周巨头小模型三连发，包括HuggingFace的SmoLLM和OpenAI的GPT-4o mini等，营造了“小模型周”的氛围。

关键观点2: Mistral NeMo的性能特点

Mistral NeMo有12B参数，支持128K上下文，在多项基准测试中击败了其他模型。它利用Mistral AI的专业知识和英伟达的硬件和软件生态系统进行优化，性能极其优秀。

关键观点3: Mistral NeMo的兼容性及易用性

Mistral NeMo使用标准架构，因此兼容性强，易于使用，并可以直接替代任何使用Mistral 7B的系统。它采用了NVIDIA TensorRT-LLM和NVIDIA NeMo开发平台，以提高性能。

关键观点4: Mistral NeMo的目标企业用户

Mistral NeMo瞄准企业用户的使用，提供企业级软件的支持，具有专用功能分支、严格的验证流程以及企业级安全性的支持。

关键观点5: Mistral NeMo的训练和推理优化

Mistral AI和英伟达各自擅长的领域结合，优化了Mistral NeMo的训练和推理。模型利用Mistral AI的专业知识进行训练，并使用NVIDIA NeMo的一部分Megatron-LM进行训练。

关键观点6: Mistral NeMo的多语言性能

Mistral NeMo模型专为全球多语言应用程序而设计，经过函数调用训练，具有较大的上下文窗口，并且在多种语言方面性能强大。

关键观点7: Mistral NeMo的新颖技术

Mistral NeMo使用基于Tiktoken的全新分词器Tekken，该分词器已针对100多种语言进行训练，更有效地压缩自然语言文本和源代码。

关键观点8: Mistral NeMo的可用性和部署

凭借在云、数据中心或RTX工作站等任何地方运行的灵活性，Mistral NeMo已准备好成为彻底改变跨平台使用AI应用程序的先锋。

文章预览

小模型，成为本周的AI爆点。先是HuggingFace推出了小模型SmoLLM；OpenAI直接杀入小模型战场，发布了GPT-4o mini。 GPT-4o mini发布同天，欧洲最强AI初创公司Mistral立马发布旗下最新最强小模型——Mistral NeMo。 Mistral NeMo由Mistral AI和英伟达联手打造，有12B参数，支持128K上下文。从整体性能上来看，Mistral NeMo在多项基准测试中，击败了Gemma 2 9B和Llama 3 8B。看到各大巨头和独角兽都和小模型杠上了，吃瓜群众纷纷鼓掌。 HuggingFace创始人表示，本周巨头小模型三连发，「小模型周」来了！卷！继续卷！ Mistral这周的确像打了鸡血，火力全开。几天前， Mistral才发布了两款小模型，专为数学推理和科学发现设计的Mathstral 7B和代码模型Codestral Mamba ，是首批采用Mamba 2架构的开源模型之一。没想到周这只是平A了两下热热场子，还和老黄憋着大招等待闪亮登场。 1＋1＞2? ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博