社区供稿 | 元象首个 MoE 大模型开源: 4.2B 激活参数，效果堪比 13B 模型

HuggingFace · 公众号 · · 2024-04-10 18:30

元象发布XVERSE-MoE-A4.2B大模型，采用业界最前沿的混合专家模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用，推动低成本部署。XVERSE-MoE-A4.2B展现出两大优势：极致压缩：用相同语料训练2.7万亿token，元象MoE实际激活参数量4.2B，效果“跳级”超越XVERSE-13B-2，仅用30%计算量，并减少50%训练时间。超凡性能：在多个权威评测中，元象MoE效果大幅超越新晋业界顶流谷歌Gemma-7B和Mistral-7B、Meta开源标杆Llama2-13B等多个模型、并接近超大模型Llama1-65B。权威测试集评测结果MoE模型采用的稀疏激活（Sparsely Activated）技术，正逐渐成为大模型研究领域最前沿。该技术打破了传统规模理论（Scaling Law）的局限，在扩大模型规模的同时，可以不显著 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博