主要观点总结
昆仑万维宣布开源其Skywork-MoE大模型,该模型基于之前开源的Skywork-13B模型扩展而来。Skywork-MoE是首个将MoE Upcycling技术应用于开源千亿MoE大模型的实例,支持单台4090服务器推理。模型权重、技术报告完全开源并免费提供。模型隶属于天工3.0研发模型系列的中档大小模型,共有16个Expert。模型能力方面,Skywork-MoE在相同的激活参数量下表现优秀,推理成本显著下降。技术创新方面,该模型设计了两种训练优化算法以解决MoE模型训练困难、泛化性能差的问题。同时,模型还通过一系列基于Scaling Laws的实验来探究MoE训练的约束条件。此外,Skywork-MoE还提供了高效的推理框架代码和安装环境,并可以在8x4090服务器上进行推理。昆仑万维的其他相关成就也备受关注,如Opera浏览器成为全球首个接入端侧AI大模型的主流浏览器等。
关键观点总结
关键观点1: Skywork-MoE大模型的开源
Skywork-MoE是基于昆仑万维之前开源的Skywork-13B模型扩展而来,是首个将MoE Upcycling技术应用于开源千亿MoE大模型的实例。
关键观点2: 模型支持单台4090服务器推理
Skywork-MoE是首个支持用单台4090服务器进行推理的开源千亿MoE大模型,提供了高效的推理框架代码和安装环境。
关键观点3: 模型能力表现
Skywork-MoE在相同的激活参数量下表现出色,推理成本显著下降,接近70B的Dense模型能力。
关键观点4: 技术创新
Skywork-MoE设计了两种训练优化算法解决MoE模型训练困难、泛化性能差的问题,包括Gating Logits归一化操作和自适应的Aux Loss。
关键观点5: 其他成就与关注
昆仑万维的其他成就如Opera浏览器成为全球首个接入端侧AI大模型的主流浏览器等也备受关注。
文章预览
2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来, 是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型 , 也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。 开源地址: Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请: • 模型权重下载: ○ https://huggingface.co/Skywork/Skywork-MoE-base ○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8 • 模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE • 模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf • 模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理) https://github.com/SkyworkAI/vllm 模型架构: 本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研
………………………………