HIT-SCIR发布首个中文扩词表增量预训练混合专家模型Chinese-Mixtral-8x7B

赛尔实验室 · 公众号 · 程序员 · 2024-01-18 11:28

一、介绍大规模语言模型（LLM）在通用自然语言处理领域已取得了巨大成功。在各种应用场景下，这种技术均展示了强大的潜力，学术界和工业界的兴趣也持续升温。通常，在充足的计算资源、数据集以及参数量的支持下，进行大规模训练是获取性能强大模型的有效途径，因此性能强大的模型往往具有相当庞大的参数量。然而仅仅扩大参数量将降低模型的推理速度，这不利于将模型应用于实际场景。混合专家模型（MoE）由于其稀疏激活的特性，在每次推理时仅激活部分参数，从而在可接受的推理速度和计算效率下显著扩大模型规模，进而提高模型性能。近期，Mistral AI发布了首个开源MoE大模型：Mixtral-8x7B，其比肩LLaMA2-70B和GPT-3.5的强大性能引起了社区的广泛关注。由于Mixtral-8x7B词表不支持中文，因此对中文的编解码效率较低，限制了中文场景下的实 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博