今天看啥  ›  专栏  ›  赛尔实验室

HIT-SCIR发布首个中文扩词表增量预训练混合专家模型Chinese-Mixtral-8x7B

赛尔实验室  · 公众号  · 程序员  · 2024-01-18 11:28
一、介绍大规模语言模型(LLM)在通用自然语言处理领域已取得了巨大成功。在各种应用场景下,这种技术均展示了强大的潜力,学术界和工业界的兴趣也持续升温。通常,在充足的计算资源、数据集以及参数量的支持下,进行大规模训练是获取性能强大模型的有效途径,因此性能强大的模型往往具有相当庞大的参数量。然而仅仅扩大参数量将降低模型的推理速度,这不利于将模型应用于实际场景。混合专家模型(MoE)由于其稀疏激活的特性,在每次推理时仅激活部分参数,从而在可接受的推理速度和计算效率下显著扩大模型规模,进而提高模型性能。近期,Mistral AI发布了首个开源MoE大模型:Mixtral-8x7B,其比肩LLaMA2-70B和GPT-3.5的强大性能引起了社区的广泛关注。由于Mixtral-8x7B词表不支持中文,因此对中文的编解码效率较低,限制了中文场景下的实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照