今天看啥  ›  专栏  ›  虎嗅APP

华为+DeepSeek,终于不再“服务器繁忙”?

虎嗅APP  · 公众号  · 科技媒体  · 2025-05-20 22:00
    

文章预览

HUAWEI  X  HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 01 大火的MoE专家网络, 也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语言模型性能的关键技术,近年来备受瞩目。 它通过将输入 token 分配给不同的专家网络,实现了模型的高效扩展,让模型在处理复杂任 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览