DeepSeek V3架构图；Deepseek 团队核心成员揭秘 —— 清北应届生撑起一片天；Dee...

算法与数据结构 · 公众号 · 算法 · 2025-01-16 12:03

文章预览

0、DeepSeek V3 架构图 1、OpenAI 科学家赞DeepSeek-v3：算法非常强，算力用到极致 OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地，分享了一个来自中国的开源大模型——DeepSeek-v3。Karpathy表示，DeepSeek仅用了280万小时的GPU算力，就训练出了比Llama-3405B（使用3080万小时 GPU）更强的前沿模型，整体成本节省了11倍左右，将算力发挥到了极致。这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下，使用高质量数据、更好的算法同样能训练出高性能大模型。 DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中，性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型，成为目前最强开源大模型之一。DeepSeek 的团队是一群前量化分析师，他们的训练效率非常疯狂。 DeepSeek v3 的架构主要包括多头潜在注意力（MLA）和混 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博