专栏名称: 前端早读课
我们关注前端,产品体验设计,更关注前端同行的成长。 每天清晨五点早读,四万+同行相伴成长。
今天看啥  ›  专栏  ›  前端早读课

【图书】DeepSeek 原理与项目实战

前端早读课  · 公众号  · 前端  · 2025-05-21 08:00
    

文章预览

国内首本面向程序员的 DeepSeek 技术专著《DeepSeek 原理与项目实战》正式上市。该书由未来智能实验室团队编写,聚焦 DeepSeek-V3 这一开源大模型的核心技术与应用实践,未出版便已售出繁体中文及英文版权,引发业界广泛关注。 DeepSeek-V3 的核心技术亮点 本书重点解析的 DeepSeek-V3 是深度求索科技推出的第三代开源大模型,其技术突破包括: 1、混合专家架构(MoE): 总参数量达 6710 亿,每个 token 动态激活 370 亿参数 采用多头潜在注意力(MLA)架构,显著提升长文本处理能力 支持 128K 超长上下文窗口,适用于复杂文档分析 2、训练优化: 基于 14.8 万亿高质量 token 预训练 创新性使用 FP8 混合精度训练,降低 70% 显存占用 自研 HAI-LLM 框架解决 MoE 跨节点通信瓶颈 3、推理性能: 通过动态路由和负载均衡技术,实现低成本高效推理 在 MMLU(多任务语言理解 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览