|
Megatron-LM,又一大模型训练神器 瓦力算法学研所 · 公众号 · · 8 月前 · 访问文章快照 |
|
从大模型推理极限理论最优值谈谈推理优化 瓦力算法学研所 · 公众号 · · 8 月前 · 访问文章快照 |
|
大语言模型在生成式信息提取中的应用概览 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
视觉面经之一问:为什么DETR不需要NMS后处理? 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
大模型推理瓶颈及极限理论值分析 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
大模型面经之bert和gpt区别 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了? 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
为什么LLM推理加速有KV Cache而没有Q Cache? 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
算法7月上半月急招岗位|中兵集团(编制) /商汤 / 大疆车载 /吉利控股/ 字节 / 蔚来 / 文远知行 /智源研究院 /等 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
大模型推理性能优化之KV Cache 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
vLLM,一个好用的大模型加速工具 瓦力算法学研所 · 公众号 · · 9 月前 · 访问文章快照 |
|
如何预估训练或推理大模型时所需要的显存?解析不同参数下大模型显存量化方法 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
大模型面经之Agent介绍(二) 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
大模型面经—GQA(Grouped Query Attention)和MHA、MQA的区别及代码 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
算法6月下半月急招岗位|剑桥大学 /微软/ 阿里达摩院 /理想/西湖大学//小红书/深度求索等-附互联网大厂算法岗实习薪资 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
多模态大模型能理解图像隐晦的信息吗? 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
大模型算法专家面试手撕代码题回忆及答案 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |
|
大语言模型SFT的业务开发流程 瓦力算法学研所 · 公众号 · · 10 月前 · 访问文章快照 |