专栏名称: 阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
今天看啥  ›  专栏  ›  阿里云开发者

200行python代码实现从Bigram模型到LLM

阿里云开发者  · 公众号  · 科技公司  · 2025-05-30 08:30
    

文章预览

前言 上一篇文 章 《 从零开始200行python代码实现LLM 》,实现了一 个“诗词生成器”,从一个基于“概率统计”的实现开始,最后使用pytorch,实现了一个经典的Bigram模型。 在Bigram模型里,每一个字只和前一个字有关,尽管是这样,我们的 babygpt_v1.py  也输出了“渐觉是路,故园春衫。” 这种看起来比较通顺的语句。 本文继续从  babygpt_v1.py  出发,逐渐加入self-attention机制、position嵌入等机制,直到实现一个完整的GPT。 本文适用范围及目标:  ✅看过前文,会写python和已经硬背下了基本机器学习代码结构;  ✅尝试实现完整的语言模型;  ❌不解释数学、机器学习原理性的知识,只做到“能用”为止(因为我也不懂);  ❌不依赖抽象层次高的框架,用到的部分也会做解释; 最终效果 运行方法: $  git  clone  https://github.com/simpx/buildyourownllm.git $   ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览