(四)nanoGPT 源码精读(上)

nanoGPT 代码干净,非常适合理解底层逻辑。由于 ZeroToHello 系列的定位是细节、硬核,部分情况下会展开非常多的讨论。所以我把源码精读拆分成三部分,这是第一部分,精读的是核心的 `model.py` 文件, 聚焦整体结构、组件实现细节以及工程技巧等。

继续阅读 "(四)nanoGPT 源码精读(上)"

徐涛语录

当年考研的时候是听徐涛老师的政治课过来的,他作为一个从理工科转过来的政治老师,讲解的理论知识更具体、更直观、也更容易让我接受。最近从时间线上刷到他的视频,不免让我回想起那段时间他给我们做的分享。

继续阅读 "徐涛语录"

(三)三种架构

这原本是 ZeroToHello 系列第三篇文章的部分内容,但是第三篇文章越写越长,于是将这部分内容单独拆分出来,同前两篇文章一样依然作为前置知识。了解架构的演变,有助于后续理解 nanoGPT 对 CausalAttention 的实现。

继续阅读 "(三)三种架构"

(一)MHA 的维度变化原理

只要涉及到矩阵运算,就离不开线性代数的各种操作。如果不了解原理只是死记硬背,一开始看起来似乎会比较轻松,而实际结果却是记了又忘,反反复复。慢即是快,静下心找时间理了一下这里(死去的线性代数在不停追杀我 🙉

继续阅读 "(一)MHA 的维度变化原理"