2022-01-15发表2025-10-21更新CUDA6 分钟读完 (大约887个字)

CUDA 实践：矩阵转置 | CUDA

本文介绍了使用 CUDA 实现矩阵转置的两种方式与优化方法。

2021-10-29发表2023-12-16更新CUDA5 分钟读完 (大约800个字)

CUDA 知识点：线程束洗牌函数 | CUDA

CUDA 中的线程束内基本函数包括：

线程束表决函数（warp vote functions）
线程束匹配函数（warp match functions）
线程束洗牌函数（warp shuffle functions）
线程束矩阵函数（warp matrix functions）

其中，线程束匹配函数和线程束矩阵函数都只能在 Volta 及更高架构的 GPU 中使用。本文主要介绍线程束洗牌函数。

2021-10-29发表2022-01-19更新CUDA1 分钟读完 (大约179个字)

CUDA 知识点：线程束内同步函数 __syncwarp() | CUDA

当所涉及的线程都在一个线程束内时，可以使用开销更小的线程束内同步函数 __syncwarp()。该函数的原型为：

1	void __syncwarp(unsigned mask = 0xfffffff);

该函数有个可选的参数，该参数是一个代表掩码的无符号整型数，默认值的全部 32 个二进制位都为 1，代表线程束中的所有线程都参与同步。如果要排除一些线程，可以用一个对应的二进制位为 0 的掩码参数。例如,掩码 0xffffffe 代表排除第 0 号线程。

参考

《CUDA 编程：基础与实践》（樊哲勇，清华大学出版社）

2021-10-17发表2023-12-16更新CUDA12 分钟读完 (大约1728个字)

CUDA 知识点：bank 冲突 | CUDA

本文介绍了 CUDA 编程中的 bank 冲突的原理和解决方法。

2021-10-12发表2023-12-16更新CUDA几秒读完 (大约64个字)

CUDA 知识点：合并访存 | CUDA

关于 CUDA 合并访存的知识点，来自《CUDA 编程：基础与实践》（樊哲勇，清华大学出版社）。

2021-09-12发表2023-12-16更新CUDA2 分钟读完 (大约257个字)

CUDA 知识点：GPU utilization 是如何计算的？ | CUDA

在编写 GPU 程序时，我们经常使用 nvidia-smi 命令查看某张显卡的 GPU 利用率，那么这个利用率是如何计算的呢？

2021-09-12发表2022-01-16更新CUDA1 分钟读完 (大约203个字)

CUDA 知识点：为什么锁页内存会更快？ | CUDA

CUDA 驱动程序通过检查内存范围判断某个地址是锁页内存还是分页内存。锁页内存存储在物理内存中，因此 device 可以在没有 CPU 帮助的情况下获取它（通过DMA）。分页内存在通过 DMA 访问时会产生缺页中断，并且它有可能在磁盘上。在这种情况下，device 需要访问分页内存的每一页，将其拷贝到锁页内存缓冲区，然后再将其通过 DMA 一页页拷贝到 device 上。所以，使用锁页内存更快是因为省掉了从分页内存拷贝到锁页内存的时间。

参考：Why is CUDA pinned memory so fast?

2021-08-28发表2023-12-16更新《Let’s Build A Simple Interpreter》笔记2 分钟读完 (大约249个字)

11 嵌套过程调用 | 《Let’s Build A Simple Interpreter》笔记

本系列是《Let’s Build A Simple Interpreter》的阅读笔记。

在当前的代码实现中，过程对应的嵌套层级被写死成了 2，对于嵌套过程调用并不适配，需要做出修改。

2021-08-28发表2023-12-16更新《Let’s Build A Simple Interpreter》笔记7 分钟读完 (大约991个字)

10 执行过程调用 | 《Let’s Build A Simple Interpreter》笔记

本系列是《Let’s Build A Simple Interpreter》的阅读笔记。

本文将解读执行过程调用的代码。

2021-08-28发表2023-12-16更新《Let’s Build A Simple Interpreter》笔记6 分钟读完 (大约916个字)

09 调用栈与活动记录 | 《Let’s Build A Simple Interpreter》笔记

本系列是《Let’s Build A Simple Interpreter》的阅读笔记。

为了实现统一访问全局变量和局部变量，本文将把 GLOBAL_MEMORY 字典替换成调用栈与活动记录。