Nsight Compute官方翻译 发表于 2024-12-01 分类于 CUDA , Nsight 本文档翻译自官网:Nsight Compute NVIDIA Nsight计算用户界面(UI)手册。有关工具UI中所有视图、控件和工作流的信息。Visual Profiler的转换指南。 阅读全文 »
9 多GPU编程 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 前言我暂时还没有使用到多个GPU,因此先占位吧,等后面有机会再补充深入,这里只是一个大概的描述。 阅读全文 »
6-3 重叠内核执行和数据传输 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 6.3 重叠内核执行和数据传输在前一节中,已经介绍了如何在多个流中并发执行多个内核。在本节中,将学习如何并发执行内核和数据传输。 阅读全文 »
6-2 并发内核执行 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 6.2 并发内核执行这一节使用几个例子来说明上一节的流、事件、同步的概念。介绍并发内核的几个基本问题。 阅读全文 »
5-5 常量内存 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 5.5 常量内存常量内存是一种专用的内存,它用于只读数据和统一访问线程束中线程的数据。常量内存对内核代码而言是只读的,但它对主机而言既是可读又是可写的。常量内存位于设备的DRAM上(和全局内存一样),并且有一个专用的片上缓存。和一级缓存和共享内存一样,从每个SM的常量缓存中读取的延迟,比直接从常量内存中读取的低得多。每个SM常量内存缓存大小的限制为64KB。 阅读全文 »
5-3 减少全局内存访问 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 5.3 减少全局内存访问使用共享内存的主要原因之一是要缓存片上的数据,从而减少核函数中全局内存访问的次数。 阅读全文 »
5-4 合并的全局内存访问 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 5.4 合并的全局内存访问上一节介绍的是通过共享内存减少对全局内存的访问,这一部分是介绍使用共享内存避免对未合并的全局内存的访问。矩阵转置就是一个典型的例子:读操作被自然合并,但写操作是按照交叉访问的。在共享内存的帮助下,可以先在共享内存中进行转置操作,然后再对全局内存进行合并写操作。 阅读全文 »
5-2 共享内存的数据布局 发表于 2024-12-01 分类于 CUDA , CUDA C编程权威指南笔记 5.2 共享内存的数据布局这一节主要是介绍了共享内存的矩阵数组访问模式,按行和按列访问还有内存的填充,说白了就是如何索引到数据。 阅读全文 »