cudnn最新版本被深度集成到所有主流的深度学习框架中,这种集成是完全透明的,只需在支持CUDA的环境下安装相应框架的GPU版本,即可自动享受到cuDNN带来的性能加速,无需直接调用其底层API,这使得cuDNN成为AI开发领域事实上的标准底层库。
【硬件特性探测】
自动识别GPU架构、Tensor Core数量和内存带宽等参数,选择匹配的优化路径。
【输入尺寸适配】
针对不同batch size、特征图大小和通道数,它会动态切换卷积算法
【内存访问优化】
智能调整张量布局,最大化缓存命中率,减少全局内存访问延迟。
【多GPU协同】
支持分布式训练中的数据并行/模型并行,优化跨GPU通信效率,线性扩展多卡性能。
支持Hopper架构引入的稀疏计算,自动识别权重稀疏性,在提升性能的同时保持精度。
将位置编码与注意力计算合并,这样就能大幅减少内存访问,并提升吞吐量。
支持可变batch size和序列长度,适配NLP任务中的动态输入,无需重新编译内核。
自动调整batch size,以最大化GPU利用率,适配不同模型规模和硬件配置。
1、安装好CUDA后,它会自动添加到环境变量中。

2、但CUPTA和CUDNN还没有加进来,需要我们手动添加。
3、打开控制面板-系统和安全-系统,点击高级系统设置-高级-环境变量,把它们给加进来。
