CUDA Graphs - 优化GPU内核启动性能的NVIDIA技术
一、技术背景与核心矛盾在GPU计算领域,尤其是深度学习、科学计算等场景中,频繁的CUDA内核启动和GPU操作提交会带来显著的开销。传统的CUDA编程模型中,每个内核启动都需要CPU通过CUDA API向GPU提交任务,这个过程涉及到CPU与GPU之间的通信、驱动程序的处理以及GPU任务的调度等环节,会产生一定的延迟。当需要执行大量短小、重复的GPU操作时,这些内核启动开销会逐渐累积,成为影响整体性