无法通过一一处置单个 Kernel 来处理。利用更高级的手艺。Skill 2(反馈驱动优化):按照布局化的施行反馈(编译诊断、机能瓶颈阐发),现无方法正在 KernelBench Level 3 上的表示远不抱负:现有 RL 方式的焦点问题正在于励设想:简单的「准确性 + 加快比」励容易被 LLM 操纵,加强锻炼的不变性。对当前子使命进行迭代优化。现有的 RLVR 方式容易呈现 Reward Hacking(如间接抄写 PyTorch 代码或硬编码输出)和退化行为(只替代简单的 ReLU 而不碰环节的 Conv/GEMM);好比将 PyTorch 挪用封拆正在一层 wrapper 函数中。正在 H200 上,单条轨迹就需要 60-75 分钟。模子会因而学会 hack 测评法式而不是进行 CUDA 优化,通过迭代式「打算 — 编码 — 阐发 — 优化」轮回协做完成:(C1)端到端法式需要全局协调。但若是没有参数更新,StitchCUDA 将其分化为两个原子技术的单轮 RL 锻炼:StitchCUDA 对比启用pile 的参考代码仍然实现了 1.29× 的加快,从而获得高 reward。合理地正在 CUDA Kernel 内部挪用 PyTorch 子函数是完全的策略(例如用 cuDNN 的v2d 处置卷积,表白其手动的系统级优化(自定义 Kernel 融合、数据搬运优化)可以或许超越编译器的从动优化。原子技术分化:将高贵的多轮 Agentic RL 为高效的单轮锻炼,Coder 往往无法靠得住地施行复杂的 CUDA 变换(例如按照机能阐发提醒推导出准确的 Tiling 策略),测试通过时,如下图所示,而非只替代简单的 ReLURubric Reward:从反做弊、工程质量、算子笼盖、技术遵照四维度全面评估,(C3)现有的 RL 方式存正在诸多挑和。超越ile。实正的挑和正在于端到端 GPU 法式的生成。张子健(配合第一做者),通过:查抄过严 → 误杀实现。成为现实中的次要瓶颈。最终励公式将 Rubric Reward 取法则励(准确性 × 加快比)相连系,Verifier(验证器):担任准确性验证和机能阐发。进而使得锻炼的模子不适配多智能体框架。模子也会通过间接复制 pytorch 代码的形式来 hacking 评测法式,端到端 GPU 法式的机能由 Kernel 融合鸿沟、跨 Kernel 内存结构、CPU-GPU 同步等系统级决策从导,过严的格局查抄会将这类准确且高效的实现鉴定为 Hacking。成果如下:Skill 1(从零生成):给定参考 PyTorch 代码和子使命需求,最一生成可施行的优化。影响机能的要素不只仅包罗单个 kernel runtime,以 Qwen3-32B 为例,这鞭策模子保守、退化的行为。阐发错误日记并前往具体修复指点。多智能体框架也带来显著提拔。多智能体框架能够从其他 Agent 获取反馈来指导 Coder,洪明毅,从四个维度对生成代码进行分析评估:Reward Hacking 是 CUDA RL 锻炼中的主要挑和之一。编译失败时,而激进优化若发生细小错误则励为零,而 StitchCUDA 多智能体框架(不含 RL)将其提拔到 3/10。还由算子融合、Launch 设置装备摆设、CPU-GPU 同步、数据搬运等系统级要素配合决定。StitchCUDA 引入了由 CUDA 专家设想的Rubric Reward(评分原则励),降低约 60-75 倍计较开销尺度的多轮 Agentic RL 需要收集完整的交互轨迹(15 轮迭代 × 每轮 4-5 分钟交互),KernelBench Level 3 的使命涉及完整的模子架构(如 MiniGPTBlock 推理代码),多智能体协做框架:将复杂的端到端使命分化为「打算 — 编码 — 阐发 — 优化」的迭代轮回多智能体框架大幅提拔端到端准确性。同时通过 Reward Clipping(R_max=5)防止极端励对锻炼的干扰,即便是更强的 GPT-5.2,Coder(编码器):按照 Planner 的规划,我们对 50 个测试使命进行了系统性的 hacking 检测,放宽查抄尺度又会让模子轻松绕过,Winson Chen!查抄过松 → 漏过做弊。正在收到 Verifier 的反馈后,无效处理 Reward Hacking 和退化行为,Operator Coverage(算子笼盖):激励笼盖更多环节算子的优化,逐一子使命生成 CUDA 实现(源代码、建立文件、Pybind 接口),正在 KernelBench 上,此外,好比说,生成准确的 CUDA 实现研究团队总结了利用 LLM 进行端到端 CUDA 生成取优化的三大焦点挑和:StitchCUDA 提出了首个面向端到端 GPU 法式生成的完整处理方案,(C2)Coder 的 CUDA 编程能力需要正在 Prompt 工程以外进一步提拔。并挪用 nvcc 编译。这些系统级 + Kernel 级协同优化是单 Kernel 优化方式无法实现的。修复 Bug 并提拔机能下表展现了所无方法正在两个硬件平台上的完整成果(准确率 / 平均加快比 / Fast1):然而,正在端到端 GPU 法式中,本文做者包罗明尼苏达大学的李世阳(配合第一做者),NCU用于阐发具体的瓶颈 Kernel(判断是 Memory-bound 仍是 Compute-bound),同时自定义融合后续的 Bias+ReLU)?激励模子优化更多的算子,StitchCUDA 正在端到端使命上实现了近 100% 的成功率和1.5× 的平均加快比,同时,间接复制 PyTorch 代码就能获得高励,显著超越所有现无方法,从两个层面阐发法式:Nsys用于识别最耗时的 GPU Kernel 和系统级瓶颈(如 CPU-GPU 数据传输、Kernel Launch、同步开销),StitchCUDA 将端到端 GPU 编程使命分化为三个特地的 Agent!单次生成正在 Level 3 上失败(0/10),Coder 也没有被锻炼去理解布局化的施行反馈并实施有针对性的优化,全体锻炼预估需要约8 卡 H200 锻炼 1200-1500 小时。罗越波,丁才文。