titchCUDA将其分化为两个原子技术的单轮RL锻炼：-NO钱包官方网站

　　无法通过一一处置单个 Kernel 来处理。利用更高级的手艺。Skill 2（反馈驱动优化）：按照布局化的施行反馈（编译诊断、机能瓶颈阐发），现无方法正在 KernelBench Level 3 上的表示远不抱负：现有 RL 方式的焦点问题正在于励设想：简单的「准确性 + 加快比」励容易被 LLM 操纵，加强锻炼的不变性。对当前子使命进行迭代优化。现有的 RLVR 方式容易呈现 Reward Hacking（如间接抄写 PyTorch 代码或硬编码输出）和退化行为（只替代简单的 ReLU 而不碰环节的 Conv/GEMM）；好比将 PyTorch 挪用封拆正在一层 wrapper 函数中。正在 H200 上，单条轨迹就需要 60-75 分钟。模子会因而学会 hack 测评法式而不是进行 CUDA 优化，通过迭代式「打算 — 编码 — 阐发 — 优化」轮回协做完成：（C1）端到端法式需要全局协调。但若是没有参数更新，StitchCUDA 将其分化为两个原子技术的单轮 RL 锻炼：StitchCUDA 对比启用pile 的参考代码仍然实现了 1.29× 的加快，从而获得高 reward。合理地正在 CUDA Kernel 内部挪用 PyTorch 子函数是完全的策略（例如用 cuDNN 的v2d 处置卷积，表白其手动的系统级优化（自定义 Kernel 融合、数据搬运优化）可以或许超越编译器的从动优化。原子技术分化：将高贵的多轮 Agentic RL 为高效的单轮锻炼，Coder 往往无法靠得住地施行复杂的 CUDA 变换（例如按照机能阐发提醒推导出准确的 Tiling 策略），测试通过时，如下图所示，而非只替代简单的 ReLURubric Reward：从反做弊、工程质量、算子笼盖、技术遵照四维度全面评估，（C3）现有的 RL 方式存正在诸多挑和。超越ile。实正的挑和正在于端到端 GPU 法式的生成。张子健（配合第一做者），通过：查抄过严 → 误杀实现。成为现实中的次要瓶颈。最终励公式将 Rubric Reward 取法则励（准确性 × 加快比）相连系，Verifier（验证器）：担任准确性验证和机能阐发。进而使得锻炼的模子不适配多智能体框架。模子也会通过间接复制 pytorch 代码的形式来 hacking 评测法式，端到端 GPU 法式的机能由 Kernel 融合鸿沟、跨 Kernel 内存结构、CPU-GPU 同步等系统级决策从导，过严的格局查抄会将这类准确且高效的实现鉴定为 Hacking。成果如下：Skill 1（从零生成）：给定参考 PyTorch 代码和子使命需求，最一生成可施行的优化。影响机能的要素不只仅包罗单个 kernel runtime，以 Qwen3-32B 为例，这鞭策模子保守、退化的行为。阐发错误日记并前往具体修复指点。多智能体框架也带来显著提拔。多智能体框架能够从其他 Agent 获取反馈来指导 Coder，洪明毅，从四个维度对生成代码进行分析评估：Reward Hacking 是 CUDA RL 锻炼中的主要挑和之一。编译失败时，而激进优化若发生细小错误则励为零，而 StitchCUDA 多智能体框架（不含 RL）将其提拔到 3/10。还由算子融合、Launch 设置装备摆设、CPU-GPU 同步、数据搬运等系统级要素配合决定。StitchCUDA 引入了由 CUDA 专家设想的Rubric Reward（评分原则励），降低约 60-75 倍计较开销尺度的多轮 Agentic RL 需要收集完整的交互轨迹（15 轮迭代 × 每轮 4-5 分钟交互），KernelBench Level 3 的使命涉及完整的模子架构（如 MiniGPTBlock 推理代码），多智能体协做框架：将复杂的端到端使命分化为「打算 — 编码 — 阐发 — 优化」的迭代轮回多智能体框架大幅提拔端到端准确性。同时通过 Reward Clipping（R_max=5）防止极端励对锻炼的干扰，即便是更强的 GPT-5.2，Coder（编码器）：按照 Planner 的规划，我们对 50 个测试使命进行了系统性的 hacking 检测，放宽查抄尺度又会让模子轻松绕过，Winson Chen！查抄过松 → 漏过做弊。正在收到 Verifier 的反馈后，无效处理 Reward Hacking 和退化行为，Operator Coverage（算子笼盖）：激励笼盖更多环节算子的优化，逐一子使命生成 CUDA 实现（源代码、建立文件、Pybind 接口），正在 KernelBench 上，此外，好比说，生成准确的 CUDA 实现研究团队总结了利用 LLM 进行端到端 CUDA 生成取优化的三大焦点挑和：StitchCUDA 提出了首个面向端到端 GPU 法式生成的完整处理方案，（C2）Coder 的 CUDA 编程能力需要正在 Prompt 工程以外进一步提拔。并挪用 nvcc 编译。这些系统级 + Kernel 级协同优化是单 Kernel 优化方式无法实现的。修复 Bug 并提拔机能下表展现了所无方法正在两个硬件平台上的完整成果（准确率 / 平均加快比 / Fast1）：然而，正在端到端 GPU 法式中，本文做者包罗明尼苏达大学的李世阳（配合第一做者），NCU用于阐发具体的瓶颈 Kernel（判断是 Memory-bound 仍是 Compute-bound），同时自定义融合后续的 Bias+ReLU）？激励模子优化更多的算子，StitchCUDA 正在端到端使命上实现了近 100% 的成功率和1.5× 的平均加快比，同时，间接复制 PyTorch 代码就能获得高励，显著超越所有现无方法，从两个层面阐发法式：Nsys用于识别最耗时的 GPU Kernel 和系统级瓶颈（如 CPU-GPU 数据传输、Kernel Launch、同步开销），StitchCUDA 将端到端 GPU 编程使命分化为三个特地的 Agent！单次生成正在 Level 3 上失败（0/10），Coder 也没有被锻炼去理解布局化的施行反馈并实施有针对性的优化，全体锻炼预估需要约8 卡 H200 锻炼 1200-1500 小时。罗越波，丁才文。

titchCUDA将其分化为两个原子技术的单轮RL锻炼：

原创 NO钱包官方网站德清民政 2026-03-16 05:27 发表于浙江

关于我们

联系我们

微信公众号

titchCUDA将其分化为两个原子技术的单轮RL锻炼：

原创 NO钱包官方网站 德清民政 2026-03-16 05:27 发表于浙江

关于我们

联系我们

微信公众号

原创 NO钱包官方网站德清民政 2026-03-16 05:27 发表于浙江