NVIDIA 把强化学习推向 AI Agent:RLVR 为什么会成为企业智能体训练的新关键词? NVIDIA 7 月 1 日发布 Agent 强化学习技术文章,重点解释 SFT、DPO、RLHF、RLVR 与 GRPO 在智能体训练中的取舍。对企业 AI Agent 来说,这意味着可靠性建设正在从提示词调优,走向可验证任务、执行环境和 NVIDIAAI AgentRLVR 2026-07-02👁 5查看