SERVICE PHONE
363050.com发布时间:2026-01-14 18:07:37 点击量:
AG娱乐,AG真人,AG平台,AG旗舰厅,AG视讯,AG娱乐平台,真人视讯平台,首存送彩金【新智元导读】新晋AI编程冠军DeepSWE来了!仅通过纯强化学习拿下基准测试59%的准确率,凭啥?7大算法细节首次全公开。
如今,一款开源软件工程模型DeepSWE横空出世,以59%的准确率大幅刷新了SOTA。
DeepSWE基于Qwen3-32B打造,并且只使用强了化学习进行训练。
Agentica的项目负责人Michael Luo感叹道,「那个过度定价、黑箱式的编码助手时代要终结了!」
除了模型,还包括训练代码(rLLM)、数据集(R2EGym)以及实现完全可复现的训练配方。
DeepSWE最大亮点是,相较于之前许多依赖「老师模型」(如 GPT-4)进行模仿学习(SFT或蒸馏)的路径不同。
它仅用强化学习(RL)就能从零开始将一个基础模型训练成性能亮眼的智能体。
rLLM有一个好处,说白了,就是让你自己动手攒一个用强化学习训练出来的AI小能手,从头到尾都不再那么费劲了,直接拿去干活儿就行。
训练环境方面,DeepSWE是在R2E-Gym训练环境中(一个现有的Gym环境)训练,用于高质量可执行SWE环境的可扩展管理。
3. 文件编辑器:允许查看、创建、替换字符串、插入以及撤销对特定文件的编辑。
研究人员惊喜的发现,仅仅通过简单的「成功/失败」奖励信号,DeepSWE自发地学会了高级程序员才具备的复杂行为,例如:
算法方面,DeepSWE仅仅使用了强化学习来直接训练,没有使用蒸馏方法。
更值得关注的是,研发人员使用了独家改良的GRPO++算法,这个算法在之前的基础上做了增强。
2. 无KL损失(DAPO):消除KL损失可以防止LLM受限于原始SFT模型的信任区域。
3. 无奖励标准差(Dr.GRPO):去除奖励标准差可消除GRPO损失中的难度偏差,从而更好地区分难易问题。
4. 长度归一化(Dr.GRPO):将替代损失除以最大上下文长度,可以消除GRPO中存在的长度偏差,这种偏差会增加错误响应的长度。
5. 一法(Loop/RLOO):在优势估计中移除一个样本,可以在不引入偏差的情况下降低策略梯度的方差。
6. 紧凑过滤:受DAPO启发,对达到最大上下文长度、生成过程中超时(20分钟)或达到最大步数的轨迹进行损失屏蔽。
7. 无熵损失:熵损失会引入更高的不稳定性,最终导致熵呈指数增长,从而使训练崩溃。如果基础模型的令牌级熵在0.3到1之间,则不需要熵损失。
研发人员指出,你可以想象下,在最后的训练过程中,需要同时启动好几百个Docker容器。
为了解决这个问题,研发人员将Kubernetes支持集成到了R2E-Gym环境中,使编排器能够在节点池中调度容器。
为了让程序跑得飞快,研究员提前把所有要用的软件(镜像)都下载好存到本地硬盘里了。
这样一来,每次启动程序就跟打开桌面软件一样秒开,根本不用再吭哧吭哧地去网上下载了。
研究人员指出,该集群可以扩展到超过1000个CPU核心,并依赖Kubernetes集群自动缩放器来自动添加或移除节点。
当Pod在短时间内无法调度时,自动缩放器会配置额外的工作节点;相反,它会移除那些大约二十分钟内利用率较低的节点。
除了强大的模型本身,DeepSWE还采用了「测试时扩展 (TTS)」这一评估策略。
将最大上下文从16K扩展到128K个标记,性能有所提升。在超过32K时收益约为2%,达到42.2%的Pass@1。
使用最佳选择策略为每个问题生成了多个代理部署。采用结合基于执行和免执行方法的混合验证器,以选择最佳的代理轨迹。
Michael Luo,加州大学伯克利分校电气工程与计算机科学系博士生,研究兴趣聚焦人工智能和系统领域。
硕士和本科研究主要集中在强化学习(RL)的实际问题和应用,包括自然语言处理(NLP)、数据库查询优化以及视频流。
Sijun Tan,目前是加州大学伯克利分校计算机科学系在校三年级的博士生,本科毕业于弗吉尼亚大学,获得了计算机科学和数学双学士学位。
研究重点是LLM后训练和代理 AI。曾在Facebook人工智能研究(FAIR)实习,并在蚂蚁集团担任过高级算法工程师。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
蒋超良四弟、五弟全涉案,被免湖北省委书记后,“边上一下安静了,没有人了”
用户在APP上与AI聊“黄色内容”,两名开发者一审分别获刑四年、一年半,AI服务涉黄案今日二审
同意加装电梯但一直没有出资,一户人家被全楼“孤立”!积怨太深,卖房时尴尬了
华为智选新品WIKO Hi畅享80 Plus上架,内置6620mAh电池
iPhone 18系列与Air2屏幕配置曝光,Pro型号将引入屏下Face ID技术
IDC:2025全球智能手机出货12.6亿部,苹果连续三年第一,华为国内登顶
“史上最长春节假期”显著拉升旅行热度,1月12日-1月24日将迎来三波客流高峰|封面有数
