logo of xiaohongshu

小红书【Dots】大模型post train算法工程师-Frontier Research

社招全职大模型地点:北京 | 上海状态:招聘

任职要求


基础要求
基础能力:扎实的机器学习深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解;
解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案;
专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战;
动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线。
2、Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力。
3、Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖。
包括英文材料
机器学习+
深度学习+
大模型+
算法+
NeurIPS+
还有更多 •••