logo of xiaohongshu

小红书【Dots】 基础模型 Post train研究员

社招全职1-3年大模型地点:北京 | 上海 | 杭州状态:招聘

任职要求


基础要求
-基础能力:扎实的机器学习深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解
-解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案
-专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战
-动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队简介
我们是 Dots 基座大模型的 Post-train 团队。我们相信,模型不只是记住世界,而是真正学会在真实世界中思考、行动与自我成长。团队聚焦可验证奖励 RL、长程 agentic 智能、综合推理与自我演进等最前沿的方向,构建下一代能在复杂真实任务中可靠工作、并持续自我迭代的基座模型。

工作职责
在以下一个或多个方向进行深度攻关。
1. Frontier Research
-Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线
-Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力
-Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖

2. RL Algorithms
-研究面向长程、多轮、稀疏奖励场景的 RL 算法,系统性解决信用分配、训练稳定性、探索效率等核心问题
-设计更有效、更鲁棒的奖励与评估信号,缓解 reward hacking、验证误差与奖励噪声对训练的干扰
-研发 Adaptive Thinking,使模型按任务复杂度动态调整思考深度,在保证效果的同时实现高效推理
-探索新的优化目标与训练范式,显著提升长程、稀疏奖励任务的收敛速度与样本效率
-与 infra / 工程团队协同,推进 rollout 加速、环境稳定性、训推一致性等工程化瓶颈的解决

3. Agentic Intelligence
-在 Proactive Agent、CLI/GUI 计算机控制,高价值专业知识任务、深度信息获取、 软件工程等任务上,提升模型的 Agentic 能力,让模型在高复杂度真实任务上达到行业前沿水平
-构建复杂、多样、多模态、可验证的 RL 环境,在复杂 harness 上开展 blackbox RL 训练,提升模型在长程、多工具、真实环境中的规划、执行与反思能力
-研究超长程任务下的多智能体协作、长程记忆与跨任务经验的积累复用
-建设可规模化的 Agent 训练环境与评测体系

4. Reasoning
-探索 RL Scaling Law,提升模型 general 的真实推理与反思能力(而非仅在特定任务或 Benchmark 上的表现)
-在人类智能密度最高的领域(如顶尖数学、竞赛编程、前沿科学等)持续突破,向达到乃至超过人类顶尖水平的方向迈进
-推动推理与工具使用、真实环境的结合,并提升模型思考效率及 adaptive thinking 的能力
包括英文材料
机器学习+
深度学习+
大模型+
算法+
NeurIPS+
还有更多 •••