小红书【Dots】 基础模型 Post train研究员
社招全职1-3年大模型地点:北京 | 上海 | 杭州状态:招聘
任职要求
基础要求 -基础能力:扎实的机器学习与深度学习基础,对大模型训练全流程(pretrain / mid-train / post-train)有深入理解 -解决问题:逻辑严密的分析能力,能从复杂现象中抽象出底层问题并给出系统性方案 -专业能力:深刻理解并能解决 RL 训练中的核心问题,包括 Reward Hacking、Training Stability、Exploration Efficiency,以及长程信用分配、环境噪声 / 非-policy 负向 reward、训推一致性等真实工程化挑战 -动手能力:优秀的算法实现能力与工程性能感知,具备优秀的数据敏锐度…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
团队简介 我们是 Dots 基座大模型的 Post-train 团队。我们相信,模型不只是记住世界,而是真正学会在真实世界中思考、行动与自我成长。团队聚焦可验证奖励 RL、长程 agentic 智能、综合推理与自我演进等最前沿的方向,构建下一代能在复杂真实任务中可靠工作、并持续自我迭代的基座模型。 工作职责 在以下一个或多个方向进行深度攻关。 1. Frontier Research -Self Evolving:提升模型进行机器学习与大模型优化的能力,探索以 AI 加速 AI 研发的新范式:让模型参与到自身的训练、部署及 Agent 调度机制的迭代中,把改进的对象从"模型本身"抬升到"产生模型的研发流程",构建可递归的能力增益回路,持续寻找下一代能力增长曲线 -Lifelong Learning:探索模型"学会学习"的 Meta 能力:让模型在与陌生、开放环境的在线交互中持续更新自身内部状态,无需重新训练即可积累经验,不断提升长期的 decision making 与任务完成能力 -Scalable Oversigh:在难以 verify 的 fuzzy / 开放式任务上,突破人类监督的扩展性瓶颈:研究可扩展的监督、自我评估与自我修正机制,让监督信号的质量能随模型能力一同增长,降低对外部人工反馈的依赖 2. RL Algorithms -研究面向长程、多轮、稀疏奖励场景的 RL 算法,系统性解决信用分配、训练稳定性、探索效率等核心问题 -设计更有效、更鲁棒的奖励与评估信号,缓解 reward hacking、验证误差与奖励噪声对训练的干扰 -研发 Adaptive Thinking,使模型按任务复杂度动态调整思考深度,在保证效果的同时实现高效推理 -探索新的优化目标与训练范式,显著提升长程、稀疏奖励任务的收敛速度与样本效率 -与 infra / 工程团队协同,推进 rollout 加速、环境稳定性、训推一致性等工程化瓶颈的解决 3. Agentic Intelligence -在 Proactive Agent、CLI/GUI 计算机控制,高价值专业知识任务、深度信息获取、 软件工程等任务上,提升模型的 Agentic 能力,让模型在高复杂度真实任务上达到行业前沿水平 -构建复杂、多样、多模态、可验证的 RL 环境,在复杂 harness 上开展 blackbox RL 训练,提升模型在长程、多工具、真实环境中的规划、执行与反思能力 -研究超长程任务下的多智能体协作、长程记忆与跨任务经验的积累复用 -建设可规模化的 Agent 训练环境与评测体系 4. Reasoning -探索 RL Scaling Law,提升模型 general 的真实推理与反思能力(而非仅在特定任务或 Benchmark 上的表现) -在人类智能密度最高的领域(如顶尖数学、竞赛编程、前沿科学等)持续突破,向达到乃至超过人类顶尖水平的方向迈进 -推动推理与工具使用、真实环境的结合,并提升模型思考效率及 adaptive thinking 的能力
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
NeurIPS+
https://neurips.cc/
还有更多 •••