小米机器人实验室-机器人强化学习算法工程师实习生
任职要求
1、硕士及以上学历,机器人、计算机、人工智能、机器学习、应用数学等专业,理论功底深厚,有相关足式机器人传统控制经验更优; 2、具有强化学习相关项目研究经验,熟悉Mujoco、Pybullet、Isaac Sim/Gym等机器人仿真平台,熟悉Linux、R…
工作职责
1、开发基于机器学习的机器人控制策略,完成机器人端对端的算法训练与部署; 2、负责算法策略的训练与移植部署,实现算法sim2real在机器人实机上落地应用; 3、持续跟踪国内外前沿研究成果,并进行相关算法复现,参与相关方向的论文与专利积累。
1、参与具身智能算法模型在技能学习、动作规划、抓取操作等应用上的研发,实现多场景多任务的泛化; 2、设计、训练、部署模仿学习、强化学习、迁移学习、多模态学习等算法,构建机器人各类应用的通用技能; 3、与大模型、运控等团队合作,推动具身智能数据集、机器人平台等各项目落地实施; 4、紧跟最新技术进展,将学术界前沿创新内容进行快速复现并创新,参与相关方向的论文与专利积累。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、RL驱动的角色模型训练:优化角色类大模型的行为策略、长期记忆管理和多模态交互能力,突破角色行为一致性、情感表达合理性等技术瓶颈; 2、极致性能优化:超大规模模型的分布式训练优化,提升角色类模型的推理效率与资源利用率,指令微调、偏好对齐、数据增强等技术的场景化创新; 3、业务场景落地:支持豆包、猫箱等产品的角色生成需求,覆盖对话、创作、教育等场景,探索角色模型在智能硬件、元宇宙等领域的沉浸式交互能力; 4、前沿探索:研究人格化模型在情感计算、社会常识推理等方向的突破,定义AI角色从「功能执行」到「人格化陪伴」的技术范式。
我们正在寻找对大语言模型基模训练优化有浓厚兴趣和扎实经验的算法工程师,共同推动下一代智能体(Agent)和通用人工智能(AGI)技术的落地。 主要职责: ● 参与蚂蚁自研大语言模型各阶段训练,包括但不限于pretrain、SFT、 PPO、DPO、GRPO等 ● 针语DeepResearch类任务的轨迹优化等问题对优化奖励建模、偏好学习及策略微调流程; ● 探索大模型在复杂任务中的自主推理、工具调用与长期规划能力,结合 RL 提升智能体决策水平; ● 与数据、工程、产品团队紧密协作,将算法成果高效集成到线上大模型服务中; ● 跟踪并复现国际顶级会议在 LLM 领域的最新进展。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。