小鹏汽车【26届校招】强化学习分布式系统工程师
任职要求
1. 硕士及以上学历,具有机器人、运动控制、自动化、人工智能、计算机等相关背景。 2. 有强化学习(RL)相关产品落地实务经验优先。 3. 扎实的强化学习理论基础,熟悉主流离线/在线RL算法(e.g. PPO, SAC, etc),并具备实际项目应用经验。 4. 精通至少一个主流RL框架,如 Ray-RLlib (精通Ray 加分), rsl_rl, stable-baselines3…
工作职责
1. 与电动车动力系统团队深度合作,设计并实现适用于车载动力系统效率优化的强化学习(RL)算法。 2. 利用或基于 Ray-RLlib, rsl_rl, 或 stable-baselines3 等主流框架,搭建高效、分布式的RL训练与部署架构。 3. 推动RL控制策略的sim2real 迁移,并参与小鹏汽车动力系统硬件在环或实车平台的集成与调试工作。 4. 作为AI团队与动力系统部门之间的核心桥梁,负责需求对齐、数据接口规范化和联合调试。 5. 根据业务需求,未来有机会参与 LLM团队针对语言模型后训练RL 框架的搭建与优化。
负责人形机器人仿真训练平台的研发,支撑运动控制、操作和导航算法的大规模训练与评测。 1、基于 Isaac Gym/MuJoCo 搭建高保真仿真环境,优化人形机器人 RL 训练的并行效率与物理精度; 2、开发 3DGS/NeRF 动态场景渲染管线,支持视觉-动力学联合仿真与 Sim2Real 迁移; 3、构建生成式世界模型驱动的仿真系统,实现动态场景自动生成与自适应难度调控; 4、设计分布式仿真架构,支持万级机器人实例的实时交互与数据采集。
负责大模型训练、推理和评测的基础设施研发,为算法团队提供高效稳定的工程底座。 1、训练系统:设计和优化大规模分布式训练架构(Pretrain/SFT/RL),解决千卡级训练的通信、调度、容错问题; 2、推理部署:基于 vLLM 等框架优化大模型推理性能,支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署; 3、评测平台:开发 DeepInsight 评测系统,支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成; 4、MLOps 工具链:构建模型版本管理、实验追踪、数据管理、资源调度等基础设施,提升研发效率; 5、RL 训练环境:构建分布式强化学习训练系统,支持 Agent-环境大规模并行交互。
负责大语言模型和多模态大模型的核心算法研发,推动模型能力在具身智能场景中的落地。 1、大模型预训练、指令微调、偏好对齐(RLHF/GRPO)的算法研发与工程实现,提升模型在推理、规划、工具调用等维度的能力; 2、多模态大模型(VLM/VLA)的研发,探索视觉-语言-动作联合建模,支撑机器人任务规划与交互理解; 3、强化学习算法研究,包括但不限于:过程奖励建模、测试时计算优化(test-time compute)、模型自我进化; 4、将研究成果部署到人形机器人系统(VLT 任务规划、HRI 交互、操作 VLA),完成从论文到产品的闭环。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你将参与机器学习、深度学习领域的技术研发工作,包括但不限于神经元网络模型设计与优化、强化学习、迁移学习、主动学习、维度降低、核方法、谱方法、特征提取与稀疏学习、等级学习、推荐、随机优化等的算法和系统研发等; 在这里,你将进行机器学习尤其是深度学习前沿问题的探索与研究,结合未来实际应用场景,提供全面的技术解决方案; 在这里,你将有机会负责提供分布式的算法实现的解决方案,大幅提升算法计算规模和性能; 在这里,你将参与提供大数据分析建模方案,沉淀行业解决方案,协助拓展业务边界。 加入我们,共同专注于大数据之上的机器学习算法研究与应用。将对人工智能的极大热情投入到挑战各种实际应用难题中。来吧,我们等你加入! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。