小鹏汽车【26届校招】强化学习分布式系统工程师
任职要求
1. 硕士及以上学历,具有机器人、运动控制、自动化、人工智能、计算机等相关背景。 2. 有强化学习(RL)相关产品落地实务经验优先。 3. 扎实的强化学习理论基础,熟悉主流离线/在线RL算法(e.g. PPO, SAC, etc),并具备实际项目应用经验。 4. 精通至少一个主流RL框架,如 Ray-RLlib (精通Ray 加分), rsl_rl, stable-baselines3, 或 rl-games 等。 5. 精通 Python,PyTorch,並具备良好的代码组织和工程化能力,熟悉C++ 加分。 6. 具备优秀的跨部门沟通与协作能力,能有效推动项目落地。 加分项: - 熟悉运动控制、动力学建模、或车辆动力学相关知识者优先。 - 对 LLM-RFT 有浓厚兴趣,并乐于参与前沿技术框架(e.g. VERL, Trinity-RFT, etc)的搭建与探索。
工作职责
1. 与电动车动力系统团队深度合作,设计并实现适用于车载动力系统效率优化的强化学习(RL)算法。 2. 利用或基于 Ray-RLlib, rsl_rl, 或 stable-baselines3 等主流框架,搭建高效、分布式的RL训练与部署架构。 3. 推动RL控制策略的sim2real 迁移,并参与小鹏汽车动力系统硬件在环或实车平台的集成与调试工作。 4. 作为AI团队与动力系统部门之间的核心桥梁,负责需求对齐、数据接口规范化和联合调试。 5. 根据业务需求,未来有机会参与 LLM团队针对语言模型后训练RL 框架的搭建与优化。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你将参与机器学习、深度学习领域的技术研发工作,包括但不限于神经元网络模型设计与优化、强化学习、迁移学习、主动学习、维度降低、核方法、谱方法、特征提取与稀疏学习、等级学习、推荐、随机优化等的算法和系统研发等; 在这里,你将进行机器学习尤其是深度学习前沿问题的探索与研究,结合未来实际应用场景,提供全面的技术解决方案; 在这里,你将有机会负责提供分布式的算法实现的解决方案,大幅提升算法计算规模和性能; 在这里,你将参与提供大数据分析建模方案,沉淀行业解决方案,协助拓展业务边界。 加入我们,共同专注于大数据之上的机器学习算法研究与应用。将对人工智能的极大热情投入到挑战各种实际应用难题中。来吧,我们等你加入! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。
为什么加入我们? - 你将站在人形机器人智能进化的前沿,构建未来机器人感知、交互与学习的核心能力。 - 参与行业前沿的具身智能研究,亲手推动人形机器人在真实世界中的落地 - 提供完善的技术成长路径,支持你在科研和工程领域持续突破 - 多模态/VLA大模型研究:探索并优化适用于人形机器人长时序灵巧操作与自然人机交互的模型架构和训练策略。 - 高保真仿真环境搭建:设计并开发逼真的机器人仿真环境,精准模拟机器人与物理世界的交互,生成高质量训练数据,支持VLA模型迭代与强化学习训练。 - 世界模型创新:研究并构建世界模型,实现训练数据的高效生成和场景多样性扩展。
1、负责强化学习相关技术在休闲游戏中自动打关及关卡难度调节的落地应用; 2、参与强化学习算法实现及框架搭建,探索强化学习在游戏生命周期各个阶段的应用方向; 3、参与深度学习基础平台的功能选代,持续研发算法与优化性能; 4、跟踪分析工业界及学术界相关方向最新进展。