阿里巴巴算法工程师-RL
任职要求
岗位要求: 1. 计算机、电子、数学物理等相关专业在读硕士或以上学历,具有RL基础以及RL在LLM应用的经验 2. 极佳的工程实现能力,熟练运用Python/Pytorch/SQL,有L…
工作职责
关于我们 ● 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队 ● Accio产品是聚焦于全网B类信息和商品的搜索平台,技术上致力于研发基于LLM的agent系统和基于RL的推理模型的构建和应用,团队技术氛围浓厚,论文多次被ICLR、KDD、SIGIR、AAAI、WWW等会议录用 职位描述 1. 基于RL技术,研究reasoning模型相关技术,实现电商场景数据训练专属推理模型 2. 基于RL技术,研究cot+coa融合的端到端agent模型,实现原生可工具调用和多步思考的推理模型 3. 探索电商版本deep research,实现新一代复杂agent task的产品能力
1. 建立并优化机械臂 / 移动底盘运动学-动力学模型,设计模型预测控制(MPC)与轨迹跟踪算法。 2. 基于深度强化学习(SAC、PPO 等)开发高鲁棒、自适应运动控制策略,支持力/位混合控制。 3. 构建 Gazebo / Isaac / MuJoCo 等高保真仿真环境,实施随机化与 Curriculum Learning,提升 Sim2Real 迁移效率。 4. 研发离线 RL、模仿学习与安全约束 RL 流程,缩短策略收敛时间并保障操作安全。 5. 搭建示教 & 回放数据飞轮,持续监控线上控制性能并执行 A/B 测试。 6. 与系统集成、边缘计算团队协作,完成控制算法量化部署、实时推理加速及低时延通讯优化。
利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。
1.利用强化学习方法对多模态大模型进行对齐: 2.解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 3.探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 4.研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 5.基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。