阿里巴巴算法工程师-RL
任职要求
岗位要求: 1. 计算机、电子、数学物理等相关专业在读硕士或以上学历,具有RL基础以及RL在LLM应用的经验 2. 极佳的工程实现能力,熟练运用Python/Pytorch/SQL,有LLM相关项目的上手经验 3. 有强烈求知欲,对人工智能领域相关技术有热情,有强烈的责任心和团队合作精神 4. 加分项:有RL/LLM相关的顶会paper/开源项目,在相关团队有过实习经历
工作职责
关于我们 ● 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队 ● Accio产品是聚焦于全网B类信息和商品的搜索平台,技术上致力于研发基于LLM的agent系统和基于RL的推理模型的构建和应用,团队技术氛围浓厚,论文多次被ICLR、KDD、SIGIR、AAAI、WWW等会议录用 职位描述 1. 基于RL技术,研究reasoning模型相关技术,实现电商场景数据训练专属推理模型 2. 基于RL技术,研究cot+coa融合的端到端agent模型,实现原生可工具调用和多步思考的推理模型 3. 探索电商版本deep research,实现新一代复杂agent task的产品能力
1. 建立并优化机械臂 / 移动底盘运动学-动力学模型,设计模型预测控制(MPC)与轨迹跟踪算法。 2. 基于深度强化学习(SAC、PPO 等)开发高鲁棒、自适应运动控制策略,支持力/位混合控制。 3. 构建 Gazebo / Isaac / MuJoCo 等高保真仿真环境,实施随机化与 Curriculum Learning,提升 Sim2Real 迁移效率。 4. 研发离线 RL、模仿学习与安全约束 RL 流程,缩短策略收敛时间并保障操作安全。 5. 搭建示教 & 回放数据飞轮,持续监控线上控制性能并执行 A/B 测试。 6. 与系统集成、边缘计算团队协作,完成控制算法量化部署、实时推理加速及低时延通讯优化。
利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。
我们正在构建一个创新的数据分析诊断模型,旨在通过强化学习(RL)与大语言模型(LLM)技术的结合,为商家提供智能化的店铺运营支持。该模型将帮助商家提高运营效率和服务质量,实现数据驱动的决策优化。 培养方向: 1、参与系统的需求分析、架构设计与开发工作,确保算法模型的高效落地与业务目标的达成。 2、结合大语言模型(LLM)与强化学习(RL)技术,设计并实现智能化的文本生成模型,助力商家运营效率和服务质量的全面提升。 3、持续关注并研究强化学习领域的前沿技术动态,探索新方法与新思路,推动技术创新在实际业务中的落地应用。
我们致力于推动强化学习(Reinforcement Learning, RL)在人形机器人运动控制、大语言模型推理优化、和具身智能体(Embodied AI) 领域的突破性应用。现招募具备深厚RL技术背景的算法工程师,参与从算法设计、仿真训练到真实场景部署的全链路研发,探索AI与物理世界的深度融合。 1. 研究大语言模型RLHF阶段的广义强化算法,提升大模型的能力,探索大模型的自我进化之路; 2. 研究大模型驱动的智能体算法,包括但是不局限于ReACT、Voyager、WebGPT、AutoGPT; 3. 撰写技术报告和论文,分享研究成果,参与内外部的技术交流和合作,推动团队技术水平的提升,提高团队在行业内的影响力。