阿里巴巴算法工程师-RL

实习兼职阿里国际2026届实习生招聘2025-03-20地点：杭州状态：招聘

扫码手机上打开

任职要求

岗位要求：
1. 计算机、电子、数学物理等相关专业在读硕士或以上学历，具有RL基础以及RL在LLM应用的经验
2. 极佳的工程实现能力，熟练运用Python/Pytorch/SQL，有L…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

关于我们
● 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队
● Accio产品是聚焦于全网B类信息和商品的搜索平台，技术上致力于研发基于LLM的agent系统和基于RL的推理模型的构建和应用，团队技术氛围浓厚，论文多次被ICLR、KDD、SIGIR、AAAI、WWW等会议录用

职位描述
1. 基于RL技术，研究reasoning模型相关技术，实现电商场景数据训练专属推理模型
2. 基于RL技术，研究cot+coa融合的端到端agent模型，实现原生可工具调用和多步思考的推理模型
3. 探索电商版本deep research，实现新一代复杂agent task的产品能力

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

运动控制算法工程师（RL & Simulation）

社招3年以上算法开发岗

1. 建立并优化机械臂 / 移动底盘运动学-动力学模型，设计模型预测控制（MPC）与轨迹跟踪算法。 2. 基于深度强化学习（SAC、PPO 等）开发高鲁棒、自适应运动控制策略，支持力/位混合控制。 3. 构建 Gazebo / Isaac / MuJoCo 等高保真仿真环境，实施随机化与 Curriculum Learning，提升 Sim2Real 迁移效率。 4. 研发离线 RL、模仿学习与安全约束 RL 流程，缩短策略收敛时间并保障操作安全。 5. 搭建示教 & 回放数据飞轮，持续监控线上控制性能并执行 A/B 测试。 6. 与系统集成、边缘计算团队协作，完成控制算法量化部署、实时推理加速及低时延通讯优化。

更新于 2025-08-18北京

Hi lab-Posttrain算法工程师-RLHF

社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州

算法工程师-强化学习

校招淘宝闪购秋季20

我们正在构建一个创新的数据分析诊断模型，旨在通过强化学习（RL）与大语言模型（LLM）技术的结合，为商家提供智能化的店铺运营支持。该模型将帮助商家提高运营效率和服务质量，实现数据驱动的决策优化。培养方向： 1、参与系统的需求分析、架构设计与开发工作，确保算法模型的高效落地与业务目标的达成。 2、结合大语言模型（LLM）与强化学习（RL）技术，设计并实现智能化的文本生成模型，助力商家运营效率和服务质量的全面提升。 3、持续关注并研究强化学习领域的前沿技术动态，探索新方法与新思路，推动技术创新在实际业务中的落地应用。

更新于 2025-08-05杭州

大语言模型RLHF算法工程师

实习

我们致力于推动强化学习（Reinforcement Learning, RL）在人形机器人运动控制、大语言模型推理优化、和具身智能体（Embodied AI）领域的突破性应用。现招募具备深厚RL技术背景的算法工程师，参与从算法设计、仿真训练到真实场景部署的全链路研发，探索AI与物理世界的深度融合。 1. 研究大语言模型RLHF阶段的广义强化算法，提升大模型的能力，探索大模型的自我进化之路； 2. 研究大模型驱动的智能体算法，包括但是不局限于ReACT、Voyager、WebGPT、AutoGPT； 3. 撰写技术报告和论文，分享研究成果，参与内外部的技术交流和合作，推动团队技术水平的提升，提高团队在行业内的影响力。

更新于 2025-04-28深圳|北京|上海