logo of alibaba

阿里巴巴算法工程师-RL

实习兼职阿里国际2026届实习生招聘地点:杭州状态:招聘

任职要求


岗位要求:
1. 计算机、电子、数学物理等相关专业在读硕士或以上学历,具有RL基础以及RL在LLM应用的经验
2. 极佳的工程实现能力,熟练运用Python/Pytorch/SQL,有L…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


关于我们
● 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队
● Accio产品是聚焦于全网B类信息和商品的搜索平台,技术上致力于研发基于LLM的agent系统和基于RL的推理模型的构建和应用,团队技术氛围浓厚,论文多次被ICLR、KDD、SIGIR、AAAI、WWW等会议录用

职位描述
1. 基于RL技术,研究reasoning模型相关技术,实现电商场景数据训练专属推理模型
2. 基于RL技术,研究cot+coa融合的端到端agent模型,实现原生可工具调用和多步思考的推理模型
3. 探索电商版本deep research,实现新一代复杂agent task的产品能力
包括英文材料
学历+
大模型+
还有更多 •••
相关职位

logo of jd
社招3年以上算法开发岗

1. 建立并优化机械臂 / 移动底盘运动学-动力学模型,设计模型预测控制(MPC)与轨迹跟踪算法。 2. 基于深度强化学习(SAC、PPO 等)开发高鲁棒、自适应运动控制策略,支持力/位混合控制。 3. 构建 Gazebo / Isaac / MuJoCo 等高保真仿真环境,实施随机化与 Curriculum Learning,提升 Sim2Real 迁移效率。 4. 研发离线 RL、模仿学习与安全约束 RL 流程,缩短策略收敛时间并保障操作安全。 5. 搭建示教 & 回放数据飞轮,持续监控线上控制性能并执行 A/B 测试。 6. 与系统集成、边缘计算团队协作,完成控制算法量化部署、实时推理加速及低时延通讯优化。

更新于 2025-08-18北京
logo of xiaohongshu
社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州
logo of xiaohongshu
社招1-3年大模型

1.利用强化学习方法对多模态大模型进行对齐: 2.解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 3.探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 4.研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 5.基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。

更新于 2026-01-14北京|上海
logo of kuaishou
社招3-5年J0011

1、负责多模态视频生成模型的 RLHF 数据体系建设与工程落地,围绕运动质量、文本对齐、画面稳定性、风格一致性等核心业务指标,构建可规模化、可迭代的数据生产与交付流程; 2、设计并实现面向视频生成的 偏好建模与 Reward 机制,将主观质量(美感、合理性、符合指令等)转化为稳定、可优化的训练信号,推动模型在真实场景中的持续提升; 3、在生产环境中落地 DPO / GRPO / ReFL / PPO 等后训练与强化学习方法,结合数据策略与算法设计,提升模型效果并控制训练成本与稳定性; 4、深度对齐业务目标(如生成质量、用户满意度、场景可用性、内容安全等),以 “数据 + 算法 + 评测”闭环驱动模型迭代,对关键指标提升结果负责; 5、与算法、工程、数据、产品及运营团队紧密协作,建设 自动化数据管线、评测与回归体系,确保 RLHF 能在多模型、多版本中稳定复用与规模化落地。

更新于 2026-03-30北京|深圳