通义Token Foundry-大模型RL/RM算法专家-杭州/北京

社招全职1年以上技术类-算法2026-07-09地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能等相关专业硕士及以上学历，1 年以上 LLM 相关工作经验。
2. 扎实的强化学习和大模型算法基础，有 LLM、VLM 对齐（Alignment）或 RLHF 实际落地经验。
3. 熟练掌握 PyTorch，有大规模分布式训练经验，熟悉 DeepSpeed / Megatron…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责 RLHF 全链路建设，包括 Reward Model 的设计、训练与迭代优化，推动 PPO / DPO / GRPO 等对齐算法的工程化落地。
2. 构建 Verifier、LLM as Judge、Rule 等为一体的 Reward System，优化多维度（如安全性、准确性、有用性、逻辑性、拟人度等）的偏好数据采集策略与训练方案。
3. 与 SFT、Pretrain 团队紧密协作，分析用户的 Badcase，将 RL 信号融入模型训练全流程，持续提升对话助手的用户体验。
4. 跟踪 Agentic RL 等前沿研究进展，并推动技术创新在基座大模型研发中的落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

强化学习+

算法+

RLHF+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

Token Foundry-大模型预训练算法工程师-Qwen

社招1年以上技术类-算法

千问（Qwen）是由阿里巴巴研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。我们期望打造世界一流的预训练 LLM 基座，开发涵盖参数量从几百M到T级的基座模型，并将作为 Qwen / QwenVL / Qwen-Omni / Qwen-Coder 等系列模型的基座。我们追求将现有的预训练技术做到极致，并积极探索下一代的预训练技术。工作职责： 1. 预训练数据：大规模预训练数据合成技术探索、STEM & reasoning 优化、长尾知识优化、精品数据挖掘过滤、自然数据 scaling、长文本优化、面向 test-time scaling 的数据优化。 2. 预训练策略：新型预训练损失函数探索、遗忘对抗与持续学习、optimizer 优化、lr scheduler 优化、课程学习、scaling law 预测、超参优化。 3. 模型结构：新型模型结构探索、模型可解释性、MoE 优化、参数扩展与裁剪蒸馏、线性注意力、动态稀疏注意力、draft model 优化、动态计算优化、KV cache压缩、长序列优化、decoding 加速等。

更新于 2026-06-18北京|杭州|上海

Token Foundry-大模型后训练/Agent 沙箱系统高级专家-杭州/北京/深圳

社招5年以上

1. 深度参与或主导沙箱平台的整体技术架构设计，定义系统分层、模块边界和核心接口规范，构建支撑大模型后训练与 AI Agent 两大场景的统一沙箱基础设施，牵引团队技术方向。 2. 深度参与或主导大规模资源调度与弹性架构设计，规划万级并发沙箱实例的调度策略、资源池化方案和容量模型，在极端突发场景下保障系统稳定性与资源利用率。 3. 推动训练侧与推理侧沙箱的架构统一与平台化，抽象共性能力，降低各业务方的接入成本。 4. 深度参与跨团队技术协同，与大模型训练框架、推理引擎、算法、安全等团队对齐需求和技术方案，从基础设施视角定义沙箱的 SLA 和能力边界。 5. 建立技术前瞻性，持续跟踪业界安全容器、轻量虚拟化、Agent 执行框架等领域的技术趋势，主导关键技术选型和架构迭代。

更新于 2026-06-22北京|深圳|杭州

Token Foundry-大模型算法专家-Qwen Agent

社招1年以上技术类-算法

1. Agent模型后训练：负责大模型在Agent场景下的后训练（Post-training）工作，提升模型在复杂Agent任务中的表现。 2. 强化学习与RL探索：设计并优化基于强化学习（RL）的Agent训练框架，提升模型的长期规划能力、试错反思能力及工具调用准确率。 3. 核心能力构建：针对Agent的核心能力进行专项模型训练与对齐优化。 4. 行业解决方案落地：深入理解具体行业的业务痛点，将Agent模型能力与行业Know-how结合，设计并落地端到端的行业Agent解决方案。 5. 前沿技术追踪：跟踪学术界和工业界在LLM Agent、RLHF、后训练领域的最新进展，将前沿技术转化为团队的工程与算法资产。

更新于 2026-07-08北京|杭州|上海

Token Foundry-大模型Post-training算法工程师-Qwen

社招1年以上技术类-算法

千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2026-07-13北京|杭州|上海