智能互联通义实验室-大模型Post-training算法工程师-Qwen

社招全职1年以上技术类-算法2026-04-02地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、机器学习等方向相关专业，博士及硕士优先。
2. 具有 post-training 或强化学习相关方向经验。
3. 精通 Python 以及 Pytorch 等深度学习框架，具有较强的代码工程能力。

加分项：…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。
在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。

工作职责：
1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。
2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。
3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。
4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

强化学习+

Python+

PyTorch+

深度学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-大模型Post-training算法工程师-通义千问

社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2025-06-05北京|杭州|上海

通义实验室-大模型Post-training算法工程师-通义千问

社招1年以上技术类-算法

更新于 2025-11-25北京|杭州|上海

通义实验室-大模型Post-training算法工程师-Qwen

社招1年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2026-04-02北京|杭州|上海

阿里云智能-大语言模型算法高级工程师-飞天实验室

社招3年以上云智能集团

【部门介绍】阿里云智能大数据和智能实验室致力于成为通义大模型与行业的桥梁，积极推动AI大模型时代各行业的智能化升级。团队主要负责行业语言大模型、多模态大模型以及大模型基础研究，主要技术成果已成功应用到智慧交通、城市治理、生物医疗、大型国际赛事（亚运会和奥运会）等多个行业大模型中。【工作内容】 1、负责大模型核心技术的研究与开发，深入理解其工作原理，不断探索创新的技术及其应用场景；解决复杂问题的推理能力scaling up，探索Post-training的前沿技术，如Agent RL、test time learning，并参与research intern的指导，沉淀技术成果，提升部门的AI技术的影响力及AI产品的竞争力，以支撑业务的持续增长。 2、对大模型的效果进行持续调优，通过高效的Post-training手段（SFT、RL等）提升LLM领域模型在业务场景下的表现，支撑通义的AI普惠影响力建设和模型规模化调用。

更新于 2025-07-21杭州