通义通义实验室-大模型Post-training算法工程师-通义千问

社招全职1年以上技术类-算法2026-02-11地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、机器学习等方向相关专业，博士及硕士优先。
2. 具有 post-training 或强化学习相关方向经验。
3. 精通 Python 以及 Pytorch 等深度学习框架，具有较强的代码工程能力。

加分项：…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。
在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。

工作职责：
1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。
2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。
3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。
4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

强化学习+

Python+

PyTorch+

深度学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-大模型Post-training算法工程师-通义千问

社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2025-06-05北京|杭州|上海

通义实验室-大模型Post-training算法工程师-通义千问

社招1年以上技术类-算法

更新于 2025-11-25北京|杭州|上海

大语言基础模型 post-training 算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于在蕴含丰富世界知识的预训练模型的基础上，利用post-train技术打造出能够服务人类的AI模型。通过RL、SFT、RFT等技术，探索大模型潜能的同时，塑造大模型的能力与性格。重点探索大模型的推理能力，实现深度思考，并致力于提升其 agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可Scalable的Verifier信号，并通过RL提升模型的各项能力。 2. 提升reward model在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和 agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2025-08-22北京|杭州|上海

通义实验室-大模型评估系统算法工程师-通义千问

社招1年以上技术类-算法

模型评估的方法决定了我们训练什么样的大模型，构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展，传统的评测逐渐不适应当前的模型能力，我们需要研发下一代大模型评估系统，从而实现让大模型更好地执行真实世界任务进而服务人类的目标。工作职责： 1. 挖掘大模型弱点，持续快速构建覆盖各项模型能力的评测数据集，探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建，训练 LLM Judge / Reward Model，建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建，设计 Reward Signal、合成对应数据，并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架，简化各类测试任务和模型集成流程，帮助提高团队效率。

更新于 2025-12-06北京|杭州|上海