夸克千问C端事业群-千问/夸克-Post-Training 高级算法专家-北京/杭州

社招全职3年以上技术类-算法2026-01-20地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机科学、人工智能、电子工程或相关领域的硕士或博士学位。
● 在顶级学术会议 (NeurIPS, ICML, ICLR, ACL, EMNLP 等) 发表过相关高质量论文。
● 在自然语言处理 (NLP) 或大模型 (LLM/VLM) 领域拥有 3 年以上的研发经验，对 Post-training 技术（SFT, RLHF, DPO, PPO、RLVR 等）方向拥有深厚的理论功底和业界公认的成功实践案例。
● 对深度学习和机器学习有精深的理解，尤其熟悉 Transformer、MoE…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位描述：
全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建，驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展，打造世界一流的模型效果，并定义其在未来 AI 应用中的核心价值。

工作职责：
● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图，预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向，确保技术路径与公司业务战略高度协同。
● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验，不仅局限于日常迭代，更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题，构建技术壁垒。
● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新，包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。
● 【多模态与未来探索】 从统一多模态模型的战略视角出发，您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略，确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。
● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理，打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架，实现研发效能的倍增。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NeurIPS+

ICML+

ICLR+

NLP+

大模型+

SFT+

深度学习+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

智能信息-千问/夸克-大模型高级算法专家-Chat方向

社招3年以上技术类-算法

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式，解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战，探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验，塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为，结合业务场景，制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展，包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准，并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题，包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略，使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题，并通过 RAG 新范式或其他创新方法，显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系，能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统，利用真实用户反馈持续、自动化地优化模型。

更新于 2025-12-08北京|杭州

大语言基础模型 post-training 算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于在蕴含丰富世界知识的预训练模型的基础上，利用post-train技术打造出能够服务人类的AI模型。通过RL、SFT、RFT等技术，探索大模型潜能的同时，塑造大模型的能力与性格。重点探索大模型的推理能力，实现深度思考，并致力于提升其 agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可Scalable的Verifier信号，并通过RL提升模型的各项能力。 2. 提升reward model在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和 agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2025-08-22北京|杭州|上海

通义实验室-大模型Post-training算法工程师-通义千问

社招1年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在蕴含丰富世界知识的预训练模型的基础上，我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术，探索大模型潜能的同时，也在塑造大模型的能力与性格。本着为人类服务的目标，我们的 Post-train 将会重点探索其推理能力，实现深度思考，并致力于提升其 Agent 能力，让大模型服务于真实世界的任务。工作职责： 1. 探索更多可 scalable 的 verifier 信号，并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力，减少reward hacking和bias。 3. 研究 reasoning path压缩和外推，实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合，探索统一模态的reasoning。

更新于 2026-02-11北京|杭州|上海

千问C端事业群-VLM post training应用算法(千问chat)-北京/杭州

社招1年以上技术类-算法

负责千问app相机场景下的整体算法建设，核心是多模态问答能力。基于百亿图文视频数据以及亿级用户需求，持续推进模型效果和场景落地，尤其是多轮交互、多模对话、多模态planning、多模态reasoning等方向实现突破进展。 1、多模态planner的优化&探索，主要负责在复杂多轮/多模场景下的意图理解、路径规划、工具调用等能力建设，以及探索强化学习在复杂路径planning场景下的应用； 2、vlm后训练技术探索&落地，包括不限于SFT/RLVR/RLHF等训练范式、模型蒸馏等对齐策略，提升模型在多轮对话、行业知识、RAG、指令遵循、视觉推理、用户偏好等方面的能力； 3、建设完备的算法迭代体系，包括线上数日志据飞轮的搭建、训练数据流程化建设、模型迭代&合版机制的完善等，持续面向业务解决实际问题，构建技术壁垒；

更新于 2026-01-20北京|杭州