夸克千问C端事业群-大模型post training应用算法(AI眼镜)-北京/杭州
任职要求
1、计算机科学、人工智能、数学、电子信息工程或相关专业硕士及以上学历。 2、具备扎实的深度学习理论基础,熟练使用Python、PyTorch等工具,熟悉业界前沿模型架构与…
工作职责
负责AI眼镜背后的整体云端算法解决方案,包括语音助手、拍照问答、全模态live交互等核心能力。持续推动大模型(LLM/VLM)在逻辑推理、问答、复杂上下文理解、指令遵循、Agent智能体及多模态交互等核心方向取得突破性进展,打造行业领先的智能体验。具体职责包括: 1、LLM/VLM后训练技术研发与落地: 探索并应用SFT、RLHF、DPO、RLVR等训练范式及模型蒸馏等对齐策略,持续提升模型在RAG、行业知识掌握、用户偏好理解、指令遵循能力及抑制幻觉等方面的表现。 2、多模态统一模型构建: 规划并实施文本、语音、视觉等多模态信息的统一建模方案,确保模型在文本问答、图文百科、视频实时对话等复杂场景下具备精准的理解能力和高效的输出能力。 3、眼镜场景算法闭环迭代: 构建基于线上日志的数据飞轮,体系化建设眼镜场景专属训练数据集,并推动模型持续迭代更新。聚焦业务痛点,解决实际问题,构建坚实的技术壁垒。
岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。

岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式,解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战,探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验,塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为,结合业务场景,制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展,包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准,并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题,包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略,使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题,并通过 RAG 新范式或其他创新方法,显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系,能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统,利用真实用户反馈持续、自动化地优化模型。
我们正在构建世界级医疗垂直大模型,致力于通过AGI技术革新健康咨询与辅助诊疗场景,让精准医疗普惠每个家庭。如果你渴望在万卡算力集群上实现算法突破,用技术改变14亿人的生命质量,这是你不可错过的技术圣战。加入我们,定义医疗大模型的未来。 1. 负责后训练(Post-training)相关研发工作,提升模型在推理、Planning、RAG、指令跟随、工具调用等方面的能力; 2. 优化和迭代大模型的对齐训练策略,包括 SFT、RLHF、Self-play RL、Agent 优化等; 3. 对齐人类偏好、安全性,提升奖励信号的质量和多样性,解决 Reward Hacking 和奖励融合问题 4. 参与数据飞轮、数据合成、基准集合建设、评测工具的开发与发布等。