logo of quark

夸克千问C端事业群-千问/夸克-大模型强化学习专家-前沿技术攻坚

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 硕士及以上学历,数学、强化学习自然语言处理等相关专业;
2. 在强化学习方面具有丰富的专业知识,熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识;
3. 熟悉大模型相关深度学习框架,如Transformers、PyTorch、Megatron-LM等,有扎实的编程基础和代码实现能力;
4. 具备良好的沟通、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地;
研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力;
改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互;
将强化学习研究成果融入千问&夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。
包括英文材料
学历+
强化学习+
NLP+
算法+
大模型+
还有更多 •••
相关职位

logo of quark
社招5年以上技术类-算法

主导通用AIAgent(对标Manus等前沿形态)的核心算法研发与技术落地,带领团队攻克大模型驱动下的信息搜集、智能决策、智能办公等关键技术难题,构建具备搜索增强、自然对话能力的新一代通用智能体,支撑业务在多领域的创新应用。 具体职责: 1.算法研发与创新:牵头通用AIAgent的核心算法设计,包括但不限于大模型微调与强化学习、智能规划与决策、多模态信息融合、搜索增强机制等,持续提升Agent的通用性与任务执行能力。 2.场景落地与优化:聚焦搜索、对话等核心应用场景,主导算法方案的落地实施,结合业务需求迭代优化模型效果,解决实际场景中的技术瓶颈(如上下文理解、意图识别、多轮交互连贯性等)。 3.团队管理与赋能:带领5-10人算法团队开展研发工作,制定技术研发计划,统筹项目进度,搭建高效协作机制;指导团队成员成长,提升团队整体技术水平与创新能力。 4.技术攻坚与前瞻布局:跟踪国内外通用Agent、大模型领域的前沿技术动态(如顶会论文、行业实 践),主导技术预研与攻关,推动技术成果转化,保障团队技术竞争力。 5.跨部门协作与国际化支持:与产品、业务等部门深度协作,明确技术需求与落地路径;若涉及海外业务,需主导适配海外场景的算法优化,提供国际化技术支持。

更新于 2025-12-29北京|杭州
logo of quark
社招3年以上技术类-算法

岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。

更新于 2026-01-20北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责面向AI教育领域战略级内容产品建设和应用,结合大模型前沿技术解决行业核心问题。 2. 负责提升面向核心任务的大模型后训练和综合效果迭代。通过大模型、NLP、强化学习等级技术完善智能决策、内容理解等核心领域的应用技术体系。

更新于 2026-02-03北京
logo of quark
社招2年以上技术-研究

1、基于海量用户行为数据以及人工标注数据,结合信息检索、自然语言处理、大规模预训练模型等前沿技术,支持 通用RAG检索、垂直场景下的AI搜索 等一系列业务 2、研究方向包括但不限于信息检索、大规模预训练技术、文本生成、模型蒸馏/窃取、强化学习等

更新于 2025-12-09北京