夸克千问C端事业群-多模态生成算法专家-杭州/上海/北京
任职要求
1. 具备优秀的编程和算法设计能力,精通Python编程语言; 2. 拥有扎实的Agent或AIGC技术基础,并具备将理论应用于实际问题的能力。在Multi-Agent系统、通用图像编辑、视频模型定制等一个或多个领域具备实践和落地经验; 3. 具备良好的逻辑思维、沟通协作能力,并对前沿技术和新事物保持强烈的好奇心。 加分项…
工作职责
1. 负责Chat场景的图像视频Agent应用优化。负责构建大规模Mult-Agent系统,并对视觉语言模型(VLM)进行高效的定制与微调,以驱动业务创新; 2. 负责基于基础模型,进行文生图、文生视频、图像/视频编辑等AIGC技术能力的精调、优化,持续提升用户体验; 3. 进行前沿Agent应用方向的技术预研,跟踪并评估行业前沿研究成果,主动探索其在业务场景中的可行性,并负责将有潜力的技术迅速落地为核心业务能力,驱动产品创新与运营效率提升。
1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地; 2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法; 3. 研究音频表征、强化学习或语音端到端等技术方向。
1、负责多模态生成模型建设的长期策略和效果优化,搭建图像/视频生成模型的效果评估体系,输出评测需求,驱动数据生产和模型训练,打造行业有竞争力、且有特色的模型,并供给实现更大的业务价值。 2、有强业务视角和高内容Sense,深入调研和了解对模型的实际需求,针对不同场景,提出并推动模型优化、效果提升等改进策略,将模型能力与业务发展深度融合。 3、跟踪最前沿的技术和产品形态,判断行业发展趋势,评估潜在价值和应用可行性。
1、利用SD、VLLM、LLM等AIGC相关技术参与图文生成、视频生成、智能化编辑,包括但不限于海报生成、动态海报、数字人等; 2、负责AI算法的架构设计与优化,针对不同业务场景提出通用性或定制化的解决方案; 3、结合实际业务需求,探索和解决新问题,并通过创新和改进推动团队整体能力提升。
岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。