通义AI创新事业部-多模态通用音频大模型算法工程师/专家-未来生活实验室
任职要求
1、学历经验:硕士及以上,1年以上音频/语音/音乐生成大模型研发经验。 2、核心技术:精通音频生成算法,对DiT、Flow Matching、MLLM、vocoder等技术有自己的理解和实操经验。 3、底层技术:熟悉音频表征(HuBERT/WavLM等)及高音质编解码方案(EnCodec/DAC等),对音质敏感。…
工作职责
1. 负责音频生成大模型研发(文生音频、音频编辑、音色克隆、音效合成等),产出高保真、可控的生成方案并推动落地; 2. 研发音频理解大模型,构建跨模态(文本、图像、视频与音频联合)的细粒度音频内容描述体系; 3. 搭建大规模多源通用音频数据集(音乐、语音、环境声等),支撑模型持续迭代; 4. 推动音频大模型在业务场景中落地,解决推理效率、可控性、实时性等工程问题; 5. 跟进行业前沿,保持团队在通用音频大模型领域的技术领先。
岗位描述: 全面负责千问大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。
1. 负责多模态与AIGC核心算法的研发与优化,深度推动AIGC技术在视觉智能领域的工程化落地,系统性提升图像、视频等多模态内容的生成质量与语义理解能力; 2. 持续跟踪并深入探索AIGC前沿技术方向,涵盖扩散模型(Stable Diffusion、Flux系列)、自回归生成(AR)及强化学习等核心范式,面向通用场景与垂直领域持续打磨SOTA模型,有效驱动下游业务应用效果提升; 3. 主导推动AIGC技术的产品化创新与规模化落地,重点方向包括智能内容生成工具(图文、视频、广告素材等全链路创作)、基于自然语言指令的通用图像/视频编辑能力,以及多模态内容智能化生产流程的构建与优化。

1. 负责多模态与AIGC核心算法的研发与优化,深度推动AIGC技术在视觉智能领域的工程化落地,系统性提升图像、视频等多模态内容的生成质量与语义理解能力; 2. 持续跟踪并深入探索AIGC前沿技术方向,涵盖扩散模型(Stable Diffusion、Flux系列)、自回归生成(AR)及强化学习等核心范式,面向通用场景与垂直领域持续打磨SOTA模型,有效驱动下游业务应用效果提升; 3. 主导推动AIGC技术的产品化创新与规模化落地,重点方向包括智能内容生成工具(图文、视频、广告素材等全链路创作)、基于自然语言指令的通用图像/视频编辑能力,以及多模态内容智能化生产流程的构建与优化。
● 为大语言模型和多模态模型设计和实现高效的分布式推理架构,支持多节点、多角色、多模型的异构复杂部署模式,以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式,以及灵活的配比、伸缩等能力。 ● 设计和实现智能的请求与模型调度能力,在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度,让分布式推理系统具备充分的动态性和适应能力,提升服务的整体效率和质量。 ● 对分布式和多模态推理引擎运行时进行深度优化,提升分布式推理的效率和稳定性:提升组件间协调的效率,降低请求延迟、提升服务吞吐;结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率,同时保证模型效果;提升系统在高并发下的鲁棒性,确保极端负载下的稳定性和性能;引入容错机制、自动恢复和监控报警系统,保证系统的高可用性。 ● 为分布式推理实现高效、通用的数据平面,以统一的方式支持各类数据传输(如PD分离中的KV cache、多模态推理中的中间结果)和存储(KV cache storage)等需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向;积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。