阿里巴巴未来生活实验室-多模态大模型算法专家-北京/杭州
任职要求
1、硕士及以上学历,2年以上相关工作工作,计算机视觉、自然语言处理、机器学习、数据挖掘、人工智能等相关专业的硕士或博士; 2、具备较好的编程能力,动手能力强,熟练使用至少一种开源深度学习框…
工作职责
淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。
淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。
1. 参与原生多模态大模型研发,包括MoE多模态架构、多模态强化学习框架、多模态长思维链推理能力优化、高质量数据合成、体验优化等。 2. 负责原生多模态大模型高效率预训练,以及后训练探索,支撑多模态输入/输出、复杂任务均衡优化。
1. 负责面向AI手机等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。

1. 负责面向AI手机等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。