logo of tongyi

通义通义实验室-AI交互模型算法专家-北京/杭州

社招全职5年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 计算机、人工智能、电子工程等相关专业硕士及以上学历,3年以上AI模型或音频算法研发经验。
2.  在以下至少两个方向有扎实实践: 
①基于神经网络/Diffusion/LLM的语音信号处理(增强、降噪、语音修复等) ;
②语音大模型、视觉-语言模型(VLM)或全模态(Omni)大模型的后训练(CPT/SFT/RL) …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.  负责面向AI手机等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。
2.  研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。
3.  构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 
4.  针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 
5.  与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。
包括英文材料
学历+
算法+
大模型+
还有更多 •••
相关职位

logo of aligenie
社招5年以上技术类-算法

1. 负责面向AI手机等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。

更新于 2026-04-03北京|杭州
logo of alibaba
社招2年以上

淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。

更新于 2025-06-10北京|杭州
logo of alibaba
社招2年以上

淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。

更新于 2025-07-30北京|杭州
logo of tongyi
社招3年以上技术类-算法

1. 核心研发:负责面向实时交互场景的数字人生成技术研发,重点探索3D/身体表征与视频生成的深度融合,实现高保真、低延迟的全模态驱动数字人生成。 2. 数据奠基:运用Z-Image等前沿AIGC和多模态技术和数据管线技术,主导构建高质量、大规模的2D/3D人像数据集,为下一代数字人模型的研发奠定数据基石。 3. 前沿探索:紧跟业界前沿,探索Few-Step Diffusion Model、3D数字人等新范式在人像视频生成中的高效应用,持续提升生成质量与推理速度。 4. 系统落地:主导端到端实时数字人系统的算法创新与工程优化,推动算法在具体业务场景的落地,打造行业领先的实时交互式数字人产品。

更新于 2025-12-11北京|杭州