logo of aliyun

阿里云阿里云智能-语音&全模态大模型算法工程师-后训练方向-杭州/北京

社招全职3年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、计算机、人工智能等相关专业硕士/博士学位,在语音处理、多模态学习、大模型后训练等领域具备扎实的理论基础;  
2、实战经验与工程能力:  
● 有实际落地语音或音视频多模态项目经验,能处理真实场景中的噪声、口音、多说话人、低资源等问题;
● 熟悉主流语音模型(如 Nvidia-Nemotron-Speech 等)及多模态大模型(如 Qwen-Omni等)架构;  
● 精通大模型后训练技术,包括监督微调、指令微调、强化学习对齐、持续学习等;  
● …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


深入阿里云各行业的真实业务场景,基于阿里的语音与全模态大模型(Omni/ASR/TTS),打造行业领先的领域模型与定制化解决方案,并将核心能力反哺至基座模型。工作内容包括并不限于:
1、业务攻坚与定制化调优:深入理解业务场景(如智能客服、会议转录、车载语音、在线教育等),针对客户真实需求和挑战问题(如高噪音、多说话人、情感感知等)进行算法攻坚和端到端交付。
2、大模型增强:利用后训练全链路技术和数据飞轮(数据构建 → 模型微调 → 强化对齐 → 效果评测),增强模型的语音识别、语音合成、多模态理解、声纹识别等核心能力,并将评测、数据和算法能力沉淀到基座模型,持续提升通用大模型在真实场景中的能力。
3、多模态融合与对齐优化:主导语音信号与文本、图像、视频等模态的深度融合技术研发,解决跨模态语义对齐、噪声鲁棒性、低资源适配等关键挑战。
包括英文材料
学历+
大模型+
强化学习+
算法+
还有更多 •••
相关职位

logo of tencent
社招4年以上TEG技术

1.负责AI Lab语音技术团队语音技术,包括TTS、语音压缩编码、语音前端处理等,尤其是基于AIGC算法的基础研究和应用落地。 ; 2.侧重于研发语音合成、语音转换、few-shot / zero-shot TTS、音频和音乐生成等先进算法尤其是生成类算法,并且可以融合语音识别、音频分析、语音增强、语音分离等更广泛的语音/音频任务。将有关算法成果应用于语音 / 音乐 / 音效/音频生成、语音翻译(S2TT、S2ST)、虚拟人等众多场景中。 ; 3.通过跟踪和创新,确保算法方面的行业领先,通过打造语音技术PAAS平台服务于腾讯内部各个业务场景包括游戏、社交、内容服务、广告、金融、车载助手、企业服务(如腾讯会议、企业微信、企点客服、商通、数智人)等等,帮助业务产生实际价值和打造业界领先的语音应用产品。; 4.持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。。

更新于 2025-04-17深圳
logo of baidu
社招TPG

-跟踪kws前沿相关技术 -负责定制唤醒、自定义唤醒等技术研发和业务支持 -负责声源定位技术的研发和业务支持 -负责AEC技术的研发和业务支持

更新于 2024-08-23北京
logo of baidu
社招TPG

-负责语音识别、VAD、唤醒、OCR等算法引擎的开发、优化、交付等 -负责语音相关算法的DSP相关移植工作 -负责与语音算法团队进行相关技术的验证优化 -语音产品线上问题分析与跟踪,协助业务部门解决语音算法落地问题

更新于 2023-08-10北京
logo of baidu
社招TPG

- 负责智能客服、开放平台、智能硬件等语音产业化解决方案设计,客户项目的管理和推进工作,包括客户需求沟通、项目跟进、性能效果测试等 - 独立完成语音产品解决方案的相关设计、数据分析、行业动态调研、竞品对比评估,高质量推进完成项目循环和迭代,对语音产品和解决方案的最终效果负责 - 与技术团队紧密配合,快速、高效推动项目迭代、研发和测试 - 与业务团队对接合作,整体负责项目管理管控,高效推动项目交付

更新于 2023-01-29北京