阿里云阿里云智能-语音&全模态大模型算法工程师-后训练方向-杭州/北京
社招全职3年以上云智能集团地点:北京 | 杭州状态:招聘
任职要求
1、计算机、人工智能等相关专业硕士/博士学位,在语音处理、多模态学习、大模型后训练等领域具备扎实的理论基础; 2、实战经验与工程能力: ● 有实际落地语音或音视频多模态项目经验,能处理真实场景中的噪声、口音、多说话人、低资源等问题; ● 熟悉主流语音模型(如 Nvidia-Nemotron-Speech 等)及多模态大模型(如 Qwen-Omni等)架构; ● 精通大模型后训练技术,包括监督微调、指令微调、强化学习对齐、持续学习等; ● …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
深入阿里云各行业的真实业务场景,基于阿里的语音与全模态大模型(Omni/ASR/TTS),打造行业领先的领域模型与定制化解决方案,并将核心能力反哺至基座模型。工作内容包括并不限于: 1、业务攻坚与定制化调优:深入理解业务场景(如智能客服、会议转录、车载语音、在线教育等),针对客户真实需求和挑战问题(如高噪音、多说话人、情感感知等)进行算法攻坚和端到端交付。 2、大模型增强:利用后训练全链路技术和数据飞轮(数据构建 → 模型微调 → 强化对齐 → 效果评测),增强模型的语音识别、语音合成、多模态理解、声纹识别等核心能力,并将评测、数据和算法能力沉淀到基座模型,持续提升通用大模型在真实场景中的能力。 3、多模态融合与对齐优化:主导语音信号与文本、图像、视频等模态的深度融合技术研发,解决跨模态语义对齐、噪声鲁棒性、低资源适配等关键挑战。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
还有更多 •••
相关职位
社招4年以上TEG技术
1.负责AI Lab语音技术团队语音技术,包括TTS、语音压缩编码、语音前端处理等,尤其是基于AIGC算法的基础研究和应用落地。 ; 2.侧重于研发语音合成、语音转换、few-shot / zero-shot TTS、音频和音乐生成等先进算法尤其是生成类算法,并且可以融合语音识别、音频分析、语音增强、语音分离等更广泛的语音/音频任务。将有关算法成果应用于语音 / 音乐 / 音效/音频生成、语音翻译(S2TT、S2ST)、虚拟人等众多场景中。 ; 3.通过跟踪和创新,确保算法方面的行业领先,通过打造语音技术PAAS平台服务于腾讯内部各个业务场景包括游戏、社交、内容服务、广告、金融、车载助手、企业服务(如腾讯会议、企业微信、企点客服、商通、数智人)等等,帮助业务产生实际价值和打造业界领先的语音应用产品。; 4.持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。。
更新于 2025-04-17深圳
社招TPG
-负责语音识别、VAD、唤醒、OCR等算法引擎的开发、优化、交付等 -负责语音相关算法的DSP相关移植工作 -负责与语音算法团队进行相关技术的验证优化 -语音产品线上问题分析与跟踪,协助业务部门解决语音算法落地问题
更新于 2023-08-10北京