快手音视频联合生成大模型算法工程师

校招全职J10072026-04-02地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机和数学相关专业，硕士及以上学历；
2、对VAE、扩散/AR模型、多模态等技术有深度理解，有较强的代码实现能力；
3、有较丰富的语音/音频/音乐生成大模型相关领域经验；
4、具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责可灵AI音视频联合生成大模型的关键算法研发和优化；
2、负责音视频数据的筛选，清洗和打标工作，为可灵AI音视频联合生成大模型提供数据支持；
3、负责跟进行业前沿技术发展趋势，跟踪国际最新技术发展方向；
4、推动音视频联合生成技术在可灵及快手各业务场景中的落地，探索新玩法和业务创新。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

【留用实习】音视频联合生成大模型算法工程师

实习J1007

1、负责可灵AI音视频联合生成大模型的关键算法研发和优化； 2、负责音视频数据的筛选，清洗和打标工作，为可灵AI音视频联合生成大模型提供数据支持； 3、负责跟进行业前沿技术发展趋势，跟踪国际最新技术发展方向； 4、推动音视频联合生成技术在可灵及快手各业务场景中的落地，探索新玩法和业务创新。

更新于 2026-03-19北京

音视频联合生成大模型-【可灵AI】

社招3-5年J0011

更新于 2026-04-07北京

音视频技术实习生

实习阿里巴巴研究型实

在这里，你将参与淘宝直播及短视频等丰富的内容业务场景，围绕“更好听、更好看、更好玩”，和其他优秀的同学一起，为用户提供极致的体验；在这里，你将负责为用户提供最优的音质，负责音频增强及编码相关算法研发，包括但不限于音频3A算法（降噪、回声消除、自动增益）、音频编码、人声美化，虚拟音效、空间音频等算法；在这里，你将负责音乐相关算法研发，包括但不限音乐理解、音乐检索、音乐生成、智能配乐等算法；在这里，你将负责面向RTC的音视频传输算法优化，包括但不限于带宽预测、拥塞控制、多码率自适应、音视频弱网对抗等算法；在这里，你将会持续关注AI音视频、AI传输等相关领域的前沿算法，并针对真实场景，把算法落地应用到实际项目中。加入我们，你将会面对新的内容场景，通过技术深耕，致力于行业领先的音视频技术创新和应用，帮助创造极致的消费者体验。你的工作将服务于改善全世界数十亿人的购物、娱乐和交互的体验。探索未知，挑战未来，来吧，我们等你加入！

更新于 2026-03-20北京|杭州

音视频数字人多模态大模型算法研究和应用-A Star

实习阿里巴巴2027

1.前沿技术研究：负责端到端多模态语音大模型的核心算法研究，攻克语音-语义联合建模、流式实时推理、情感感知对话等关键技术难题，推动从级联式架构向原生多模态架构的技术范式升级； 2.系统架构设计：主导设计面向智能外呼场景的下一代多模态对话系统架构，实现毫秒级端到端响应、自然话轮切换、实时情感理解等核心能力，重新定义人机语音交互体验； 3.大规模落地实践：将前沿研究成果落地到日均千万级调用量的工业级外呼系统，负责从数据构建、模型训练、效果调优到线上部署的全链路技术方案设计与实施； 4.数据与评测体系建设：主导构建大规模多模态对话数据集与标注体系，设计并建立覆盖语音理解、情感识别、对话质量等维度的系统化评测基准； 5.学术影响力建设：在语音、自然语言处理、多模态等领域顶级学术会议发表高质量论文，参与行业标准制定，提升团队在学术界和产业界的技术影响力； 6.技术创新孵化：探索多模态语音技术在更多创新场景（智能客服、语音助手、数字人、同声传译等）的应用可能，孵化下一代AI交互产品形态。

更新于 2026-03-12北京|杭州