夸克千问C端事业群-音频多模态生成算法专家-杭州/北京/上海
社招全职2年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘
任职要求
1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验; 2. 在语音合成、音乐生成、音效生成或语音端到端等领域有深入研究,具备大规模数据训练经验; 3. 熟练掌握 PyTorch/DeepSp…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地; 2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法; 3. 研究音频表征、强化学习或语音端到端等技术方向。
包括英文材料
学历+
语音合成+
https://www.ibm.com/think/topics/text-to-speech
Text to speech (TTS) is a type of technology that converts text on a digital interface into natural-sounding audio.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
还有更多 •••
相关职位
社招3年以上产品类-平台型
1、负责AI内容创作平台的规划、核心功能与体验设计,推动产品迭代落地; 2、推动AI技术与图文、短视频等内容融合,与算法团队紧密合作,将AI能力转化为实际场景中的应用,持续优化内容生成的质量和效率; 3、协调跨团队协作,推动多模态技术落地并融合创作经验,确保产品全流程高效执行; 4、跟踪AI与内容行业趋势,探索AIGC、多模态生成等新技术在创作场景中的落地可能性。
更新于 2026-01-22广州
社招1年以上技术类-前端
1. 负责千问 AI Web 平台前端研发工作,重点推进生成式AI(AIGC)方向建设,包括AI图像/视频/音频生成、AI剧情短片、灵感内容消费等业务; 2. 负责千问 AI Web 平台前端架构设计工作,主导或参与前端技术优化和难点攻关,包括但不限于多模态内容生成架构、页面性能优化、PC 稳定性、商业化转化等方向; 3. 与产品团队紧密合作,持续关注行业动态和用户反馈,通过技术手段升级Agent能力,为用户创造全新AI Native体验。
更新于 2026-01-16广州
社招3年以上技术类-算法
千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;
更新于 2026-02-03北京