logo of quark

夸克千问C端事业群-音频多模态生成算法专家-杭州/北京/上海

社招全职2年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验;
2. 在语音合成、音乐生成、音效生成或语音端到端等领域有深入研究,具备大规模数据训练经验;
3. 熟练掌握 PyTorch/DeepSp…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地;
2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法;
3. 研究音频表征、强化学习或语音端到端等技术方向。
包括英文材料
学历+
语音合成+
PyTorch+
DeepSpeed+
还有更多 •••
相关职位

logo of quark
社招3年以上产品类-平台型

1、负责AI内容创作平台的规划、核心功能与体验设计,推动产品迭代落地; 2、推动AI技术与图文、短视频等内容融合,与算法团队紧密合作,将AI能力转化为实际场景中的应用,持续优化内容生成的质量和效率; 3、协调跨团队协作,推动多模态技术落地并融合创作经验,确保产品全流程高效执行; 4、跟踪AI与内容行业趋势,探索AIGC、多模态生成等新技术在创作场景中的落地可能性。

更新于 2026-01-22广州
logo of quark
社招1年以上技术类-前端

1. 负责千问 AI Web 平台前端研发工作,重点推进生成式AI(AIGC)方向建设,包括AI图像/视频/音频生成、AI剧情短片、灵感内容消费等业务; 2. 负责千问 AI Web 平台前端架构设计工作,主导或参与前端技术优化和难点攻关,包括但不限于多模态内容生成架构、页面性能优化、PC 稳定性、商业化转化等方向; 3. 与产品团队紧密合作,持续关注行业动态和用户反馈,通过技术手段升级Agent能力,为用户创造全新AI Native体验。

更新于 2026-01-16广州
logo of quark
社招3年以上技术类-算法

千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;

更新于 2026-02-03北京
logo of quark
社招2年以上技术类-算法

1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。

更新于 2025-12-26北京|杭州|上海