logo of quark

夸克千问C端事业群-音频多模态理解算法专家-杭州/北京/上海

社招全职2年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验;
2. 在语音识别、音乐理解、音频分类、声学事件检测或多模态理解领域有深入研究,具备大规模数据训练经验;
3. 熟练掌握 PyTorch/Dee…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地;
2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向;
3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
包括英文材料
学历+
语音识别+
PyTorch+
DeepSpeed+
还有更多 •••
相关职位

logo of quark
社招3年以上技术类-算法

1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。

更新于 2025-12-22北京|杭州
logo of quark
社招3年以上技术类-算法

千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;

更新于 2026-02-03北京
logo of quark
社招1年以上技术类-前端

1. 负责千问 AI Web 平台前端研发工作,重点推进生成式AI(AIGC)方向建设,包括AI图像/视频/音频生成、AI剧情短片、灵感内容消费等业务; 2. 负责千问 AI Web 平台前端架构设计工作,主导或参与前端技术优化和难点攻关,包括但不限于多模态内容生成架构、页面性能优化、PC 稳定性、商业化转化等方向; 3. 与产品团队紧密合作,持续关注行业动态和用户反馈,通过技术手段升级Agent能力,为用户创造全新AI Native体验。

更新于 2026-01-16广州
logo of quark
社招2年以上技术类-算法

1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地; 2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法; 3. 研究音频表征、强化学习或语音端到端等技术方向。

更新于 2025-12-26北京|杭州|上海