夸克千问C端事业群-音频多模态理解算法专家-杭州/北京/上海
社招全职2年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘
任职要求
1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验; 2. 在语音识别、音乐理解、音频分类、声学事件检测或多模态理解领域有深入研究,具备大规模数据训练经验; 3. 熟练掌握 PyTorch/Dee…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
包括英文材料
学历+
语音识别+
https://developer.nvidia.com/blog/essential-guide-to-automatic-speech-recognition-technology/
Over the past decade, AI-powered speech recognition systems have slowly become part of our everyday lives, from voice search to virtual assistants in contact centers, cars, hospitals, and restaurants.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
还有更多 •••
相关职位
社招3年以上技术类-算法
1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。
更新于 2025-12-22北京|杭州
社招3年以上技术类-算法
千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;
更新于 2026-02-03北京
社招1年以上技术类-前端
1. 负责千问 AI Web 平台前端研发工作,重点推进生成式AI(AIGC)方向建设,包括AI图像/视频/音频生成、AI剧情短片、灵感内容消费等业务; 2. 负责千问 AI Web 平台前端架构设计工作,主导或参与前端技术优化和难点攻关,包括但不限于多模态内容生成架构、页面性能优化、PC 稳定性、商业化转化等方向; 3. 与产品团队紧密合作,持续关注行业动态和用户反馈,通过技术手段升级Agent能力,为用户创造全新AI Native体验。
更新于 2026-01-16广州