夸克千问C端事业群-语音识别算法专家-杭州/北京
任职要求
1.计算机科学、电子工程、数学或相关领域的硕士及以上学位; 2.深入理解语音识别相关领域的基本概念,包括但不限于语音信号处理、自然语言处理、机器学习和深度学习等; 3.熟练掌握C++/C/Python/Shell等编程能力,并有实际的项目开发经验; 4.精通深度学习框架(如…
工作职责
1.负责声学前端、声学模型、语言模型、后处理、解码器等主要模块的迭代和改进; 2.负责优化双工交互系统,提高系统的鲁棒性和性能; 3.负责优化语音识别大模型、流式语音识别、音频理解大模型、语音端到端大模型等; 4.追踪业界前沿的语音技术,探索语音大模型在业务场景下的应用。
1、负责大模型TTS和大模型音频生成技术构建。为语音助手超级智能体提供音频技术支持,包括但不限于TTS、端到端语音大模型、音频AIGC等; 2、负责关键场景的语音交互大模型算法优化,构建高质量低延迟的TTS和音频生成系统,提升业务效果; 3、跟进业界前沿的语音生成大模型技术,如语音端到端大模型和全模态模型等,提升语音助手场景的智能化并落地产品。
1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。

1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
1. 操控万卡规模的 GPU 集群,对超大参数量级的预训练模型进行高效分布式训练与优化。 2.深度参与多模态(图像、语音、文本、视频)大模型的研发,探索多学科交叉领域的新奇玩法。 3.我们的技术将为千问和夸克的亿万用户提供高品质的AI智能服务,见证前沿技术实现真正的用户价值 加入我们,你将获得: 1.与顶级专家携手,以世界级算力资源和数据支持为背书,不断挑战技术极限。 2.极具竞争力的薪酬与福利,人性化、追求卓越技术的的工程师团队文化,助你在职业成长道路上全速前进。 3.在通往 AGI 的征途上,亲历关键技术的诞生与应用,留下属于你的时代印记。 如果你渴望驰骋在大模型与 AGI 的蓝海之中,那么这将是你的最佳舞台!快来加入我们,一同开创智能时代的新纪元。