百度语音技术研发工程师(J70857)
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、负责大模型推理框架与引擎建设,提供满足音频各场景的核心原子能力; 2、负责大模型推理框架与引擎深度优化,包括语音信号处理、交互、翻译、理解、生成、音乐等大模型推理性能极致优化,支持相关大模型业务落地; 3、负责语音大模型模型压缩(如蒸馏、量化、投机采样等)技术业务迭代与落地; 4、负责为字节跳动全系产品(豆包、抖音、剪映、番茄小说、飞书、火山引擎等)提供AI语音理解、对话以及合成等方面的能力,用AI技术影响数亿国内国际用户。
-负责语音识别、VAD、唤醒、OCR等算法引擎的开发、优化、交付等 -负责语音相关算法的DSP相关移植工作 -负责与语音算法团队进行相关技术的验证优化 -语音产品线上问题分析与跟踪,协助业务部门解决语音算法落地问题
团队围绕语音多模态模型,基于高性能分布式和云原生相关技术,建设模型推理和服务基础平台。如果你也对AGI有浓厚兴趣,有志于参与语音多模态技术体系的研发,欢迎加入我们团队,共同以技术手段让大模型变得更加普惠。 具体职责包括但不限于: 1. 参与语音和多模态大模型推理框架以及定制微调技术的研发与优化,做到极致性能和成本,探索多模态理解、生成和交互领域的前沿技术研究与创新。 2. 建设支持高并发访问的弹性平台服务后端,实现模型与云上计算资源间的互动,推动大模型在实际业务中的落地与应用。 3. 参与世界级规模的分布式服务端程序的系统设计,为阿里巴巴的产品提供强有力的后台支持,在海量的网络访问和数据处理中,设计并设施最强大的解决方案。 4. 参与跨部门,跨公司协作,探索多模态领域前沿技术研究与创新,推动包括语音在内的各领域最前沿模型的实际应用和落地。 5. 参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作。 6. 与团队成员紧密合作,推动项目进展,交付高质量的技术解决方案。