字节跳动语音算法工程师-飞书AI
任职要求
1、3年以上语音算法研发经验,主导过ASR/LID/SSD任一方向的完整项目; 2、精通Python及常用AI工具链(NumPy/Pandas等),深度掌握PyTorch/TensorFlow框架; 3、熟悉语音信号处理全流程(前端处理/特征提取/声学建模/语言模型); 4、对语音技术有强烈热情,能持续跟踪领域前沿动态; 5、具备优秀的问题拆解能力,擅长解决数据/训练/部署中的复杂问题; 6、良好的跨团队沟通能力,能将技术语言转化为业务价值。 加分项 1、有Whisper/FunASR等开源项目二次开发经验; 2、掌握CUDA编程,具备TensorRT/Triton等推理框架实战经验; 3、在ASR领域顶级会议发表论文或持有相关专利; 4、具备多语种(中/英/日)语音处理经验。
工作职责
1、负责核心算法研发: 1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统; 2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地; 3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进; 2、负责技术应用与优化: 1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景; 2)优化语音模型在云端的推理性能,提升资源利用效率; 3)建设语音领域的高质量数据集及评测体系; 3、工程能力建设: 1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline; 2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用; 4、跨团队协作: 1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用; 2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战; 5、技术前瞻性研究: 1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展; 2)探索语音与大模型结合的创新方向。
1、负责核心算法研发: 1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统; 2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地; 3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进; 2、负责技术应用与优化: 1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景; 2)优化语音模型在云端的推理性能,提升资源利用效率; 3)建设语音领域的高质量数据集及评测体系; 3、工程能力建设: 1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline; 2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用; 4、跨团队协作: 1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用; 2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战; 5、技术前瞻性研究: 1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展; 2)探索语音与大模型结合的创新方向。
1、设计和研发业界领先的高性能端云算法引擎,提供满足语音识别,对话交互,语音合成,音频检索等场景的核心原子能力; 2、负责深度优化核心引擎,包括端云一体的高性能计算引擎,音频特征处理引擎,大规模解码引擎,音频合成引擎,音频特效引擎,对话交互引擎,音频检索引擎等常用引擎极致优化; 3、负责算法落地性能评估和分析,制定技术规划和性能标准,持续加强提升关键技术竞争力; 4、负责为字节跳动产品(今日头条、抖音、抖音火山版、西瓜视频、飞书、番茄小说等)提供AI语音理解、对话以及语音合成等方面的能力,用AI技术影响数亿用户。
1、设计和研发业界领先的高性能端云算法引擎,提供满足语音识别,对话交互,语音合成,音频检索等场景的核心原子能力; 2、负责深度优化核心引擎,包括端云一体的高性能计算引擎,音频特征处理引擎,大规模解码引擎,音频合成引擎,音频特效引擎,对话交互引擎,音频检索引擎等常用引擎极致优化; 3、负责算法落地性能评估和分析,制定技术规划和性能标准,持续加强提升关键技术竞争力; 4、负责为字节跳动全系产品(今日头条、抖音、抖音火山版、西瓜视频、飞书、番茄小说等)提供AI语音理解、对话以及语音合成等方面的能力,用AI技术影响数亿用户。
字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 负责公司大模型的研发和应用,研究相关技术在插件、agents、toB、飞书、医疗等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。 1、探索超大规模模型,并进行极致系统优化; 2、数据建设、指令微调、偏好对齐、模型优化; 3、相关应用落地,包括生成创作、逻辑推理、代码生成等; 4、在未来生活中的更多使用场景的深入研究和探索。