logo of bytedance

字节跳动语音算法工程师-飞书AI

社招全职3年以上A18766地点:上海状态:招聘

任职要求


1、3年以上语音算法研发经验,主导过ASR/LID/SSD任一方向的完整项目;
2、精通Python及常用AI工具链(NumPy/Pandas等),深度掌握PyTorch/TensorFlow框架;
3、熟悉语音信号处理全流程(前端处理/特征提取/声学建模/语言模型);
4、对语音技术有强烈热情,能持续跟踪领域前沿动态;
5、具备优秀的问题拆解能力,擅长解决数据/训练/部署中的复杂问题;
6、良好的跨团队沟通能力,能将技术语言转化为业务价值。

加分项
1、有Whisper/FunASR等开源项目二次开发经验;
2、掌握CUDA编程,具备TensorRT/Triton等推理框架实战经验;
3、在ASR领域顶级会议发表论文或持有相关专利;
4、具备多语种(中/英/日)语音处理经验。

工作职责


1、负责核心算法研发:
1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统;
2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地;
3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进;
2、负责技术应用与优化:
1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景;
2)优化语音模型在云端的推理性能,提升资源利用效率;
3)建设语音领域的高质量数据集及评测体系;
3、工程能力建设:
1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline;
2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用;
4、跨团队协作:
1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用;
2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战;
5、技术前瞻性研究:
1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展;
2)探索语音与大模型结合的创新方向。
包括英文材料
算法+
Python+
NumPy+
Pandas+
PyTorch+
TensorFlow+
CUDA+
TensorRT+
相关职位

logo of bytedance
社招3年以上A250240

1、负责核心算法研发: 1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统; 2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地; 3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进; 2、负责技术应用与优化: 1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景; 2)优化语音模型在云端的推理性能,提升资源利用效率; 3)建设语音领域的高质量数据集及评测体系; 3、工程能力建设: 1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline; 2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用; 4、跨团队协作: 1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用; 2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战; 5、技术前瞻性研究: 1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展; 2)探索语音与大模型结合的创新方向。

更新于 2025-05-01
logo of bytedance
社招A221731

1、设计和研发业界领先的高性能端云算法引擎,提供满足语音识别,对话交互,语音合成,音频检索等场景的核心原子能力; 2、负责深度优化核心引擎,包括端云一体的高性能计算引擎,音频特征处理引擎,大规模解码引擎,音频合成引擎,音频特效引擎,对话交互引擎,音频检索引擎等常用引擎极致优化; 3、负责算法落地性能评估和分析,制定技术规划和性能标准,持续加强提升关键技术竞争力; 4、负责为字节跳动产品(今日头条、抖音、抖音火山版、西瓜视频、飞书、番茄小说等)提供AI语音理解、对话以及语音合成等方面的能力,用AI技术影响数亿用户。

更新于 2025-05-27
logo of bytedance
社招A11226

1、设计和研发业界领先的高性能端云算法引擎,提供满足语音识别,对话交互,语音合成,音频检索等场景的核心原子能力; 2、负责深度优化核心引擎,包括端云一体的高性能计算引擎,音频特征处理引擎,大规模解码引擎,音频合成引擎,音频特效引擎,对话交互引擎,音频检索引擎等常用引擎极致优化; 3、负责算法落地性能评估和分析,制定技术规划和性能标准,持续加强提升关键技术竞争力; 4、负责为字节跳动全系产品(今日头条、抖音、抖音火山版、西瓜视频、飞书、番茄小说等)提供AI语音理解、对话以及语音合成等方面的能力,用AI技术影响数亿用户。

更新于 2025-03-28
logo of bytedance
社招A174226

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 负责公司大模型的研发和应用,研究相关技术在插件、agents、toB、飞书、医疗等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。 1、探索超大规模模型,并进行极致系统优化; 2、数据建设、指令微调、偏好对齐、模型优化; 3、相关应用落地,包括生成创作、逻辑推理、代码生成等; 4、在未来生活中的更多使用场景的深入研究和探索。

更新于 2023-12-18