logo of bytedance

字节跳动多模态大模型交互工程师-Data 语音

社招全职A98852地点:北京状态:招聘

任职要求


1、硕士研究生及以上学历,计算机科学/计算机工程/电子信息技术等相关专业;
2、有自然语言处理、语音合成与识别、对话系统等研究或者技术背景优先;
3、有预训练技术,后训练,包括但不限于高效训练、强化学习,参与过研发音频、NLP相关的预训练模…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果;
2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等;
3、深入调研和关注音频/NLP/多模态等方向的前沿技术。
包括英文材料
学历+
NLP+
强化学习+
PyTorch+
还有更多 •••
相关职位

logo of bytedance
社招A259606

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-03-28上海
logo of bytedance
社招2年以上A190998

1、负责字节跳动AI音视频应用相关的后端服务链路,支持在豆包、抖音、AI硬件、火山引擎、剪映等产品的持续迭代与稳定性保障; 2、基于Seed大模型等的多模态理解、生成技术,结合音视频处理、多轮对话等工程框架,搭建行业领先的AI应用方案; 3、持续探索在个人助理、情感陪伴、学习办公、内容创作等场景中,利用多模态大模型、Agent等能力增强产品体验,提升工程效率; 4、为豆包、抖音等亿级用户产品提供业界领先的AI音视频、对话技术服务,用AI技术影响数亿用户。

更新于 2026-05-12上海
logo of bytedance
校招A157360

团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、负责大模型推理框架与引擎建设,提供满足音频各场景的核心原子能力; 2、负责大模型推理框架与引擎深度优化,包括语音信号处理、交互、翻译、理解、生成、音乐等大模型推理性能极致优化,支持相关大模型业务落地; 3、负责语音大模型模型压缩(如蒸馏、量化、投机采样等)技术业务迭代与落地; 4、负责为字节跳动全系产品(豆包、抖音、剪映、番茄小说、飞书、火山引擎等)提供AI语音理解、对话以及合成等方面的能力,用AI技术影响数亿国内国际用户。

更新于 2025-07-24北京
logo of bytedance
社招1年以上A183970B

1、负责字节跳动豆包语音大模型的原子能力后端开发,确保在豆包、剪映、即梦、抖音、番茄、火山引擎等落地; 2、持续推进语音理解、生成创作以及多模态端到端大模型最新技术的工程优化和应用落地; 3、大模型分布式推理的架构和优化,在模型高速迭代的过程中,保证架构可扩展、高可用、合理资源利用率; 4、大模型语音服务稳定性治理,并发优化,多地域运维部署提效; 5、支撑业务,建设输出创新能力提升豆包、剪映、即梦、抖音等产品语音交互和生成创作体验。

更新于 2026-05-07上海