字节跳动多模态大模型交互工程师-Data 语音

社招全职A988522025-02-17地点：北京状态：招聘

扫码手机上打开

任职要求

1、硕士研究生及以上学历，计算机科学/计算机工程/电子信息技术等相关专业；
2、有自然语言处理、语音合成与识别、对话系统等研究或者技术背景优先；
3、有预训练技术，后训练，包括但不限于高效训练、强化学习，参与过研发音频、NLP相关的预训练模…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地，解决落地过程中的前沿问题，持续优化落地效果；
2、探索前沿的多模态技术，专注语音多模态大模型的前沿技术和算法效果，追求和探索业界最前沿算法，包括但不限于语言、音乐、语音、音频的生成与理解等；
3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

强化学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

多模态大模型交互算法工程师-Data语音

社招A259606

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地，解决落地过程中的前沿问题，持续优化落地效果； 2、探索前沿的多模态技术，专注语音多模态大模型的前沿技术和算法效果，追求和探索业界最前沿算法，包括但不限于语言、音乐、语音、音频的生成与理解等； 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-03-28上海

语音引擎研发工程师-Data语音

校招A157360

团队介绍：Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程，赋能内容创作和互动，并以中台形式支持集团多个业务，提供业界前沿的技术能力与解决方案。 1、负责大模型推理框架与引擎建设，提供满足音频各场景的核心原子能力； 2、负责大模型推理框架与引擎深度优化，包括语音信号处理、交互、翻译、理解、生成、音乐等大模型推理性能极致优化，支持相关大模型业务落地； 3、负责语音大模型模型压缩（如蒸馏、量化、投机采样等）技术业务迭代与落地； 4、负责为字节跳动全系产品（豆包、抖音、剪映、番茄小说、飞书、火山引擎等）提供AI语音理解、对话以及合成等方面的能力，用AI技术影响数亿国内国际用户。

更新于 2025-07-24北京

多模态视频理解与生成大模型算法工程师-电商业务-筋斗云人才计划（北京/上海/杭州/珠海）

社招A119582

团队介绍：Data-电商团队，负责电商创新项目的算法和大数据工作。依托于字节跳动产品，帮助用户发现并获得好物，享受美好生活。在这个团队，我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西，也要通过风控算法和智能平台治理算法去甄别违规行为，保护用户的购物体验；我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率；我们也要结合机器学习和运筹算法，来优化供应链和物流的效率和成本，并进一步提升用户体验；另外我们还会用人工智能来帮助商家提升经营能力。我们的使命：没有难卖的优价好物，让美好生活触手可得。课题介绍：背景：电商领域短视频内容正逐渐成为业务增长和用户体验优化的重要方向，通过多模态的视频理解与生成大模型创新解决电商场景中的核心挑战，例如短视频与电商商品的精准匹配、AIGC（AI生成内容）视频生成等，让用户在浏览短视频时获得更精准的商品匹配，并为内容创作者提供更便捷强大的创作工具。研究方向：本课题聚焦于多模态视频理解与生成。构建高效的多模态嵌入模型，实现视频、图像、文本、商品等模态间的统一表示学习，以增强短视频与电商商品的关联性。通过大规模跨模态数据集的构建与优化，提升视频与商品的匹配精准度，使模型能够自动识别短视频中的商品或品牌，并精准映射至电商库，支持用户在观看时直接获取相关购买信息。此外，还将探索 AIGC（AI生成内容）短视频技术，包括商品图像+文本生成带货视频、智能剪辑与特效添加、虚拟试穿等，降低电商内容制作成本，提升营销效率。 1、负责对电商场景下的商品内容、视频内容进行理解和可控生成，赋能电商全链路场景，提供优质商品供给、内容供给、商家、达人供给等，建立商品履约视角的商品理解算法体系，为商品履约保驾护航，提升购物体验； 2、基于前沿的AIGC模型能力，帮助降低商家素材制作成本，提升平台优质供给（短视频、图文等），利用NLP、CV、多模态技术，增强对短视频内容、图文、商品理解能力，支持搜索、推荐、商城全导购链路，提升消费者在内容场和货架场购物体验； 3、挖掘电商垂直领域大规模、高质量Pretrain数据集，基于字节跳动通用大模型，研发电商行业大模型，探索电商交互式导购新场景； 4、跟踪AIGC/CV/NLP/多模态/LLM领域的最新研究和技术发展，负责算法模型迭代升级。

更新于 2025-05-27北京

多模态视频理解与生成大模型算法工程师-电商业务-筋斗云人才计划（北京/上海/杭州/珠海）

校招A110843

团队介绍：Data-电商团队，负责电商创新项目的算法和大数据工作。依托于字节跳动产品，帮助用户发现并获得好物，享受美好生活。在这个团队，我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西，也要通过风控算法和智能平台治理算法去甄别违规行为，保护用户的购物体验；我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率；我们也要结合机器学习和运筹算法，来优化供应链和物流的效率和成本，并进一步提升用户体验；另外我们还会用人工智能来帮助商家提升经营能力。我们的使命：没有难卖的优价好物，让美好生活触手可得。课题介绍：背景：电商领域短视频内容正逐渐成为业务增长和用户体验优化的重要方向，通过多模态的视频理解与生成大模型创新解决电商场景中的核心挑战，例如短视频与电商商品的精准匹配、AIGC（AI生成内容）视频生成等，让用户在浏览短视频时获得更精准的商品匹配，并为内容创作者提供更便捷强大的创作工具。研究方向：本课题聚焦于多模态视频理解与生成。构建高效的多模态嵌入模型，实现视频、图像、文本、商品等模态间的统一表示学习，以增强短视频与电商商品的关联性。通过大规模跨模态数据集的构建与优化，提升视频与商品的匹配精准度，使模型能够自动识别短视频中的商品或品牌，并精准映射至电商库，支持用户在观看时直接获取相关购买信息。此外，还将探索 AIGC（AI生成内容）短视频技术，包括商品图像+文本生成带货视频、智能剪辑与特效添加、虚拟试穿等，降低电商内容制作成本，提升营销效率。 1、负责对电商场景下的商品内容、视频内容进行理解和可控生成，赋能电商全链路场景，提供优质商品供给、内容供给、商达供给等，建立商品履约视角的商品理解算法体系，为商品履约保驾护航，提升购物体验； 2、基于前沿的AIGC模型能力，帮助降低商家素材制作成本，提升平台优质供给（短视频、图文等），利用NLP、CV、多模态技术，增强对短视频内容、图文、商品理解能力，支持搜索、推荐、商城全导购链路，提升消费者在内容场和货架场购物体验； 3、挖掘电商垂直领域大规模、高质量Pretrain数据集，基于字节跳动通用大模型，研发电商行业大模型，探索电商交互式导购新场景； 4、跟踪AIGC/CV/NLP/多模态/LLM领域的最新研究和技术发展，负责算法模型迭代升级。

更新于 2025-05-20北京