字节跳动多模态大模型交互工程师-Data 语音
社招全职A98852地点:北京状态:招聘
任职要求
1、硕士研究生及以上学历,计算机科学/计算机工程/电子信息技术等相关专业; 2、有自然语言处理、语音合成与识别、对话系统等研究或者技术背景优先; 3、有预训练技术,后训练,包括但不限于高效训练、强化学习,参与过研发音频、NLP相关的预训练模…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
还有更多 •••
相关职位
社招A259606
1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。
更新于 2025-03-28上海
社招2年以上A190998
1、负责字节跳动AI音视频应用相关的后端服务链路,支持在豆包、抖音、AI硬件、火山引擎、剪映等产品的持续迭代与稳定性保障; 2、基于Seed大模型等的多模态理解、生成技术,结合音视频处理、多轮对话等工程框架,搭建行业领先的AI应用方案; 3、持续探索在个人助理、情感陪伴、学习办公、内容创作等场景中,利用多模态大模型、Agent等能力增强产品体验,提升工程效率; 4、为豆包、抖音等亿级用户产品提供业界领先的AI音视频、对话技术服务,用AI技术影响数亿用户。
更新于 2026-05-12上海
校招A157360
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、负责大模型推理框架与引擎建设,提供满足音频各场景的核心原子能力; 2、负责大模型推理框架与引擎深度优化,包括语音信号处理、交互、翻译、理解、生成、音乐等大模型推理性能极致优化,支持相关大模型业务落地; 3、负责语音大模型模型压缩(如蒸馏、量化、投机采样等)技术业务迭代与落地; 4、负责为字节跳动全系产品(豆包、抖音、剪映、番茄小说、飞书、火山引擎等)提供AI语音理解、对话以及合成等方面的能力,用AI技术影响数亿国内国际用户。
更新于 2025-07-24北京