
Soul APPAIGC-语音算法实习生
任职要求
1. 计算机、人工智能、信号、数学或统计学等相关专业方向的博一/博二/研一/研二学生。 2. 熟悉Transformer、LLM、diffusion等原理,对自然语言生成、语音生成、多模态语音生成有一定的研究或应用; 3. 熟练使用pytorch/tensorflow深度学习框架,具备Python/C/C++编程功底,应用经验丰富; 4. 具备较强的自学能力和独立思考能力,善于思考和表达自己的想法,具备良好的团队合作精神; 加分项 1. 在相关国际会议或主流期刊上发表论文者优先 2. 掌握语音生成、语音通话、多模态技术者优先 3. 熟悉音频分析、音乐理解、音乐生成技术优先
工作职责
1. 负责语音合成、语音克隆、双工语音通话等语音生成相关技术的数据处理、模型效果验证,并协助业务落地; 2. 负责持续跟进业界前沿算法发展方向,支持公司在核心技术上的影响力发展。
日常实习:面向全体在校生,为符合岗位要求的同学提供3个月以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责公司大模型的研发和应用,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、优化&创新RLHF算法训练效率与模型泛化能力; 3、Long CoT技术的实现和应用; 4、多模态大模型(文本、图像、语音)的Posttraining算法; 5、构建高质量、多领域的数据合成方法; 6、探索LLM在情感对话、创作等场景的应用。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责公司大模型的研发和应用,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、优化&创新RLHF算法训练效率与模型泛化能力; 3、Long CoT技术的实现和应用; 4、多模态大模型(文本、图像、语音)的Posttraining算法; 5、构建高质量、多领域的数据合成方法; 6、探索LLM在情感对话、创作等场景的应用。