logo of soul

Soul APPAIGC-语音算法实习生

实习兼职地点:北京状态:招聘

任职要求


1. 计算机、人工智能、信号、数学或统计学等相关专业方向的博一/博二/研一/研二学生。
2. 熟悉TransformerLLM、diffusion等原理,对自然语言生成、语音生成、多模态语音生成有一定的研究或应用;
3. 熟练使用pytorch/tensorflow深度学习框架,具备Python/C/C++编程功底,应用经验丰富;
4. 具备较强的自学能力和独立思考能力,善于思考和表达自己的想法,具备良好的团队合作精神;
加分项
1. 在相关国际会议或主流期刊上发表论文者优先
2. 掌握语音生成、语音通话、多模态技术者优先
3. 熟悉音频分析、音乐理解、音乐生成技术优先

工作职责


1. 负责语音合成、语音克隆、双工语音通话等语音生成相关技术的数据处理、模型效果验证,并协助业务落地;
2. 负责持续跟进业界前沿算法发展方向,支持公司在核心技术上的影响力发展。
包括英文材料
Transformer+
大模型+
PyTorch+
TensorFlow+
深度学习+
Python+
C+
C+++
相关职位

logo of bytedance
实习A131603

日常实习:面向全体在校生,为符合岗位要求的同学提供3个月以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2023-08-04
logo of bytedance
实习A153444

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责公司大模型的研发和应用,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、优化&创新RLHF算法训练效率与模型泛化能力; 3、Long CoT技术的实现和应用; 4、多模态大模型(文本、图像、语音)的Posttraining算法; 5、构建高质量、多领域的数据合成方法; 6、探索LLM在情感对话、创作等场景的应用。

更新于 2025-02-19
logo of bytedance
实习A15555A

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责公司大模型的研发和应用,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、优化&创新RLHF算法训练效率与模型泛化能力; 3、Long CoT技术的实现和应用; 4、多模态大模型(文本、图像、语音)的Posttraining算法; 5、构建高质量、多领域的数据合成方法; 6、探索LLM在情感对话、创作等场景的应用。

更新于 2025-02-19
logo of baidu
实习MEG

- 参与自然语言处理、计算机视觉、语音合成(TTS)、聊天对话系统、图像生成算法、LLM 预训练等前沿技术调研与系统研发 - 协助改进产品,落地算法应用 - 研发方向包括但不限于,自然语言处理、语音合成(TTS)、机器学习、CV 等算法方向 - 参与相关算法技术落地工作,以行业领先为目标,满足业务产品使用规模化需求,影响千万客户并创造实用价值

更新于 2025-05-29