logo of bytedance

字节跳动语音算法实习生-Data语音

实习兼职A153899A地点:上海状态:招聘

任职要求


1、2026届本科及以上学历在读,计算机、软件工程等相关专业优先;
2、熟悉语音识别、音频理解、语音交互算法,并有使用大规模数据优化模型的动手经验;
3、对深度学习LLM技术有深度了解和实战经验,熟悉PyTorchTensorflow等平台
4、有不错的编码能力,熟悉Linux开发环境,熟悉C++Python语言;
5、有独立工作能力并同时能与团队融洽相处。

加分项:
1、在相关国际会议或主流期刊上发表论文(ICASSP、Interspeech、ASRU、IEEE/ACM Transactions等);
2、语音相关比赛或机器学习相关比赛拿到国际领先名次、ACM/NOI/IOI/TopCoder等编程比赛获奖;
3、参与过有影响力开源项目;
4、沟通能力好,主人翁意识强,有组织协调能力,乐观自省,抗压能力强。

工作职责


ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。

1、支持端到端语音交互技术在业务场景落地,探索语音端到端的业务应用前沿问题;
2、支持语音识别技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化语音识别核心技术效果;
3、搭建音频理解核心技术体系,专注音频理解的前沿技术和算法效果,追求和探索业界最前沿算法。
包括英文材料
学历+
语音识别+
算法+
深度学习+
大模型+
PyTorch+
TensorFlow+
Linux+
C+++
Python+
机器学习+
相关职位

logo of bytedance
实习A132940A

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-02-13
logo of bytedance
实习A217191

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2023-07-06
logo of bytedance
实习A87913A

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、专注端侧智能交互的前沿技术和算法效果,追求和探索业界最前沿算法; 2、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括回声消除、AI降噪、多通道音频处理、音频事件理解与检测; 3、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。

更新于 2025-04-10
logo of bytedance
实习A01520A

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、参与/研发业界领先、高效、易用的高性能大模型服务引擎框架,支撑大模型语音理解、语音合成、音乐生成以及端到端对话交互等场景核心能力落地; 2、参与/负责引擎深度优化,包括高性能计算引擎、语音理解/合成、音乐生成等常用引擎的极致优化; 3、参与/负责语音相关大模型(理解、合成、音乐、对话交互)能力工程化落地,支持抖音、剪映、豆包、猫箱、飞书,番茄小说、火山引擎等产品,用户规模数亿国内国际用户。

更新于 2025-02-14