logo of bytedance

字节跳动音频算法实习生-视频与边缘

实习兼职A133856地点:北京状态:招聘

任职要求


1、博士学位在读,计算机、人工智能、信号处理、模式识别或者电子相关等专业优先;
2、具备出色的Python/C/C++编程能力,并有实际算法开发经验;
3、具备较强的主观能动性、团队协作和创新能力,优秀的分析、解决问题能力,对解决挑战性问题充满激情;
4、具备丰富Pytorch框架模型开发经验,包括但不限于AI Codec(Soundstream/Dac/Vocos等)、TTS、VAE、Vocoder、模型轻量化或者知识蒸馏等,发表过音频顶会(AES/ICASSP/Interspeech等)论文者优先。

工作职责


日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。

1、负责流媒体场景(RTC、点播、直播等)音频编解码压缩需求和功能开发维护;
2、针对流媒体场景(RTC、点播、直播等)特点研发音频编码算法,提升音频体验,降低成本;
3、负责撰写技术方案、专利申请、论文发表和算法集成落地等开发工作。
包括英文材料
学历+
模式识别+
Python+
C+
C+++
算法+
PyTorch+
相关职位

logo of bytedance
实习A170636

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、研究和实现部门自研的下一代沉浸智能音频理解和处理算法系统; 2、跟进并参与国内和国际音频标准,撰写高质量的标准技术提案,推动国内和国际沉浸智能音频标准工作; 3、实现并优化沉浸智能音频编解码和处理系统,负责在短视频点播,直播,VR/MR等业务场景的应用迭代。

更新于 2025-02-18
logo of tcl
实习研发技术类

核心目标 面向宠物陪伴机器人产品,独立负责或深度参与宠物叫声分类与行为识别模型的研发、训练与轻量化部署,为产品提供核心AI感知能力,构建技术壁垒。 --- 工作职责 1. 宠物声音信号处理与分类模型研发(70%) - 基于开源数据集,构建与清洗大规模宠物(犬/猫)叫声数据集,进行音频预处理(降噪、分割、特征提取等)。 - 研发并训练轻量级深度学习模型(如CNN, Transformer等)对叫声进行精细化分类(如:兴奋、焦虑、乞食、警戒、玩耍邀请等)。 - 探索不平衡样本学习策略,以解决特定类别叫声数据稀缺的问题。 2. 宠物视觉行为识别模型研发(10%) - 处理宠物行为视觉数据,探索基于视觉的宠物行为识别模型(如3D CNN, TSN, SlowFast等)。 - 实现细粒度行为识别(如:坐、卧、摇尾、刨地、舔舐、伸懒腰等),并探索行为模式。 - 探索轻量化的实时检测模型,以满足终端设备的算力约束。 3. 模型优化与部署(10%) - 将优化后的模型部署到边缘设备(如RK3588,X3等)或手机APP端,并实现性能基准测试。 - 编写高质量的模型部署代码和接口,供上层应用调用。 - 参与轻量级模型的剪枝、量化等优化工作。 4. 自主研究与创新(10%) - 紧跟学术界与工业界最新进展,持续探索能提升模型性能的新方法、新网络结构。 - 针对产品遇到的特定挑战(如环境噪声干扰、品种差异、多宠物场景),提出并验证有效的技术解决方案。

更新于 2025-08-17
logo of bytedance
实习A164153B

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。

更新于 2025-04-09
logo of bytedance
实习A250928

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。

更新于 2025-04-09