字节跳动音频算法实习生-视频与边缘

实习兼职A1706362025-02-18地点：北京状态：招聘

扫码手机上打开

任职要求

1、2026届硕士及以上学位在读，电子信息、计算机、多媒体、机器学习、AI人工智能等领域专业优先；
2、丰富的数字信号处理和人工智能/深度学习系统研发经验：在3D空间音频渲染，GAN/Diffusion音频处理，声纹/唤醒，声音事件检测，语音识别，自然语言处理等一个或几个领域有研究经历；
3、熟悉数据结构和算法，深…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。
团队介绍：视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台，支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展，同时将业务发展过程中沉淀下来的技术能力和工具，通过火山引擎对外输出，面向各行各业用户提供视频云产品和服务，愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案，助力业务伙伴降本提效实现持续增长。

1、研究和实现部门自研的下一代沉浸智能音频理解和处理算法系统；
2、跟进并参与国内和国际音频标准，撰写高质量的标准技术提案，推动国内和国际沉浸智能音频标准工作；
3、实现并优化沉浸智能音频编解码和处理系统，负责在短视频点播,直播，VR/MR等业务场景的应用迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

深度学习+

语音识别+

NLP+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

音频算法实习生-视频与边缘

实习A133856

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台，支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展，同时将业务发展过程中沉淀下来的技术能力和工具，通过火山引擎对外输出，面向各行各业用户提供视频云产品和服务，愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案，助力业务伙伴降本提效实现持续增长。 1、负责流媒体场景（RTC、点播、直播等）音频编解码压缩需求和功能开发维护； 2、针对流媒体场景（RTC、点播、直播等）特点研发音频编码算法，提升音频体验，降低成本； 3、负责撰写技术方案、专利申请、论文发表和算法集成落地等开发工作。

更新于 2025-04-23北京

算法开发实习生（宠物方向）

实习研发技术类

核心目标面向宠物陪伴机器人产品，独立负责或深度参与宠物叫声分类与行为识别模型的研发、训练与轻量化部署，为产品提供核心AI感知能力，构建技术壁垒。 --- 工作职责 1. 宠物声音信号处理与分类模型研发（70%） - 基于开源数据集，构建与清洗大规模宠物（犬/猫）叫声数据集，进行音频预处理（降噪、分割、特征提取等）。 - 研发并训练轻量级深度学习模型（如CNN, Transformer等）对叫声进行精细化分类（如：兴奋、焦虑、乞食、警戒、玩耍邀请等）。 - 探索不平衡样本学习策略，以解决特定类别叫声数据稀缺的问题。 2. 宠物视觉行为识别模型研发（10%） - 处理宠物行为视觉数据，探索基于视觉的宠物行为识别模型（如3D CNN, TSN, SlowFast等）。 - 实现细粒度行为识别（如：坐、卧、摇尾、刨地、舔舐、伸懒腰等），并探索行为模式。 - 探索轻量化的实时检测模型，以满足终端设备的算力约束。 3. 模型优化与部署（10%） - 将优化后的模型部署到边缘设备（如RK3588，X3等）或手机APP端，并实现性能基准测试。 - 编写高质量的模型部署代码和接口，供上层应用调用。 - 参与轻量级模型的剪枝、量化等优化工作。 4. 自主研究与创新（10%） - 紧跟学术界与工业界最新进展，持续探索能提升模型性能的新方法、新网络结构。 - 针对产品遇到的特定挑战（如环境噪声干扰、品种差异、多宠物场景），提出并验证有效的技术解决方案。

更新于 2025-08-17深圳

优酷-UE5高级游戏客户端开发工程师-北京

社招3年以上

1、负责设计和实现游戏客户端的核心功能、系统和模块，包括用户界面、渲染、输入、音频、动画、物理等 2、开发和优化游戏客户端的性能、帧率和内存占用，确保游戏的流畅性和响应性 3、协助美术、策划建立高效的游戏内容制作流程，理解和实现游戏的需求和功能 4、协助美术、策划开发相关工具链，优化程序设计和工程结构 5、熟悉游戏开发工具和技术，如游戏引擎、集成开发环境、版本控制系统等

更新于 2025-04-02北京

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海