logo of bytedance

字节跳动音频算法实习生-视频与边缘

实习兼职A170636地点:北京状态:招聘

任职要求


1、2026届硕士及以上学位在读,电子信息、计算机、多媒体、机器学习、AI人工智能等领域专业优先;
2、丰富的数字信号处理和人工智能/深度学习系统研发经验:在3D空间音频渲染,GAN/Diffusion音频处理,声纹/唤醒,声音事件检测,语音识别自然语言处理等一个或几个领域有研究经历;
3、熟悉数据结构和算法,深…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。

1、研究和实现部门自研的下一代沉浸智能音频理解和处理算法系统;
2、跟进并参与国内和国际音频标准,撰写高质量的标准技术提案,推动国内和国际沉浸智能音频标准工作;
3、实现并优化沉浸智能音频编解码和处理系统,负责在短视频点播,直播,VR/MR等业务场景的应用迭代。
包括英文材料
学历+
机器学习+
深度学习+
语音识别+
NLP+
数据结构+
还有更多 •••
相关职位

logo of bytedance
实习A133856

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、负责流媒体场景(RTC、点播、直播等)音频编解码压缩需求和功能开发维护; 2、针对流媒体场景(RTC、点播、直播等)特点研发音频编码算法,提升音频体验,降低成本; 3、负责撰写技术方案、专利申请、论文发表和算法集成落地等开发工作。

更新于 2025-04-23北京
logo of tcl
实习研发技术类

核心目标 面向宠物陪伴机器人产品,独立负责或深度参与宠物叫声分类与行为识别模型的研发、训练与轻量化部署,为产品提供核心AI感知能力,构建技术壁垒。 --- 工作职责 1. 宠物声音信号处理与分类模型研发(70%) - 基于开源数据集,构建与清洗大规模宠物(犬/猫)叫声数据集,进行音频预处理(降噪、分割、特征提取等)。 - 研发并训练轻量级深度学习模型(如CNN, Transformer等)对叫声进行精细化分类(如:兴奋、焦虑、乞食、警戒、玩耍邀请等)。 - 探索不平衡样本学习策略,以解决特定类别叫声数据稀缺的问题。 2. 宠物视觉行为识别模型研发(10%) - 处理宠物行为视觉数据,探索基于视觉的宠物行为识别模型(如3D CNN, TSN, SlowFast等)。 - 实现细粒度行为识别(如:坐、卧、摇尾、刨地、舔舐、伸懒腰等),并探索行为模式。 - 探索轻量化的实时检测模型,以满足终端设备的算力约束。 3. 模型优化与部署(10%) - 将优化后的模型部署到边缘设备(如RK3588,X3等)或手机APP端,并实现性能基准测试。 - 编写高质量的模型部署代码和接口,供上层应用调用。 - 参与轻量级模型的剪枝、量化等优化工作。 4. 自主研究与创新(10%) - 紧跟学术界与工业界最新进展,持续探索能提升模型性能的新方法、新网络结构。 - 针对产品遇到的特定挑战(如环境噪声干扰、品种差异、多宠物场景),提出并验证有效的技术解决方案。

更新于 2025-08-17深圳
logo of youku
社招3年以上

1、负责设计和实现游戏客户端的核心功能、系统和模块,包括用户界面、渲染、输入、音频、动画、物理等 2、开发和优化游戏客户端的性能、帧率和内存占用,确保游戏的流畅性和响应性 3、协助美术、策划建立高效的游戏内容制作流程,理解和实现游戏的需求和功能 4、协助美术、策划开发相关工具链,优化程序设计和工程结构 5、熟悉游戏开发工具和技术,如游戏引擎、集成开发环境、版本控制系统等

更新于 2025-04-02北京
logo of xiaohongshu
社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL

北京|上海