logo of bytedance

字节跳动算法实习生-视频与边缘

实习兼职A258276地点:深圳状态:招聘

任职要求


1、2026届硕士及以上学位在读,计算机、软件、电子信息等相关专业优先;
2、积极主动有热情,能与团队融洽合作相处,具备较强的沟通能力;
3、熟悉TensorFlow、MXNet、Caffe、PyTorch中的至少1种深度学习框架;
4、熟悉计算机视觉(CV)相关的算法,在Diffusion Model/GAN/VAE、图像及视频生成、多模态内容理解等至少一个领域有加速优化经验的优先;
5、熟悉Android/iOS至少一个平台开发,有移动端AI模型部署经验优先。

工作职责


ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。

1、负责商业化场景端侧AI算法探索和业务落地;
2、负责商业化场景端侧AI算法长期探索,持续推动模型在时延、吞吐、显存、功耗等关键指标的性能突破。
包括英文材料
学历+
TensorFlow+
PyTorch+
深度学习+
OpenCV+
算法+
Android+
iOS+
相关职位

logo of bytedance
实习A133856

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、负责流媒体场景(RTC、点播、直播等)音频编解码压缩需求和功能开发维护; 2、针对流媒体场景(RTC、点播、直播等)特点研发音频编码算法,提升音频体验,降低成本; 3、负责撰写技术方案、专利申请、论文发表和算法集成落地等开发工作。

更新于 2025-04-23
logo of bytedance
实习A170636

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、研究和实现部门自研的下一代沉浸智能音频理解和处理算法系统; 2、跟进并参与国内和国际音频标准,撰写高质量的标准技术提案,推动国内和国际沉浸智能音频标准工作; 3、实现并优化沉浸智能音频编解码和处理系统,负责在短视频点播,直播,VR/MR等业务场景的应用迭代。

更新于 2025-02-18
logo of bytedance
实习A57708A

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06
logo of bytedance
实习A86112

团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:随着4K、HDR等技术成为主流标准,消费者对视频画质的要求日益提升。然而,视频在拍摄、传输和压缩过程中,画质往往受损,影响观看体验。多模态大模型的出现为视频分析、理解、画质评估、及画质增强提供了新的可能性,因此希望能够探索多模态大模型在多媒体场景的应用可行性,发掘基座大模型在大规模业务视频内容应用的潜力,建立业内领先的多媒体场景的多模态大模型解决方案。 画质分析以及人眼感知:利用多模态大模型,深入分析视频内容及画质退化问题,研究人眼对色彩、帧率、清晰度等画质维度的感知能力,从而使得画质评估更为准确,画质增强对退化的处理更为智能,增强的结果更符合人眼主观。生成式画质增强:利用生成式大模型的先验信息,大幅提升画质增强的效果天花板,并且解决生成伪像、生成保真度、生成稳定性等当前生成式算法存在的问题。视频时域任务:研究画质理解和增强在视频上的拓展,包括时域信息表征建模,时域退化理解,时域画质增强连续性,时域推理加速等。用户视角的验证:在大规模用户环境中,从用户的实际观看体验出发,验证画质增强算法的有效性和用户满意度。 1、支持研发基于大模型的多媒体算法,包括但是不限于视频理解,质量评价、视频处理和增强以及视频压缩; 2、支持多模态大模型相关算法的性能优化以及加速; 3、支持多模态大模型的算法在多媒体业务中落地,在图文、点播、直播等业务中发掘应用场景; 4、支持多模态大模型相关的前沿学术研究,在国际顶级会议与期刊中发表成果。

更新于 2025-03-06