logo of bytedance

字节跳动多媒体服务端研发实习生-视频架构

实习兼职A88627地点:北京状态:招聘

任职要求


1、2025届本科及以上学历在读;
2、熟练掌握Linux环境下的Go/Python/Java/C/C++等1至2种以上语言,有良好的编程习惯及逻辑实现能力; 
3、有扎实的网络、存储、操作系统的运用基础,具备良好的逻辑能力和思辨能力,在团队中具…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


ByteIntern:面向2025届毕业生(2024年9月-2025年8月期间毕业),为符合岗位要求的同学提供转正机会
团队介绍:视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。

1、面向字节各业务提供稳定、高效、极致调优的音视频处理能力;
2、通过不断的技术研究和创新,建设和优化点播、图片、传输策略服务,推动业务的快速发展和高效迭代;
3、负责字节跳动播放、上传基础服务后台架构设计与研发。
包括英文材料
学历+
Linux+
Go+
Python+
还有更多 •••
相关职位

logo of bytedance
实习A20450

ByteIntern:面向2025届毕业生(2024年9月-2025年8月期间毕业),为符合岗位要求的同学提供转正机会 团队介绍:视频架构是字节跳动的视频中台部门,支持字节跳动旗下产品的点播、直播、实时通信、图片、多媒体业务发展,目标成为业界多媒体解决方案领先者,构建极致的视频技术/产品服务体验。 1、参与移动端视频多媒体内核的研发; 2、参与抖音/头条/西瓜/番茄点播产品的设计和研发。

更新于 2024-04-15北京
logo of bytedance
实习A172975

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、负责设计和实现高效的网络视频传输方案; 2、参与播放器网络传输模块的架构设计、策略优化、和性能优化; 3、参与播放体验、稳定性和成本等优化。

更新于 2025-02-17上海
logo of bytedance
实习A159590

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 1、负责设计和实现高效的网络视频传输方案; 2、参与播放器网络传输模块的架构设计、策略优化、和性能优化; 3、参与播放体验、稳定性和成本等优化。

更新于 2025-02-17北京
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望攻克高保真语音驱动(Speech-to-Video)的核心难题,研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法,实现从音频到视频的端到端极致还原,赋予数字人如同真人般的自然表达力与情感共鸣; 如果你,期望挑战实时流式生成的技术难题,探索扩散模型与自回归模型的极速推理优化,实现低延迟、高吞吐的视频流实时产出,打破离线渲染的局限,支撑起百万级并发的实时交互直播场景; 如果你,期望突破数字人与物理世界的边界,深耕复杂物体交互(Human-Object Interaction)技术,解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题,让数字人在导购、演播等场景中具备真实的物体操控能力; 如果你,期望深入探索多模态统一大模型的应用,将视觉、语音、文本与动作序列深度融合,构建具备精细环境感知与逻辑理解能力的数字人系统,在复杂的电商实景中实现人-物-场的高度协同与自然对答。 加入我们,你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购,影响数以亿计的用户。在这里,你不仅是在写代码,更是在通过流式架构与交互算法,重新定义未来数字人的无限可能! 研究背景:在 AIGC 浪潮下,数字人已从早期的录像进化为动态实时生成。然而,业界仍面临三大核心挑战: 交互的自然度: 如何让数字人的肢体、表情与复杂的语音情感高度对齐,消除“恐怖谷”效应。 物理规律的缺失: 在电商直播等场景中,数字人需要手持商品、展示道具,如何解决手部交互(HOI)中的遮挡、形变及空间一致性是当前的技术深水区。 实时性的瓶颈: 扩散模型效果虽好但推理慢,如何实现低延迟的流式视频生成,是数字人从视频工具走向实时互动的必经之路。 研究课题: 基于扩散模型的高保真流式视频生成架构研究; 复杂场景下的人与物体交互(HOI)视频生成; 多模态情感驱动的全身动作与表情协同生成; 成长资源: 1、算力自由: 远离“算力焦虑”,专注于算法创新。 2、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,未视频生成,HOI等前沿课题提供土壤。 3、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。 4、工业界顶级专家的 1v1 指导: 团队由来自国内外顶尖院校的博士和工业界资深专家组成,实行“师兄制”,从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州