字节跳动Android高级开发工程师-抖音中长视频（杭州）

社招全职JR7D12020-03-06地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科学历及以上，计算机及相关专业，具有一定的 Android 开发经验； 
2、具备扎实的Java / kotlin 语言基础，熟悉常用的数据结构和算法，熟悉Android框架及各种特性，熟悉面向对象编程，理解设计模式；
3、精通 Android 的开发框架，熟悉 Android 系…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责抖音中视频业务的功能研发和体验优化，深入参与产品需求讨论，功能定义等；
2、负责抖音中视频业务的架构设计、基础组件开发、性能优化等工作，持续提高开发效率； 
3、关注客户端新技术发展，探索及实践，推动团队的技术研究和创新； 
4、根据团队整体目标与规划，参与重大项目研发，进行技术难题攻关。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Android+

Java+

Kotlin+

还有更多 •••

登录查看完整学习资料

相关职位

资深测试开发工程师-中长视频

社招A126093

1、负责抖音中长视频业务全流程质量保障工作，能从质量、效率、安全、体验等多个角度提升业务质量；2、负责跟产品、研发团队建立高效协作流程； 3、负责或者参与业务质量体系的规划。

更新于 2023-05-05杭州

视频创作多模态大模型研究员-智能创作-筋斗云人才计划

校招A239111A

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。课题背景：视频创作是内容平台生态的最关键环节。随着AGI大模型技术的发展，行业内AI视频创作Workflow不断革新，传统的视频剪辑工具面临严峻行业挑战。AI Native视频创作大模型技术，旨在研发一套基于大模型的视频创作系统，来改善用户创作过程中灵感匮乏、创作提质提效及降低门槛使人人都是优质创作者等难点问题。应用上，可落地支持抖音、剪映Capcut、Flow等业务场景的图片与视频创作及AI工具，形成公司关键业务场景的核心生态壁垒。课题挑战： 1、中长视频多模态理解能力：创作场景需要对用户素材充分理解，因此大模型需要对输入视频的画面、声音及语音等能充分理解，具备素材剪辑处理的通用理解能力； 2、创作领域专业Agent能力：大模型需要具备创作领域AGI的潜力，对于营销、UGC、PGC等不同创作场景，模型需要具备优质视频创作知识储备，能基于原子能力Tools规划合理的Action Sequence完成创作； 3、多模态输出能力：在视频创作领域，需要进行视频效果包装，因此模型需要具备输出音效/声音/文字贴纸/转场特效等能力； 4、高效率模型推理：由于输入视频时长较长，任务复杂，考虑应用落地成本，模型在处理长Context的推理效率与实际效果的Trade-off依赖技术突破； 5、视觉可控生成与编辑：通过大规模数据的训练，由文本、图片、音频、视频等多模态信息输入引导，生成高质量图像与视频；重点突破保留ID/IP/Style等特征信息的一致性控制技术以及数字人视频生成技术，探索更轻量、更高速、可实时、交互性强的生成技术。

更新于 2025-08-19杭州

研究型实习生-视频自动的音效/配乐技术

实习通义研究型实习生

近期，随着OpenAI发布第一个文生视频大模型Sora，其能够生成包含复杂场景、生动角色表情及复杂镜头运动的长视频，进一步引起了业界的广泛关注。目前，现有的视频转音频技术[9-11] 通常采用联合训练方式，利用预训练的跨模态基础模型[12-13] 或扩散模型来解决这一问题。然而，这些方法未能全面挖掘音视频多模态信息之间的精确对应关系（比如：时间、节奏、远近、材质、内容、方向、速度、等等），仅能得到宽泛的音视频对应关系, 离实际应用（比如真正的短视频以及电影配音）尚有很大差距。并且后续精确的配音可以向全景声以及立体环绕声方向发展，和VR以及 AR 以及娱乐产业结合。本研究题目拟解决基于内容理解的视频到音频的精确生成问题。

更新于 2024-11-14杭州|上海

研究型实习生-原生多模态视频生成技术研究

实习通义研究型实习生

本项目旨在深入探索原生多模态视频生成的前沿技术，构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于： 1. 长视频生成：重点研究能够生成分钟级长视频的算法，攻克生成过程中的稳定性与时序一致性难题，实现流畅、高质量的视频流输出。 2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术，实现对视频中对象、场景、风格的精准、一致性操控。 3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-12北京|杭州