字节跳动多模态算法实习生-国际化短视频直播
任职要求
1、2026届硕士及以上学位在读,计算机、软件工程等相关专业优先; 2、熟悉Linux平台以及常用深度学习框架PyTorch/TensorFlow等; 3、熟悉多模态/计算机视觉/自然语言处理在深度学习上的经典算法,有相关内容理解领域的技术积累; 4、责任心强,积极主动,有良好的沟通能力和团队合作能力; 5、有独立思考以及动手能力,提出想法并能付诸实践验证。
工作职责
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责字节跳动国际化直播业务中的多模态、计算机视觉、自然语言处理的算法工作,探索内容理解技术在各业务中的应用落地,实现业务指标的增长与技术创新; 2、探索前沿多模态技术研究,结合业务的需求,持续优化算法助力业务增长,具体的技术方向包括但不限于:多模态预训练,多模态检索;多标签视频/文本分类,直播高光识别;多模态大模型/大语言模型SFT/Continue Training;多模态和推荐模型的结合;多模态的开集(Few/Zero-Shot)识别;负责算法的工程部署和应用落地; 3、深入直播推荐业务,利用内容理解技术帮助直播推荐在实时推荐、互动生态、直播创作、兴趣探索、多样性等方向上做的更好; 4、承接直播平台的识别需求,健全直播生态各个维度的内容理解体系,做好直播内容的准确理解。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 1、负责字节跳动国际化直播业务中的多模态、计算机视觉、自然语言处理的算法工作,探索内容理解技术在各业务中的应用落地,实现业务指标的增长与技术创新; 2、探索前沿多模态技术研究,结合业务的需求,持续优化算法助力业务增长,具体的技术方向包括但不限于:多模态预训练,多模态检索;多标签视频/文本分类,直播高光识别;多模态大模型/大语言模型SFT/Continue Training;多模态和推荐模型的结合;多模态的开集(Few/Zero-Shot)识别;负责算法的工程部署和应用落地; 3、深入直播推荐业务,利用内容理解技术帮助直播推荐在实时推荐、互动生态、直播创作、兴趣探索、多样性等方向上做的更好; 4、承接直播平台的识别需求,健全直播生态各个维度的内容理解体系,做好直播内容的准确理解。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 1、探索多模态模型,包括多模态预训练,多模态LLM; 2、将多模态模型应用于图像/视频的生成创作、逻辑推理、深层语义理解、视频语义压缩、视频高光判断等; 3、探索LLM、多模态等的高效Finetuning技术和推理技术,保证模型在业务场景中的快速适配和高效调用; 4、主要研究方向包括:多模态预训练、图片和视频的生成、图片和视频风格迁移、跨模态检索、大模型多标签分类、半监督学习、自监督学习。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际电商是以国际化短视频产品为载体的内容电商业务,致力于成为用户发现并获取优价好物的首选平台,在直播电商、视频内容电商等多场景下,国际电商业务希望能为用户提供更个性化、更主动、更高效的消费体验,为商家提供稳定可靠的平台服务,在更多的地区实现没有难卖的优价好物,让美好生活触手可得的使命。我们邀请你来此成长、钻研,发掘无限的潜力,一起应对技术和业务上的挑战。目前团队拥有丰富的国际化产品研发经验,包容多元的文化,且在全球设立研发团队,邀请你来一起接受跨国合作的挑战,还有跨文化交流机会在等你! 1、在计算机视觉、NLP、多模态领域设计针对电商场景的解决方案,包括但不限于多模态创意生成、视频生成等; 2、深入了解电商数据,基于FT、SFT、RLHF等预训练技术训练电商领域大模型,提升模型效果; 3、基于RAG、Agent等技术设计适配业务的框架,将其应用在电商智能助手等场景,提升接待效率和质量; 4、跟进行业SOTA模型动态,定期产出技术文档分享,抽象算法能力,为公司级别业务提供中台输出能力,沉淀专利和论文。
团队介绍:短视频平台算法团队,负责国际化短视频产品的基础推荐算法,加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,直接为核心用户体验负责,支持产品在全球赛道上高速发展。我们的工作内容包括大规模推荐算法的优化、复杂约束的优化问题的解决、多模态大模型的落地探索,推荐大模型的应用研究等多个学术领域的算法改进以及对多种场景的推荐架构的设计和对产品数据的复杂深入的分析。在这里,你可以深入钻研机器学习算法的改进和优化,探索前沿的技术;可以跟来自全球不同国家的团队合作, 感受不同文化的碰撞, 激发认知;可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、探索多模态模型,包括多模态预训练,多模态LLM; 2、将多模态模型应用于图像/视频的生成创作、逻辑推理、深层语义理解、视频语义压缩、视频高光判断等; 3、探索LLM、多模态等的高效Finetuning技术和推理技术,保证模型在业务场景中的快速适配和高效调用; 4、主要研究方向包括:多模态预训练、图片和视频的生成、图片和视频风格迁移、跨模态检索、大模型多标签分类、半监督学习、自监督学习。