字节跳动多模态算法实习生-国际化短视频直播
任职要求
1、本科及以上学历在读,计算机、软件工程等相关专业优先; 2、熟悉Linux平台以及常用深度学习框架PyTorch/TensorFlow等; 3、熟悉多模态/计算机视觉/自然…
工作职责
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 1、负责字节跳动国际化直播业务中的多模态、计算机视觉、自然语言处理的算法工作,探索内容理解技术在各业务中的应用落地,实现业务指标的增长与技术创新; 2、探索前沿多模态技术研究,结合业务的需求,持续优化算法助力业务增长,具体的技术方向包括但不限于:多模态预训练,多模态检索;多标签视频/文本分类,直播高光识别;多模态大模型/大语言模型SFT/Continue Training;多模态和推荐模型的结合;多模态的开集(Few/Zero-Shot)识别;负责算法的工程部署和应用落地; 3、深入直播推荐业务,利用内容理解技术帮助直播推荐在实时推荐、互动生态、直播创作、兴趣探索、多样性等方向上做的更好; 4、承接直播平台的识别需求,健全直播生态各个维度的内容理解体系,做好直播内容的准确理解。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责字节跳动国际化直播业务中的多模态、计算机视觉、自然语言处理的算法工作,探索内容理解技术在各业务中的应用落地,实现业务指标的增长与技术创新; 2、探索前沿多模态技术研究,结合业务的需求,持续优化算法助力业务增长,具体的技术方向包括但不限于:多模态预训练,多模态检索;多标签视频/文本分类,直播高光识别;多模态大模型/大语言模型SFT/Continue Training;多模态和推荐模型的结合;多模态的开集(Few/Zero-Shot)识别;负责算法的工程部署和应用落地; 3、深入直播推荐业务,利用内容理解技术帮助直播推荐在实时推荐、互动生态、直播创作、兴趣探索、多样性等方向上做的更好; 4、承接直播平台的识别需求,健全直播生态各个维度的内容理解体系,做好直播内容的准确理解。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际化短视频产品研发团队,旨在实现字节跳动国际化短视频业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 1、探索多模态模型,包括多模态预训练,多模态LLM; 2、将多模态模型应用于图像/视频的生成创作、逻辑推理、深层语义理解、视频语义压缩、视频高光判断等; 3、探索LLM、多模态等的高效Finetuning技术和推理技术,保证模型在业务场景中的快速适配和高效调用; 4、主要研究方向包括:多模态预训练、图片和视频的生成、图片和视频风格迁移、跨模态检索、大模型多标签分类、半监督学习、自监督学习。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:短视频平台算法团队,负责国际化短视频产品的基础推荐算法,加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,直接为核心用户体验负责,支持产品在全球赛道上高速发展。我们的工作内容包括大规模推荐算法的优化、复杂约束的优化问题的解决、多模态大模型的落地探索,推荐大模型的应用研究等多个学术领域的算法改进以及对多种场景的推荐架构的设计和对产品数据的复杂深入的分析。在这里,你可以深入钻研机器学习算法的改进和优化,探索前沿的技术;可以跟来自全球不同国家的团队合作, 感受不同文化的碰撞, 激发认知;可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、负责字节跳动国际化直播业务中的多模态、计算机视觉、自然语言处理的算法工作,探索内容理解技术在各业务中的应用落地,实现业务指标的增长与技术创新; 2、探索前沿多模态技术研究,结合业务的需求,持续优化算法助力业务增长,具体的技术方向包括但不限于:多模态预训练,多模态检索;多标签视频/文本分类,直播高光识别;多模态大模型/大语言模型SFT/Continue Training;多模态和推荐模型的结合;多模态的开集(Few/Zero-Shot)识别;负责算法的工程部署和应用落地; 3、深入直播推荐业务,利用内容理解技术帮助直播推荐在实时推荐、互动生态、直播创作、兴趣探索、多样性等方向上做的更好; 4、承接直播平台的识别需求,健全直播生态各个维度的内容理解体系,做好直播内容的准确理解。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。