字节跳动多模态视频理解与生成大模型算法实习生-电商-筋斗云人才计划(北京/上海/杭州/珠海)
实习兼职A24406地点:北京状态:招聘
任职要求
1、2026届及之后毕业,博士在读,计算机、软件、人工智能、数学等相关专业优先; 2、扎实的机器学习基础,深入理解深度学习、多模态模型及生成模型等技术,具备良好的数理基础和自学能力; 3、熟练掌握相关机器学习框架和工程框架,具备扎实的编码能力; 4、在多模态大…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 课题介绍: 背景:电商领域短视频内容正逐渐成为业务增长和用户体验优化的重要方向,通过多模态的视频理解与生成大模型创新解决电商场景中的核心挑战,例如短视频与电商商品的精准匹配、AIGC(AI生成内容)视频生成等,让用户在浏览短视频时获得更精准的商品匹配,并为内容创作者提供更便捷强大的创作工具。 研究方向:本课题聚焦于多模态视频理解与生成。构建高效的多模态嵌入模型,实现视频、图像、文本、商品等模态间的统一表示学习,以增强短视频与电商商品的关联性。通过大规模跨模态数据集的构建与优化,提升视频与商品的匹配精准度,使模型能够自动识别短视频中的商品或品牌,并精准映射至电商库,支持用户在观看时直接获取相关购买信息。此外,还将探索 AIGC(AI生成内容)短视频技术,包括商品图像+文本生成带货视频、智能剪辑与特效添加、虚拟试穿等,降低电商内容制作成本,提升营销效率。 1、负责对电商场景下的商品内容、视频内容进行理解和可控生成,赋能电商全链路场景,提供优质商品供给、内容供给、商达供给等,建立商品履约视角的商品理解算法体系,为商品履约保驾护航,提升购物体验; 2、基于前沿的AIGC模型能力,帮助降低商家素材制作成本,提升平台优质供给(短视频、图文等),利用NLP、CV、多模态技术,增强对短视频内容、图文、商品理解能力,支持搜索、推荐、商城全导购链路,提升消费者在内容场和货架场购物体验; 3、挖掘电商垂直领域大规模、高质量Pretrain数据集,基于字节跳动通用大模型,研发电商行业大模型,探索电商交互式导购新场景; 4、跟踪AIGC/CV/NLP/多模态/LLM领域的最新研究和技术发展,负责算法模型迭代升级。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
校招AIGC算法
目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。
更新于 2026-03-24北京|杭州|上海
校招大模型
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。
更新于 2026-03-28上海|北京|杭州
社招2年以上技术
1)主要业务是车载场景交通安全和人身安全相关算法开发,工作包括不局限于:图像分类、目标检测跟踪、深度距离估计、视频理解等 2)与团队成员友好合作,按时完成研发工作并进行算法部署落地 3)研究与分享大模型前沿技术,落地视觉多模态理解和图像生成大模型
更新于 2025-08-29北京