logo of bytedance

字节跳动多模态视频理解与生成大模型算法实习生-电商-筋斗云人才计划(北京/上海/杭州/珠海)

实习兼职A24406地点:北京状态:招聘

任职要求


1、2026届及之后毕业,博士在读,计算机、软件、人工智能、数学等相关专业优先;
2、扎实的机器学习基础,深入理解深度学习、多模态模型及生成模型等技术,具备良好的数理基础和自学能力;
3、熟练掌握相关机器学习框架和工程框架,具备扎实的编码能力;
4、在多模态大模型领域有相关经验,尤其在长文本、影视剧领域有经验者优先;
5、在计算机科学高水平会议和期刊(如NIPS、ICMLCVPRICCVECCV、IJCAI、AAAI、KDD、SIGIR、WWW、ACL、TPAMI、IJCV等)发表过论文或具备竞赛经验者优先。

工作职责


团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。

课题介绍:
背景:电商领域短视频内容正逐渐成为业务增长和用户体验优化的重要方向,通过多模态的视频理解与生成大模型创新解决电商场景中的核心挑战,例如短视频与电商商品的精准匹配、AIGC(AI生成内容)视频生成等,让用户在浏览短视频时获得更精准的商品匹配,并为内容创作者提供更便捷强大的创作工具。

研究方向:本课题聚焦于多模态视频理解与生成。构建高效的多模态嵌入模型,实现视频、图像、文本、商品等模态间的统一表示学习,以增强短视频与电商商品的关联性。通过大规模跨模态数据集的构建与优化,提升视频与商品的匹配精准度,使模型能够自动识别短视频中的商品或品牌,并精准映射至电商库,支持用户在观看时直接获取相关购买信息。此外,还将探索 AIGC(AI生成内容)短视频技术,包括商品图像+文本生成带货视频、智能剪辑与特效添加、虚拟试穿等,降低电商内容制作成本,提升营销效率。

1、负责对电商场景下的商品内容、视频内容进行理解和可控生成,赋能电商全链路场景,提供优质商品供给、内容供给、商达供给等,建立商品履约视角的商品理解算法体系,为商品履约保驾护航,提升购物体验;
2、基于前沿的AIGC模型能力,帮助降低商家素材制作成本,提升平台优质供给(短视频、图文等),利用NLP、CV、多模态技术,增强对短视频内容、图文、商品理解能力,支持搜索、推荐、商城全导购链路,提升消费者在内容场和货架场购物体验;
3、挖掘电商垂直领域大规模、高质量Pretrain数据集,基于字节跳动通用大模型,研发电商行业大模型,探索电商交互式导购新场景;
4、跟踪AIGC/CV/NLP/多模态/LLM领域的最新研究和技术发展,负责算法模型迭代升级。
包括英文材料
机器学习+
深度学习+
大模型+
ICML+
CVPR+
ICCV+
ECCV+
相关职位

logo of bytedance
实习A49332

团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着全球化业务的快速增长,广告场景面临千亿级数据训练、毫秒级实时响应、多模态内容理解与生成的综合挑战。传统广告模型(如CTR/CVR预估)在分布式训练效率、长序列用户行为建模、长尾泛化能力等方面逐渐面临瓶颈。与此同时,LLM技术为广告系统带来了革新机遇——从基于AIGC的广告素材生成、大规模超长序列建模、多模态视频内容理解,到隐私安全增强的联邦学习框架,以及通过大语言模型重构用户意图挖掘与定向策略等,均成为行业前沿探索方向。 课题挑战: 在广告业务场景中,探索LLM技术突破传统模型能力边界:一方面需重构广告召回与排序机制,通过长周期用户兴趣建模解决短行为序列的局限性,同时满足广告系统高实时响应要求,实现LLM增强的全域流量效率提升;另一方面需实现AIGC广告素材的规模化生产与精准控制,平衡品牌规范约束与创意多样性,适配全球化场景下的多语言与文化合规需求。此外,如何从非结构化行为数据中挖掘用户隐式意图,突破冷启动、泛化性等业务瓶颈,成为提升广告效果的关键技术创新方向。 另外广告生态特有的复杂约束对LLM技术提出更高要求:在海量站内站外信号的背景下,解决超大规模稀疏数据下的模型迭代效率问题;同时需构建隐私安全的LLM协同计算框架,在保障数据合规的前提下实现广告主专属数据与平台模型的深度协同。这些挑战要求技术方案兼具算法创新与系统工程能力,以应对广告场景中特有的实时性、规模化和合规性等多重挑战。

更新于 2025-03-03
logo of bytedance
实习A15928A

团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着全球化业务的快速增长,广告场景面临千亿级数据训练、毫秒级实时响应、多模态内容理解与生成的综合挑战。传统广告模型(如CTR/CVR预估)在分布式训练效率、长序列用户行为建模、长尾泛化能力等方面逐渐面临瓶颈。与此同时,LLM技术为广告系统带来了革新机遇——从基于AIGC的广告素材生成、大规模超长序列建模、多模态视频内容理解,到隐私安全增强的联邦学习框架,以及通过大语言模型重构用户意图挖掘与定向策略等,均成为行业前沿探索方向。 课题挑战: 在广告业务场景中,探索LLM技术突破传统模型能力边界:一方面需重构广告召回与排序机制,通过长周期用户兴趣建模解决短行为序列的局限性,同时满足广告系统高实时响应要求,实现LLM增强的全域流量效率提升;另一方面需实现AIGC广告素材的规模化生产与精准控制,平衡品牌规范约束与创意多样性,适配全球化场景下的多语言与文化合规需求。此外,如何从非结构化行为数据中挖掘用户隐式意图,突破冷启动、泛化性等业务瓶颈,成为提升广告效果的关键技术创新方向。 另外广告生态特有的复杂约束对LLM技术提出更高要求:在海量站内站外信号的背景下,解决超大规模稀疏数据下的模型迭代效率问题;同时需构建隐私安全的LLM协同计算框架,在保障数据合规的前提下实现广告主专属数据与平台模型的深度协同。这些挑战要求技术方案兼具算法创新与系统工程能力,以应对广告场景中特有的实时性、规模化和合规性等多重挑战。

更新于 2025-03-03
logo of kuaishou
实习D13918

1、依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、协助研发理解与生成统一大模型的基础架构,涵盖多模态输入和输出在内的建模,实现模型在理解与生成任务上的协同优化效果。

更新于 2025-09-23
logo of bytedance
实习A46673A

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、推动大语言模型代码方向的核心技术建设,持续优化大模型代码理解、推理与生成能力; 2、致力于提升真实生产环境代码库的代码理解推理与生成能力,提升国际化短视频服务代码性能和隐私合规能力; 3、探索适合实际业务生产环境的Code Agent能力,提升国际化短视频研发效率。

更新于 2025-02-25