字节跳动多模态算法实习生-电商业务-筋斗云人才计划
任职要求
1、2026届及以后毕业,博士在读,人工智能、计算机、数学相关专业者优先; 2、具备扎实的编码能力、数据结构和基础算法功底,熟练运用各种算法框架与工程框架; 3、在国际会议或期刊发表论文者(包括但不限于ACL、EMNLP…
工作职责
团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 课题背景:抖音为用户提供了从娱乐、教育到生活方式的众多内容,形成了广泛的兴趣图谱。多样化的内容消费,不仅反映了用户的即时偏好,还蕴含了深层的消费喜好和潜在购物需求。如何有效建模用户对娱乐内容的兴趣并迁移至电商场景,成为了一个亟待解决的课题。不仅涉及到理解对视频内容的理解,还需构建跨域的兴趣映射机制,实现从内容兴趣到电商兴趣的高效建模。与此同时,随着大模型多模态技术的兴起,我们希望在语言、视频、推荐多个模态下,构建更加强大的推荐系统。 课题挑战: 1)多模态复杂性:用户行为涉及多模态交互(如视频+直播+文字+行为),需统一框架实现内容理解与用户意图推理; 2)识别非电商内容对应的潜在购物信号,研究从内容消费到电商兴趣的高效映射; 3)利用海量数据和世界知识搭建领先的机器学习和推荐服务,实现用户和商品的高效匹配。 研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 课题背景:抖音为用户提供了从娱乐、教育到生活方式的众多内容,形成了广泛的兴趣图谱。多样化的内容消费,不仅反映了用户的即时偏好,还蕴含了深层的消费喜好和潜在购物需求。如何有效建模用户对娱乐内容的兴趣并迁移至电商场景,成为了一个亟待解决的课题。不仅涉及到理解对视频内容的理解,还需构建跨域的兴趣映射机制,实现从内容兴趣到电商兴趣的高效建模。与此同时,随着大模型多模态技术的兴起,我们希望在语言、视频、推荐多个模态下,构建更加强大的推荐系统。 课题挑战: 1)多模态复杂性:用户行为涉及多模态交互(如视频+直播+文字+行为),需统一框架实现内容理解与用户意图推理; 2)识别非电商内容对应的潜在购物信号,研究从内容消费到电商兴趣的高效映射; 3)利用海量数据和世界知识搭建领先的机器学习和推荐服务,实现用户和商品的高效匹配。 研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 课题背景:抖音为用户提供了从娱乐、教育到生活方式的众多内容,形成了广泛的兴趣图谱。多样化的内容消费,不仅反映了用户的即时偏好,还蕴含了深层的消费喜好和潜在购物需求。如何有效建模用户对娱乐内容的兴趣并迁移至电商场景,成为了一个亟待解决的课题。不仅涉及到理解对视频内容的理解,还需构建跨域的兴趣映射机制,实现从内容兴趣到电商兴趣的高效建模。与此同时,随着大模型多模态技术的兴起,我们希望在语言、视频、推荐多个模态下,构建更加强大的推荐系统。 课题挑战: 1)多模态复杂性:用户行为涉及多模态交互(如视频+直播+文字+行为),需统一框架实现内容理解与用户意图推理; 2)识别非电商内容对应的潜在购物信号,研究从内容消费到电商兴趣的高效映射; 3)利用海量数据和世界知识搭建领先的机器学习和推荐服务,实现用户和商品的高效匹配; 研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索工程、算法创新和架构研发工作。我们的职责是用前沿的技术去打造一个用户体验佳、信息效率高的搜索引擎产品。我们的愿景是做一款用户首选的搜索引擎,我们的使命是可以充分整合内容,高效连接人与信息。 团队主要负责抖音、今日头条、西瓜视频、问答和百科等产品的业务研发和架构研发工作。 我们使用前沿的前端、客户端和服务端技术赋能于搜索业务的快速迭代,并在技术上不断创新和突破。同时专注于大流量、高并发、低延时的搜索系统的构建,在性能优化上,追求从内存、Disk等优化到业务架构和网络协议的创新探索,在迭代效能上不断探索容器化、动态化、搭建化等方案的创新,技术氛围强,充分给同学们提供自我成长的机会。 1、参与ByteDance搜索引擎研发工作,用前沿的机器学习深度学习算法、海量的数据,做激动人心的技术、给用户更好的搜索体验; 2、参与抖音/电商/生活服务等核心产品的搜索研发工作,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 3、参与搜索核心算法改进,可选的方向包括: (1)NLP:利用LLM等技术,研发新的自然语言处理算法和信息检索技术,提高搜索引擎的准确性和智能化程度。 (2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; (3)多模态:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验; (4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; (5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度; 4、构建高性能、低资源消耗的大规模批流一体检索和计算系统,提升资源利用率。 1、个性化排序:传统排序算法难以充分利用多模态信息(如文本、图像、视频等),且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索:传统判别式模型在千亿级别候选库的检索中,面临模型容量不足、索引效率低下等问题,亟需新一代检索算法; 3、复杂Query理解:用户搜索需求日益复杂,传统搜索引擎难以准确理解长难句、多义Query的语义,导致搜索结果满意度低; 4、资源利用率:搜索系统存储和计算分离的架构导致资源利用率低,如何在保证性能的同时优化资源使用成为关键问题。