字节跳动多模态算法研究员-国际商业化产品与技术-筋斗云人才计划
任职要求
1、获得博士学位,人工智能、计算机、数学相关专业优先; 2、优秀的编程和算法基础,熟悉Python/C++等主流编程语言; 3、有丰富的机器学习相关经验,符合以下至少一个方面: 1) 熟悉计算机视觉相关任务,对图像/视频分类、目标检测、图像/视频检索、OCR、图像分割、生成模型(如GAN/VAE/Diffusion)等至少一方面有经验; 2) 熟悉图像、视频、文本、多模态等领域最前沿的AIGC模型,并具有相关经验; 3)熟悉NLP相关任务,对文本分类、语义分析、情感分析、NER等至少一方面有经验; 4)熟悉音频相关任务,对ASR、AED、LID等至少一方面有经验; 4、熟悉多模态学习、大规模预训练、模态对齐等相关技术; 5、熟悉常见模型训练框架,如Tensorflow、Pytorch、Mxnet等; 6、具备良好的逻辑思维能力、沟通协作能力,保持对新事物的好奇心;在AI顶会顶刊发表过高水平论文的优先。
工作职责
团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模型的理解,通过Reflection、RLHF等技术构建与真实环境交互的Agent,从而实现专家级别的广告账号管理,实现最高的ROI。同时广告Agent可探索根据用户的兴趣,个性化实现在线素材生产,最终实现广告素材和创意样式的千人千面,极大撬动用户和商品的匹配效率。 课题挑战: 现有的LLM在垂直广告营销领域上尚不能给出专业且能提升效果的专业知识,并且Agent无法很好的操作和里面广告系统。在创意方面,视频生成模型质量还不能满足广告生成的要求,以及和投放系统结合千人千面的个性化效果。 1、负责广告、电商、短视频、直播等相关内容理解,包括图片、文本、视频、音频等; 2、负责数据挖掘与特征工程,构建机器学习模型,构建商业化生态; 3、面对千万量级业务/受限资源等场景,优化模型计算效率,提升模型可用性; 4、依托海量业务数据,探索并落地各种前沿技术(如预训练、自监督学习、小样本学习等); 5、探索AIGC前沿技术,构建新一代基于AIGC的商业化生态。
团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模型的理解,通过Reflection、RLHF等技术构建与真实环境交互的Agent,从而实现专家级别的广告账号管理,实现最高的ROI。同时广告Agent可探索根据用户的兴趣,个性化实现在线素材生产,最终实现广告素材和创意样式的千人千面,极大撬动用户和商品的匹配效率。 课题挑战: 现有的LLM在垂直广告营销领域上尚不能给出专业且能提升效果的专业知识,并且Agent无法很好的操作和里面广告系统。在创意方面,视频生成模型质量还不能满足广告生成的要求,以及和投放系统结合千人千面的个性化效果。 1、负责广告、电商、短视频、直播等相关内容理解,包括图片、文本、视频、音频等; 2、负责数据挖掘与特征工程,构建机器学习模型,构建商业化生态; 3、面对千万量级业务/受限资源等场景,优化模型计算效率,提升模型可用性; 4、依托海量业务数据,探索并落地各种前沿技术(如预训练、自监督学习、小样本学习等); 5、探索AIGC前沿技术,构建新一代基于AIGC的商业化生态。
研究方向一:基于时空场景感知的用户全域意图理解 1. 时空动态感知与即时需求捕捉,用户意图受地理位置(如商圈变化)、时间(如节假日/天气)、实时场景(如突发疫情)等多维度动态因素影响。 2. 多模态行为语义对齐与意图蒸馏,用户行为存在显性交互(点击/收藏)与隐性表达(页面停留/滑动速度)的多模态断层,且跨业务场景(到店/到家)行为模式差异显著。 3. 隐私安全的多场景知识融合,到店、到家等业务场景数据隔离导致用户认知碎片化,且需符合数据安全合规要求。 研究方向二:多模态供给理解与动态表征建模 1. 异构供给的统一语义建模,异构供给(商家/商品/服务/内容)的多模态信息融合难题,需解决文本、图像、视频等跨模态语义对齐与联合表征。 2. 实时供给状态感知与动态更新机制,如库存/价格/服务能力等高频变化要素的即时捕捉。 3. 领域知识增强的供给深度理解,构建覆盖本地生活全场景的细粒度知识图谱。 研究方向三:端到端生成式搜索系统的构建与优化 1. 端到端生成搜索架构构建,解决传统搜索系统"召回→粗排→精排→重排"多阶段解耦带来的信息损失问题,建立统一生成框架下的多目标联合优化机制;设计新型生成式排序范式,融合Scaling Law原理实现语义空间与行为空间的联合表征。 2. 生成结果的可控性与可解释性,构建多粒度约束解码机制,将业务规则、供给状态、合规要求等硬约束编码到生成过程中;同时设计基于强化学习的偏好对齐框架,实现生成质量的双重控制。 3. 实时推理性能优化,攻克大模型长序列处理的性能瓶颈,研发基于Attention稀疏化和状态复用的流式生成技术;设计轻量化验证网络,在保证生成质量的前提下将推理延迟降低至毫秒级,支撑亿级DAU场景。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、探索大规模和多模态LLM,并将系统优化到其它先进模型(如Gemini, GPT)的水平; 2、多模态预训练、指令微调、人类偏好对齐和模型压缩; 3、落地相关应用,包括视频理解、推荐和代码生成等; 4、深入研究并与全球一流大学的研究人员进行学术合作。