字节跳动大模型算法研究员(大系统&大算力)-Data AML-筋斗云人才计划
任职要求
1、获得博士学位,计算机、人工智能等相关专业; 2、掌握C/C++/Python等编程技能,有扎实的编程基础、良好的编程风格和工作习惯; 3、熟悉深度学习算法(…
工作职责
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,模态信息在推荐系统中的作用也越来越大。字节实践中发现模态信息能够很好的作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统的研究具有非常大的想象空间。期望在算法和工程CoDesign基础上,对多模态Cotrain、7B/13B大规模参数模型、更长序列端到端等方向进一步进行探索。工程上研究方向包括多模态样本的表征、基于Pytorch框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用;算法上的研究方向包括设计合理的推荐广告和多模态Cotrain结构、Sparse MOE、Memory Network、混合精度等。 1、AML负责给字节跳动提供大规模机器学习的算力,算法团队负责探索算法和系统的CoDesign,对推荐广告模型进行Deep & Wider的超大规模复杂化,例如7Billion/13Billion复杂化模型Scaling Law探索、长序列端到端入图建模、生成式、多模态Cotrain等; 2、参与抖音、今日头条等产品中的机器学习算法应用与优化,包括推荐、广告、多模态等需要利用大量算力的地方; 3、和工程团队密切配合,探索新的架构下新的算法。
研究方向一:基于时空场景感知的用户全域意图理解 1. 时空动态感知与即时需求捕捉,用户意图受地理位置(如商圈变化)、时间(如节假日/天气)、实时场景(如突发疫情)等多维度动态因素影响。 2. 多模态行为语义对齐与意图蒸馏,用户行为存在显性交互(点击/收藏)与隐性表达(页面停留/滑动速度)的多模态断层,且跨业务场景(到店/到家)行为模式差异显著。 3. 隐私安全的多场景知识融合,到店、到家等业务场景数据隔离导致用户认知碎片化,且需符合数据安全合规要求。 研究方向二:多模态供给理解与动态表征建模 1. 异构供给的统一语义建模,异构供给(商家/商品/服务/内容)的多模态信息融合难题,需解决文本、图像、视频等跨模态语义对齐与联合表征。 2. 实时供给状态感知与动态更新机制,如库存/价格/服务能力等高频变化要素的即时捕捉。 3. 领域知识增强的供给深度理解,构建覆盖本地生活全场景的细粒度知识图谱。 研究方向三:端到端生成式搜索系统的构建与优化 1. 端到端生成搜索架构构建,解决传统搜索系统"召回→粗排→精排→重排"多阶段解耦带来的信息损失问题,建立统一生成框架下的多目标联合优化机制;设计新型生成式排序范式,融合Scaling Law原理实现语义空间与行为空间的联合表征。 2. 生成结果的可控性与可解释性,构建多粒度约束解码机制,将业务规则、供给状态、合规要求等硬约束编码到生成过程中;同时设计基于强化学习的偏好对齐框架,实现生成质量的双重控制。 3. 实时推理性能优化,攻克大模型长序列处理的性能瓶颈,研发基于Attention稀疏化和状态复用的流式生成技术;设计轻量化验证网络,在保证生成质量的前提下将推理延迟降低至毫秒级,支撑亿级DAU场景。
视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。
研究方向一:基于生成式推荐的CTR预估新范式 该方向研究在生成式推荐架构下,如何发挥算力优势,重构当前搜推排序架构体系,实现有限资源下累计收益最大化。关键问题如下: 1.在训练、推理上发挥生成式架构算力优势:针对超长用户行为序列探索生成式架构下Scaling Law,基于美团LBS特点高效捕捉用户兴趣。 2.建设全场景生成式推荐算法:基于超大算力的生成式架构,建设多业务线统一排序算法;采用预训练+SFT、KV Cache等技术,建设多业务下统一的训练、推理服务架构。 3.全链路端到端统一建模:利用生成式架构优点统筹多阶段漏斗,彻底改变当前繁重的多阶段迭代模式,建设出既能互相协同与配合、且目标又充分一致的新算法链路。 研究方向二:面向即时零售场景的大模型驱动用户兴趣建模与场景化推荐方法研究 随着大语言模型(LLM)在自然语言处理、知识推理等领域的广泛应用,如何将其与零售业务深度融合,提升即时零售场景下的用户兴趣理解与个性化推荐水平,成为智能推荐领域的重要研究方向。本课题旨在突破传统推荐系统对用户兴趣建模的局限,充分挖掘大模型的语义理解、知识推理与泛化能力,推动零售行业智能化升级。关键问题如下: 1.探索并实现大模型与零售业务领域知识的高效融合机制,系统评估监督微调(SFT)、检索增强生成(RAG)等多种集成方案在场景化推荐中的适用性与性能表现。 2.构建面向即时零售场景的用户兴趣建模体系,利用大模型对用户行为、商品属性、场景上下文等多维数据进行深度语义建模,提升用户兴趣刻画的准确性与动态性。 3.研发场景化推荐推理框架,基于大模型的推理能力,实现对用户个性化需求的精准预测与推荐,显著提升即时零售平台的用户体验和转化效率。
预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。