阿里巴巴阿里妈妈-AI infra(Training方向)-北京
任职要求
我们希望你: 1. 计算机/人工智能/软件工程/电子信息/自动化/数学等相关专业背景,博士优先。 2. 有超大规模分布式机器学习系统设计、开发经验与Training System经验,了解MLSys相关前沿技术并能推动创新实践;熟悉TensorFlow/PyTorch/XLA/MLIR/TVM/TRT-LLM/DeepSpeed…
工作职责
我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及GenAI与AI Agent应用的生产级AI Infra平台。团队服务于淘天电商广告核心业务,承担 广告模型超大规模Embedding表征学习和Sparse-Dense模型(SLM)及Dense大模型(LLM/MLLM/VLM/VLA等)训练与推理,AI Infra研发和优化等关键职责,在高性能在线服务&训练平台(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(GPGPU/CPU/ASIC)等课题上都具有业界最前沿的挑战。 1. 负责超大规模Sparse-Dense模型(for 广告)和Dense/MoE/DiT/ViT大模型(for GenAI/AI Agent应用)的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件系统Training的计算性能与效率优化。 3. Algorithm-Training-Inference-Hardware co-design,整体提升模型效率。
1.post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率; 2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑; 3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型; 4.负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座。
1、参与滴滴内部 post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率 2、优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑 3、协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型 4、关注行业前沿,引入有价值的技术到公司框架和模型中,探索新算法与方法,推动技术创新。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、优化&创新RLHF算法训练效率与模型泛化能力; 2、Long CoT技术的实现和应用; 3、多模态大模型(文本、图像、语音)的Post training算法; 4、构建高质量、多领域的数据合成方法; 5、探索LLM在情感对话、创作等场景的应用; 6、优化Agent的任务规划与工具调用能力。
预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。