钉钉大模型研发工程师-Infra
任职要求
1. 本科及以上学历,计算机、人工智能、软件工程等相关专业优先。 2. 具备扎实的机器学习与深度学习理论基础,精通PyTorch/JAX/TensorFlow等至少一种主流框架;熟悉SFT、RLHF等后训练技术,或拥有相关项目、竞赛、论文经验者优先 3. 深入理解分布式系统的核心原理,拥有大规模、高可用分布式系统设计、研发或维护实战经验者…
工作职责
1. 主导并深度参与大模型核心算力集群的架构设计与平台构建,为国内顶尖的AI技术打造坚实可靠的基石。 2. 深入探索并攻坚机器学习平台的多个核心领域,包括但不限于:大规模分布式训练、高性能推理优化、海量数据管理以及高效工作流编排。 3. 与顶尖的算法及工程团队紧密协作,精准定位并解决大模型在训练与推理过程中遇到的性能、稳定性及规模化等各类复杂技术挑战。 4. 保持对技术前沿的高度敏锐,持续追踪并引入业界在大模型系统领域的最新成果与最佳实践,成为驱动整个技术体系创新与迭代的核心力量。
1. 构建后训练专用高性能架构,支持从SFT到RLHF/Agentic RL的全流程调优,为RM模型训练、PPO等复杂算法提供千卡级别的超大规模分布式训练支持,攻克特定阶段的性能瓶颈。 2. 打造极致推理与服务引擎,优化针对RLHF/Agentic RL流程中多个模型的交互式推理链路,通过编译优化、动态批处理、量化等技术,实现高吞吐、低延迟的模型服务,确保用户体验的流畅性。 3. 释放异构硬件最大潜能,深入CPU/GPU/NPU等底层硬件,通过CUDA内核定制、通信库优化(如RDMA)及MLIR/TRITON等编译技术,旨在将硬件性能压榨到极致,以应对高德海量用户与场景的挑战。
: 建设高效的深度学习基础服务,为各类模型研发提供技术支撑,优化计算效率,支持算法团队业务需求落地 【主要职责】: 1. 负责深度学习平台的系统架构设计和研发工作,提供端到端的模型交付能力 2. 集成云原生能力,负责模型研发、训练、推理等相关功能,提升平台资源利用率和计算效率 3. 负责大模型训练/推理的监控、调优和故障定位 4. 持续运营,改进平台性能、易用性和稳定性,优化用户体验
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、解决公司大模型的系统、算法中的中长期难题; 2、系统难题包括但不限于:大规模Pretrain分布式训练,RL训练,LLM推理; 3、算法难题包括但不限于:模型结构优化,优化器;算法与工程高度结合; 4、工作灵活,可以自由参与各种技术讨论,自己发现问题,并解决问题。