网易AI Infra研发工程师
任职要求
1. 统招本科及以上学历; 2. 精通C/C++、python编程,熟悉常用数据结构; 3. 了解transformer的结构,了解模型训练、微调和推理的过程和原理; 4. 热爱技术,可以快速学习新技术,快速掌握HPC和AI前沿技术; 5. 有以下一项或多项技术能力者优先: * 有GPU、NPU、ARM、或其他AI芯片等平台上AI落地实践经验; * 熟悉并行计算和分布式计算技术,有 MPI、…
工作职责
1. 结合HPC和AI前沿技术,设计和优化大模型训练和推理框架,负责模型优化、算子优化、图优化、分布式优化等,提升计算效率; 2. 负责云侧或端侧大模型和小模型推理服务开发、性能优化、上线等工作。
1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景; 2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本; 3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率; 4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、解决公司大模型的系统、算法中的中长期难题; 2、系统难题包括但不限于:大规模Pretrain分布式训练,RL训练,LLM推理; 3、算法难题包括但不限于:模型结构优化,优化器;算法与工程高度结合; 4、工作灵活,可以自由参与各种技术讨论,自己发现问题,并解决问题。
1. 负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率; 2. 负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本; 3. 基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作; 4. 持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向;