字节跳动SRE AI高级工程师-基础架构
任职要求
1、本科及以上学历,计算机相关专业或具备同等实践经验,拥有五年以上SRE工作经验; 2、熟悉GPU/XPU资源管理和调度,具备大规模高性能计算集群的管理经验; 3、具备深厚的计算机系统基础知识,了解操作系统、存储和网络IO等相关原理; 4、具备以下一项或多项软件开发经验:Go/Python/Java/C++等,能够编写高效、稳定的系统工具和自动化脚本; 5、有丰富的生产环境故障排查和性能调优经验,能够快速定位和解决问题;熟悉AI大模型训练框架(如TensorFlow、PyTorch等),了解大规模分布式训练的实现细节和优化方…
工作职责
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
1、负责海量高性能GPU/XPU卡的资源交付与一致性保障,涵盖万卡大模型训练、在线推理、在线搜索、推荐训练等不同业务场景的集群管理; 2、学习并深入了解GPU业务方的使用姿势和训练框架,掌握前沿AI大模型技术,解决超大规模场景下的稳定性挑战,涉及NvidiaH100、A100、昇腾、以及自研XPU等高性能卡型的使用; 3、构建自动化工程,确保生产环境的稳定性和资源在线率,及时发现并隔离故障GPU资源,提高资源流转效率; 4、通过优秀的工程架构设计,参与生产集群和服务的整个生命周期,满足可持续发展的需求并提高系统稳定性,包括架构规划、评审、设计、部署和上线等环节。
阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1.负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2.负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3.负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4.负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5.负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。