大疆中/高级高性能计算工程师(训练优化)
任职要求
1. 计算机科学、信息工程、电子工程、机器人等专业本科及以上学历; 2. 具备扎实的编程能力,熟练使用Python/C++进行开发; 3. 熟练使用Pytorch训练框架,掌握训练性能分析方法; 4. 熟悉常见的分布式…
工作职责
1. 大规模及中小规模模型分布式训练的性能优化,包括数据读取、算子优化、通信优化、显存优化等,加速训练过程,提升训练系统稳定性、资源利用效率及面向目标平台(如嵌入式设备)的可部署性; 2. 持续分析、优化大规模多机集群及中小规模训练任务的性能,与算法同事协作优化训练系统的整体效率和稳定性; 3. 负责云端推理服务的性能优化与落地,包括模型转换、计算图优化、算子融合、低精度推理(INT8/FP16)、推理框架适配(如TensorRT等),提升推理吞吐量、降低延迟和资源消耗; 4. 跟进业内先进的训练框架、推理框架及训练/推理优化技术,推动其在业务中的实践。

岗位职责 1. 负责智能驾驶模型训练优化的研究和落地,通过数据并行,模型并行,通信优化,CUDA算子优化等手段,大幅提升模型的训练速度与效率。 2. 解决智能驾驶模型训练和部署工作中遇到的各种工程和性能问题。负责训练相关的工具链和框架的开发,维护,和优化。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
1.负责微信计算机视觉、语音、推荐、语言模型等 AI 算法业务在微信小程序、视频号、企业微信、微信读书、输入法等场景中的多平台落地与性能优化; 2.引导算法团队设计性能/功耗兼顾的算法。