大疆中/高级高性能计算工程师(训练优化)
任职要求
1. 计算机科学、信息工程、电子工程、机器人等专业本科及以上学历; 2. 具备扎实的编程能力,熟练使用Python/C++进行开发; 3. 熟练使用Pytorch训练框架,掌握训练性能分析方法; 4. 熟悉常见的分布式…
工作职责
1. 大规模及中小规模模型分布式训练的性能优化,包括数据读取、算子优化、通信优化、显存优化等,加速训练过程,提升训练系统稳定性、资源利用效率及面向目标平台(如嵌入式设备)的可部署性; 2. 持续分析、优化大规模多机集群及中小规模训练任务的性能,与算法同事协作优化训练系统的整体效率和稳定性; 3. 负责云端推理服务的性能优化与落地,包括模型转换、计算图优化、算子融合、低精度推理(INT8/FP16)、推理框架适配(如TensorRT等),提升推理吞吐量、降低延迟和资源消耗; 4. 跟进业内先进的训练框架、推理框架及训练/推理优化技术,推动其在业务中的实践。

岗位职责 1. 负责智能驾驶模型训练优化的研究和落地,通过数据并行,模型并行,通信优化,CUDA算子优化等手段,大幅提升模型的训练速度与效率。 2. 解决智能驾驶模型训练和部署工作中遇到的各种工程和性能问题。负责训练相关的工具链和框架的开发,维护,和优化。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
高级/资深算法工程师(国际支付风控方向),base上海/南京 1.支付风险识别与防控 ●负责跨境电商业务中支付风险的全面识别与防控,重点治理欺诈(盗卡、盗账户 友好欺诈)等方面风险,确保支付全链路安全可靠。 ●利用数据分析和机器学习技术,精确识别支付风险,建立有效的风控模型体系。 2.风控模型全链路管理 ●主导支付风控模型的全链路开发与上线工作,包括需求调研、风险探索、方案设计、模型开发、系统集成、部署上线、效果评估、持续优化和监控预警。 ●与产品、工程、业务团队紧密合作,确保风控模型精准全面覆盖业务场景,并能够及时应对市场变化。 3.前沿技术应用与创新 ●深入探索全球各大市场的新型支付作弊行为,利用多模态大数据进行风险评估与预测。 ●应用异常检测、集成学习、强化学习、序列模型、图模型、大规模预训练模型等前沿技术,提升风险识别的准确率和召回率。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享