
Momenta训练平台infra专家
任职要求
1. 学历与经验:计算机科学或相关专业本科及以上学历,具备3年及以上Python后端开发经验 2. 编程能力:熟悉Python语言,熟悉异步IO、多进程/多线程编程;对数据结构和算法有深入理解,具备良好的编码习惯。 3. 框架与组件:熟练掌握至少一种主流Python后端框架(如FastAPI, Django, Flask),并理解其运行原理;熟悉MySQL/PostgreSQL等关系型数据库,以及Redis/Kafka/RabbitMQ等常用中间件。 4. 基础知识:具备扎实的计算机基础,对操作…
工作职责
1. 核心系统建设:负责公司级AI应用平台、算法评测平台等核心系统的架构设计、技术选型和开发工作。 2. 需求转化与实现:深入理解算法、数据等相关业务场景,与算法工程师、产品经理紧密合作,将业务需求转化为高质量的技术解决方案。 3. 架构演进:负责后端服务的性能优化、稳定性保障和架构演进,确保系统的高可用、高并发和可扩展性。 4. 技术探索:关注并研究业界前沿技术(如MLOps、Serverless、容器化等),并将其应用于实际工作中,驱动平台的技术创新。
我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及GenAI与AI Agent应用的AI Infra平台。团队服务于淘天电商广告核心业务,承担 广告模型超大规模Embedding表征学习和Sparse-Dense模型及Dense大模型(LLMs/Diffusion等)训练与推理,AI Infra研发和优化等关键职责,在高性能在线服务&训练平台(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(GPGPU/CPU)等课题上都具有业界前沿的挑战。 1. 负责超大规模Sparse-Dense模型(for 广告)和Dense大模型(for GenAI应用)的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件Training系统的计算性能与效率优化。 3. Algorithm-Training-Inference Co-Design,整体提升模型效率。
我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及GenAI与AI Agent应用的AI Infra平台。团队服务于淘天电商广告核心业务,承担 广告模型超大规模Embedding表征学习和Sparse-Dense模型及Dense大模型(LLMs/Diffusion等)训练与推理,AI Infra研发和优化等关键职责,在高性能在线服务&训练平台(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(GPGPU/CPU)等课题上都具有业界前沿的挑战。 1. 负责超大规模Sparse-Dense模型(for 广告)和Dense大模型(for GenAI应用)的训练架构设计优化并推动生产落地。 2. 负责大规模异构硬件Training系统的计算性能与效率优化。 3. Algorithm-Training-Inference Co-Design,整体提升模型效率。
1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。