阿里巴巴阿里国际-AI Infra研发高级工程师-北京
任职要求
1. 扎实的计算机根基: 精通数据结构、设计模式、操作系统、网络编程、计算机体系结构等核心知识。 2. 卓越的工程能力: 精通Linux环境下C++/Java开发,熟练掌握Python等脚本语言。了解GPU架构,具备CUDA编程、Triton编程,熟悉TensorFlow/PyTorch等框架经…
工作职责
团队介绍: "阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。" 职位描述: 1. 打造行业领先的AI工程平台: 设计并构建支撑算法模型高效迭代的标准化平台体系(特征平台、训练平台、在线推理框架等),打通算法创新与业务验证的“任督二脉”,加速模型价值落地。 2. 攻坚大模型工程化挑战: 深入探索生成式AI(AIGC)技术在实际业务中的规模化落地,主导大模型训练、推理加速、性能优化等核心工程难题的解决。 3. 开拓AI创新应用的边界: 积极探索AI在搜索/推荐/广告(搜推广)等核心场景的颠覆性应用(如生成式召回、生成式排序、行为大模型),以及AI Agent技术在智能运维、资源优化、智能客服助手等领域的创新实践,为业务创造新价值。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

负责 Momenta 自动驾驶大模型、世界模型的分布式训练推理框架研发,主要包括: 1. 参与设计、研发、维护团队内部的模型分布式训练框架,擅长分析并深度优化训练各个阶段的性能瓶颈,包括计算效率、通信延迟、显存占用等; 2. 结合不断迭代的模型算法逻辑,设计并实现针对性的高效分布式并行训练策略; 3. 深入研究 CUDA、NCCL、RDMA 等编程范式和通信库,针对团队内部的 GPU 和 集群拓扑约束,开发高性能算子 并 优化分布式通信效率,达到行业 SOTA 水平; 4. 深入研究低精度混合精度训练策略,在保证模型精度满足预期的情况下,探索低精度(FP8、FP4)训练的性能极限; 5. 配合算法需求,开发 RL 训练框架、迭代 RL 训练算法逻辑,优化在线 Rollout 推理性能,深度优化 分布式 On-Policy/异步 RL 训练效率。