阿里云阿里云智能-无影大模型AI系统专家-上海/杭州
任职要求
1. 技术技能 1) 训练加速:精通 DeepSpeed、Megatron-LM 等分布式训练框架,熟悉 3D 并行、ZeRO 优化、混合精度训练等技术。 2) 推理优化:掌握 TensorRT、ONNX Runtime、vLLM 等推理引擎,熟悉 PD 分离架构、KV Cache 管理、投机采样等技术。 3) 硬件适配:熟悉 GPU 架构,精通 CUDA/CUDNN 编程,有算子优化经验者优先。 4) 系统设计:具备分布式系统开发经验,熟悉 Kubernetes、Docker 等容器化技术,有 GPU 集群管理经验者加分。 2. 项目经验 1) 至少主导过 1 个千亿参数模型的训练加速项目,或实现推理延迟降低 50% 以上的工程案例。 3. 其他 1) 具备系统思维与工程化落地能力,能从全局视角设计技术方案,平衡性能、成本与可维护性。 2) 较强的学习能力与问题解决能力,能够快速掌握前沿技术。 3) 优秀的沟通协作能力,能与算法、产品、运维团队高效配合,推动技术方案落地。 4) 计算机、电子工程等相关专业优先。 5) 5 年以上大模型基础设施研发经验,有训练加速或推理优化项目落地经验者优先。 4. 加分项 1) 在相关会议(NeurIPS、ICML、SC)发表过分布式训练或推理优化相关论文。 2) 参与过开源项目(如 Hugging Face、PyTorch 生态)贡献,或主导过企业级 AI Infra 平台开发。
工作职责
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。
1. 多模态大模型研发与优化 1) 设计并实现多模态大模型(图文音联合建模),解决跨模态语义对齐、动态数据处理等核心问题。 2) 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 2. 多 Agent 系统算法设计 1) 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2) 结合博弈论与强化学习,开发对手建模模块,预测其他 Agent 的策略分布,优化协作效率。 3) 参与工业级 Agent 系统落地。 3. 行业场景落地与创新 1) 探索生成式 AI 与 RAG的结合,提升垂直领域的知识推理能力。 2) 跟踪前沿技术,推动技术方案的创新与落地。
1. 多模态大模型研发与优化 1) 设计并实现多模态大模型(图文音联合建模),解决跨模态语义对齐、动态数据处理等核心问题。 2) 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 2. 多 Agent 系统算法设计 1) 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2) 结合博弈论与强化学习,开发对手建模模块,预测其他 Agent 的策略分布,优化协作效率。 3) 参与工业级 Agent 系统落地。 3. 行业场景落地与创新 1) 探索生成式 AI 与 RAG的结合,提升垂直领域的知识推理能力。 2) 跟踪前沿技术,推动技术方案的创新与落地。
1、基于多模态大模型设计无影AI的技术架构,不断优化可扩展性,帮助无影业务不断快速增长。 2、支持服务上亿用户规模的高性能、分布式、可扩展的桌面和应用虚拟化产品线架构。 3、设计并实施全流式通信的 LLM 应用架构,实现端到端最佳的性能和资源效率,不断优化高并发高吞吐在线系统的健壮性。 4、结合多模态数据存储服务和RAG检索技术、多Agent协同、Function Call等,快速开发针对行业的热门应用。
团队介绍 无影是阿里巴巴发布的第一台云电脑,是在云上与客户共同定义的端。基于阿里云2.0阶段的云端一体架构,让超级数据中心直连更多的用户。一站式云控台可以提供分钟级配置,系统和应用经过流式传输和容器化架构,实现随时随地云上办公。在算力、安全、成本、敏捷、开放等方面,具有超越传统PC的优势。无影研发团队主要聚焦在云上ECS调度、容器化架构、流式传输协议、端侧系统、AI大模型等核心技术,旨在为无影产品打造超低时延和超高性能的云端一体的实时交互体验,构建面向云应用的基础平台。聚焦在无影云电脑内,无影提供了丰富的AI能力,帮助用户实现全新的高效办公体验。 职位描述 1、基于云电脑和操作系统的工作场景,深入研究AI产品规划,基于多模态大模型、知识库、UI Agent等能力,将复杂需求转化为适配AI原理且实用的产品设计。 2、与前沿研发团队紧密合作,负责AI工具和服务产品的规划、设计、以及在客户端落地和迭代、商业化。 3、与客户深度互动,了解和洞察客户痛点,以客户成功为目标开展产品设计和演进工作。 4、负责产品设计与UE设计,能够撰写高质量的需求文档等产品相关文档。