阿里云阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州
任职要求
1. 主导大模型推理全链路优化:从计算图优化、算子融合到显存管理,构建面向Transformer架构的极致优化方案 2. 构建分布式推理引擎:设计模型并行、流水线并行、张量并行混合调度策略,支撑千卡集群的线性扩展能力 3. 计算机体系结构/算法优化双重功底:精通CUDA/Triton编程,能进行kernel级优化;熟悉TVM/MLIR/XLA等编译框架 4. 实战经验:具有LLaMA、GPT、GLM等百亿级模型优化经验,熟悉FlashAttention/PagedAttention等关键技术 5. 全栈优化:掌握从算法改进(MoE/混合专家系统)、框架调优(vLLM/DeepSpeed)到硬件协同设计的完整技术链条 6. 性能调优:能通过nsight systems等工具进行端到端性能分析,具备将理论算力转化为实际吞吐的杀手级能力
工作职责
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。
1、负责安全GPU推理引擎、GPU性能优化相关技术平台,解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理,以及平台架构规划设计
1、负责将内容安全/商业安全的复杂治理需求,转化为基于大模型的识别方案。通过PE/RAG/Workflow等技术持续实验和优化,不断提升策略的准确率与召回率。 2、能够开发用于安全场景的Agent和Workflow,实现复杂风险场景的自动化识别、推理和处置。 3、探索大模型及Multi-Agent领域前沿技术,进行技术调研、原型搭建和效果验证,并推动其在业务场景中的规模化应用。 4、作为大模型技术在安全领域的专家,强目标导向地协同算法、研发、治理、产品等团队,明确技术路径,统筹项目资源,共同实现安全目标。 5、具备产品意识,不仅满足于解决单点问题,更致力于优化产品工具、提升整体安全运营的效率和智能化水平。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享