阿里云阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州
任职要求
1. 主导大模型推理全链路优化:从计算图优化、算子融合到显存管理,构建面向Transformer架构的极致优化方案 2. 构建分布式推理引擎:设计模型并行、流水线并行、张量并行混合调度策略,支撑千卡集群的线性扩展能力 3. 计算机体系结构/算法优化双重功底:精通CUDA/Triton编程,能进行kernel级优化;熟悉TVM/MLIR/XLA等编译框架 4. 实战经验…
工作职责
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。
1、负责安全GPU推理引擎、GPU性能优化相关技术平台,解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理,以及平台架构规划设计
1、测试体系搭建:主导大模型全生命周期测试体系构建,覆盖预训练、微调、对齐、推理等核心阶段,制定适配大模型特性的测试策略、流程规范与质量评估标准。 2、测试执行与攻坚:牵头核心大模型版本的测试执行,负责复杂场景的测试用例设计、执行与缺陷分析,定位并推动解决大模型的深层次问题; 3、搭建自动化测试框架与工具链,实现大模型能力评估的自动化、规模化,提升测试效率与覆盖度;针对多模态大模型,设计图像、语音、文本融合场景的测试方法。 4、质量评估与优化:建立大模型质量评估体系,引入行业权威评测基准与自定义评测指标,输出客观、全面的模型质量报告,为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势,引入前沿测试方法与工具,持续优化测试流程与评估标准,提升团队测试技术水平。 5、负责大模型测试过程中的合规性把控,确保测试数据、测试流程符合国家相关法律法规及行业标准,规避模型上线后的合规风险。
1、负责将内容安全/商业安全的复杂治理需求,转化为基于大模型的识别方案。通过PE/RAG/Workflow等技术持续实验和优化,不断提升策略的准确率与召回率。 2、能够开发用于安全场景的Agent和Workflow,实现复杂风险场景的自动化识别、推理和处置。 3、探索大模型及Multi-Agent领域前沿技术,进行技术调研、原型搭建和效果验证,并推动其在业务场景中的规模化应用。 4、作为大模型技术在安全领域的专家,强目标导向地协同算法、研发、治理、产品等团队,明确技术路径,统筹项目资源,共同实现安全目标。 5、具备产品意识,不仅满足于解决单点问题,更致力于优化产品工具、提升整体安全运营的效率和智能化水平。