logo of aliyun

阿里云阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招全职5年以上云智能集团地点:北京 | 深圳 | 杭州 | 上海状态:招聘

任职要求


1. 主导大模型推理全链路优化:从计算图优化、算子融合到显存管理,构建面向Transformer架构的极致优化方案
2. 构建分布式推理引擎:设计模型并行、流水线并行、张量并行混合调度策略,支撑千卡集群的线性扩展能力
3. 计算机体系结构/算法优化双重功底:精通CUDA/Triton编程,能进行kernel级优化;熟悉TVM/MLIR/XLA等编译框架
4. 实战经验…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率
2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率
3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化
4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
包括英文材料
大模型+
Transformer+
推理引擎+
算法+
CUDA+
内核+
还有更多 •••
相关职位

logo of aliyun
社招7年以上云智能集团

1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。

更新于 2025-08-01北京|上海|深圳
logo of antgroup
社招7年以上技术类-开发

1、负责安全GPU推理引擎、GPU性能优化相关技术平台,解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理,以及平台架构规划设计

更新于 2025-08-04杭州|北京|上海
logo of honor
社招5年以上研发类

1、测试体系搭建:主导大模型全生命周期测试体系构建,覆盖预训练、微调、对齐、推理等核心阶段,制定适配大模型特性的测试策略、流程规范与质量评估标准。 2、测试执行与攻坚:牵头核心大模型版本的测试执行,负责复杂场景的测试用例设计、执行与缺陷分析,定位并推动解决大模型的深层次问题; 3、搭建自动化测试框架与工具链,实现大模型能力评估的自动化、规模化,提升测试效率与覆盖度;针对多模态大模型,设计图像、语音、文本融合场景的测试方法。 4、质量评估与优化:建立大模型质量评估体系,引入行业权威评测基准与自定义评测指标,输出客观、全面的模型质量报告,为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势,引入前沿测试方法与工具,持续优化测试流程与评估标准,提升团队测试技术水平。 5、负责大模型测试过程中的合规性把控,确保测试数据、测试流程符合国家相关法律法规及行业标准,规避模型上线后的合规风险。

更新于 2026-01-09北京|上海
logo of xiaohongshu
社招2年以上审核策略

1、负责将内容安全/商业安全的复杂治理需求,转化为基于大模型的识别方案。通过PE/RAG/Workflow等技术持续实验和优化,不断提升策略的准确率与召回率。 2、能够开发用于安全场景的Agent和Workflow,实现复杂风险场景的自动化识别、推理和处置。 3、探索大模型及Multi-Agent领域前沿技术,进行技术调研、原型搭建和效果验证,并推动其在业务场景中的规模化应用。 4、作为大模型技术在安全领域的专家,强目标导向地协同算法、研发、治理、产品等团队,明确技术路径,统筹项目资源,共同实现安全目标。 5、具备产品意识,不仅满足于解决单点问题,更致力于优化产品工具、提升整体安全运营的效率和智能化水平。

更新于 2025-09-30北京|上海|武汉