蚂蚁金服蚂蚁集团-推理引擎优化专家-北京/上海

社招全职5年以上技术类-开发2025-09-01地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 负责大模型推理性能的分析与优化，针对蚂蚁核心业务场景，实施推理引擎的性能优化，提升推理效率。
2. 熟悉主流推理框架（如trt、sgLang等）的使用，具备一定的框架优化能力，能够针对业务需求进行定制化优化
3. 参与推理引擎核心模块的开发，能够快速学习新特性并推动技术落地。
4. 参与PD分离架构…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研发面向云计算底座海量数据的大模型，包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发；
2、参与大模型应用研发全流程的工作，包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测；技术创新如专利、论文的撰写；外部技术影响力交流等；
3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

推理引擎+

SGLang+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招5年以上云智能集团

1.负责主流大模型（DeepSeek、通义、LLaMA等）的全栈性能优化，涵盖模型架构优化、训练/推理框架调优及底层算子优化，提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案，通过投机采样算法改进、MTP机制优化等框架级特性，提升MOE架构模型推理效率；并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性，提升集群级别的推理效率 3.完成 W8A8 等量化算法研发，并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构（NVIDIA/AMD GPU、国产化 NPU 等）进行深度硬件适配，开发高性能算子库与内存管理组件，实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14北京|深圳|杭州

蚂蚁集团-GPU推理优化高级技术专家-杭州/北京/上海

社招7年以上技术类-开发

1、负责安全GPU推理引擎、GPU性能优化相关技术平台，解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理，以及平台架构规划设计

更新于 2025-08-04杭州|北京|上海

阿里云智能-深度学习推理系统研发专家-机器学习PAI

社招3年以上云智能集团

● 设计和实现高效的分布式推理架构，提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法，确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化，减少延迟，提高整体性能。针对多种异构AI加速硬件（如NVIDIA GPU, AMD GPU, NPU等），对核心算子进行极致性能优化，最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化，减少模型存储和计算资源消耗，同时保持推理精度。探索更高效的解码算法，提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构，确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统，保证系统的高可用性和稳定性。构建灵活的系统架构，支持动态扩展，以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展，尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向，提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海

阿里云智能-技术服务专家（AI全栈）-金融行业-北京/上海/广州/深圳/成都/西安

社招3年以上云智能集团

1. 负责大模型运行所需的XPU相关软硬件平台的适配和优化工作，解决适配和优化过程中的兼容性、系统性能、稳定性、高可用等方面的技术问题； 2. 为客户提供XPU相关软硬件平台交付方案设计和部署落地服务，聚焦算力资源评估、底层软件选型、训推环境搭建、训推性能优化、大模型评测等领域为客户提供最佳实践和落地能力； 3. 为客户提供XPU算力资源池相关的高性能网络技术选型、规划设计、交付部署和性能优化服务，解决XPU、整机、POD接入和组网过程中的控制与转发技术问题； 4. 为客户提供训练数据集构建、数据合成、模型后训练、模型效果评测等服务。

更新于 2025-12-01西安|成都|北京