智能互联智能引擎-AI 高性能计算专家-大模型推理

社招全职3年以上2026-04-08地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、电子工程或相关专业本科及以上学历，对计算机体系结构有深刻理解。
2. 拥有深厚的GPU/NPU/XPU高性能计算优化经验，精通至少一种异构计算平台及编程模型（如CUDA, ROCm, OpenCL, SYCL, CANN等）。
3. 熟悉现代AI模型（特别是Transformer架构）中关键算子的计算原理和优化方法。

具备以下至少…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是阿里巴巴大模型推理团队，负责内部 LLM/AIGC 百炼推理服务建设，为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。
AI 高性能计算工程师负责探索不同AI芯片（NV，AMD, 华为昇腾, TPU, 寒武纪等）的底层架构，使用硬件手写原生 Kernel、 Trition/Tilelang 编译优化等手段，解决“从0到1”（跑通）和“从1到N”（跑得快）的关键问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

CUDA+

OpenCL+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

AI Business-AI Infra研发专家-杭州

社招3年以上技术类-开发

团队介绍：阿里国际以AI技术驱动，助力全球数字贸易及电商生态的发展。AlBusiness是阿里国际内部集大模型研究及智能化前沿产品研发于一体的AI部门，自研面向跨境商贸增强的多语言大模型-Marco和多模态大模型 -Ovis，依托全球化的AI基础设施和算力资源，帮助 AliExpress、Lazada、Alibaba国际站、Trendyol、 Daraz等平台全面革新跨境电商全链路的经营体验和商业效率。基于先进的大模型与工程技术，我们正在打造新一代的智能体（Agent）和智能引擎（Deep Search）产品，持续致力于让全球商业没有语言障碍，用智能帮助跨境贸易更加简单。职位描述： 1. 进行AI Infra相关的研发工作，包括但不限于模型推理引擎，分布式训练框架，模型部署和服务，任务分发和调度，弹性扩缩容，高性能计算集群管理等。 2. 通过AI Infra的研发工作，支持LLM和多模态等大模型的研发、部署和上线服务，支持Agentic AI等新型AI产品的研发和应用，保障客户体验，实现业务落地和成本降低等目标。 3. 与算法、产品、运营以及工程等团队通力合作，推进AI产品和技术的发展和应用。

更新于 2026-01-15杭州

阿里云智能-推理引擎内核研发专家(SGLang)--AI领域

社招1年以上云智能集团

- 参与大模型推理引擎（基于 SGLang 框架）的设计与核心模块开发，支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 - 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术，加速大模型推理速度并降低部署成本，并优化其稳定性、易用性。 - 针对 GPU/AI 芯片架构（含自研硬件），开展针对性性能调优，优化算子、内存管理、KV Cache 管理等核心模块 - 与算法、产品及业务团队协作，推动不同模型场景下的系统端到端性能优化 - 关注并引入前沿大模型推理技术，参与 SGLang 及相关开源生态的维护与贡献

更新于 2026-01-19北京|杭州|上海

时空数据流调度专家

社招5年以上智能与信息技术

职位描述 1、承接端到端自动驾驶/大语言各类前沿AI模型负载，面向自研AI芯片，聚焦研发设计AI模型的数据流时空调度算法、编译软件栈，实现高性能推理； 2、参与AI模型的时空数据流调度器构建，包括数学建模、算法开发、计算图优化，用简洁优美的数学方法，将大规模计算图负载切分、调度到自研AI芯片上，验证正确性、优化AI负载的推理性能； 3、参与AI算子库的开发和优化，支撑算法模型推理所需算子的功能和基本性能要求，分析性能瓶颈，构建方案优化； 4、与自研芯片架构师合作，协助芯片架构设计与演进，参与制定芯片软硬件协作方案。

北京

推理GPU性能优化工程师/专家-Seed

社招A00725A

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架； 2、主要通过GPU、CUDA性能优化的手段，结合线上实际情况，打造业界领先的高性能LLM推理引擎； 3、负责机器学习系统前瞻技术的调研和引入； 4、与算法部门深度合作，进行算法与系统的联合优化。

更新于 2024-05-08北京