
智能互联智能引擎-AI 高性能计算专家-大模型推理
任职要求
1. 计算机、电子工程或相关专业本科及以上学历,对计算机体系结构有深刻理解。 2. 拥有深厚的GPU/NPU/XPU高性能计算优化经验,精通至少一种异构计算平台及编程模型(如CUDA, ROCm, OpenCL, SYCL, CANN等)。 3. 熟悉现代AI模型(特别是Transformer架构)中关键算子的计算原理和优化方法。 具备以下至少…
工作职责
我们是阿里巴巴大模型推理团队,负责内部 LLM/AIGC 百炼推理服务建设,为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。 AI 高性能计算工程师负责探索不同AI芯片(NV,AMD, 华为昇腾, TPU, 寒武纪等)的底层架构,使用硬件手写原生 Kernel、 Trition/Tilelang 编译优化等手段,解决“从0到1”(跑通)和“从1到N”(跑得快)的关键问题。
团队介绍: 阿里国际以AI技术驱动,助力全球数字贸易及电商生 态的发展。AlBusiness是阿里国际内部集大模型研究 及智能化前沿产品研发于一体的AI部门,自研面向跨境商贸增强的多语言大模型-Marco和多模态大模型 -Ovis,依托全球化的AI基础设施和算力资源,帮助 AliExpress、Lazada、Alibaba国际站、Trendyol、 Daraz等平台全面革新跨境电商全链路的经营体验和 商业效率。基于先进的大模型与工程技术,我们正在打造新一代的智能体(Agent)和智能引擎(Deep Search)产品,持续致力于让全球商业没有语言障碍,用智能帮助跨境贸易更加简单。 职位描述: 1. 进行AI Infra相关的研发工作,包括但不限于模型推理引擎,分布式训练框架,模型部署和服务,任务分发和调度,弹性扩缩容,高性能计算集群管理等。 2. 通过AI Infra的研发工作,支持LLM和多模态等大模型的研发、部署和上线服务,支持Agentic AI等新型AI产品的研发和应用,保障客户体验,实现业务落地和成本降低等目标。 3. 与算法、产品、运营以及工程等团队通力合作,推进AI产品和技术的发展和应用。
- 参与大模型推理引擎(基于 SGLang 框架)的设计与核心模块开发,支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 - 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术,加速大模型推理速度并降低部署成本, 并优化其稳定性、易用性。 - 针对 GPU/AI 芯片架构(含自研硬件),开展针对性性能调优,优化算子、内存管理、KV Cache 管理等核心模块 - 与算法、产品及业务团队协作,推动不同模型场景下的系统端到端性能优化 - 关注并引入前沿大模型推理技术,参与 SGLang 及相关开源生态的维护与贡献
职位描述 1、 承接端到端自动驾驶/大语言各类前沿AI模型负载,面向自研AI芯片,聚焦研发设计AI模型的数据流时空调度算法、编译软件栈,实现高性能推理; 2、 参与AI模型的时空数据流调度器构建,包括数学建模、算法开发、计算图优化,用简洁优美的数学方法,将大规模计算图负载切分、调度到自研AI芯片上,验证正确性、优化AI负载的推理性能; 3、 参与AI算子库的开发和优化,支撑算法模型推理所需算子的功能和基本性能要求,分析性能瓶颈,构建方案优化; 4、 与自研芯片架构师合作,协助芯片架构设计与演进,参与制定芯片软硬件协作方案。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架; 2、主要通过GPU、CUDA性能优化的手段,结合线上实际情况,打造业界领先的高性能LLM推理引擎; 3、负责机器学习系统前瞻技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。