logo of aligenie

智能互联智能引擎-AI 高性能计算专家-大模型推理

社招全职3年以上地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机、电子工程或相关专业本科及以上学历,对计算机体系结构有深刻理解。
2. 拥有深厚的GPU/NPU/XPU高性能计算优化经验,精通至少一种异构计算平台及编程模型(如CUDA, ROCm, OpenCL, SYCL, CANN等)。
3. 熟悉现代AI模型(特别是Transformer架构)中关键算子的计算原理和优化方法。

具备以下至少…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们是阿里巴巴大模型推理团队,负责内部 LLM/AIGC 百炼推理服务建设,为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。
AI 高性能计算工程师负责探索不同AI芯片(NV,AMD, 华为昇腾, TPU, 寒武纪等)的底层架构,使用硬件手写原生 Kernel、 Trition/Tilelang 编译优化等手段,解决“从0到1”(跑通)和“从1到N”(跑得快)的关键问题。
包括英文材料
学历+
CUDA+
OpenCL+
Transformer+
还有更多 •••
相关职位

logo of amap
社招5年以上技术类-开发

1. 主导具身智能机器人(不限于四足/人形/物流设备等)的系统架构设计及核心器件选型: 全面负责机器人本体硬件平台(结构、电驱、传感器系统)及运动控制系统的顶层设计、技术路线制定与关键器件评估选型; 2. 以具身AGI为技术导向,领导硬件与控制研发: 聚焦解决大空间、复杂室内外场景下的机器人高动态移动控制、鲁棒导航及自然人机交互等核心挑战,推动高性能硬件与控制算法的协同创新与工程落地; 3. 驱动端到端视觉-语言-动作(Vision-Language-Action)算法在机器人平台的集成与量产化:与算法团队协作,实现端到端VLA模型在机器人的高效部署、实时推理及性能优化,构建支撑算法迭代的闭环数据系统(数据引擎与数据飞轮); 4. 引领技术前沿与构建影响力: 持续跟踪并研判行业前沿技术方案(硬件、控制、感知与AI融合),主导具身智能软硬件协同的核心技术攻关,并通过开源、顶会论文、专利等方式建立并提升团队的技术领导力与行业影响力。

更新于 2025-06-20北京
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州
logo of bytedance
社招A00725A

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架; 2、主要通过GPU、CUDA性能优化的手段,结合线上实际情况,打造业界领先的高性能LLM推理引擎; 3、负责机器学习系统前瞻技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-05-08北京
logo of aliyun
社招技术类-开发

1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-07-02上海