logo of antgroup

蚂蚁金服蚂蚁集团-异构计算研发工程师-北京/杭州-1024热招

社招全职2年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


● 计算机相关学科专业,基本功扎实,3年以上相关工作经验。
● 熟悉Linux开发环境,掌握C/C++/Python编程语言,具备CUDA算子开发能力,掌握cutlass/CuTe/triton等算子开发工具,掌握nsys/ncu等profile工具。
● 深度理解GPU体系结构和CUDA编程模型,掌握GPU算子开发和性能调优技术,掌握GPU显存优化技术。
● 掌握FlashAtten…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 参与以GPU等AI芯片为基础的高性能计算项目,深度分析GPU硬件体系结构,建设打磨极致的算子优化和显存优化等技术,逼近硬件理论性能峰值,突破大模型训推的显存墙,提升蚂蚁异构计算集群的硬件效率。
● 针对蚂蚁大模型训推的性能和效率等问题,持续迭代算子库、显存优化技术和工具链,构建AI系统生态。
● 持续跟踪行业前沿技术,参与开源社区的贡献。
包括英文材料
Linux+
C+
C+++
Python+
CUDA+
还有更多 •••
相关职位

logo of didi
校招工程-后端类

1、深度参与引擎优化工作,包括算子、计算图、内存优化、编译优化、分布式训练等工作 2、深度参与各类异构计算平台 AI 工程与性能优化相关工作 3、深度参与大模型推理优化相关工作。

更新于 2025-10-09杭州|北京
logo of aliyun
实习阿里云2026届

阿里云持续推进AI技术深化战略布局,围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 负责云计算和大数据基础技术研发,包括不限于以下方向: 1、云基础设施技术,包括研发面向百万级服务器的网络(如RDMA、可编程芯片)、服务器(如异构计算)、数据中心,以及构建超大规模的基础设施智能化运维体系(如AIOps); 2、虚拟化技术,包括XEN、KVM等开源技术的改进,以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术,还包括Docker等轻量级的容器方案; 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进; 4、包含单集群上万个节点,多地多集群的超大规模分布式存储系统(文件系统,KVstore,BigTable等等)、分布式计算系(MapReduce,DAG,MPI并行计算、Batch、类Hive/spark的计算系统包括离线,分布式开发语言,分布式开发IDE,查询优化,流式实时计算,图计算,MPP等等)、弹性分布式资源管理和调度(海量多维度的多目标的调度系统,多个资源维度资源隔离技术等等)、机器学习平台(包括Paratemter Server,深度学习,逻辑回归等等)、异构等新型硬件上计算(包括CPU,GPU,FPGA,RDMA等等); 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体,在近百毫秒周期内,从服务端跨越至移动端上智能,支撑总体近TB级的模型,完成知识推理向量匹配等各种召回,以及其它深度学习的排序和预测算法,参与计算的数十亿商品保持实时更新,支持数百位算法工程师面向众多场景展开测试,在算子流图化的抽象之下,引擎内的模型和数据可随时调整布局满足迭代所需; 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作,toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29北京|成都|杭州
logo of tongyi
社招5年以上技术类-算法

1. 主导面向ToB行业(如AI手机厂商、智能汽车Tier1/主机厂等)的多模态交互系统整体架构设计,制定可扩展、高性能、低延迟的技术方案。 2. 深度参与客户需求分析,抽象行业共性问题,构建标准化、模块化的交互算法平台,支持多客户、多终端快速适配。 3. 负责核心交互链路的设计与优化,包括但不限于:端云协同语音识别与合成、多轮对话管理、视觉-语言跨模态理解、情境感知建模、用户意图预测与个性化响应。 4. 推动算法在资源受限设备(如车载芯片、手机SoC)上的高效部署,兼顾精度、功耗与实时性。 5. 牵头关键技术攻关,评估并引入大模型(LLM)、多模态基础模型(Multimodal Foundation Models)等前沿技术在交互场景中的应用路径。 6. 协同产品、硬件、OS、云服务及客户工程团队,确保技术方案从概念到量产的高质量交付。 7. 输出面向客户的架构白皮书、技术提案及标杆案例,支撑售前技术交流与生态合作。

更新于 2025-11-22北京|杭州
logo of antgroup
校招蚂蚁集团2026

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1. 负责训推一体框架的设计与开发,服务蚂蚁内部的强化学习场景; 2. 建设面向训推一体的显存管理体系和高性能数据存储方案; 3. 负责实时高性能训推系统设计与开发,如分布式训练加速策略、算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 4. 负责整体性能优化与架构升级,持续提升训练/推理性能; 5. 与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

北京|杭州