logo of alibaba

阿里巴巴AI Infra工程师

实习兼职阿里巴巴2027届实习生地点:北京 | 成都 | 广州 | 杭州 | 上海 | 深圳状态:招聘

任职要求


1. 基础条件:
● 计算机、软件工程等相关专业优先。
● 热衷于数据结构算法、在ACM大赛成绩优异者优先;有顶会论文/高影响项目/开源贡献者加分。
2. 专业能力:
● 系统工程与编程能力:具备良好的系统工程基础,熟悉 Linux 开发环境,掌握 PythonGoJava 等至少一门编程语言,具备扎实的工程实现能力。
● 分布式系统:了解分布式系统基本原理(如一致性、容错、扩展性等)。
● AI 系统领域专业知识:对于以下领域中的一项或者多项具备专业能力
    ○ 了解 AI 的基本原理与常见算法,理解模型训练任务的基本流程及其资源需求。
    ○ 了解主流训练推理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


在这里,你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施,通过软硬件协同优化,解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率,为 AI 时代的算力底座注入核心动力。

具体的职责包括以下相关方向的一项或多项:
1. 算力基建与分布式训练:
● 深入分布式训练架构,优化通信与底层算子性能,解决大规模集群通信瓶颈,提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。
极致推理加速:
● 针对大规模推理场景,研发高性能推理引擎,通过kernel、框架、与算法结合的有损优化等手段,实现极致的低延迟与高并发。
2. 智能化资源调度与系统:
● 构建大规模 GPU 集群的统一调度与编排系统,实现算力资源的弹性分配与自动化调度,设计与优化面向 AI 计算场景的高性能通信、存储系统,保障海量任务的极致的效率。
3. 工程效率与平台化建设:
● 打造一体化的平台,覆盖大模型研发和迭代的全流程,降低模型迭代门槛,提升研发效能。
包括英文材料
数据结构+
算法+
Linux+
Python+
Go+
Java+
还有更多 •••