logo of aliyun

阿里云阿里云智能-深度学习训练系统研发专家-北京,杭州

社招全职云智能集团地点:北京 | 杭州状态:招聘

任职要求


● 扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力;
● 熟悉深度学习的基础理论概念,熟悉Transformer架构,熟悉主流大语言模型、多模态模型等模型特点;
● 熟练PyTorch等领域常用框架,掌握Megatron、Dee…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


● 负责PAI平台深度学习框架的研发,包括但不局限于MoE模型大规模训练框架、多模态训练框架、RLHF训练框架等,支持包括通义实验室、阿里集团等不同领域方向;参与包括基模型Pretrain、SFT等多个阶段的训练任务优化;
● 致力于提升不同阶段模型训练负载的极限吞吐,能够针对不同模型负载系统化的分析不同阶段耗时并提供相应的优化手段,优化手段包括但不局限于算子优化、通信优化、分布式策略优化等;
● 负责超大规模训练任务的稳定性的设计,通过各种手段来提升训练任务的有效吞吐,构建更可靠的故障检测系统和自愈系统,提供超大规模训练任务的丝滑体验。
● 参与训练框架对于不同硬件的支持和优化。
包括英文材料
Python+
C+++
设计模式+
深度学习+
还有更多 •••
相关职位

logo of aliyun
社招技术类-开发

1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。 2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。

更新于 2025-06-09北京|杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州
logo of aliyun
社招8年以上云智能集团

ꔷ 深入理解云安全业务场景(如攻击检测、异常行为分析、数据隐私保护、风险画像等),设计算法解决方案并实现规模化落地; ꔷ 参与设计安全大模型的规划、研发和技术迭代,构建高精度、低时延、可解释的AI模型,解决安全场景特有的技术挑战; ꔷ 负责云安全中心安全助手相关算法研究、开发、架构相关工作,提升安全助手的智能化能力和产品竞争力; ꔷ 负责算法工具链与自动化平台建设,提升算法研发效率,降低业务团队使用门槛; ꔷ 追踪AI与安全交叉领域的前沿技术(如AIGC安全、大模型对抗攻防),推动创新技术在业务场景中的预研与应用。

更新于 2025-08-04北京|杭州
logo of antgroup
社招3年以上技术-开发

蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2025-09-03北京|杭州