logo of antgroup

蚂蚁金服蚂蚁集团-深度学习系统研发专家/高级专家-北京/杭州/上海【数据平台】

社招全职3年以上技术-基础平台地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机相关学科研究生学历以上,基本功扎实,5(+)年相关工作经验;
2. 精通至少一门 Python/Go/C++ 等编程语言,并有良好的代码风格;
3. 具有分布式系统服务/并行计算系统设计与研发优化经验;
4. 代码级精通主流深度学习框架及扩展库的使用及算子开发,例如TensorFlow/PyTorch/DeepSpeed/FairScale/ColossalAI/Huggingface等;
5. 有 CUDA 开发经验者优先;
6. 有 深度学习编译技术栈开发经验者优先,如:MLIR,openxla,torch dynamo/inductor,openai-triton,...
7. 有开源社区经验者优先;
8. 熟悉文本/语音/图像/推荐等模型算法者优先。

工作职责


1. 对接蚂蚁所有业务线的深度学习训练优化,开发分布式加速策略,定制算子,优化训练中数据预处理,低精度训练等模块,最终沉淀为通用解决方案并实现其自动化;
2. PyTorch/TensorFlow 等分布式训练内核优化扩展库研发;
3. 负责蚂蚁深度学习智能训练服务的研发;
4. 蚂蚁端到端的在线/离线学习训练系统开发。
5. 参与蚂蚁新一代分布式深度学习编译器开发
6. 参与蚂蚁开源深度学习系统DLRover开发建设
包括英文材料
学历+
Python+
Go+
C+++
分布式系统+
系统设计+
深度学习+
TensorFlow+
PyTorch+
DeepSpeed+
CUDA+
算法+
Triton Inference Server+
相关职位

logo of antgroup
社招5年以上技术-综合

1. 技术团队建设与管理 (1)负责L2/PFE(Premier Field Engineer)技术工程师团队的搭建、能力培养及梯队建设,制定技术标准与协作流程;配合CSM(客户成功经理)及技术支持(Support Center)团队,快速、专业地解决客户技术问题,保障客户满意度; (2)管理派驻客户区域的PFE工程师团队,优化全球技术服务响应机制、保障团队管理与服务响应效率; 2. 复杂问题攻关与升级支持 (1)作为服务团队内部的技术问题兜底责任人,主导客户复杂技术问题(含TAM/CSM团队升级问题)的诊断与解决,覆盖领域包括但不限于: (2)移动端开发(Android/iOS/mPaaS/H5应用开发、性能优化、疑难故障排查); (3)金融风控系统(决策引擎、全球实人认证、反欺诈技术等); (4)AI PaaS相关架构与平台; (5)沉淀技术解决方案,建立知识库并推动产品技术的持续迭代优化; 3. 全球客户现场技术赋能 (1)能主导高价值客户的现场技术护航,提供架构优化、故障根因分析、技术风险防控等深度服务; (2)面向全球客户(含跨国企业),完成流畅的英语技术沟通支持及文档交付; 4. 技术能力体系化建设 (1)推进技术培训体系,提升一线支持团队(L1/L2)及TAM团队的技术能力; (2)联合产品与研发团队,推动技术服务的标准化与系统化赋能。

更新于 2025-05-12
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14
logo of alibaba
社招2年以上技术类-算法

我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。 岗位描述: 1、参与并负责搜索、推荐算法研发,提升全球不同语言的搜索精准性和国家差异化个性化推荐体验。 2、参与并负责广告算法研发,提升全域流量广告流量变现效率,通过竞价及投放优化、素材生成等提升商家投放效率。 3、参与并负责用增算法的研发,提升电商获客效率,建设优化个性化外投广告、个性化触达消息、个性化权益补贴等算法能力。 4、参与研发生成式AI技术,推动生成式AI在国际电商领域的创新应用。

更新于 2025-08-11
logo of aliyun
社招技术类-开发

1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。 2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。

更新于 2025-06-09