蚂蚁金服蚂蚁集团-AI分布式计算专家/架构师-杭州/北京
任职要求
必须具备的: 1. 本科及以上学历,计算机、数学、通信、自动化等相关专业,硕士或博士学位者优先 2. 精通至少一种编程语言,如Python、C++或Java,码力强,并具备出色的软件工程能力 3. 拥有至少一种分布式系统的设计、优化和性能调优经验 4. 具备良好的问题分析和解决能力,能够独立解决复杂技术挑战 可以加分的: 1. 有在Ray或相关开源项目上的开发经验,对R…
工作职责
1. 负责面向大规模分布式环境对Ray引擎进行定制开发,包括优化支持AI工作负载的系统架构设计、性能优化、功能改进以及问题诊断与解决;方向包括但不限于:多语言分布式编程框架、面向AI任务的资源调度优化、高效组件通信、支持大规模AI计算的共享内存对象存储、运行时环境构建、故障恢复等 2. 参与基于K8S的Ray平台化能力建设,包括云原生部署、资源弹性、可观测性、产品化等能力 3. 探索Ray在企业内部包括AI在内的各类分布式计算场景中的创新与落地 4. 参与Ray开源社区建设,通过讨论、文档撰写、代码贡献等形式推动Ray在分布式计算领域的发展与创新
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。