
得物【技术保障】云原生AI平台开发专家
任职要求
职位要求 1. 深度了解AI算法模型开发和上线的整个工程链路、卡点问题及相关解决方案。 2. 熟悉主流公有云/私有云的AI平台产品及解决方案,有快速将AI场景需求转换为平台特性、给出解决方案的能力。 3. 熟悉不同型号NVIDIA GPU及国产GPU的特性,可为不同的模型/算法业务场景做GPU选型。 4. 熟练掌握一个或多个AI框架,包括但不限于Tensorflow/PyTorch/Mindspore/DeepRec等,使用过DeepSpeed/Megatron/coloss…
工作职责
职位描述 1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。 2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。 3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。 4. 解决规模增长带来的技术和业务问题。 5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。