
得物【技术保障】云原生AI平台开发专家
任职要求
职位要求 1. 深度了解AI算法模型开发和上线的整个工程链路、卡点问题及相关解决方案。 2. 熟悉主流公有云/私有云的AI平台产品及解决方案,有快速将AI场景需求转换为平台特性、给出解决方案的能力。 3. 熟悉不同型号NVIDIA GPU及国产GPU的特性,可为不同的模型/算法业务场景做GPU选型。 4. 熟练掌握一个或多个AI框架,包括但不限于Tensorflow/PyTorch/Mindspore/DeepRec等,使用过DeepSpeed/Megatron/colossal-AI等加速库。 5. 熟悉和跟进云原生AI应用的发展动态,掌握其周边生态,并且有一定自己的理解。 加分项: 1. 有AIGC/大模型训练和推理优化经验者优先。 2. 有OS开发和运维、KVM虚拟化、GPU虚拟化等相关经验者优先。 3. 有Kubeflow、Knative使用经验,GPU调度相关经验者优先。 4. 熟悉Kubernetes的系统架构和编程范式,有Operator开发、调度器扩展或相关产品研发经验者优先。 5. 熟悉机房组网技术,有机房规划落地经验者优先。
工作职责
职位描述 1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。 2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。 3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。 4. 解决规模增长带来的技术和业务问题。 5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。

岗位职责: 主导智能体的系统设计与核心开发,涵盖对话管理、意图推理、上下文建模、响应生成、工具调用(Tool Calling)及多模态决策。 设计高可用、低延迟、可扩展的微服务架构,支持百万级 QPS,并保障系统稳定性与容灾能力。 推动大语言模型(LLM)深度集成,落地 Prompt 优化、上下文压缩、推理加速、缓存策略与 Agent 编排等关键技术。 优化全链路性能(TTFB、响应延迟),覆盖请求接入、上下文检索、模型推理到结果生成。 探索 RAG、Function Calling、记忆机制、个性化建模等前沿技术的工程化与产品化路径。 联动算法、产品与运维团队,完成从预研、灰度到上线的全周期交付。
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。
1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。