logo of dewu

得物【技术保障】云原生AI平台开发专家

社招全职技术类地点:杭州状态:招聘

任职要求


职位要求
1. 深度了解AI算法模型开发和上线的整个工程链路、卡点问题及相关解决方案。
2. 熟悉主流公有云/私有云的AI平台产品及解决方案,有快速将AI场景需求转换为平台特性、给出解决方案的能力。
3. 熟悉不同型号NVIDIA GPU及国产GPU的特性,可为不同的模型/算法业务场景做GPU选型。
4. 熟练掌握一个或多个AI框架,包括但不限于Tensorflow/PyTorch/Mindspore/DeepRec等,使用过DeepSpeed/Megatron/colossal-AI等加速库。
5. 熟悉和跟进云原生AI应用的发展动态,掌握其周边生态,并且有一定自己的理解。

加分项:
1. 有AIGC/大模型训练和推理优化经验者优先。
2. 有OS开发和运维、KVM虚拟化、GPU虚拟化等相关经验者优先。
3. 有KubeflowKnative使用经验,GPU调度相关经验者优先。
4. 熟悉Kubernetes的系统架构和编程范式,有Operator开发、调度器扩展或相关产品研发经验者优先。
5. 熟悉机房组网技术,有机房规划落地经验者优先。

工作职责


职位描述
1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。
2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。
3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。
4. 解决规模增长带来的技术和业务问题。
5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。
包括英文材料
算法+
TensorFlow+
PyTorch+
DeepSpeed+
Megatron+
大模型+
Kubeflow+
Knative+
Kubernetes+
相关职位

logo of sensetime
社招5年以上技术开发类

岗位职责: 主导智能体的系统设计与核心开发,涵盖对话管理、意图推理、上下文建模、响应生成、工具调用(Tool Calling)及多模态决策。 设计高可用、低延迟、可扩展的微服务架构,支持百万级 QPS,并保障系统稳定性与容灾能力。 推动大语言模型(LLM)深度集成,落地 Prompt 优化、上下文压缩、推理加速、缓存策略与 Agent 编排等关键技术。 优化全链路性能(TTFB、响应延迟),覆盖请求接入、上下文检索、模型推理到结果生成。 探索 RAG、Function Calling、记忆机制、个性化建模等前沿技术的工程化与产品化路径。 联动算法、产品与运维团队,完成从预研、灰度到上线的全周期交付。

更新于 2025-10-11
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-09-10
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力,不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系,如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-07-30