得物【技术保障】云原生AI平台开发专家

社招全职技术类2023-12-26地点：杭州状态：招聘

扫码手机上打开

任职要求

职位要求
1. 深度了解AI算法模型开发和上线的整个工程链路、卡点问题及相关解决方案。
2. 熟悉主流公有云/私有云的AI平台产品及解决方案，有快速将AI场景需求转换为平台特性、给出解决方案的能力。
3. 熟悉不同型号NVIDIA GPU及国产GPU的特性，可为不同的模型/算法业务场景做GPU选型。
4. 熟练掌握一个或多个AI框架，包括但不限于Tensorflow/PyTorch/Mindspore/DeepRec等，使用过DeepSpeed/Megatron/coloss…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

职位描述
1. 定位为资深AI Infra Arch，在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术，可带领团队建设AI平台，助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率，加速AI能力向业务效果的转换。
2. 负责设计研发得物AI平台，对AI算力相关相关资源（GPU/TPU/CPU、存储、网络等）做平台化管理，持续提升资源利用率，为业务提供一个满足企业级稳定性和性能要求的AI平台。
3. 负责训练和推理引擎优化，助力各算法业务场景提升模型迭代效率、提高推理服务性能。
4. 解决规模增长带来的技术和业务问题。
5. 解决多云场景下的AI算力资源、数据资源的管理问题，以及业务使用效率问题，目标是降本提效。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

TensorFlow+

PyTorch+

DeepSpeed+

还有更多 •••

登录查看完整学习资料

相关职位

语音开发专家

社招5年以上技术开发类

岗位职责：主导智能体的系统设计与核心开发，涵盖对话管理、意图推理、上下文建模、响应生成、工具调用（Tool Calling）及多模态决策。设计高可用、低延迟、可扩展的微服务架构，支持百万级 QPS，并保障系统稳定性与容灾能力。推动大语言模型（LLM）深度集成，落地 Prompt 优化、上下文压缩、推理加速、缓存策略与 Agent 编排等关键技术。优化全链路性能（TTFB、响应延迟），覆盖请求接入、上下文检索、模型推理到结果生成。探索 RAG、Function Calling、记忆机制、个性化建模等前沿技术的工程化与产品化路径。联动算法、产品与运维团队，完成从预研、灰度到上线的全周期交付。

更新于 2025-10-11上海

蚂蚁集团-AI研发平台技术专家-杭州/上海/北京【数据平台】

社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作，覆盖机器学习系统多个子方向领域的工作，包括：数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等，建设支持AI全链路的研发平台与AI垂类应用开发平台，实现算法研发效率、和资源利用率的最大化，灵活可扩展的支持不同领域的个性化应用开发需求，为蚂蚁大模型研发链路及应用研发探索新的研发模式； 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现，帮助团队攻克各种技术难关，保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州

阿里云智能-AI智算集群监管控算力管理平台开发专家-杭州/北京

社招5年以上云智能集团

1. 建设灵骏监管控系统核心能力，不断提升客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设智算集群库存管理、节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力，持续提升灵骏智算集群产品竞争力。 3. 建设系统自身高可用体系，如管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统，持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术，结合业务场景进行创新。 6. 该职位涉及值班响应的职责，在服务级别协议（SLA）时间内做出对客响应，推动客户问题的解决，改善客户体验。

更新于 2025-09-10北京|杭州

阿里云智能-AI智算集群监管控及算力管理平台开发专家-杭州/北京

社招5年以上云智能集团

更新于 2025-07-30北京|杭州