阿里云阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招全职3年以上云智能集团2025-12-01地点：北京状态：招聘

扫码手机上打开

任职要求

1. 3年以上泛娱乐、零售、金融、教育等行业大型互联网应用或集团型企业应用的解决方案、架构设计、监控方案、Devops、AIops、维护、高可用改造方案经验。
2. 熟悉主流数据库和大数据技术，如MySQL、SQL Server、Oracle、PostgreSQL、Redis、Memcache等，大数据产品技术架构包括但不限于Hive、HBase、Kafka、Flink、ES、Spark、IceBerg、Hudi、Presto等， 对于数据库排障、业务架构优化、分布式底层架构、湖仓融合、存算分离等技术架构具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 作为企业客户技术服务工作的第一责任人，深入了解客户业务场景，与客户的架构、开发、运维团队深入合作，梳理分析客户现有云产品及应用架构，围绕企业客户上云、云上业务设计稳定性优化方案，从云上监控，主动发现，灾难演练，业务快恢/降级方案，高可用架构改造等方面协助客户持续优化云上稳定性。
2. 与阿里云各团队充分合作，从客户架构视角出发进行问题处置、护航保障、风险治理，并沉淀输出最佳实践及工具产品，面向客户痛点主动进行专项高阶服务。
3. 追踪客户关键稳定性问题，持续协助客户治理并不断推动阿里云产品及服务的优化改进。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

DevOps+

高可用+

大数据+

SQL+

MySQL+

SQL Server+

Oracle+

ElasticSearch+

PostgreSQL+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招2年以上云智能集团

岗位描述： 1. 企业级 AI Agent 工程落地指导作为客户 AI 应用技术服务的第一责任人，深入理解客户业务场景与技术痛点，主导Agent等工程全链路落地服务：从 RAG 构建、知识库向量化、Prompt Engineering 调优，到多 Agent 协作编排、工具链集成与 Function Call调试，确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计，负责从数据到模型端到端技术支持数据侧：设计数据采集、清洗、标注流程，搭建高质量训练数据 Pipeline 训练侧：基于 PAI 平台进行模型微调（SFT/RLHF）、LoRA 适配、分布式训练集群调度推理侧：优化推理性能（KV Cache、Flash Attention）、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障从客户架构视角出发，通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系，覆盖 SaaS 层（百炼/通义）、PaaS 层（PAI/DashScope）、IaaS 层（GPU 实例/高速网络）。结合大模型业务的高并发、长文本等流量特征，制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发，基于云上卓越架构最佳实践，主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度，推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案，确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

更新于 2026-04-03北京

阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招2年以上

更新于 2026-04-03北京

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

AI平台开发工程师-数据方向-机器学习平台

社招3年以上机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责机器学习链路，离在线数据相关的开发工作，包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作；包括样本平台，特征平台，训练平台，推理平台等AI应用后台建设等； 3、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

上海