logo of aligenie

智能互联阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招全职2年以上地点:北京状态:招聘

任职要求


1. 2年以上泛娱乐、零售、金融、教育等行业大型互联网应用(含AI原生应用)或集团型企业应用的研发、架构设计、监控方案、Devops、AIops、维护、高可用改造方案经验。
2. 熟悉Agent开发框架及工具(LangChain/Dify/LlamaIndex/百炼等),模型推理框架(vLLM /sglang),模型训练框架(LlamaFactory、swift等),具备GPU集群调度、资源隔离、显存优化相关经验,能够解决大规模算力下的性能瓶颈与稳定性问题。
3. 熟悉主流大模型推理框架(如 vLLM, Triton Inference Server, TensorRT-LLM, TGI 等)。
4. 了解 NVIDIA GPU 底层架构及分布式通信机制(如 NVLink, NCCL, RDMA/RoCE 高速网络)。
5. 熟悉JAVA、Python、GO其中一门开发语言,熟悉常见中间件、数据库、大数据组件,如Redis、Nacos、K8s、Kafka、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位描述:
1. 企业级 AI Agent 工程落地指导
作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。
2.  大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持
数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline
训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度
推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理
3. AI 云原生稳定性保障
从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。
4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。
包括英文材料
系统设计+
DevOps+
高可用+
AI agent+
开发框架+
LangChain+
LlamaIndex+
vLLM+
SGLang+
Swift+
大模型+
Triton Inference Server+
TensorRT+
TGI+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2. 与阿里云各团队充分合作,从客户架构视角出发进行问题处置、护航保障、风险治理,并沉淀输出最佳实践及工具产品,面向客户痛点主动进行专项高阶服务。 3. 追踪客户关键稳定性问题,持续协助客户治理并不断推动阿里云产品及服务的优化改进。

更新于 2025-12-01北京
logo of aliyun
社招2年以上云智能集团

岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

更新于 2026-04-03北京
logo of didi
社招2-12年技术

Location: 杭州市西湖区西溪谷国际商务中心G座 上海在静安区氪空间 北京在昌平龙泽地铁站滴滴天空之城A座 我们这里是滴滴国际金融最重要的业务和技术底盘,用技术的手段将底盘能力做扎实(即保障资金安全、业务系统高可用), 国际化业务才能在更专注的去追寻业务的高速发展,不用因为技术底盘不扎实而影响业务的发展。如果你对这一块有兴趣,会得到比较快的技术成长 * 国际化业务目前发展势头良好。
 * 资金安全&高可用,预防线上的资损问题和高可用问题,是国际金融业务的核心技术和底盘。
 * 团队氛围开放积极,有机会与国内外各部门业务与技术进行日常交流学习。 职责要求: 1、滴滴国际化金融(IBG FinTech) 技术风险能力建设,包含应急能力、变更防御、红蓝攻防、性能容量、资金安全,构建Fintech技术风险体系; 2、参与重大项目的技术风险保障工作,对技术风险领域进行评审和分析; 3、贴身业务,挖掘业务风险,沉淀技术风险领域标杆,释放研发技术风险投入,更聚焦在业务研发上; 4、明星业务,多底盘充满了挑战和机遇,欢迎来战。

更新于 2025-02-21上海
logo of aliyun
社招5年以上技术类-开发

1. 负责云网络的虚拟化网元底座NFV平台的数据面技术方案,包括基于需求进行技术可行性分析,技术方案选型、功能设计以及技术架构设计等工作 ; 2. 负责云网络的虚拟化网元底座NFV平台的数据面开发,包括需求代码开发、代码Review、测试及上线发布; 3. 负责云网络的虚拟化网元底座NFV平台的稳定性能力建设以及性能优化,包括线上问题处理、问题诊断等,确保系统的安全可靠,提升产品稳定性和性能; 4. 参与云网络虚拟化网元产品的技术预研以及技术规划,跟踪和了解最新的产品技术趋势。

更新于 2025-04-03杭州|南京