logo of antgroup

蚂蚁金服蚂蚁集团-算力服务产品架构师-杭州

社招全职5年以上技术类-开发地点:杭州状态:招聘

任职要求


● 5年以上的Go语言经验,注重工程质量,有独立解决各种系统问题的能力;
● 熟悉 Kubernetes/Docker 生态,熟悉kubernetes整体的架构体系,生态建设体系。
● 熟悉资源管理,混部调度,内核,存储,网络的隔离技术,熟悉GPU 训练推理的相关技术架构,有大规模Kubernetes集群资源调度、节点管理、故障恢复等实战经验
● 熟悉容器运行时(如Pouch、containerd)、虚拟化技术(如…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括:
● 平台架构设计:  在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。
● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。
● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率
● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。
包括英文材料
Go+
Kubernetes+
Docker+
还有更多 •••
相关职位

logo of aliyun
社招8年以上云智能集团

1. 技术前瞻与需求洞察:深度跟踪容器、云原生技术前沿(如 Kubernetes 新特性、Serverless 演进、AI 训练/推理、AI Agent 架构、微服务治理等),精准识别内/外客户在不同场景中的核心需求,驱动产品创新方向与技术战略落地; 2. 竞品与市场分析:持续分析主流云厂商在容器编排、Serverless 算力、AI 训推方案、AI Agent 等领域的竞品动态,输出深度市场洞察报告,支撑产品差异化设计与战略决策,不断增强产品竞争力; 3. 产品全生命周期管理:主导核心容器产品(如 ACK、ACS、ACR 等)的功能规划、需求定义、设计及商业化运营,从需求挖掘到规模化落地,推动市场份额与用户满意度提升; 4. 端到端解决方案设计:针对企业客户复杂业务场景(如 AI 训练/推理、AI Agent 应用、大数据应用、多云微服务应用等),设计端到端的容器解决方案,平衡调度性能、弹性容量、安全合规与成本优化等关键维度; 5. 跨职能协同:联动容器产品 PDSA、运营、研发、运维及 SA 架构师团队,高效推进产品从需求到上线的全流程交付,确保技术方案与客户业务目标精准匹配,提升交付质量与客户体验; 6. 产品运营与持续迭代:负责产品上线后的运营闭环,包括客户反馈深度分析、用户培训、市场活动支持及数据驱动的体验优化,通过持续迭代巩固产品市场地位与客户成功。

更新于 2025-12-05北京|杭州
logo of antgroup
社招2年以上技术类-开发

算力治理团队致力于构建一个高性能、稳定、经济且绿色的算力基础设施,加入我们,您将参与: ● 负责蚂蚁全站数百万级容器规模、数百亿次调用的中间件服务可靠性和稳定性工作,包括但不限于服务注册中心、配置中心、限流中心、消息中心、任务调度、分布式事务、MOSN/Layotto,设计并实施SLA体系、监控、定位应急、容量管理、自愈容灾等高可用能力,确保中间件服务和上游业务的持续可用 ● 深入理解中间件产品和架构,结合业务场景对生产问题进行诊断和持续优化;参与中间件产品的稳定性架构设计和改进,帮助业务应用在可用性、成本、效率上做好合适的架构选型。 ● 设计并落地Service Mesh、Serverless、FaaS等在蚂蚁数百万容器的大规模场景下的接入、部署和升级方案,构建平台化能力体系化识别和管控业务风险 ● 结合AI探索大模型落地实践,引领中间件产品的稳定性保障模式向数字化、智能化方向演进。

更新于 2026-01-05杭州
logo of aliyun
社招3年以上云智能集团

1.  大模型商机孵化 (1)作为通义大模型产品团队代表,-针对复杂项目需求,协同前后团队与客户进行深度技术交流,促进商机转化,为结果负责。 (2)赋能阿里云前端业务线/行业线,深入理解消费电子、短剧、数据挖掘、教育等核心行业的业务流程与痛点,识别通义大模型应用的创新机会。 (3)洞察产品的市场机会、市场容量和竞争格局,基于行业洞察,评估大模型解决方案的可行性与商业价值,推动从“0到1”的场景拓展。 (4)针对复杂项目需求,协同前后端团队与客户进行深度技术交流,通过“行业洞察+技术验证”双轮驱动,促进商机转化并为结果负责。 (5)洞察产品的市场机会、市场容量和竞争格局,捕捉机会,找到方向并能影响前线和产研快速推动落地。 2.  产品解决方案设计与规模化落地 (1) 支持行业/区域的市场洞察,理解客户功能性与非功能性需求。基于“算力-数据-模型-平台-应用”五层架构,提供具备技术竞争力和成本优势的产品组合方案,并在招投标与选型中提供核心技术支持。 (2)聚焦Agent化转型与多模态融合趋势,设计智能体矩阵解决方案。负责大模型落地页、商业机会挖掘、Demo中心等平台服务端架构设计与开发,构建可插拔、标准化的模型缝合能力,实现中长尾客户“开箱即用”。 (3) 主导对客体验闭环:对接客户侧的功能、体验及效果问题。利用RAG/PE/SFT等技术手段降低幻觉风险,通过精准的Triage定位与技术方案交付,快速解决客户痛点,保障安全可控的内容输出。 (4)负责大模型服务的对客体验,对接客户侧功能和体验问题,负责相关问题的Triage、定位和推动问题的最终解决。 3.  产研协同与市场格局洞察 (1) 深入调研客户需求,将一线聚类需求准确反馈至模型与工程团队,帮助工程团队及能力中心架构师做出技术解决方案,驱动MaaS平台及模型能力的迭代发展。 (2)洞察大模型产业机会、市场容量及竞争格局。捕捉前沿技术趋势(如推理优化、MoE架构),为产品战略及前线业务落地提供强有力的技术支撑。 (3)深入调研客户需求,将合理需求准确地反馈到产品研发团队,负责改进需求在产品中的实现效果验收,帮助部门大模型/智能化相关产品的持续发展。

更新于 2026-01-26北京|深圳|杭州
logo of bytedance
社招A175910

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-09杭州