logo of aliyun

阿里云阿里云智能-云原生平台研发专家-AI 推理平台方向-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、5 年以上分布式系统架构设计与开发经验,具备复杂分布式系统架构设计及开发经验;
2、对分布式系统架构、数据库、Linux操作系统等有深入理解,具备一定的 Linux 系统应用运维经验; 
3、有 Kubernetes 等容器系统、ServiceMesh 等微服务治理体系、AI 训推平台等 AI 系统架构设计与…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责阿里边缘云容器产品管控系统的架构设计、开发与维护工作; 
2、维护高性能、高可用的容器管控服务,保障业务系统在全球范围内的稳定性; 
3、为 AI 推理等相关场景提供更优化的服务能力,高效使用资源的同时,快速交付算力服务;
4、深入参与产品全生命周期研发管理,持续优化提升产品的安全性、稳定性、性能、功能与用户体验,以技术驱动业务增长; 
5、负责容器领域前沿技术的探索,推动系统架构演进及优化,完成技术预研和技术难点攻关。
包括英文材料
分布式系统+
系统设计+
Linux+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州
logo of bytedance
社招5年以上A127410

团队介绍:字节跳动基础架构数据库团队,致力于构建认知型数据基础设施,持续定义数据技术的未来边界。团队基于全栈自研技术,打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵,用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务,更通过火山引擎为客户提供具备企业级稳定性的数据库产品,助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代,我们正在突破传统架构边界:一方面深化 AI 原生驱动内核、AI 算子优化等创新方向,推动数据库向智能 Copilot 演进;另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域,构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化,既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果,又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师,分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才,共同探索技术无人区,定义 AI 时代的数据基座,赋能全球企业实现 AI 驱动的业务变革。 1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于 AI 的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。

更新于 2025-03-04北京
logo of aliyun
社招5年以上云智能集团

1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计; 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等; 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。

更新于 2025-11-27北京|杭州|南京