logo of aliyun

阿里云阿里云智能-异构GPU集群资源优化专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1. 精通C/C++/Go等核心开发语言,具备Python、Rust、Shell等一种或多种语言的开发经验,拥有规范的工程化编码能力;
2. 深入理解Linux系统,具有Kubernetes及容器化技术的实战经验,有大规模生产系统软件的开发与运维经验;
3. 熟悉异构计算编程…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责智算集群中GPU资源的全面监控、质量巡检及故障预测,通过智能化运维手段确保系统的高可用性和稳定性,提前识别并解决潜在问题;
2. 保障在线POD的集群资源管理与切分业务,优化资源分配策略,提高资源利用率和任务处理效率,支持大规模分布式计算的需求;
3. 开发和维护KuberGPU技术,实现GPU资源的高效切分与容器化部署,支持多款智算相关产品的多种应用场景,提供灵活且强大的GPU资源共享解决方案;
4. 开发和实施容器热迁移技术,提升集群灵活性和容错能力,确保在不停机的情况下进行系统维护和资源调度,进一步增强用户体验和服务连续性。
包括英文材料
C+
C+++
Go+
Python+
还有更多 •••
相关职位

logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海
logo of bytedance
社招5年以上A223866A

1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。

更新于 2025-03-11北京
logo of bytedance
社招A15860

1、负责硬件加速平台多款芯片的传统编译器开发和优化; 2、负责Clang前端混合编译语法支持; 3、负责异构编译技术针对AI领域与异构硬件的功能开发与性能优化; 4、负责新架构的研究和讨论。

更新于 2025-01-09上海
logo of bytedance
社招A216723

1、成本优化:从全局视角、链路视角、单服务视角结合成本数据识别出价值大的优化点,提出解决方案,并能与业务部门合作推进落地; 2、技术攻关:探索异构语言通信(Go/Rust为主)、硬件加速等技术与性能优化的结合点,并能对Go Runtime定制优化; 3、性能诊断优化体系能力建设:构建体系化的平台能力支持服务成本分析、性能诊断、半自动化优化能力。

更新于 2025-03-03上海