logo of aliyun

阿里云阿里云智能-异构GPU实例研发专家-杭州/上海/北京

社招全职5年以上技术类-开发地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 熟悉产品研发全流程与GPU实例的基本验收标准,具备CUDA,RoCM,Triton等GPU底层加速库的研发能力,研发GPU P2P,GDR,GDS等实例功能,提供有行业竞争力的异构产品技术。
2. 对运维与稳定性治理有深刻理解,具备…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与灵骏裸金属服务器及EGS实例的研发工作,包括但不限于早期邀请测试、线上服务质量保证以及性能优化等关键环节,确保产品从研发到上线的全生命周期管理。
2.负责灵骏、EGS和阿里云服务(ACS)GPU的单元测试设计与实现,确保测试覆盖率满足高标准的产品准入和准出要求,为产品质量保驾护航。
3.研发并持续改进系统的稳定性和安全功能,保障平台的安全可靠运行,以应对复杂的网络环境和潜在的安全威胁。
包括英文材料
CUDA+
稳定性治理+
相关职位

logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海
logo of bytedance
社招5年以上A223866A

1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。

更新于 2025-03-11北京
logo of bytedance
社招A15860

1、负责硬件加速平台多款芯片的传统编译器开发和优化; 2、负责Clang前端混合编译语法支持; 3、负责异构编译技术针对AI领域与异构硬件的功能开发与性能优化; 4、负责新架构的研究和讨论。

更新于 2025-01-09上海
logo of bytedance
社招A216723

1、成本优化:从全局视角、链路视角、单服务视角结合成本数据识别出价值大的优化点,提出解决方案,并能与业务部门合作推进落地; 2、技术攻关:探索异构语言通信(Go/Rust为主)、硬件加速等技术与性能优化的结合点,并能对Go Runtime定制优化; 3、性能诊断优化体系能力建设:构建体系化的平台能力支持服务成本分析、性能诊断、半自动化优化能力。

更新于 2025-03-03上海