logo of baidu

百度资深异构计算架构师(J84309)

社招全职ACG地点:北京状态:招聘

任职要求


-本科及以上学历,计算机、AI相关专业背景
-熟悉PyTorchTensorFlowPaddlePaddle深度学习框架,熟悉GPU芯片架构,了解MegatronvLLM大模型训推框架,有大规模训练推理实践经验者优先
-熟悉推理优化:负载均衡、模型压缩(蒸馏/量化)、缓存策略、异构计算加速等
-熟悉训练优化:分布式训练、显存优化(如Zero/…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的混合云产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署
-负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案
-结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率
-针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用
-探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力,提升团队技术影响力
包括英文材料
学历+
PyTorch+
TensorFlow+
PaddlePaddle+
深度学习+
Megatron+
vLLM+
大模型+
还有更多 •••
相关职位

logo of tongyi
社招8年以上技术-基础平台

我们正在招募一位具有系统级思维与AI大模型技术前瞻视野的 资深系统架构师,共同设计与构建下一代 AI 原生操作系统(AI Operating System, AIOS)。AIOS 是为智能计算时代重新定义的系统平台。它不再只是传统操作系统的资源管理者,而是智能体时代的计算基石,通过深度融合 基于大模型的AI 推理、感知、学习与决策能力,让系统能够自我理解、自我优化,并主动协作。您将站在系统软件与人工智能、大模型技术的融合前沿,定义AIOS的核心架构、智能调度体系、AI运行时、AI助手、AI智能体以及人机共生的新一代系统框架。 主要职责: 1. 主导 AIOS 的整体架构设计,包括AI原生系统内核层、系统服务层、AI运行时与智能交互层; 2. 设计并实现 AI原生系统内核(AI-native Kernel),将调度、内存与资源管理与AI智能决策引擎深度融合; 3. 构建 AIOS Runtime,支持端侧模型的高效运行、动态加载、分层缓存、在线推理与自适应资源分配; 4. 设计 智能调度系统(AI Scheduler),实现跨CPU/GPU/NPU/DSP的异构资源智能优化; 5. 构建 AI Memory & Model Management Framework,支持模型快速热加载、压缩与生命周期管理; 6. 推动系统级 智能安全与可信计算机制,确保AI决策链的可解释性与可信度; 7. 与硬件、内核、AI算法、设备驱动与应用生态团队协作,打通跨层架构接口,实现软硬件协同优化; 8. 负责AIOS技术蓝图与架构演进路线规划,推动系统持续演化; 9. 指导高级工程师团队落地架构设计,建立高标准的系统工程文化。

更新于 2025-11-27北京|杭州|上海
logo of aliyun
社招10年以上云智能集团

1. 主导RDMA高性能网络架构设计: 设计并优化万卡级RDMA网络协议、拓扑,流控技术,支持AllReduce、All-to-All等通信模式,保障吞吐率>90%。 联动PyTorch、NCCL等框架,通过RDMA配置、内存注册策略降低CPU干预,提升训练效率。 2. 构建全栈可观测性与智能运维: 开发覆盖NIC、交换机、内核层的监控体系,结合ML模型预测拥塞风险,实现故障分钟级定位与恢复。 制定拥塞控制算法参数、NUMA绑定等跨平台部署规范,确保异构芯片/多云环境下的网络一致性。 3. 推动技术标准化与生态兼容: 主导RDMA网络协议栈(Verbs API、拥塞控制算法,多路径传输协议)的定制化开发,优化驱动与固件性能。 评估UCX、eRPC、xLink over ethernet等新技术,制定下一代AI网络演进路线。 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-11-14北京|杭州
logo of didi
社招技术

1. 主导大模型推理引擎的架构设计与核心模块开发,支撑千亿参数模型的高效分布式推理。 2. 研发面向GPU/NPU等异构计算平台的高性能算子,提升硬件利用效率。 3. 参与模型低精度量化,图优化,编译优化等性能优化工作。 4. 攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。 5. 跟踪学术界与工业界前沿技术(如vLLM、TGI、TensorRT-LLM等),推进框架迭代。

更新于 2025-12-02北京
logo of xpeng
社招3年以上

1.负责xpu的linux内核态或用户态驱动程序的设计开发 2.高性能AI异构计算的性能分析与定位 3.driver相关工具的设计开发

更新于 2024-07-12上海