logo of baidu

百度混合云异构计算工程师(J85179)

社招全职ACG地点:北京状态:招聘

任职要求


-本科及以上学历,有一定程度的计算机相关专业知识背景
-优秀的编码能力,熟悉Golang/Python/Java/C/C++至少一项,有扎实的算法数据结构基础,有良好的编程习惯。
-熟悉PyTorch,了解MegatronDeepSpeedvLLM、SGLang等大模型训推框架,做过测试、开发等工作。
-对GPU芯片架构有一定了解者优先,熟悉CUDAOpenCL等高性能计算编程经验优先,有大规模训练推理实践经验者优先
-具备推理优化的深度实践经验优先:FlashAttention、PD分离、专家并行、负载均衡、模型压缩(蒸馏/量化)、缓存策略、异构计算加速
-具备训练优化的深度实践经验优先:分布式训练、显存优化(如Zero/Offload)、计算通信Overlap、混合精度、MoE架构调优
- 熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时、容器网络等技术,有Kubernetes开发和维护经验优先
-有独立的分析问题和解决问题的能力,有强烈的责任心,较强的学习能力和沟通能力

工作职责


-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融、
-结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率
-在自研芯片上适配常见大模型,结合深度学习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进行芯片选型和应用
-针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用
-探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力
包括英文材料
学历+
Go+
Python+
Java+
C+
C+++
算法+
数据结构+
编程规范+
PyTorch+
Megatron+
DeepSpeed+
vLLM+
大模型+
CUDA+
OpenCL+
缓存+
Kubernetes+
相关职位

logo of bytedance
社招A103504B

1、负责混合云云原生AI Infra技术架构设计、推理场景系统优化、云原生AI套件等开发工作。 2、负责研发AI异构计算软件栈,通过结合不同硬件、高性能网络、缓存等技术,实现AI计算的全链路优化,助力打造高可靠、高性能、高效率的AI算力基础设施; 3、洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-02-26
logo of bytedance
社招A90640

1、负责混合云云原生AI Infra技术架构设计、推理场景系统优化、云原生AI套件等开发工作; 2、负责研发AI异构计算软件栈,通过结合不同硬件、高性能网络、缓存等技术,实现AI计算的全链路优化,助力打造高可靠、高性能、高效率的AI算力基础设施; 3、洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-02-26
logo of bytedance
社招5年以上A5253

1、结合对混合云平台应用特点,深入理解上层应用迭代路标,整理输出清晰的混合云硬件产品支持路标,确保硬件方案的领先性; 2、负责混合云各类业务组件资源需求画像、跨代跨平台场景化性能收益测试验证,设计性能测试方案,执行性能测试,针对系统性能瓶颈分析,提出调优建议并协助调试验证完成,输出性能测试报告;协调解决新硬件、新技术落地过程中遇到的技术问题; 3、混合云产品业务场景收益对比评估,确定选型方案,输出方案迭代标准算力/资源折算方案; 4、结合产业链的最新技术能力和硬件产品架构特点,提供综合竞争力领先的异构硬件解决方案,输出自研硬件服务器产品资料; 5、监控和分析异构云硬件在实际应用中的质量、性能表现,并提供系统的技术支持能力,推动改进识别和落地。

更新于 2022-10-10
logo of tencent
社招TEG技术

1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行; 2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率; 3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地; 4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。

更新于 2025-05-19