logo of bytedance

字节跳动AI异构计算工程师

社招全职A171727地点:北京状态:招聘

任职要求


1、熟练掌握Linux环境下的C/C++PythonGo语言,编程能力扎实,有良好的编程习惯;
2、熟悉x86、ARM设备虚拟化,熟悉GPU虚拟化的关键技术和KVM、Qemu等传统虚拟化组件;
3、熟悉OpenStackKubernetes或云计算管控平台。

具备以下条件之一者优先: 
1、熟悉RDMA,了解分布式计算与加速,有大规模集群训练调优相关经验;
2、熟悉AI领域,熟悉各种AI模型与应用,熟练掌握TensorflowPyTorch等框架;
3、熟悉Linux内核及常用的内核debug工具,有内核稳定性测试相关经验;
4、熟悉云上基础设施稳定性建设相关经验优先,包括不限于:硬件故障治理、故障快速恢复、问题快速定位、知识沉淀和转化。

工作职责


负责火山引擎-IaaS异构云服务研发,聚焦在云上提供满足AI场景,尤其是大模型训练和推理的异构算力需求,构建高性能、高利用率、高稳定性的云上计算平台。

主要工作包括:
1、负责云上IaaS异构ECS/裸金属实例的构建与迭代;
2、负责IaaS异构稳定性系统的设计和研发,识别典型问题,提出解决方案,提升客户稳定性体验;
3、协同上下游团队,推动关键问题的解决优化,并构建平台能力。
包括英文材料
Linux+
C+
C+++
Python+
Go+
编程规范+
OpenStack+
Kubernetes+
TensorFlow+
PyTorch+
内核+
相关职位

logo of bytedance
社招A77463A

负责火山引擎-IaaS异构云服务研发,聚焦在云上提供满足AI场景,尤其是大模型训练和推理的异构算力需求,构建高性能、高利用率、高稳定性的云上计算平台。 主要工作包括: 1、负责云上IaaS异构ECS/裸金属实例的构建与迭代; 2、负责IaaS异构稳定性系统的设计和研发,识别典型问题,提出解决方案,提升客户稳定性体验; 3、协同上下游团队,推动关键问题的解决优化,并构建平台能力。

更新于 2024-01-08
logo of bytedance
社招A118578

负责火山引擎-IaaS异构云服务研发,聚焦在云上提供满足AI场景,尤其是大模型训练和推理的异构算力需求,构建高性能、高利用率、高稳定性的云上计算平台。 主要工作包括: 1、负责云上IaaS异构ECS/裸金属实例的构建与迭代; 2、负责IaaS异构稳定性系统的设计和研发,识别典型问题,提出解决方案,提升客户稳定性体验; 3、协同上下游团队,推动关键问题的解决优化,并构建平台能力。

更新于 2024-02-06
logo of baidu
社招ACG

-负责百度AI计算集群高性能通信库研发工作 -负责百度AI计算集群训推框架通信优化工作 -负责百度AI计算集群通信性能与可用性诊断工作 -负责百度AI计算集群与通信关联的其他软件研发与维护工作

更新于 2025-07-11
logo of baidu
社招ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -在自研芯片上适配常见大模型,结合深度学习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进行芯片选型和应用 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力

更新于 2025-05-15