logo of bytedance

字节跳动AI Infra架构师-IaaS

社招全职A159811地点:北京状态:招聘

任职要求


1、熟悉Linux环境下的C++/Python/Go/Java等一种或多种语言,扎实代码功底和实战能力;
2、具备较强的学习能力,能够快速适应新技术和工具;
3、熟悉AI基础设施生态,有应用技术选型和落地实践成功案例。

具备以下条件之一者优先:
1、了解分布式计算与加速,有大规模集群建设、运维、训练调优相关经验者,了解GPU硬件、虚拟化技术、AI编译器、算子调优、上层推理训练框架有其中之一相关经验者优先;
2、熟悉各种AI模型与应用,熟练掌握TensorflowPyTorch等框架,能够利用开源框架验证模型训练、推理、蒸馏等环节;
3、熟悉一些AI Agent平台和工具,有相关开发经验和架构设计经验。

工作职责


1、与AI算法和业务团队密切合作,支持业务新算法和模型组件的选型和集成,助力模型算法框架的演进和迭代,结合字节跳动和业界优秀实践产出完整技术架构和业务最佳实践的一站式平台解决方案;
2、负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座;
3、对外部ToB客户提供AI基础设施服务,提高大规模部署下模型基础设施的效率度量、扩展性和可管理性;
4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,沉淀平台能力,助力客户AI落地。
包括英文材料
Linux+
C+++
Python+
Go+
Java+
TensorFlow+
PyTorch+
AI agent+
系统设计+
相关职位

logo of bytedance
社招A141967

1、与AI算法和业务团队密切合作,支持业务新算法和模型组件的选型和集成,助力模型算法框架的演进和迭代,结合字节跳动和业界优秀实践产出完整技术架构和业务最佳实践的一站式平台解决方案; 2、负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座; 3、对外部ToB客户提供AI基础设施服务,提高大规模部署下模型基础设施的效率度量、扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,沉淀平台能力,助力客户AI落地。

更新于 2025-04-01
logo of bytedance
社招A167079

1、与AI算法和业务团队密切合作,支持业务新算法和模型组件的选型和集成,助力模型算法框架的演进和迭代,结合字节跳动和业界优秀实践产出完整技术架构和业务最佳实践的一站式平台解决方案; 2、负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座; 3、对外部ToB客户提供AI基础设施服务,提高大规模部署下模型基础设施的效率度量、扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,沉淀平台能力,助力客户AI落地。

更新于 2025-04-01
logo of dingtalk
社招5年以上技术类-算法

1.post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率。 2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑。 3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型。 4.负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座;

更新于 2025-08-18
logo of bytedance
社招A174558

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-05