字节跳动AI系统架构师-火山引擎
任职要求
1、计算机、人工智能等相关专业本科及以上学历,5年以上AI领域研发经验,3年以上智能座舱或大模型项目架构设计经验,具备从0到1主导复杂系统架构落地的案例; 2、精通大模型核心架构(如Transformer、多模态模型)、RAG技术原理,熟悉LoRA、量化压缩等模型优化技术,具备算法与工程交叉思维; 3、熟练掌握Golang/Java/Python至少一门编程语言,熟悉微服务、分布式系统设计,有大模型服务端集成(如API设计、性能优化)经验优先; 4、具备优秀…
工作职责
1、深度对接客户需求,结合智能座舱、车载交互等场景,主导大模型技术方案的设计与论证,制定涵盖算法选型、系统架构、工程化部署的全链路技术方案,确保方案契合业务目标与技术可行性; 2、与客户技术团队紧密协作,参与需求评审与方案研讨,将业务需求转化为可落地的技术架构,同步协调内部产品研发资源推进方案落地; 3、主导智能座舱大模型系统的整体架构设计,涵盖多模态交互(语音/视觉/推荐)、RAG技术体系、端云协同框架等,平衡性能、延迟与资源消耗,确保架构支持高并发车载场景; 4、统筹大模型项目交付的技术实施路径,规划里程碑节点,协调算法、开发、测试等主线资源,确保技术方案按计划落地,把控项目质量与风险; 5、跟踪AI大模型领域前沿技术(如多模态模型、智能体协作、边缘计算),结合业务场景引入创新技术,构建技术护城河,保证产品在市场上处于领先地位。
1、负责火山引擎平台稳定性领域相关的AIOps场景(智能监控、变更风险识别和检测、事故/问题根因定位、告警聚合、架构治理、成本优化等)的业务与架构方案设计、研发及SRE Agent能力建设; 2、负责火山引擎的平台架构工程系统研发,包括需求分析、系统设计、编码实现、测试等工作; 3、负责火山引擎稳定性领域平台的建设,包括监控、预警、故障排查和恢复等平台功能设计与研发。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层,通过工程化与自动化方式支撑云网络平台能力。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。