字节跳动网络开发工程师-算力与AI基础设施
任职要求
1、2026届获得本科及以上学历,计算机、软件工程等相关专业; 2、热爱互联网技术,精通至少一门编程语言,包括但不仅限于:Java、C、C+…
工作职责
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、负责字节跳动全系产品(包括但不限于抖音、今日头条等)的网络基础设施和网络基础平台的研发工作; 2、研发全链路网络性能测量、分析、定位和优化,基于意图的网络自动化,网络仿真、推演和验证,海量网络数据实时和非实时的处理,以支撑超大规模的数据中心网络; 3、云网络产品研发,基于SDN、NFV和软硬件一体化等技术,提供高性能、大规模的火山引擎云网络产品; 4、虚拟网络的出口网关和跨域网关的研发,以及基于DPDK和可编程交换芯片的软件研发,提供高性能的网络虚拟化网关产品; 5、RDMA相关高速网络的传输协议、流控算法、通信库、端网融合等研究和研发工作,支撑AI计算的高性能网络通信; 6、网络相关网元的设计研发,包括自研交换机、路由器等,以适应大规模数据中心的组网和互联;研发四七层负载均衡、通用网络库、加解密技术、DNS调度、QUIC等公网传输协议,提供端到端的流量接入服务。
1、作为产品解决方案架构师,深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景,能够根据企业级客户需求和产品能力,规划设计合理的灵骏产品解决方案,推动和实现产品的商业化落地。 2、具备良好的架构思维能力,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,结合云计算平台产品特点,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、资源及经营团队、研发等团队紧密配合,推动营收增长。
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、熟悉大模型算法工程化,与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享
蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括: ● 平台架构设计: 在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。 ● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。