阿里云阿里云智能-高性能网络技术高级开发工程师-北京/杭州
任职要求
计算机科学、网络工程、电子工程等相关专业; 高性能网络或相关领域工作经验,熟练掌握C/C++、Python,Golang 等主流编程语言 精通 Linux 系统编程和调优,熟悉 RDMA 技术原理(RoCE v2、InfiniBand)及应用场景,内核网络栈、DPDK 等高性能网络技术者优先; 具备良好的问题定位与解决能力,能独立处理大规模分布式系统的稳定性问题。 具备良好的学习能力和团队协作意识,…
工作职责
阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。 核心职责: 1)AI 训练集群网络架构设计与运维 部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群); 优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。 2)网络性能调优与问题解决 解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等); 利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。 3)自动化与 CI/CD 实践 构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理; 开发自动化脚本与工具,提升网络运维效率与稳定性。 4)全生命周期网络管理 管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性; 设计并实施网络监控与告警体系,快速定位并修复潜在故障。 5)跨团队协作与技术落地 与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案; 深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
独立负责复杂业务模块的技术方案设计、核心功能实现与系统优化,在保障系统高可用、高性能的同时,持续推动技术架构演进。需要具备扎实的工程能力、良好的问题解决能力和技术前瞻性,并能有效协作推动项目落地。具体包括: 1、技术方案设计 · 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果; · 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 · 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; · 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; · 负责数据相关组件的研发与优化,包括数据采集、处理、存储及分析等环节的设计与实现,确保数据链路的可靠性和效率。 3、稳定性和性能优化 · 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; · 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 · 跟踪和了解新产品技术和趋势,根据业务需要提供技术支持和建议。
1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计; 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等; 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。
职位描述: 1. 系统开发:主导密码系统核心功能模块的架构设计与代码开发,包括但不限于密码生成、加密解密算法实现、密钥管理系统(KMS)开发、安全协议(如SSL/TLS、IPsec)的集成,确保系统的高安全性、高性能和可扩展性; 2. 技术攻关:针对密码系统开发过程中遇到的复杂技术问题,如密码算法优化、安全漏洞修复等,提供创新性的解决方案,攻克技术难点; 3. 系统维护:负责密码系统日常运维支持,及时处理系统运行过程中的故障、性能瓶颈问题,保障系统稳定运行;对系统进行持续优化和升级,提升系统整体安全防护能力; 4. 协作沟通:与产品、安全、测试等团队紧密协作,参与需求分析、技术评审,确保技术方案符合业务需求和安全标准;指导初级开发人员,提升团队整体技术水平; 5. 安全合规:深入研究密码学相关法律法规和行业标准(如国密算法标准),确保密码系统开发和运行满足合规要求,推动系统通过相关安全认证。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责国际直播活动搭建引擎、物料、方案建设,参与低代码的技术,解决业务方的场景需求; 2、参与到产品与运营的沟通中,共同建设并优化平台,为产品运营提供技术视角的判断与支持; 3、建设相关的物料与开放能力,服务相关开发者与业务方,优化业务体验; 4、提供全方位的解决方案,设计技术架构,制定技术规范; 5、了解市场产品,切磋前沿技术和创新交互,推动产品不断完善。