阿里云阿里云智能-高性能网络研发专家-杭州
任职要求
1. 精通 C/C++ 高性能系统开发,具备扎实的计算机体系结构和操作系统基础知识。 2. 具备分布式系统开发和运维经验,处理过大规模分布式系统中的网络性能瓶颈,优先录用。 3. 满足如下一种或多种:有网络协议调优和硬件加速经验,熟悉 DPD…
工作职责
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。
我们正在寻找经验丰富的隐私计算技术专家加入蚂蚁国际业务集团,负责推动公司隐私计算技术的研发和业务落地。理想的候选人应熟悉隐私计算相关技术,并能应用这些技术解决实际问题: ● 负责研究并优化最新的隐私计算技术,并解决隐私保护高性能、高精度、通用化等问题; ● 负责将隐私计算技术其应用于现实问题,解决隐私计算在实施过程中遇到的技术难题; ● 与产品团队协作,将隐私计算技术集成到产品和服务中; ● 通过行业深度洞察以及前膽性思考,用前沿技术探索、预研新场景,引导行业标准制定以及打造全球领先的行业品牌心智。
1、设计和实现高性能、可靠的对象存储系统,满足大规模数据存储和访问需求; 2、负责对象存储系统核心功能的研发,包括数据存储、数据访问、数据迁移复制等; 3、制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用产品优化技术和方法,进行性能优化。 4、分析用户需求,优化存储系统架构,提高系统的扩展性、灵活性和可维护性; 5、负责对象存储相关工具和平台的开发,提升对象存储系统的高运维性。
1. 负责专有云智算基础设施领域产品经理,包括异构算力、算力调度、训推优化、高性能网络、高性能存储、智算安全等智算基础设施领域的一种或多种产品规划和设计,完成需求分析,撰写需求文档,负责产品路线图制定。 2. 与研发领域协作,共同推动跨团队的研发交付,提升产研协同效率,持续完善产品功能,实现产品迭代升级与用户体验优化 3. 组织和编写产品上市材料,推进新产品、新功能从0到1的市场化验证,确保产品商业成功。
● 负责PAI平台深度学习框架的研发,包括但不局限于MoE模型大规模训练框架、多模态训练框架、RLHF训练框架等,支持包括通义实验室、阿里集团等不同领域方向;参与包括基模型Pretrain、SFT等多个阶段的训练任务优化; ● 致力于提升不同阶段模型训练负载的极限吞吐,能够针对不同模型负载系统化的分析不同阶段耗时并提供相应的优化手段,优化手段包括但不局限于算子优化、通信优化、分布式策略优化等; ● 负责超大规模训练任务的稳定性的设计,通过各种手段来提升训练任务的有效吞吐,构建更可靠的故障检测系统和自愈系统,提供超大规模训练任务的丝滑体验。 ● 参与训练框架对于不同硬件的支持和优化。