logo of aliyun

阿里云阿里云智能-并行文件系统研发专家-杭州/上海

社招全职5年以上云智能集团地点:杭州 | 上海状态:招聘

任职要求


1、精通 C/C++Java,具有系统软件或分布式系统开发经验,熟悉至少一门脚本语言;
2、深入理解分布式系统容灾设计原理,有跨可用区系统开发或高可用架构设计经验者优先,熟悉 NVMe 协议者优先;
3、熟悉企业级文件系统、分布式文件系统或存储引擎的容灾机制,包含但不限于 …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责并行文件系统容灾设计与研发,构建并行文件系统的跨可用区容灾能力,设计并实现数据的多副本分布、服务的故障自动切换,并基于网络延迟进行拓扑优化;
2、负责并行文件系统的性能调优,参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计;
3、负责并行文件系统的稳定性,保障跨可用区架构在高并发场景下的稳定性,通过压测、故障注入、端到端容灾演练验证容灾效果,通过提升模块的可观测性、完善容灾 SOP 设计与验证等方式,实现系统的长期稳定运行。
包括英文材料
C+
C+++
Java+
分布式系统+
脚本+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、负责并行文件系统传输加密,构建并行文件系统的端到端加密框架,实现数据传输层的 TLS 加密; 2、负责并行文件系统的 NFS 协议研发,参与多机头 NFS v4.1 服务端协议状态机开发和维护; 3、负责并行文件系统的稳定性,保障加密模块与协议服务在高并发场景下的稳定性,通过压测、故障注入、端到端等测试验证加密对性能影响,并通过提升模块的可观测性、完善 SOP 设计与验证等方式,来实现系统的长期稳定运行。

更新于 2025-08-21杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 负责高性能并行文件系统中,新型存储介质、RDMA 网络相关性能分析工具开发和性能验证; 2. 结合存储硬件演进,负责并行文件系统的存储引擎在性能、成本、稳定性多维度的持续优化; 3. 与硬件团队合作进行软硬件结合设计,负责相关的存储软件设计和性能优化。

更新于 2025-11-23杭州|上海
logo of aliyun
社招8年以上技术类-开发

1、负责应对各种复杂业务场景的分布式文件系统的设计与研发,包含高可用高可靠高性能设计,文件系统核心 IO 栈的研发; 2、负责高性能并行文件存储元数据的设计和研发,包含分布式元数据管理,分布式事务等关键技术,以及对应的稳定性工程,包括但不限于系统的可观测性、FaultTolerance、多租户 QoS系统研发。

更新于 2025-04-15杭州|上海
logo of antgroup
社招5年以上技术类-算法

1. Code Agent 强化学习训练体系设计与落地 负责大规模语言模型在后训练阶段(Post-Training)面向 Code Agent 场景的核心算法研发,设计端到端的 RL 训练流程,涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习,探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。 2. 代码环境交互与多步决策优化 构建真实且可扩展的代码执行沙箱环境(Sandbox),支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互;研究多步代码推理与规划算法(如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配),提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。 3. 代码奖励信号设计与奖励模型构建 设计多层次、细粒度的代码奖励信号体系,融合可执行性验证(编译通过、测试用例通过率)、代码质量评估(可读性、效率、安全性)、需求对齐度等多维度反馈;研究如何利用自动化测试生成、变异测试(Mutation Testing)、静态分析工具等构建可靠的过程奖励模型(Process Reward Model),解决代码场景中奖励稀疏、奖励欺骗(Reward Hacking)以及部分可观测性等核心难题。 4. 泛化性与迁移能力提升 研究如何通过后训练阶段的课程学习(Curriculum Learning)、跨语言/跨领域任务混合训练、元学习(Meta-Learning)等策略,提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力;探索代码推理能力向通用推理(数学、逻辑、科学问题)的正向迁移路径,推动模型整体 AGI 泛化水平。 5. 数据飞轮与自我进化机制 设计 Code Agent 的自我对弈与自我改进闭环:通过 Agent 自主探索生成高质量训练轨迹(Trajectory),结合拒绝采样(Rejection Sampling)、自我验证(Self-Verification)、自我修复(Self-Repair)等机制构建可持续的数据飞轮,实现模型能力的迭代自举(Bootstrapping),减少对人工标注数据的依赖。 6. 大规模分布式训练系统与工程协同 与基础架构团队紧密协作,针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点,设计并优化异步/同步混合的大规模分布式 RL 训练架构;解决长序列代码上下文下的显存瓶颈与吞吐效率问题,实现算法创新与系统性能的高效协同。

更新于 2026-03-30上海|杭州