logo of aliyun

阿里云阿里云智能-系统开发专家-北京/杭州/上海

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


• 5年以上IT、互联网、云计算开发、运维相关工作经验;
• 计算机基础扎实,Java开发经验丰富,熟练掌握Java运行原理;
• 熟悉Linux操作系统并具备常见问题诊断能力,了解内存管理、调度、文件系统、网络等相关机制;
• 能够独立分析拆解业务…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、技术方案设计
•从纷繁复杂的弹性计算产品稳定性场景中,识别定义典型问题,形成系统研发需求,确定对应技术方案的目标、范围和交付成果;
•基于需求分析,进行技术可行性评估,结合当前的技术架构进行合适的技术选型,完成技术方案设计和评审等。
2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
• 负责核心功能的架构设计与代码编写,开发与维护客户体感稳定性平台核心业务模块,优化程序性能等;
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功上线部署;
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等;
• 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。
3、安全、稳定、效率和性能优化
• 运用产品优化技术和方法,实现安全保障、系统稳定和性能优化,提高系统的用户使用体验。
4、技术预研
• 跟踪和了解国内外云产品稳定性的技术发展和趋势,结合业务实际需要提供有价值的技术架构和创新建议。
5、技术规划
• 理解弹性计算稳定性的业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Java+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术-基础平台

1. 对接蚂蚁所有业务线的深度学习训练优化,开发分布式加速策略,定制算子,优化训练中数据预处理,低精度训练等模块,最终沉淀为通用解决方案并实现其自动化; 2. PyTorch/TensorFlow 等分布式训练内核优化扩展库研发; 3. 负责蚂蚁深度学习智能训练服务的研发; 4. 蚂蚁端到端的在线/离线学习训练系统开发。 5. 参与蚂蚁新一代分布式深度学习编译器开发 6. 参与蚂蚁开源深度学习系统DLRover开发建设

更新于 2025-10-17北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 ● 了解并分析ECS基础设施(如神龙MoC卡 + 宿主机)在系统稳定性与高可用方面的设计目标; ● 根据业务需求,评估技术可行性,参与方案评审,完成技术选型、功能设计、系统架构、数据结构和开发流程的规划。 2. 技术实现 ● 参与虚拟机故障逃生等创新性技术的研发工作,能根据整体方案拆解任务,独立完成模块设计、编码和系统功能开发; ● 负责故障检测、隔离、恢复、数据一致性校验等核心功能的架构设计和代码实现,持续优化系统性能; ● 参与代码评审和阶段性讨论,通过调试和优化,确保代码高质量交付; ● 负责开发和上线后的系统维护,包括值班响应、问题排查、故障诊断、体验优化、性能与成本调优等; ● 编写必要的技术文档,如操作手册、排障指南、API说明等,支持团队运维和问题处理。 3. 系统稳定性与性能优化 ● 运用优化方法和技术手段,提升系统的安全性、稳定性和运行效率,保障ECS基础设施的可靠运行,改善客户使用体验。 4. 技术预研 ● 跟踪系统可靠性(RAS)和高可用技术的发展趋势,结合实际业务需求,提出可行的技术建议和架构改进方案。 5. 技术规划 ● 深入理解业务方向,结合长期发展需求,制定高可用、高可靠、易扩展的技术架构规划,并推动落地实施。

更新于 2025-09-08北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 设计,开发和调优混合云存储产品的数据平面,包括但不限于Guest OS/Hypervisor/存储网关/阿里云等层面上的存储,备份,数据服务,容灾恢复等核心功能的数据平面能力; 2. 推动技术与业务的发展,在专有云与公有云中设计和开发不同形态的混合云服务; 3. 产品负责人岗位需跟踪协调合作伙伴产品(例如网关)功能和进度制定阿里云相应的功能适配;制定自主研发混合云存储产品的数据平面技术架构选择、开源和自研模块集成策略。

更新于 2025-07-31北京|上海|杭州
logo of aliyun
社招5年以上云智能集团

智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。

更新于 2025-11-23北京|杭州|上海