logo of aliyun

阿里云阿里云智能-弹性计算高级开发工程师-北京/杭州

社招全职3年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 3年以上IT、互联网、云计算或相关领域研发工作经验,具备良好的模块设计和编码能力,精通至少一门编程语言(如Java, Python等),具备良好的编码规范和工程实践能力,能够完成高并发高可用、可扩展系统的模块设计与实现;
2. 了解存储、网络、虚拟化子系统、容器技术,熟悉其具体功能、架构原理、技术细节。对多线程高并发分布式编程、DEVOPS、操作系统、虚拟机、云原生等领域有扎实的认知;
3. 有使用主流数据处理工具/框架进行数据查询、清洗、转换的开发经验。了解常见数据模型(如星型/雪花模型),具备开发、维护和优化数据管道或数据接口的能力,关注数据的准确性和时效性;
3. 对云计算、大数据、AI等新技术有热情,具备较强的学习能力。具备良好的分析问题、解决问题能力。具备良好的沟通表达能力和团队协作精神,能有效推动跨团队合作;
4. 有中大型数据产品、经营系统、BI平台、数据大模型建设经验者优先。

工作职责


独立负责复杂业务模块的技术方案设计、核心功能实现与系统优化,在保障系统高可用、高性能的同时,持续推动技术架构演进。需要具备扎实的工程能力、良好的问题解决能力和技术前瞻性,并能有效协作推动项目落地。具体包括:
1、技术方案设计
· 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果;
· 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。
2、技术实现
· 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
· 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等;
· 负责数据相关组件的研发与优化,包括数据采集、处理、存储及分析等环节的设计与实现,确保数据链路的可靠性和效率。
3、稳定性和性能优化
· 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠;
· 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
4、技术预研
· 跟踪和了解新产品技术和趋势,根据业务需要提供技术支持和建议。
包括英文材料
Java+
Python+
高并发+
高可用+
多线程+
DevOps+
大数据+
大模型+
相关职位

logo of xiaohongshu
社招3年以上后端开发

容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。

更新于 2025-09-13
logo of aliyun
社招3年以上云智能集团

1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。

更新于 2025-09-05
logo of aliyun
社招3年以上云智能集团

1、客户应急体系建设 (1) 通过流程机制优化、系统工具和标准化建设,面向阿里云全体公共云客户,提升自动化故障应急能力支撑,实现故障的早发现、早通知和早解决。 (2) 重大面积型故障,提供从故障应急、故障复盘到对客故障沟通整体支持工作,同时内部定期组织演练,提升大故障的应急协同效率。 2、故障改进治理:通过对故障复盘和分析,识别运行风险,针对重点大客户主动推进治理、推荐最佳实践、完善止血逃逸能力。 3、客户稳定性保障:提供面向客户的稳定性服务解决方案,包括故障的预防,出现故障后的快速发现和恢复,及事后的优化改进和故障演练。

更新于 2025-08-14
logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-18