阿里云阿里云智能-弹性计算高级开发工程师-北京/杭州
任职要求
1. 3年以上IT、互联网、云计算或相关领域研发工作经验,具备良好的模块设计和编码能力,精通至少一门编程语言(如Java, Python等),具备良好的编码规范和工程实践能力,能够完成高并发、高可用、可扩展系统的模块设计与实现; 2. 了解存储、网络、虚拟化子系统、容器技术,熟悉其具体功能、架构原理、技术细节。对多线程、高并发分布式编程、DEVOPS、操作系统、虚拟机、云原生等领域有扎实的认知; 3. …
工作职责
独立负责复杂业务模块的技术方案设计、核心功能实现与系统优化,在保障系统高可用、高性能的同时,持续推动技术架构演进。需要具备扎实的工程能力、良好的问题解决能力和技术前瞻性,并能有效协作推动项目落地。具体包括: 1、技术方案设计 · 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果; · 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 · 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; · 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; · 负责数据相关组件的研发与优化,包括数据采集、处理、存储及分析等环节的设计与实现,确保数据链路的可靠性和效率。 3、稳定性和性能优化 · 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; · 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 · 跟踪和了解新产品技术和趋势,根据业务需要提供技术支持和建议。
1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。
容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。