字节跳动弹性计算系统高级研发工程师/专家
任职要求
1、本科及以上学历,计算机相关专业 ,5年及云计算以上相关工作经验; 2、具备扎实的计算机基础知识,掌握常见的TCP/UDP、HTTP/GRPC、Websocket等通信协议; 3、熟悉Golang、Linux后端服务端编程,熟悉常用的数据库中间件,包括但不限于RDS、ETCD、Redis、MQ等组件原理及实践; 4、熟悉分布式系统原理、微服务架构设计和稳定性治理,在保障服务高并发、高可用、高稳定、可扩展性方面有丰富经验,具备较强的业务架构设计能力。 具备以下条件之一者优先 1、有大型分布式系统的实践经验,熟悉Kubernets、OpenStack、Yarn等分布式系统原理; 2、有过大规模云计算平台或私有云产品开发经验; 3、理解Linux系统,理解虚拟化、容器相关技术,具备一定的分析和解决问题的能力。
工作职责
1、负责云平台上计算型相关产品(如云主机、容器)的后台系统等核心系统研发工作; 2、负责设计并实现计算资源大池化体系,支持裸金属、虚拟机、容器等多种形态的计算资源的管理和调度,提升资源流转和使用效率; 3、负责持续改善服务质量、提高系统稳定性和可用性,增强线上产品质量,通过工具和系统上提升团队研发效率,并对重点及有难度的技术进行攻坚; 4、学习研究业界先进技术,保持技术进步,对所负责的模块范围进行技术规划并使其落地。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
高德运维研发团队主要负责高德运维平台的建设,对服务稳定性和用户体验负责,主要围绕如下几个方向进行卓有成效的工作: - 高可用方向:围绕混沌工程、故障自愈、全链路故障定位 等前沿技术方向进行平台化建设和智能运维大规模业务落地,提升系统的稳定性水平。 - 资源管理方向:将机器学习技术应用于超大规模集群的资源管理实践中,围绕 资源画像、应用画像、容量管理、全自动化弹性伸缩 等前沿方向进行算法优化和平台化建设。 - 云原生方向:基于实际业务场景,建设云原生时代的云上运维平台,提升云上业务在变更发布、资源调度 等方面的效率。
我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。