快手【快Star-X】容器云研发工程师
任职要求
1、本科及以上学历,计算机相关专业; 2、掌握常用的数据结构/算法,扎实的代码功底与良好的编码习惯; 3、熟悉Golang、Java、Python等开发语言中至少一种,Golang优先; 4、具有Docker、Kubernetes、Istio等使用或二次开发经验者优先,有开源参与经历者优先; 5、自驱、结果导向,善于主动思考和行动,乐于解决具有挑战性的问题,对待技术有强烈兴趣; 6、有互联网实习经验者优先。
工作职责
1、负责容器云平台的一个或多个领域的设计与开发; 2、基于Kubernetes完善统一调度、多集群联邦能力,提升集群运维效率; 3、基于但不限于servicemesh技术栈,实现微服务架构业务&离线计算任务的流量管控、链路追踪等基础能力; 4、负责公司混合计算平台及相关技术的设计与开发,提升异构资源管理效率; 5、结合容器领域前沿技术,负责容器云全局技术优化与落地实践。
1、负责容器云平台的一个或多个领域的设计与开发; 2、基于Kubernetes完善统一调度、多集群联邦能力,提升集群运维效率; 3、基于但不限于servicemesh技术栈,实现微服务架构业务&离线计算任务的流量管控、链路追踪等基础能力; 4、负责公司混合计算平台及相关技术的设计与开发,提升异构资源管理效率; 5、结合容器领域前沿技术,负责容器云全局技术优化与落地实践。
1、负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率; 2、负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本; 3、基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作; 4、持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向。
1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作。 具体包括以下两种场景或者两种之一: 1)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 2)以容器云、大数据计算平台为例的通用计算平台场景。
阿里云网络的洛神技术平台,提供的网络虚拟化,软硬件一体化,基于云原生的NFV技术,以及SDN管控技术,支撑了阿里云丰富的网络产品。本岗位主要负责洛神云网络虚拟化网络技术架构设计、技术演进规划以及公共云相关网络产品等的研发工作。 岗位职责: 1. 负责公共云网络网络虚拟化产品的架构设计,持续提升网络在安全隔离、性能优化、可靠性、弹性和大规模运营方面的能力。 2. 负责公共云网络类产品的管控和数据面方案设计、研发交付工作,包括VPC、EIP等产品。 3. 负责公共云网络技术的洞察和战略规划,引导团队进行前瞻性研究和开发,打造未来更加灵活和高效的云计算网络,包括高性能网络、SDN管控技术、可编程网络技术等。