深度求索核心系统研发工程师(北京/杭州)
任职要求
1. 具备扎实的编程能力、优秀的设计能力和代码品味,具有强烈的责任心。 优先条件: 1.对主流的开源软件有…
工作职责
1. LLM 的成功是 ai 基础设施的成功,这是一个相当复杂的系统工程。每个成功的大模型背后,都有无数个从硬件到软件,从存储调度到算子编译器的极致优化故事,最终将这个模型的训练效率推动到了极致。而我们的工作,就是将自己的特长发挥到极致,榨干硬件上的点滴性能,加速大语言模型的研究; 2. 一个人无法穷尽 AI 核心系统的方方面面,因此我们更希望你是某个领域的专家,比如高性能计算、RDMA 网络、模型框架、算子编译器等等,能以独特经验和独到观点,从不同维度优化系统,同时具有开阔的架构视野,能够灵活地选择合适的技术来构建系统。也希望你能认同我们开放共进的企业文化,积极创新,乐于挑战,整个团队一起互通有无,博采众长,来推动整个 AGI 的发展。
1.参与国际化出行核心业务系统的相关研发工作 2.参与服务端业务架构设计、模块划分和开发 3.完成系统优化和重构,提供系统可用性和稳定性 4.积极跟其他团队沟通和配合,推动项目进展,讨论并提出有建设性的意见
1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。
【团队介绍】PolarDB管控团队专注打造国际一流的云原生数据库PolarDB,以“高性能、高弹性、高智能”为核心构建企业级云数据库基础设施。团队突破传统架构限制,首创计算Serverless架构(动态资源按需分配,降低成本50%+,支持百万核级CPU调度),率先实现多主架构、HTAP混合负载处理等创新技术,服务金融、电商等关键行业数万企业数字化转型。在Data+AI领域,团队构建AI节点计算框架支持向量检索/图计算等,持续探索智能数据平台新边界。作为阿里云数据库“梦之队”,团队通过软硬一体化创新,正引领全球数据库技术进入智能化新纪元。 【职位描述】作为PolarDB管控Data+AI方向的研发工程师,你将深度参与PolarDB核心管控系统的设计与研发,推动云原生数据库在弹性、可靠性、智能化方向的技术突破。你将与数据库内核、存储、AI等多个顶尖团队协作,打造面向未来的下一代智能数据库平台,包括不限于: 1、负责PolarDB管控系统架构设计与核心模块开发,包括集群管理、资源调度、自动化运维、高可用容灾等 2、参与PolarDB Serverless架构应用到Data+AI场景的演进,优化弹性伸缩策略与资源利用率,提升系统性能与成本效益 3、探索Data + AI融合场景,参与AI节点调度、向量检索引擎集成等前沿方向研发 4、持续提升系统可观测性、自动化运维能力与客户体验,服务数万关键行业客户
业务支撑 • 负责计算巢及应用管理管控功能与 API 的开发与维护。 • 负责计算巢 AI 类解决方案的构建,包括模型市场(LLM/AIGC)、MCP 市场、Agent 场景等。 • 根据客户需求,制定功能解决方案,并完成功能开发与优化。 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果。 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现。 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等。 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 技术预研 • 跟踪和了解最新的产品技术和趋势,根据业务需要提供最新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。