阿里云阿里云智能-操作系统发行版开发专家-杭州/北京
任职要求
• 5年以上IT、互联网、云计算开发相关工作经验;
• 2年及以上操作系统发行版的开发经验,有商业化操作系统开发经验者优先;
• 能够独立进行Linux操作系统的发行版的构建,有操作系统发行版版本规划和发布流程相关经验,熟悉版本发布基线管理,有发布基线管理实践经验;
• 具备根据业务输入对操作系统核心组件进行集成、分发、维护的能力,熟悉一个或多个操作系统发行版核心系统组件,并能根据业务需求进行独立为该组件添加功能的能力,熟悉操作系统软件前后向兼容性设计;
• 熟悉操作系统发行版组件的版本选型、组件依赖、版本演进思路;
• 熟悉 CVE、SBOM 等安全合规方面的业界主流工具或规范,在稳定、安全…工作职责
1、发行版技术方案设计 • 收集、识别、分析政企客户需求,并确定操作系统领域技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,制定通用的技术选型、功能设计、技术架构、和开发流程等。 2、发行版技术实现 • 基于技术方案的拆解,完成操作系统发行版领域的任务/子任务的设计、编码开发和系统功能实现; • 通过体系化、工具化、自动化的方式管理发行版版本的发布和交付,集成通用的系统软件能力,管理版本基线并确保交付后的可预期性; • 对开发中和部署后的发行版产品进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善等,并积累沉淀通用的改善措施,迭代到新版本中。 3、发行版安全合规稳定能力 • 开发符合操作系统领域、政企市场领域安全、合规标准的产品,通过不限于 CVE、SBOM 等业界标准方式交付安全改进措施,降低产品在安全合规上的服务成本; • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 4、技术预研和规划 • 跟踪和了解业界、主管部门的趋势,根据业务需要提供新技术支持和建议,并主动规划下一代产品的技术选型; • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、发行版技术方案设计 • 收集、识别、分析政企客户需求,并确定操作系统领域技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,制定通用的技术选型、功能设计、技术架构、和开发流程等。 2、发行版技术实现 • 基于技术方案的拆解,完成操作系统发行版领域的任务/子任务的设计、编码开发和系统功能实现; • 通过体系化、工具化、自动化的方式管理发行版版本的发布和交付,集成通用的系统软件能力,管理版本基线并确保交付后的可预期性; • 对开发中和部署后的发行版产品进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善等,并积累沉淀通用的改善措施,迭代到新版本中。 3、发行版安全合规稳定能力 • 开发符合操作系统领域、政企市场领域安全、合规标准的产品,通过不限于 CVE、SBOM 等业界标准方式交付安全改进措施,降低产品在安全合规上的服务成本; • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 4、技术预研和规划 • 跟踪和了解业界、主管部门的趋势,根据业务需要提供新技术支持和建议,并主动规划下一代产品的技术选型; • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、发行版技术方案设计 • 收集、识别、分析政企客户需求,并确定操作系统领域技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,制定通用的技术选型、功能设计、技术架构、和开发流程等。 2、发行版技术实现 • 基于技术方案的拆解,完成操作系统发行版领域的任务/子任务的设计、编码开发和系统功能实现; • 通过体系化、工具化、自动化的方式管理发行版版本的发布和交付,集成通用的系统软件能力,管理版本基线并确保交付后的可预期性; • 对开发中和部署后的发行版产品进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善等,并积累沉淀通用的改善措施,迭代到新版本中。 3、发行版安全合规稳定能力 • 开发符合操作系统领域、政企市场领域安全、合规标准的产品,通过不限于 CVE、SBOM 等业界标准方式交付安全改进措施,降低产品在安全合规上的服务成本; • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 4、技术预研和规划 • 跟踪和了解业界、主管部门的趋势,根据业务需要提供新技术支持和建议,并主动规划下一代产品的技术选型; • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行。 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能。 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术。 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性