阿里云阿里云智能-CIPU软件研发专家-北京/杭州
任职要求
• 5年以上编码经验,熟练掌握C/C++,Python,熟练掌握常用调试方法和调试工具,熟练使用Python/Linux脚本开发测试或运维工具。 • 熟悉Linux开发环境, 熟悉Linux配置管理,了解Linux内核核心模块工作机制。 • 熟悉虚拟化技术,了解IO设备虚拟化技术,了解pcie标准、体系和工作原理,了解X86/ARM/RISC-V CPU体系架构,有相应项目经历优先考虑。 • 具有丰富的软硬件结合系统软件的开发和性能优化经验。 • 主导过多个项目及多个子系统的特性设计、需求分析经验。 • 熟练运用四看三定的规划方法论,能够进行框架性的技术研究与规划。 • 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作。 • 能够主导多个子系统的框架设计与开发…
工作职责
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
1.做为业务子系统的负责人,进行方案设计和代码开发 2.配合上下游进行,进行架构、设计、验证 等各领域的工作,确保高质量交付 3.配合中后端团队解决子系统时序和中后端问题