logo of aliyun

阿里云阿里云智能-CIPU软件研发专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 5年以上编码经验,熟练掌握C/C++Python,熟练掌握常用调试方法和调试工具,熟练使用Python/Linux脚本开发测试或运维工具。
• 熟悉Linux开发环境, 熟悉Linux配置管理,了解Linux内核核心模块工作机制。
• 熟悉虚拟化技术,了解IO设备虚拟化技术,了解pcie标准、体系和工作原理,了解X86/ARM/RISC-V CPU体系架构,有相应项目经历优先考虑。
• 具有丰富的软硬件结合系统软件的开发和性能优化经验。
• 主导过多个项目及多个子系统的特性设计、需求分析经验。
• 熟练运用四看三定的规划方法论,能够进行框架性的技术研究与规划。
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作。
• 能够主导多个子系统的框架设计与开发,通过对代码的Code Review、设计评审、单测覆盖等确保交付质量。
• 具备较强的技术攻坚能力,是关键问题终结者。
• 能够承担中型项目领导职责或者作为大型项目的骨干力量,能够推动跨团队的协作开发。
• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与相关团队形成良好的协作,及时解决职责/认知冲突类问题并驱动合理方案落地。
• 具有产品级、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地。
• 具备参与研发安全演练的技术能力,是容灾演练、红蓝对抗、突袭演练等场景下的一线主力。
• 具备良好的分析问题与解决问题能力, 沟通能力强, 具备跨团队合作能力。
•  对云计算相关新技术有激情,学习能力,理解能力及执行能力强。

工作职责


系统设计与研发
• 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。
• 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。
• 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。
• 负责系统设计与研发文档的编写、改进与维护 。

系统性能优化
• 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。
• 沉淀、输出相关案例/工具。

系统测试与维护
• 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。
• 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。

技术规划
• 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。
• 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。

项目管理
• 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。
• 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。
• 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
包括英文材料
C+
C+++
Python+
Linux+
脚本+
内核+
RISC-V+
Code review+
相关职位

logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15
logo of aliyun
社招8年以上云智能集团

1.做为业务子系统的负责人,进行方案设计和代码开发 2.配合上下游进行,进行架构、设计、验证 等各领域的工作,确保高质量交付 3.配合中后端团队解决子系统时序和中后端问题

更新于 2025-07-22
logo of aliyun
社招8年以上云智能集团

1. 负责CIPU业务自研模块级、子系统级、系统级的功能/性能/功耗等验证及项目管理工作; 2. 制定验证计划,搭建验证环境,规划验证用例,高效达成验证交付的完备性; 3. 和设计团队紧密合作,深入理解设计规格,提取验证特性,识别验证难点,制定验证策略。

更新于 2025-09-17
logo of aliyun
社招5年以上云智能集团

1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。

更新于 2025-07-31