阿里云阿里云智能-CIPU芯片设计高级专家-北京/杭州
任职要求
职位要求: 1. 8年以上ASIC设计经验,有清晰的思路和分析能力,有过先进工艺的TO和调试经验 2. 熟悉ASIC 设计的全流程,熟悉ASIC底层结构 3. 熟悉 Spyglass,Synthesize,STA,DFT,Formal 工具 4. 熟悉Linux系统环境,使用过Python, Shell, Perl, Tcl等一种或多种编程脚本语言 5. 良好的沟通,团队合作能力,富有激情,较强的学习能力 加分项: 1. 有网络芯片或DPU芯片的经验的优先 2. 对接口PCIE/DDR/Ethernet 对复杂SOC系统有了解 3. 有大型芯片顶层整合及设计经验者优先
工作职责
1.做为业务子系统的负责人,进行方案设计和代码开发 2.配合上下游进行,进行架构、设计、验证 等各领域的工作,确保高质量交付 3.配合中后端团队解决子系统时序和中后端问题
1. 负责CIPU业务自研模块级、子系统级、系统级的功能/性能/功耗等验证及项目管理工作; 2. 制定验证计划,搭建验证环境,规划验证用例,高效达成验证交付的完备性; 3. 和设计团队紧密合作,深入理解设计规格,提取验证特性,识别验证难点,制定验证策略。
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。