阿里云阿里云智能-软硬件系统架构与解决方案专家-北京/杭州
任职要求
1. 具有 GPU 异构部件引入的经验,或者在主流AI芯片厂商的 GPU 应用开发、性能优化工作经验,能解决异构类产品问题和业务支持解决应用问题。在实际场景中,会包括方案设计、技术交流、实施&疑难技术问题解决等。 2. 了解GPU/AI ASIC部件的硬件设计、芯片架构以及对应的服务器系统设计,熟悉至少一种主流GPU架构者(NVIDIA GPU、AMD GPU等)优先。 3. 熟悉python、C++及linux开发环境 ,熟练掌握CUDA编程…
工作职责
1. 负责算力引入的前置测试,主要包含整机压测,部件性能测试,多机训练/推理单集群多品牌机器混部场景测试。 2. 负责算力引入GPU软硬件结合的疑难故障&性能问题分析和解决。 3. 负责GPU压测,监控,故障诊断工具开发和优化。 4. 负责主流模型和应用在新异构系统上的性能评测和分析。 5. 负责分析大规模LLM在训练和推理中面临的的AI异构硬件系统瓶颈,提出面向未来的AI异构系统架构建议,以支撑更高效的LLM扩展。
1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。 2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。
方向一: 1. 负责支付宝App的性能体验优化 2. 参与支付宝App各种重点场景的性能攻坚,完成性能目标,并解决各种疑难杂症 3. 参与支付宝App基础组件的架构设计与研发、包括性能中间件建设,以及提升效能的工程化建设,并同时应用在Android、iOS、鸿蒙三端; 4. 参与支付宝App编译优化、运行时优化等,以提升运行效率与稳定性等; 5. 参与支付宝小程序优化,包括小程序框架、浏览器内核优化等 6. 参与支付宝NFC/蓝牙软硬件通信协议链路优化 方向二: 1. 负责移动端APP(Android/iOS)逆向工程分析,研究主流应用的底层实现逻辑及安全机制; 2. 深入分析操作系统(Android/iOS)底层机制与运行规律,包括但不限于系统沙箱、权限管理、ART/Dalvik虚拟机、系统服务等模块; 3. 挖掘系统及APP潜在漏洞(如内存泄漏、逻辑缺陷、安全漏洞等),提出技术解决方案并推动修复; 4. 研究系统性能瓶颈与资源调度机制,为客户端团队提供性能优化(如内存管理、启动速度、流畅度)与体验提升的技术方案; 5. 开发逆向分析工具及自动化脚本,构建反编译、动态调试、Hook框架等底层能力;
弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。