阿里云阿里云智能-软硬件系统架构与解决方案专家-北京/杭州
任职要求
1. 具有 GPU 异构部件引入的经验,或者在主流AI芯片厂商的 GPU 应用开发、性能优化工作经验,能解决异构类产品问题和业务支持解决应用问题。在实际场景中,会包括方案设计、技术交流、实施&疑难技术问题解决等。 2. 了解GPU/AI ASIC部件的硬件设计、芯片架构以及对应的服务器系统设计,熟悉至少一种主流GPU架构者(NVIDIA GPU、AMD GPU等)优先。 3. 熟悉python、C++及linux开发环境 ,熟练掌握CUDA编程…
工作职责
1. 负责算力引入的前置测试,主要包含整机压测,部件性能测试,多机训练/推理单集群多品牌机器混部场景测试。 2. 负责算力引入GPU软硬件结合的疑难故障&性能问题分析和解决。 3. 负责GPU压测,监控,故障诊断工具开发和优化。 4. 负责主流模型和应用在新异构系统上的性能评测和分析。 5. 负责分析大规模LLM在训练和推理中面临的的AI异构硬件系统瓶颈,提出面向未来的AI异构系统架构建议,以支撑更高效的LLM扩展。
作为网络自动化研发专家,你会负责设计和开发支持阿里云业务的网络解决方案和相关自动化运维工具,基于分布式架构、大数据处理、SDN等先进技术,驱动下一代大规模网络基础设施的自动化运维和管理,如监控告警、故障定位、应急快恢、自动化变更、质量优化等。 具体岗位职责包括: 1、技术方案设计 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地
1.技术与系统架构:负责具身智能与机器人系统的整体架构设计,并主导机器人平台化(硬件模块、控制栈、感知栈)与大模型平台化(数据、训练、推理)的统一设计。 2.具身智能大模型工程:建设数据体系,协同科研模型算法团队推进具身大模型训练,协同、调用云平台搭建面向具身场景的大规模训练与分布式基础设施。 3.端侧模型推理部署:负责将具身智能模型在机器人端侧部署,并结合机器人计算资源进行软硬件协同优化。 4.机器人系统落地与工程交付:主导机器人在各类场景的落地与项目交付;负责从需求拆解、系统集成、工程实现、测试验证到交付运营的全流程工程管理;协调与供应链、ODM/OEM、硬件厂商的技术对接,以及机器人产业上下游的合作。 5.团队管理与跨部门协作:管理多学科工程团队,建立工程和研发流程(CI/CD、QA、仿真体系、回归测试、可靠性验证),并与产品、科研、算法、行业解决方案和 BD 团队紧密协作推进关键项目落地。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。
系统设计与研发 • 使用软件模拟硬件系统,实现CIPU系统模拟开发和测试环境。 • 在软件模拟系统平台和硬件系统平台上实现自动部署,自动运维,一键拉起,自动测试等功能。 • 基于业务需求和设计方案完成UT用例设计开发,对系统的稳定性负责。 • 负责系统设计与研发文档的编写、改进与维护 。 系统性能优化 • 对软件系统进行性能数据分析,通过软件系统重构,实现软件系统稳定性/性能的提升。 • 沉淀、输出相关案例/工具。 系统测试与维护 • 负责软件系统的技术支持与运维工作,分析软件系统中可能存在的问题,全局视角分析问题根因,定位并解决问题,保证系统符合性能、稳定性等指标要求。 • 负责CIPU软件和Simulator软件系统的测试工作,设计、搭建与管理测试平台,通过性能测试,推动产品不断演进迭代。 技术规划 • 基于业务需求和技术洞察,制定本领域内的技术团队的中长期发展规划和技术路线图。 • 体系性地设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等。 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等。 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结。