阿里云阿里云智能-服务器结构系统高级技术专家-深圳/杭州
任职要求
1、至少8年服务器结构设计工作经验,主导过液冷整机柜设计,熟悉快速原型开发(如3D打印)技术,熟悉金属/复合材料特性及轻量化设计; 2、有过液冷冷板整机柜设计经验,熟悉和了解国内外冷板前沿技术趋势、熟悉冷板国内外生态; 3、精通机械设计软件(SolidWorks/Creo/AutoCAD等)及仿真工具(ANSYS、FloTHERM等); 4、…
工作职责
1. 负责服务器整机和液冷整机柜产品的系统设计、开发、交付; 2. 根据项目需求,进行服务器结构方案的制定和技术评估,提供可行性分析报告,为项目决策提供技术支持; 3. 与服务器ODM厂家紧密合作,负责服务器整机规格制定、负责整机设计过程质量管控,整机测试,整机交付质量管控; 4. 负责服务器结构相关的技术文档编写和维护,包括设计文档、测试报告、用户手册等; 5. 负责服务器产品的测试和验证工作,以及过程管理,解决测试过程中出现的结构问题,确保产品质量; 6. 跟踪行业新技术动态,研究新技术在服务器结构设计中的应用,不断提升产品竞争力; 7. 为公司其他部门提供服务器结构方面的技术支持和培训,协助解决相关技术问题。
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心基础设施运维策略与运维计划,保障设施稳定性,均衡考虑运维质量、效率、成本及安全 • 通过设施数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件。 • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的设施运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案。 • 负责阿里IDC能效优化工作,实现机房高效运行。 • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑。 • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平。 • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。
1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。
1. 主导储能行业技术/供应趋势/竞品洞察/演进方向分析;输出竞争力的技术路标和方案并通过预研实现方案量产落地,提升产品的市场竞争力; 2. 负责储能产品开发方案可制造性的分析/评审/论证(系统拓扑图、原理图、layout、元器件选型),确保试产/量产快速通过; 3. 负责储能生产测试需求/方案/策略/计划制定与评审,测试规范/用例/环境的建设和优化以及技术平台维护(规范/经验案例/专利),保证系统方案最优; 4. 主导储能生产测试重大异常分析/定位/验证/闭环,含设计/工艺/装备/来料问题;协助搭建生产测试平台进行电气性能/元器件应力/EMC/环境/安规可靠性测试; 5. 主导关键生产测试装备体系化&集成化的开发和导入,确保生产测试装备软硬件竞争力指标落地; 6. 对产品量产交付负责,通过管理/协调团队达成产品从0→1以及从1→100的关键指标; 7. 承担电源制造专家培养和流程建设责任,支撑部门人才梯队建设和组织建设目标达成。
负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。 通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计; 2. 数据索引和查询分析引擎优化,通过数据编码、压缩、向量索引、倒排索引、SQL执行优化、CodeGen等各类技术,实现百~千亿数据实时查询秒级延时,提供极致查询体验; 3. 分布式系统精细化调度,提升在线系统执行效率和资源利用率; 4. Linux底层系统优化,包括网络、内存、CPU等性能优化。