logo of aliyun

阿里云阿里云智能-DCN网络研发高级技术专家-杭州

社招全职8年以上云智能集团地点:杭州状态:招聘

任职要求


• 8年以上IT、互联网、云计算开发相关工作经验
• 3年及以上相关产品/技术的开发经验
• 能够规划操作系统发行版的版本规划,具备独立带领团队维护Linux操作系统发行版的能力
• 对系统软件某一个子领域(操作系统、体系结构、虚拟化技术、容器技术等)的相关领域技术趋势有判断,具备通过定制内核或者该子领域的功能满足业务需求的能力;在相应的开源社区有一定贡献(加分项)
• 对本技术领域的公司内外及业界相关资源及水平有比较深入了解,面对技术领域的不确定性,具备较好的判断力
• 在设计、架构、并发、分布式、数据、软工等多个技术领域无明显短板,能够躬身入局,快速定位并解决罕见和复杂的技术问题和客户工单,且对多项技术有自己的理解和前瞻性判断
• 基于技术长期发展,以身作则提供标杆,平衡好业务需求吞吐和技术债累计并有阶段性清晰的应对策略
• 能推动团队实现系统、架构的顺利落地。能治理、完成历史系统&架构的下线流程。有效的清理技术债,对现有系统的稳定性、可靠性、易维护性带来显著提升
• 能够负责需要协调多个团队(超过自身团队)的复杂项目;
• 清楚认识其他人工作价值,不做低水平重复,寻求合作共赢
• 掌握甚至深度参与技术领域相关的前沿信息渠道,通过建立信息搜集和分享体系确保团队持续的获得高质量的一手信息
• 对竞对和对标产品的核心技术指标、优劣势对比了如指掌,并通过建立对标机制保障团队对竞对的持续高质量跟进和追赶
• 深入了解客户痛点和需求,给出的技术洞见一针见血,确保团队均能在理解客户诉求的前提下开展工作
• 能够综合考虑云整体技术框架(云基础设施、计算、存储、网络、安全等全面的云技术模块)梳理、设计大型系统的架构,通过治理、改进、重构等方式主动降低全局复杂度,具体体现在对于困难问题,能够提出并落地简单的易于维护的解决方案
• 能够合理地对于 1-2 年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术
• 能够基于投入产出比(ROI),站在产品线或大型产品角度上的全局意识(或)技术产生业务增值
• 产品线研发安全生产构建者
• 能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性
• 具有跨产品、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 在所负责团队层面严格遵循安全稳定演练体系,通过容灾演练、红蓝对抗、突袭演练等方式提前发现系统风险,基于稳定性演练持续培养技术团队的研发安全生产意识和专业能力
• 对自己负责的研发模块具备快速上线、响应、应急处理能力,并具备定位到根因的能力
• 具有较好的行业/业务判断能力,对行业/业务发展方向有一定预判能力,理解其对所负责产品、系统的影响
• 能提出关键问题,把模糊的业务问题转化为清晰的技术问题
• 能辅助业务方推动甚至促进高ROI项目的有效落地,共同拿到业务结果

工作职责


1、技术方案设计
• 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果
• 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
4、技术预研
• 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。
5、技术规划
• 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Linux+
内核+
相关职位

logo of bytedance
社招A105196

负责机器学习引擎的设计与开发,包括: 1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景; 2、负责实时高性能预估系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 3、负责性能优化与架构升级,持续提升数据预处理/训练/预估性能; 4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。

更新于 2024-04-26
logo of baidu
社招5年以上ACG

-负责集团/公有云DCN网络、DCI网络以及外网规划、设计和优化部署 -负责RDMA高性能网络的架构设计 -负责对接集团/公有云的业务需求,完成相关网络的需求拆解/设计,并推动需求落地 -跟踪和研究最新的网络技术和趋势,为公司网络架构的升级和演进提供建议和技术支持

更新于 2024-12-26
logo of kuaishou
社招D0900

1、有机会参与到推荐系统各个化解的工作,了解系统全貌; 2、分析、理解用户数据和业务场景,设计适合业务发展的推荐算法和机器学习模型; 3、调研业内前沿推荐算法,落地到业务场景中,并根据业务场景做适配和创新。

更新于 2025-03-11
logo of kuaishou
社招D5464

1、参与业内最前沿的排序模型的迭代工作,通过优化模型精度提升用户体验; 2、分析、理解用户数据和业务场景,设计适合业务发展的推荐算法和机器学习模型; 3、迭代业内最前沿的推荐算法,并落地到快手最大的消费场景中。

更新于 2025-03-11