阿里云阿里云智能-安全研发高级专家-杭州
任职要求
1. 丰富的Java领域研发经验,精通Spring Cloud、Flink、Kafka等分布式架构。熟悉云产品和架构; 2. 掌握机器学习应用及工程化能力,熟悉TensorFlow/PyTorch等框架,熟悉Transformer架构及Fine-tuning技术,有完整AI项目落地经验; 3. 具备出色的领导力,能够有效管理并激励团队,推动团队高效协作与创新。具备优秀的沟通与协调能力,能够与跨部门团队紧密合作,推动项目顺利实施; 4. 具备强烈的创新意识,能够敏锐捕捉行业技术趋势,并带领团队进行技术创新与突破。 加分项 1. 主导过开源项目并获得行业影响力; 2. 在工业界会议发表过研究成果; 3. 具备AI+安全交叉领域的创新论文或项目成果。
工作职责
1. 与安全运营、产品等团队紧密合作,负责团队的建设、管理与激励,确保团队成员的技术成长与职业发展,打造高效、创新的研发团队。确保云安全工具与平台能够有效支持公司整体安全策略; 2. 主导云安全保障工具及平台的架构设计与开发,确保其高性能、高可用性和可扩展性; 3. 深入研究AI大模型在云安全领域的应用,制定AI应用的技术路线图,带领团队开发基于AI的安全防护算法与工具,提升安全平台的智能化水平。
1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1、负责面向海量终端多场景融合的云DNS系统的架构设计、核心代码开发与建设维护。 2、从自身系统稳定性基础上推进系统高并发、安全性等优化。 3、解决潜在系统技术风险,保障系统的安全、稳定、快速运行。 4、推进DNS云生态建设,包括但不限于DNS标准的创新与推广等。 1、技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果。 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现。 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等。 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。