阿里云阿里云智能-租户安全治理高级专员-杭州
任职要求
1. 信息安全、计算机相关专业,3年以上相关工作经历; 2. 具有较好的逻辑思维能力和系统性思维能力,善于思考、归纳总结发现问题; 3. 良好的与…
工作职责
1. 具备较高的政策和风险敏感度,负责阿里云举报平台、举报邮箱的安全运营,包括但不限于内容违规、钓鱼欺诈、恶意攻击等风险资源、用户的处置和管理,确保风险不升级; 2. 建设云资源举报风险管理的运行机制和流程,梳理和优化风险管理生产关系,按照标准化、体系化、智能化的要求不断完善管理体系; 3. 根据不同风险域,协同风险方建立分层分级受理标准,管理审核受理团队,建立数字化监控体系,保障风险能够有效处理; 4. 制定监控、分析、质检等策略,实现风险闭环运营,并与相关团队(如产品团队、算法)协作,持续推动举报工作效率和效果的提升。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
岗位职责 - 统一身份认证体系:设计并落地覆盖全基础设施的统一身份认证平台,打通 Kubernetes 集群、自研平台、开源产品、云产品等全栈组件的身份体系 - 身份源管理:对接企业 LDAP、SSO、云产品等多个身份源,实现用户、组织架构、用户组的自动同步与生命周期管理 - 身份认证中间件开发:开发认证 SDK / Sidecar / 网关插件,为内部平台提供标准化的身份认证接入能力,降低各系统重复对接成本 - 权限管理:为 AI训推平台设计多租户权限和API接入权限方案,包括不限于资源配额、数据集、任务参数、模型产物、API Key、审计日志等 - 权限平台:构建权限自助申请 → 审批 → 生效 → 回收的全流程工单平台,集成企业 IM 审批流,实现权限变更可审计、可追溯 - 权限巡检与治理:开发自动化权限巡检工具,定期检测并输出僵尸账号、高危账号等
1. 商业化基础设施:建设并演进 AI 产品商业化底座,支撑 C 端转化增长与 B 端企业规模化营收,以工程化能力持续释放商业价值。 2. 企业级 AI 知识引擎:打造企业知识引擎核心服务,将代码/文档等知识资产结构化与可用化,构建 企业级 Agent。 3. 生产级权限与企业管控:建设企业级身份权限与管理控制体系,形成对 MCP、Rules、Hooks 等能力的统一管控与治理,保障多租户安全边界与关键链路可靠性。 4. 资金安全与风控:搭建资金安全与商业化风控体系,系统性降低欺诈与异常带来的资金风险。 5. 安全合规与可观测度量:建立面向 AI 场景的安全合规与可观测度量体系,用数据驱动商业化增长与治理闭环。