logo of aliyun

阿里云阿里云智能-资源管理平台技术专家-北京/上海/杭州

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


• 5年以上IT、互联网、云计算开发、运维相关工作经验;
• 计算机基础扎实,具备Golang实际项目开发经验,熟练掌握Golang运行原理;
• 熟悉Linux操作系统并具备常见问题诊断能力,了解内存管理、调度、文件系统、网络等相关机制;
• 对常用算法理解透彻,能够独立分析拆解业务问题转化为有效的工程方案;
• 具备良好的代码质量意识,熟悉单元测试和自动化接口测试;
• 对自己负责的研发模块具备快速上线、响应、应急处理能力;
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作;
• 善于沟通,乐于总结分享,良好的团队协作能力,对解决具有挑战性问题充满激情。

加分项:
• 熟悉云计算业务,具备大型系统架构经验,有云资源管理平台开发经验和阿里云OpenAPI使用经验;
• 熟悉容器、K8s相关生态,具备大规模K8s生产集群管理实践经验;
• 熟悉 AI 大模型,善于使用 AI 工具,并在生产系统中有过实践经验。

工作职责


1、技术方案设计
• 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果;
• 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。
2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
• 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等;
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署;
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等;
• 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。
3、安全、稳定、效率和性能优化
• 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。
4、技术预研
• 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。
5、技术规划
• 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Go+
Linux+
算法+
OpenAPI+
Kubernetes+
大模型+
相关职位

logo of antgroup
社招7年以上技术类-开发

1、负责安全GPU推理引擎、GPU性能优化相关技术平台,解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理,以及平台架构规划设计

更新于 2025-08-04
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14
logo of aliyun
社招5年以上云智能集团

1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14
logo of alibaba
社招运营-产品运营

1.负责阿里巴巴国际站本地化项目,通过良好的项目规划、翻译平台建设、巡检系统建设、外部供应商管理等持续提升国际站本地化尤其是小语种国家的体验 2.针对翻译质量,协同管理外籍内容团队,持续优化迭代大语言翻译模型能力,提升网站小语种内容翻译能力 3.针对UX,建设AI+人工巡检机制,持续定位体验问题,协同产品、技术及时优化,改善产品体验 4.协助搭建多语言本地化团队及其工作流,沉淀和业务需求匹配的资源库

更新于 2025-04-24