阿里云阿里云智能-资源管理平台技术专家-北京/上海/杭州
任职要求
• 5年以上IT、互联网、云计算开发、运维相关工作经验; • 计算机基础扎实,具备Golang实际项目开发经验,熟练掌握Golang运行原理; • 熟悉Linux操作系统并具备常见问题诊断能力,了解内存管理、调度、文件系统、网络等相关机制; • 对常用算法理解透彻,能够独立分析拆解业务问题转化为有效的工程方案; • 具备良好的代码质量意识,熟悉单元测试和自动化接口测试; • 对自己负责的研发模块具备快速上线、响应、应急处理能力…
工作职责
1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
1.负责阿里巴巴国际站本地化项目,通过良好的项目规划、翻译平台建设、巡检系统建设、外部供应商管理等持续提升国际站本地化尤其是小语种国家的体验 2.针对翻译质量,协同管理外籍内容团队,持续优化迭代大语言翻译模型能力,提升网站小语种内容翻译能力 3.针对UX,建设AI+人工巡检机制,持续定位体验问题,协同产品、技术及时优化,改善产品体验 4.协助搭建多语言本地化团队及其工作流,沉淀和业务需求匹配的资源库
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
1. 负责互联网平台、高端制造等行业的业务拓展工作,基于蚂蚁数字蚂力能力提供客户服务、营销服务、端应用开发、AI应用开发、大模型部署的解决方案,达成业务收入目标; 2. 深入洞察目标行业客户在降本增效、数字化转型、大模型应用方面的趋势和痛点,能够建联到客户运营、客服、营销、技术负责人; 3. 将客户需求和痛点与我们的产品及解决方案相结合,挖掘项目机会,推动签约、项目上线,对重点项目进行管理、包括统筹资源进行业务交流、技术测试、商务谈判、管控项目风险,为公司在客户的目标结果及价值呈现负责; 4. 根据公司及部门的业务发展需求和规划,寻找挖掘生态合作伙伴(科技方向),并提出有效的商务合作模式及方案。