阿里云阿里云智能-AI智算解决方案架构师-海外业务
任职要求
1、3年以上工作经历,具备AI、高性能计算或云计算基础设施相关经验,对大模型训练/推理的底层技术栈有深刻理解。 2、精通主流云平台的IaaS、PaaS层服务,特别是计算、网络和存储。 具备云原生应用的设计和部署经验,能够设计和实现基于云的高可用性和高扩展性的AI智算集群解决方案。 3、精通分布式计算架构(如Hadoop、Docker、Kubernetes、Serverless等容器和云原生技术),深入了解GPU/TPU/DPU计算和高性能网络原理(RoCE和IB),具有实际优化集群计算及网络资源的经验。 4…
工作职责
1、深入理解阿里云AI智算集群的技术原理、架构和使用场景,根据客户需求,设计并实施高性能、可扩展的AI基础设施解决方案,核心聚焦于大模型的训练与推理场景,促进商业化合作达成。 2、具备良好的架构思维,能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑,基于阿里云IaaS和PaaS的全栈AI基础设施,确保从算力、网络、存储的极致优化,持续为客户提供高质量AI基础设施服务。 3、面向国际市场,总结分析AI智算发展趋势/市场竟争格局,主动挖掘行业数据和客户商机,建立可复制的行业解决方案,与产研团队紧密配合,推动产品能力和营收持续增长。 4、具备需求拆解和整合的能力,成为对内外部AI智算技术的传播者,能够将复杂的AI基础设施技术转化为清晰的商业价值,成为客户和内部团队信赖的技术顾问。 5、作为领域专家参与客户Workshop、市场洞察等活动,并在行业峰会、技术沙龙等市场活动中进行阿里云AI智算技术传播和分享。
市场洞察和竞争分析 •基于细分领域市场发展趋势、市场空间、核心场景及痛点等需求信息,输出细分领域的市场洞察分析报告; •收集竞争情报,通过竞争项目中竞对的策略和方案分析,给出差异化竞争方案。 商机识别和售前引导 •负责客户关键决策人的售前引导工作,用客户的语言展开对话,获取信任,挖掘客户真实需求,形成有效商机。 •深挖客户的业务技术现状和发展趋势,建立完整准确的客户业务技术档案。 解决方案设计和推广 •根据客户需求制作针对性的解决方案,项目中制定正确的产品选型策略、POC测试打击策略、招投标策略、产品配置策略等,达成合同签约,持续保障阿里云在该客户的份额提升。 •推动公共云解决方案在细分领域的孵化和规模化复制。 •在方案落地过程中及时发现并处理技术和项目风险,协同产研及交付团队正常履约,实现收入转化。 能力沉淀和赋能 •沉淀面向细分领域/场景的通用云架构模板、最佳实践、细分领域案例等知识文档。 •对销售团队和生态伙伴宣讲、布道和赋能培训。 产品需求和缺陷反馈 •抽象和归纳细分领域的产品需求和缺陷,推动产品改进、新产品立项和重大功能上线,提升产品竞争力。

市场洞察和竞争分析 •基于细分领域市场发展趋势、市场空间、核心场景及痛点等需求信息,输出细分领域的市场洞察分析报告; •收集竞争情报,通过竞争项目中竞对的策略和方案分析,给出差异化竞争方案。 商机识别和售前引导 •负责客户关键决策人的售前引导工作,用客户的语言展开对话,获取信任,挖掘客户真实需求,形成有效商机。 •深挖客户的业务技术现状和发展趋势,建立完整准确的客户业务技术档案。 解决方案设计和推广 •根据客户需求制作针对性的解决方案,项目中制定正确的产品选型策略、POC测试打击策略、招投标策略、产品配置策略等,达成合同签约,持续保障阿里云在该客户的份额提升。 •推动公共云解决方案在细分领域的孵化和规模化复制。 •在方案落地过程中及时发现并处理技术和项目风险,协同产研及交付团队正常履约,实现收入转化。 能力沉淀和赋能 •沉淀面向细分领域/场景的通用云架构模板、最佳实践、细分领域案例等知识文档。 •对销售团队和生态伙伴宣讲、布道和赋能培训。 产品需求和缺陷反馈 •抽象和归纳细分领域的产品需求和缺陷,推动产品改进、新产品立项和重大功能上线,提升产品竞争力。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。