阿里巴巴业务技术-技术支持-基础平台
任职要求
1. 责任心强,有客户第一的心态,能抗压,有面对挑战的自信心 2. 具有较强的分析问题和快速解决问题的能力,善于学习新技术 3. 能主导并推动多方协同沟通 4. 良好的信息总…
工作职责
1. 负责业务技术相关的技术支持工作,跟进解决业务方、ISV、商家、客满团队反馈的线上问题及业务咨询。 2. 定期对平台问题开展质量回溯工作,透传质量和业务需优化内容,发掘客户需求和行业痛点,并形成建议报告,与产品,研发团队一起完成优化需求的推动落地、解决疑难,故障问题,助力完善和优化业务平台。 3.作为咨询顾问团,从平台角度沉淀、定义并向二方输出电商技术or业务解决方案,过程中对接并提供平台商业能力(星环)sdk面向开发者的技术支持。 4.具备定义问题和解决问题的能力,能针对平台能力、业务技术方案、及总结的经验内容定向对业务方,客满及相关团队做系统性的运营、宣传及培训,做好去中心化赋能建设。
我们正在寻找一位充满激情、经验丰富的技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的核心功能设计、开发与持续优化。保障系统的高可用性、可扩展性和安全性。 2.跟踪和了解 Serverless,AI 领域的最新进展,根据业务需要提供最新的技术支持和建议。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。
技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解最新的产品技术和趋势,根据业务需要提供最新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。