阿里云阿里云智能-技术服务专家-AI汽车行业-上海/杭州
任职要求
1、3年以上大型互联网或集团型企业级应用的架构设计、稳定性保障、监控体系构建、DevOps/AIOps实践、高可用改造或运维体系建设经验,具备端到端解决方案落地能力。 2、 具备扎实的编程能力,熟练掌握 Java /Python /Go 等主流开发语言,能够高效实现业务逻辑与系统组件,具备算法设计与性能优化经验,可针对实际场景对核心算法或数据处理流程进行调优,提升系统吞吐、响应效率与资源利用率。 3、具备大模型及AI类项目的端到端实施、性能调优与高可用保障能力,熟悉AIOps在云原生环境下的落地实践,能够基于可观测性数据驱动智能告警、根因分析与自愈策略,提升AI系统在生产环境中的稳定性、可靠性与运维效率。 4、在至少一个核心技术领域具备扎实积累,如数据库、网络…
工作职责
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。
1、围绕金融行业领域的AI场景(智能客服、风控、进件审核、投顾等),基于对业务场景需求的挖掘和理解,提供全栈的AI大模型技术服务,实现AI大模型在金融行业领域的价值落地,服务内容包括AI算力训推性能优化服务、Agent架构设计(单智能体/多智能体协同、工具调用等); 2、负责针对金融行业构建AI大模型全栈技术服务体系,围绕AI算力、平台、后训练、应用Agent方案落地等服务内容建设标准化服务能力与服务工具,推进AI服务方案在金融行业的规模化落地。 3、负责跟踪与研究业界前沿AI技术,探索与推动AI前沿技术在汽车行业领域实际场景的快速应用与落地,协同团队推动行业客户基于Dify、百炼、点金等框架的工程化实现与性能优化;
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。

1、围绕金融行业领域的AI场景(智能客服、风控、进件审核、投顾等),基于对业务场景需求的挖掘和理解,提供全栈的AI大模型技术服务,实现AI大模型在金融行业领域的价值落地,服务内容包括AI算力训推性能优化服务、Agent架构设计(单智能体/多智能体协同、工具调用等); 2、负责针对金融行业构建AI大模型全栈技术服务体系,围绕AI算力、平台、后训练、应用Agent方案落地等服务内容建设标准化服务能力与服务工具,推进AI服务方案在金融行业的规模化落地。 3、负责跟踪与研究业界前沿AI技术,探索与推动AI前沿技术在汽车行业领域实际场景的快速应用与落地,协同团队推动行业客户基于Dify、百炼、点金等框架的工程化实现与性能优化;
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。