阿里云阿里云智能-技术服务专家-AI汽车行业-上海/杭州

社招全职3年以上云智能集团2025-11-25地点：杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1、3年以上大型互联网或集团型企业级应用的架构设计、稳定性保障、监控体系构建、DevOps/AIOps实践、高可用改造或运维体系建设经验，具备端到端解决方案落地能力。
2、 具备扎实的编程能力，熟练掌握 Java /Python /Go 等主流开发语言，能够高效实现业务逻辑与系统组件,具备算法设计与性能优化经验，可针对实际场景对核心算法或数据处理流程进行调优，提升系统吞吐、响应效率与资源利用率。
3、具备大模型及AI类项目的端到端实施、性能调优与高可用保障能力，熟悉AIOps在云原生环境下的落地实践，能够基于可观测性数据驱动智能告警、根因分析与自愈策略，提升AI系统在生产环境中的稳定性、可靠性与运维效率。
4、在至少一个核心技术领域具备扎实积累，如数据库、网络…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、深入理解客户的业务场景与技术架构，与客户的架构、开发及运维团队紧密协同，全面评估其现有云上应用架构与产品使用现状，围绕稳定性、可观测性与成本效能，设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于：云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。
2、联动阿里云内部产品、研发、解决方案及技术服务团队，以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理，沉淀可复用的最佳实践、方法论及工具产品，主动识别客户痛点并开展高阶专项服务。
3、持续追踪客户关键稳定性问题，推动根因分析与长效治理机制建设，并反哺阿里云产品与服务体系的持续优化与能力升级。
4、主导或深度参与客户云上架构改造项目的落地实施，通过架构调优、资源治理与技术选型，持续提升系统性能、业务连续性与资源使用效率，实现“稳、快、省”的云上运营目标。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

DevOps+

高可用+

Java+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

诚云科技-技术服务专家-金融AI

社招5年以上诚云科技

1、围绕金融行业领域的AI场景(智能客服、风控、进件审核、投顾等)，基于对业务场景需求的挖掘和理解，提供全栈的AI大模型技术服务，实现AI大模型在金融行业领域的价值落地，服务内容包括AI算力训推性能优化服务、Agent架构设计（单智能体/多智能体协同、工具调用等）； 2、负责针对金融行业构建AI大模型全栈技术服务体系，围绕AI算力、平台、后训练、应用Agent方案落地等服务内容建设标准化服务能力与服务工具，推进AI服务方案在金融行业的规模化落地。 3、负责跟踪与研究业界前沿AI技术，探索与推动AI前沿技术在汽车行业领域实际场景的快速应用与落地，协同团队推动行业客户基于Dify、百炼、点金等框架的工程化实现与性能优化；

更新于 2026-03-27杭州|上海

阿里云智能-技术服务专家-AI汽车行业-上海/杭州

社招3年以上云智能集团

1、深入理解客户的业务场景与技术架构，与客户的架构、开发及运维团队紧密协同，全面评估其现有云上应用架构与产品使用现状，围绕稳定性、可观测性与成本效能，设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于：云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队，以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理，沉淀可复用的最佳实践、方法论及工具产品，主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题，推动根因分析与长效治理机制建设，并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施，通过架构调优、资源治理与技术选型，持续提升系统性能、业务连续性与资源使用效率，实现“稳、快、省”的云上运营目标。

更新于 2026-01-30杭州|上海

诚云科技-技术服务专家-金融AI

社招5年以上

更新于 2026-03-27杭州|上海

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京