理想汽车AI基础设施研发专家
任职要求
1.在一流IT或智能汽车企业中,具备5年以上AI算法或核心软件等数个关键技术领域的研发经验,3年以上团队管理或架构师经验。 2.关注并探索前沿技术趋势: 能够判断并定义深度学习算法基础设施领域的技术演进趋势,具备前瞻性技术眼光;擅长做技术突破,具有一定高度的技术前瞻视野,能够挖掘技术增值点。 3.深度学习基础设施架构设计能力: 在深度学习、计算机视觉、自然语言处理等领域拥有丰富的理论和实践经验,能够设计和开发高…
工作职责
1.关注深度学习算法基础设施技术的前瞻趋势; 2.参与下一代深度学习算法基础设施技术的定义,并主导关键技术的探索性研究; 3.配合承接公司在深度学习算法基础设施技术领域的战略规划,横向拉通各技术部门,推动协同规划,推动预研项目的立项以及目标达成。
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 负责Serverless GPU集群超卖率提升工作,围绕通用与垂类模型推理场景(如文生图),构建高性能多租共享Serverless GPU集群,通过模糊不同GPU代际卡型、模型P2P加速能力、模型CacheAware调度能力,在保证基准推理性能的同时,降低集群运营成本,提高冷启动性能。 2. 负责AI模型后训练产品化工作,基于开源模型串连数据清洗、模型后训练、后训练效果评估反馈、线上数据回流全链路产品化流程,使面向垂类业务场景的后训练模型在效果、成本、延迟达到业务要求,支撑AgentRun客户生产业务大规模落地。 3. 负责国产信创Serverless GPU产品化工作,适配对应的软件栈与软件生态,长期跟踪fireware/sdk/drvier升级确保模型SOTA效果与性能,解决并收敛客户使用国产信创GPU过程中的疑难问题,利用RDMA探索差异化的Serverless弹性异构算力,支持国产信创AgentRun客户生产业务大规模落地。

1. 负责Serverless GPU集群超卖率提升工作,围绕通用与垂类模型推理场景(如文生图),构建高性能多租共享Serverless GPU集群,通过模糊不同GPU代际卡型、模型P2P加速能力、模型CacheAware调度能力,在保证基准推理性能的同时,降低集群运营成本,提高冷启动性能。 2. 负责AI模型后训练产品化工作,基于开源模型串连数据清洗、模型后训练、后训练效果评估反馈、线上数据回流全链路产品化流程,使面向垂类业务场景的后训练模型在效果、成本、延迟达到业务要求,支撑AgentRun客户生产业务大规模落地。 3. 负责国产信创Serverless GPU产品化工作,适配对应的软件栈与软件生态,长期跟踪fireware/sdk/drvier升级确保模型SOTA效果与性能,解决并收敛客户使用国产信创GPU过程中的疑难问题,利用RDMA探索差异化的Serverless弹性异构算力,支持国产信创AgentRun客户生产业务大规模落地。