理想汽车AI基础设施研发专家
任职要求
1.在一流IT或智能汽车企业中,具备5年以上AI算法或核心软件等数个关键技术领域的研发经验,3年以上团队管理或架构师经验。 2.关注并探索前沿技术趋势: 能够判断并定义深度学习算法基础设施领域的技术演进趋势,具备前瞻性技术眼光;擅长做技术突破,具有一定高度的技术前瞻视野,能够挖掘技术增值点。 3.深度学习基础设施架构设计能力: 在深度学习、计算机视觉、自然语言处理等领域拥有丰富的理论和实践经验,能够设计和开发高…
工作职责
1.关注深度学习算法基础设施技术的前瞻趋势; 2.参与下一代深度学习算法基础设施技术的定义,并主导关键技术的探索性研究; 3.配合承接公司在深度学习算法基础设施技术领域的战略规划,横向拉通各技术部门,推动协同规划,推动预研项目的立项以及目标达成。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。
作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。