理想汽车AI基础设施研发专家
任职要求
1.在一流IT或智能汽车企业中,具备5年以上AI算法或核心软件等数个关键技术领域的研发经验,3年以上团队管理或架构师经验。 2.关注并探索前沿技术趋势: 能够判断并定义深度学习算法基础设施领域的技术演进趋势,具备前瞻性技术眼光;擅长做技术突破,具有一定高度的技术前瞻视野,能够挖掘技术增值点。 3.深度学习基础设施架构设计能力: 在深度学习、计算机视觉、自然语言处理等领域拥有丰富的理论和实践经验,能够设计和开发高效、可扩展、易用的深度学习训练框架和工具,包括分布式训练、自动调参等功能,熟练掌握主流的深度学习模型算法和网络结构;具备机器学习基础理论和数学知识,熟悉数值优化算法和自动微分技术; 4.多领域技术融合: 熟悉GPU加速原理和应用,拥有CUDA编程经验,了解传统软件开发、芯片开发等多重领域,能够结合前沿技术发展,对各部门业务进行统合综效,实现研发成果产品力最大化;发表过相关领域的科研论文或参加过开源社区的项目贡献。
工作职责
1.关注深度学习算法基础设施技术的前瞻趋势; 2.参与下一代深度学习算法基础设施技术的定义,并主导关键技术的探索性研究; 3.配合承接公司在深度学习算法基础设施技术领域的战略规划,横向拉通各技术部门,推动协同规划,推动预研项目的立项以及目标达成。
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。
1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

主要职责 1、投身自动驾驶关键AI基础设施构建,参与研发业界一流的数据标注、仿真测试、超算平台、worldsim编辑器等方向 2、 牵头复杂图形界面(2D/3D方向)研发,突破海量数据实时渲染等核心技术难题 3、 负责自动驾驶AI基础设施平台—包括标注工具、仿真环境及数据可视化系统的前端架构设计与实现 4、制定代码管理与模块化开发规范,推进微前端等现代架构落地,保障系统长期可扩展性 5、构建全链路前端性能优化机制(如缓存方案、动态加载、多线程处理等),提升高数据负载场景下的交互体验 6、主导重大技术方案评审与架构决策,推动React技术体系深度应用与工程最佳实践 7、指导并培养中级和高级工程师,助力团队技术成长与项目交付 8、深入参与产品设计与AI算法需求讨论,将复杂业务逻辑转化为可靠、高效的前端解决方案
底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。