高德地图高德-AI Infra/模型推理工程师/专家-推理加速方向-视觉技术中心

社招全职3年以上技术类-算法2026-06-25地点：北京状态：招聘

扫码手机上打开

任职要求

学历与专业背景：
3年以上工作经验，硕士及以上学历，中大厂AI Infra从事经验

能力要求：
1. 有AI推理加速框架/引擎研发经验者优先，如参与过vLLM、TensorRT-LLM、Triton、OneFlow等相关框架的开发与优化。
2. 熟悉具身智能、交互式世界模型、机器人AI相关业务场景，了解实时推理、多模态融合推理、连续状态推理的技术难点者优先。
3. 具备分布式推理、多机多卡协同推理研发经验，熟悉NCCL、MPI等通信机制，能解决分布式场景下…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是谁？  
作为中国领先的数字地图内容及导航服务提供商，高德地图日均服务数亿用户出行决策，每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎，持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。
团队gihub主页：https://github.com/amap-cvlab

为何加入我们？  
挑战世界级技术难题，追求智能上限 
用AI驱动国民级APP的产品迭代和颠覆式创新

岗位职责：
我们在构建面向具身智能与交互式世界模型的下一代推理基础设施：支持多模态流式输入（视频/传感器/地图）、实时闭环输出（动作/轨迹/场景状态），在端云一体部署下实现确定性低延迟、可规模化吞吐与可持续的成本效率。你将负责推理加速基础框架与关键性能机制建设，打通“模型—引擎—硬件—调度—观测”的全链路。
你将负责
1) 推理基础框架与运行时
● 设计并实现端云一体推理框架：统一模型加载、版本管理、热更新、灰度与回滚能力
● 建设流式推理 pipeline：ingest → preprocess/encode → predict/plan → control，支持异步与背压
● 推理引擎集成与改造：vLLM / TensorRT-LLM / SGLang / TGI（云端），TensorRT / ONNX Runtime / TVM / NPU SDK（端侧）
2) 实时调度与性能关键路径
● Prefill/Decode 分离调度（如适用）、长度分桶、连续 batching、尾延迟治理（P99/P999）
● KV cache 管理：paged/block、prefix/prompt cache、逐出策略、显存碎片治理
● 多机多卡并行与通信：TP/PP/EP（MoE），NVLink/IB/RDMA 等链路优化
● 投机解码/并行解码（Speculative/Medusa 等）在业务场景的落地与收益闭环
3) 量化与算子/Kernel 优化
● 建立 profiling 体系：算子画像（attention/GEMM/视觉编码/采样解码等）、输入分布、性能回归基线
● 分层量化策略：FP8/INT8/INT4 与 activation-aware 量化，质量回归与灰度上线
● CUDA/Triton kernel、算子融合、内存与流水并行优化；端到端 latency 优化而非单点指标
4) 可观测性与可靠性
● 建立实时推理指标体系：E2E latency、jitter、FPS/Hz、丢帧率、功耗/温控降频、OOM/重试等
● 帧级/样本级 tracing，故障定位、过载保护、降级与安全回退路径（端侧尤重）"

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

vLLM+

TensorRT+

还有更多 •••

登录查看完整学习资料