logo of amap

高德地图高德-AI Infra/模型推理工程师/专家-推理加速方向-视觉技术中心

社招全职3年以上技术类-算法地点:北京状态:招聘

任职要求


学历与专业背景:
3年以上工作经验,硕士及以上学历,中大厂AI Infra从事经验

能力要求:
1. 有AI推理加速框架/引擎研发经验者优先,如参与过vLLMTensorRT-LLM、Triton、OneFlow等相关框架的开发与优化。
2. 熟悉具身智能、交互式世界模型、机器人AI相关业务场景,了解实时推理、多模态融合推理、连续状态推理的技术难点者优先。
3. 具备分布式推理、多机多卡协同推理研发经验,熟悉NCCL、MPI等通信机制,能解决分布式场景下…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们是谁?  
作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。
团队gihub主页:https://github.com/amap-cvlab

为何加入我们?  
挑战世界级技术难题,追求智能上限 
用AI驱动国民级APP的产品迭代和颠覆式创新

岗位职责:
我们在构建面向具身智能与交互式世界模型的下一代推理基础设施:支持多模态流式输入(视频/传感器/地图)、实时闭环输出(动作/轨迹/场景状态),在端云一体部署下实现确定性低延迟、可规模化吞吐与可持续的成本效率。你将负责推理加速基础框架与关键性能机制建设,打通“模型—引擎—硬件—调度—观测”的全链路。
你将负责
1) 推理基础框架与运行时
● 设计并实现端云一体推理框架:统一模型加载、版本管理、热更新、灰度与回滚能力
● 建设流式推理 pipeline:ingest → preprocess/encode → predict/plan → control,支持异步与背压
● 推理引擎集成与改造:vLLM / TensorRT-LLM / SGLang / TGI(云端),TensorRT / ONNX Runtime / TVM / NPU SDK(端侧)
2) 实时调度与性能关键路径
● Prefill/Decode 分离调度(如适用)、长度分桶、连续 batching、尾延迟治理(P99/P999)
● KV cache 管理:paged/block、prefix/prompt cache、逐出策略、显存碎片治理
● 多机多卡并行与通信:TP/PP/EP(MoE),NVLink/IB/RDMA 等链路优化
● 投机解码/并行解码(Speculative/Medusa 等)在业务场景的落地与收益闭环
3) 量化与算子/Kernel 优化
● 建立 profiling 体系:算子画像(attention/GEMM/视觉编码/采样解码等)、输入分布、性能回归基线
● 分层量化策略:FP8/INT8/INT4 与 activation-aware 量化,质量回归与灰度上线
● CUDA/Triton kernel、算子融合、内存与流水并行优化;端到端 latency 优化而非单点指标
4) 可观测性与可靠性
● 建立实时推理指标体系:E2E latency、jitter、FPS/Hz、丢帧率、功耗/温控降频、OOM/重试等
● 帧级/样本级 tracing,故障定位、过载保护、降级与安全回退路径(端侧尤重)"
包括英文材料
学历+
大模型+
vLLM+
TensorRT+
还有更多 •••