高德地图高德-AI Infra/模型推理工程师/专家-推理加速方向-视觉技术中心
社招全职3年以上技术类-算法地点:北京状态:招聘
任职要求
学历与专业背景: 3年以上工作经验,硕士及以上学历,中大厂AI Infra从事经验 能力要求: 1. 有AI推理加速框架/引擎研发经验者优先,如参与过vLLM、TensorRT-LLM、Triton、OneFlow等相关框架的开发与优化。 2. 熟悉具身智能、交互式世界模型、机器人AI相关业务场景,了解实时推理、多模态融合推理、连续状态推理的技术难点者优先。 3. 具备分布式推理、多机多卡协同推理研发经验,熟悉NCCL、MPI等通信机制,能解决分布式场景下…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 我们在构建面向具身智能与交互式世界模型的下一代推理基础设施:支持多模态流式输入(视频/传感器/地图)、实时闭环输出(动作/轨迹/场景状态),在端云一体部署下实现确定性低延迟、可规模化吞吐与可持续的成本效率。你将负责推理加速基础框架与关键性能机制建设,打通“模型—引擎—硬件—调度—观测”的全链路。 你将负责 1) 推理基础框架与运行时 ● 设计并实现端云一体推理框架:统一模型加载、版本管理、热更新、灰度与回滚能力 ● 建设流式推理 pipeline:ingest → preprocess/encode → predict/plan → control,支持异步与背压 ● 推理引擎集成与改造:vLLM / TensorRT-LLM / SGLang / TGI(云端),TensorRT / ONNX Runtime / TVM / NPU SDK(端侧) 2) 实时调度与性能关键路径 ● Prefill/Decode 分离调度(如适用)、长度分桶、连续 batching、尾延迟治理(P99/P999) ● KV cache 管理:paged/block、prefix/prompt cache、逐出策略、显存碎片治理 ● 多机多卡并行与通信:TP/PP/EP(MoE),NVLink/IB/RDMA 等链路优化 ● 投机解码/并行解码(Speculative/Medusa 等)在业务场景的落地与收益闭环 3) 量化与算子/Kernel 优化 ● 建立 profiling 体系:算子画像(attention/GEMM/视觉编码/采样解码等)、输入分布、性能回归基线 ● 分层量化策略:FP8/INT8/INT4 与 activation-aware 量化,质量回归与灰度上线 ● CUDA/Triton kernel、算子融合、内存与流水并行优化;端到端 latency 优化而非单点指标 4) 可观测性与可靠性 ● 建立实时推理指标体系:E2E latency、jitter、FPS/Hz、丢帧率、功耗/温控降频、OOM/重试等 ● 帧级/样本级 tracing,故障定位、过载保护、降级与安全回退路径(端侧尤重)"
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
TensorRT+
https://docs.nvidia.com/deeplearning/tensorrt/latest/getting-started/quick-start-guide.html
This TensorRT Quick Start Guide is a starting point for developers who want to try out the TensorRT SDK; specifically, it demonstrates how to quickly construct an application to run inference on a TensorRT engine.
还有更多 •••