高德地图高德-语音模型推理优化工程师-部署与加速

社招全职5年以上技术类-开发2025-05-25地点：北京状态：招聘

扫码手机上打开

任职要求

1. 3年以上模型部署经验，熟悉PyTorch/TensorFlow模型导出与优化（ONNX/TVM），精通CUDA编程与GPU性能调优；
2. 掌握C++/Python高性能计算开发，熟悉Linux内核…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责语音合成（TTS）与语音识别（ASR）模型的推理性能优化，通过量化压缩（INT8/FP16）、模型剪枝、算子融合等技术降低推理延迟（目标：GPU单实例RTF≤0.2）；
2. 设计高性能推理服务框架，支持动态批处理（Dynamic Batching）、多模型并行加载，适配TensorRT/Triton等推理引擎；
3. 优化端侧（移动端/嵌入式设备）模型部署方案，利用CoreML/NCNN等框架实现模型轻量化与硬件加速；
4. 构建模型监控与A/B测试系统，实时追踪线上服务指标（如吞吐量、错误率），保障服务SLA≥99.99%； 
5. 探索大模型（如GPT-4、Whisper）在语音场景下的工程化落地，结合Agent架构实现流式响应与资源动态调度。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

PyTorch+

TensorFlow+

ONNX+

CUDA+

性能调优+

还有更多 •••

登录查看完整学习资料

相关职位

高德-大模型推理工程师/专家-LLM/语音方向

社招3年以上技术类-开发

1. 负责语言大模型（LLM）、语音生成模型、SpeechLM等推理优化加速，通过量化压缩、算子融合、动态批处理等技术，优化推理延迟。 2. 负责高性能推理框架设计，支持多模型混合部署（如LLM+TTS联合推理），优化GPU/NPU资源利用率。 3. 负责音频生成模型工程化落地，优化音频生成模型的推理管线，解决内存占用高、流式生成卡顿等问题。开发多模态生成链路，优化跨模型数据传输与计算资源调度。 4. 负责构建模型推理监控系统，实时追踪推理指标，设计A/B测试框架验证优化效果。

更新于 2025-08-26北京

深度学习训练引擎研发工程师（实习）

实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架； 2、参与训练框架研发优化，包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等； 3、与公司各算法部门深度合作，参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效； 4、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京

【26届实习】深度学习推理/训练引擎研发工程师

实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架； 2、参与推理框架研发优化，包括算子优化、推理架构优化、异构调度等多种技术研发落地等； 3、参与训练框架研发优化，包括数据读取、分布式训练及微调工具链等AI基础设施的建设等； 4、参与多个业务场景中的模型压缩技术实现，对模型进行轻量化压缩，提高训练/推理效率，支持业务降本增效； 5、与公司各算法部门深度合作，参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效； 6、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京|上海

大模型应用算法工程师（智能客服方向）

社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发，包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践，特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调，使其能够高效、准确地调用内部和外部工具，扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景，抽象业务所需的大模型基础能力深度优化，推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作，推动算法模型的工程化落地，包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术，结合业务需求进行预研和技术储备，保持团队的技术竞争力。

更新于 2025-07-21北京|上海