logo of amap

高德地图高德-语音模型推理优化工程师-部署与加速

社招全职5年以上技术类-开发地点:北京状态:招聘

任职要求


1. 3年以上模型部署经验,熟悉PyTorch/TensorFlow模型导出与优化(ONNX/TVM),精通CUDA编程与GPU性能调优;
2. 掌握C++/Python高性能计算开发,熟悉Linux内核…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责语音合成(TTS)与语音识别(ASR)模型的推理性能优化,通过量化压缩(INT8/FP16)、模型剪枝、算子融合等技术降低推理延迟(目标:GPU单实例RTF≤0.2);
2. 设计高性能推理服务框架,支持动态批处理(Dynamic Batching)、多模型并行加载,适配TensorRT/Triton等推理引擎;
3. 优化端侧(移动端/嵌入式设备)模型部署方案,利用CoreML/NCNN等框架实现模型轻量化与硬件加速;
4. 构建模型监控与A/B测试系统,实时追踪线上服务指标(如吞吐量、错误率),保障服务SLA≥99.99%; 
5. 探索大模型(如GPT-4、Whisper)在语音场景下的工程化落地,结合Agent架构实现流式响应与资源动态调度。
包括英文材料
PyTorch+
TensorFlow+
ONNX+
CUDA+
性能调优+
还有更多 •••
相关职位

logo of amap
社招3年以上技术类-开发

1. 负责语言大模型(LLM)、语音生成模型、SpeechLM等推理优化加速,通过量化压缩、算子融合、动态批处理等技术,优化推理延迟。 2. 负责高性能推理框架设计,支持多模型混合部署(如LLM+TTS联合推理),优化GPU/NPU资源利用率。 3. 负责音频生成模型工程化落地,优化音频生成模型的推理管线,解决内存占用高、流式生成卡顿等问题。 开发多模态生成链路,优化跨模型数据传输与计算资源调度。 4. 负责构建模型推理监控系统,实时追踪推理指标,设计A/B测试框架验证优化效果。

更新于 2025-08-26北京
logo of xiaohongshu
实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架; 2、参与训练框架研发优化,包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等; 3、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京
logo of xiaohongshu
实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架; 2、参与推理框架研发优化,包括算子优化、推理架构优化、异构调度等多种技术研发落地等; 3、参与训练框架研发优化,包括数据读取、分布式训练及微调工具链等AI基础设施的建设等; 4、参与多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 5、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 6、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京|上海
logo of meituan
社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发,包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践,特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景,抽象业务所需的大模型基础能力深度优化,推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作,推动算法模型的工程化落地,包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术,结合业务需求进行预研和技术储备,保持团队的技术竞争力。

更新于 2025-07-21北京|上海