美团语音大模型推理优化工程师

社招全职3年以上核心本地商业-基础研发平台2025-06-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1.硕士以上学历，3年以上经验，具备扎实的工程基础，熟练掌握C++、CUDA、数据结构和基础算法；
2.具备机器…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责大模型和多模态大模型的推理引擎系统设计和研发。
2. 负责深度优化大语言模型推理引擎，降低引擎推理延迟，提升引擎吞吐，达到业内SoTA 性能。。
3. 推进模型量化、模型裁剪、模型蒸馏等算法，提升大模型推理引擎的性能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

大模型平台研发工程师-Seed

社招A78654

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责字节跳动机器学习平台的开发，支撑公司相关业务的算法生产与高效迭代； 2、设计和实现机器学习相关的基础设施、框架、工具链等，并推动落地到业务中； 3、探索业界前沿的机器学习相关技术，持续提升平台能力、降低算法使用成本。

更新于 2024-10-23杭州

高德-大模型推理工程师/专家-LLM/语音方向

社招3年以上技术类-开发

1. 负责语言大模型（LLM）、语音生成模型、SpeechLM等推理优化加速，通过量化压缩、算子融合、动态批处理等技术，优化推理延迟。 2. 负责高性能推理框架设计，支持多模型混合部署（如LLM+TTS联合推理），优化GPU/NPU资源利用率。 3. 负责音频生成模型工程化落地，优化音频生成模型的推理管线，解决内存占用高、流式生成卡顿等问题。开发多模态生成链路，优化跨模型数据传输与计算资源调度。 4. 负责构建模型推理监控系统，实时追踪推理指标，设计A/B测试框架验证优化效果。

更新于 2025-08-26北京

高德-语音模型推理优化工程师-部署与加速

社招5年以上技术类-开发

1. 负责语音合成（TTS）与语音识别（ASR）模型的推理性能优化，通过量化压缩（INT8/FP16）、模型剪枝、算子融合等技术降低推理延迟（目标：GPU单实例RTF≤0.2）； 2. 设计高性能推理服务框架，支持动态批处理（Dynamic Batching）、多模型并行加载，适配TensorRT/Triton等推理引擎； 3. 优化端侧（移动端/嵌入式设备）模型部署方案，利用CoreML/NCNN等框架实现模型轻量化与硬件加速； 4. 构建模型监控与A/B测试系统，实时追踪线上服务指标（如吞吐量、错误率），保障服务SLA≥99.99%； 5. 探索大模型（如GPT-4、Whisper）在语音场景下的工程化落地，结合Agent架构实现流式响应与资源动态调度。

更新于 2025-05-25北京