美团语音大模型推理优化工程师
任职要求
1.硕士以上学历,3年以上经验,具备扎实的工程基础,熟练掌握C++、CUDA、数据结构和基础算法; 2.具备机器…
工作职责
1. 负责大模型和多模态大模型的推理引擎系统设计和研发。 2. 负责深度优化大语言模型推理引擎,降低引擎推理延迟,提升引擎吞吐,达到业内SoTA 性能。。 3. 推进模型量化、模型裁剪、模型蒸馏等算法,提升大模型推理引擎的性能。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责字节跳动机器学习平台的开发,支撑公司相关业务的算法生产与高效迭代; 2、设计和实现机器学习相关的基础设施、框架、工具链等,并推动落地到业务中; 3、探索业界前沿的机器学习相关技术,持续提升平台能力、降低算法使用成本。
1. 负责语言大模型(LLM)、语音生成模型、SpeechLM等推理优化加速,通过量化压缩、算子融合、动态批处理等技术,优化推理延迟。 2. 负责高性能推理框架设计,支持多模型混合部署(如LLM+TTS联合推理),优化GPU/NPU资源利用率。 3. 负责音频生成模型工程化落地,优化音频生成模型的推理管线,解决内存占用高、流式生成卡顿等问题。 开发多模态生成链路,优化跨模型数据传输与计算资源调度。 4. 负责构建模型推理监控系统,实时追踪推理指标,设计A/B测试框架验证优化效果。
1. 负责语音合成(TTS)与语音识别(ASR)模型的推理性能优化,通过量化压缩(INT8/FP16)、模型剪枝、算子融合等技术降低推理延迟(目标:GPU单实例RTF≤0.2); 2. 设计高性能推理服务框架,支持动态批处理(Dynamic Batching)、多模型并行加载,适配TensorRT/Triton等推理引擎; 3. 优化端侧(移动端/嵌入式设备)模型部署方案,利用CoreML/NCNN等框架实现模型轻量化与硬件加速; 4. 构建模型监控与A/B测试系统,实时追踪线上服务指标(如吞吐量、错误率),保障服务SLA≥99.99%; 5. 探索大模型(如GPT-4、Whisper)在语音场景下的工程化落地,结合Agent架构实现流式响应与资源动态调度。