
Momenta资深模型推理优化工程师
任职要求
岗位要求 1. 工作3年以上,计算机/数学/物理/电子工程/自动控制专业硕士及以上学历。 2. 优秀的代码能力,熟练掌握C/C++或Python,有 CUDA 开发经验,熟悉TVM/TensorRT/Triton/Cutlas…
工作职责
岗位职责 1. 负责智能驾驶模型在多种不同硬件平台的极致性能优化,结合编译优化、并行计算优化、图融合、高效 CUDA 算子开发实现行业领先的车端推理性能。 2. 针对特定NPU硬件计算平台,基于对硬件体系结构的深入理解,实现对硬件的高效利用。 3. 针对Pytorch/CUDA相关GPU计算任务,进行算子和系统优化,提升训练/推理效率。
1. 负责设计、研发和优化商业化模型推理服务和训练服务。 2. 负责商业化模型工程架构的持续迭代和发展。 3. 负责推动先进的模型技术应用于商业化业务场景。 4. 负责提升离在线服务的性能,优化资源分配和治理。
1. 负责机器学习推理框架的研发和维护 2. 支持商业技术中心ctr/cvr、召回、CV、NLP等核心模型的在线部署 3. 与算法团队紧密合作,不断优化系统架构和性能
1. 大模型PoC与Demo支持:执行方案评估,实施,演示,部署全过程,能够按照业务场景快速快速落地PoC项目。 2. 大模型需求分析:帮助客户理清大模型需求并转化为技术要求,对外控制客户需求,对内解决技术难题,保证项目的顺利落地和达效。 3. 跨部门协同:协调跨部门资源,组织算法或大模型产品团队进行技术研发、验证及部署工作,保证算法解决方案按时高质量交付。 4. 合作伙伴协同:管理合作伙伴技术方案和技术实现细节,解决项目的技术风险。
1、主导AI客服系统架构设计,集成大模型、知识库、工单系统及内部工具(如版权库、曲库API),实现用户问题自动分类、意图识别和智能路由,实现用户求助满意度提升; 2、搭建多智能体(Multi-Agent)协作框架,设计客服场景下Agent工作流(如:意图理解Agent、故障诊断Agent、投诉处理Agent),支持跨系统工具调用(MCP、Function Call等); 3、构建客服对话记忆管理、实时决策引擎及服务追踪(Tracing)体系,实现复杂会话状态的持续优化; 4、负责RAG(检索增强生成)系统工程化落地,结合音乐知识库(版权规则、产品文档、歌曲信息等)提升回答准确性; 5、设计客服Agent 反思(Self-Reflection)与思维链(Chain-of-Thought)机制,提升复杂问题处理能力; 6、构建故障诊断推理引擎:基于用户反馈(如“歌曲无法播放”“耳机断连”)以及关联信息,实现自动根因分析; 7、主导系统性能优化与保障,提升千万用户客服体验。