京东大模型推理性能优化算法工程师
任职要求
1. 教育背景: 计算机科学、人工智能或相关 STEM 领域硕士及以上学历,具备扎实的理论基础; 2. 技术能力: * 优秀的基础: 拥有深厚的计算机科学理论根基与扎实的算法功底; * 编程实力: 具备卓越的编程能力和良好的工程实践习惯; * 引擎熟悉度: 熟练掌握 vLLM, SGLang, TensorRT-LLM 等主流大模型推理引擎之一,理解其核心原理; 3、经验优先: * 在自然语言处理、多模态大模型、扩散模型、图神经网络(GNN)等领域有研究、技术开发或实际落地经验; * 作为核心骨干在国际顶会(NeurIPS, ICML, ICLR,CVPR, ACL等)发表过高质量论文; * 在知名开源项目(如Hugging Face Transformers, DeepSpeed,vLLM,SGLang,TensorRT-LLM等)中有显著贡献; * 在权威人工智能相关竞赛(如Kaggle、天池)中获得优异名次; 4、软性素质: * 沟通协作: 具备出色的沟通表达能力和高效的团队协作精神; * 技术追求: 对技术有强烈的好奇心与钻研精神,追求卓越; * 解决问题: 具备优秀的自驱力,能主动发现问题、分析问题并创造性地解决问题。 符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
1. 研发高性能推理算法: 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术: 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略: 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。
1. 研发高性能推理算法: 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术: 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略: 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。
1、负责大模型蒸馏、量化、协同推理等加速技术的研究与开发,深入分析现有算法的优缺点,结合公司业务需求,设计创新的加速算法和优化方案,提升大模型推理效率; 2、运用蒸馏技术压缩大模型规模,在保持模型性能的前提下降低计算复杂度;通过量化技术减少模型参数和计算量,实现模型在不同硬件平台上的高效部署;探索协同推理技术,优化多模型、多设备间的协同计算流程,提高整体推理性能; 3、建立大模型推理性能评估指标体系,对加速后的模型进行全面测试和分析,通过实验验证算法效果,持续优化推理加速方案,确保模型在实际应用中满足响应速度和资源消耗要求; 4、与模型研发团队紧密合作,深入了解大模型结构和特点,针对性地开展推理加速工作;协同硬件开发、工程部署团队,解决模型在不同硬件环境下的适配和性能瓶颈问题,推动推理加速技术在产品中的落地应用; 5、密切关注大模型推理加速领域的最新技术动态和研究成果,探索新技术、新方法在公司业务中的应用可能性,保持公司在该领域的技术领先优势。
1. 研发高性能推理算法: 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术: 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略: 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。