logo of jd

京东大模型推理性能优化算法工程师

社招全职算法开发岗地点:北京状态:招聘

任职要求


1. 教育背景:​​ 计算机科学、人工智能或相关 ​STEM 领域硕士及以上学历,具备扎实的理论基础;
2. 技术能力:​​
    * ​优秀的基础:​​ 拥有深厚的计算机科学理论根基与扎实的算法功底;
    * 编程实力:​​ 具备卓越的编程能力和良好的工程实践习惯;
    * 引擎熟悉度:​​ 熟练掌握 vLLM, SGLang, TensorRT-LLM 等主流大模型推理引擎之一,理解其核心原理;
3、经验优先:​​
    * 在自然语言处理、多模态大模型、扩散模型、图神经网络(GNN)等领域有研究、技术开发或实际落地经验;
    * 作为核心骨干在国际顶会(NeurIPS, ICML, ICLRCVPR, ACL等)发表过高质量论文;
    * 在知名开源项目​(如Hugging Face Transformers, DeepSpeedvLLMSGLangTensorRT-LLM等)中有显著贡献;
    * 在权威人工智能相关竞赛(如Kaggle、天池)中获得优异名次;
4、软性素质:​​
    * 沟通协作:​​ 具备出色的沟通表达能力和高效的团队协作精神;
    * 技术追求:​​ 对技术有强烈的好奇心与钻研精神,追求卓越;
    * ​解决问题:​​ 具备优秀的自驱力,能主动发现问题、分析问题并创造性地解决问题。

符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。

工作职责


1. 研发高性能推理算法:​​ 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性;
2. 探索轻量化推理技术:​​ 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署;
3. 聚焦软硬件一体优化策略:​​ 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。
包括英文材料
学历+
算法+
大模型+
vLLM+
SGLang+
TensorRT+
推理引擎+
NLP+
GNN+
NeurIPS+
ICML+
CVPR+
DeepSpeed+
Kaggle+
相关职位

logo of jd
社招算法开发岗

1. 研发高性能推理算法:​​ 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术:​​ 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略:​​ 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。

更新于 2025-08-03
logo of bytedance
社招A195756

1、负责大模型蒸馏、量化、协同推理等加速技术的研究与开发,深入分析现有算法的优缺点,结合公司业务需求,设计创新的加速算法和优化方案,提升大模型推理效率; 2、运用蒸馏技术压缩大模型规模,在保持模型性能的前提下降低计算复杂度;通过量化技术减少模型参数和计算量,实现模型在不同硬件平台上的高效部署;探索协同推理技术,优化多模型、多设备间的协同计算流程,提高整体推理性能; 3、建立大模型推理性能评估指标体系,对加速后的模型进行全面测试和分析,通过实验验证算法效果,持续优化推理加速方案,确保模型在实际应用中满足响应速度和资源消耗要求; 4、与模型研发团队紧密合作,深入了解大模型结构和特点,针对性地开展推理加速工作;协同硬件开发、工程部署团队,解决模型在不同硬件环境下的适配和性能瓶颈问题,推动推理加速技术在产品中的落地应用; 5、密切关注大模型推理加速领域的最新技术动态和研究成果,探索新技术、新方法在公司业务中的应用可能性,保持公司在该领域的技术领先优势。

更新于 2025-06-05
logo of jd
社招算法开发岗

1. 研发高性能推理算法:​​ 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术:​​ 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略:​​ 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能。

更新于 2025-09-10
logo of tencent
社招1年以上公共技术

1.配合算法工程师,推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。

更新于 2025-10-20