logo of jd

京东大模型推理部署工程师

社招全职软件开发岗地点:北京状态:招聘

任职要求


1. 教育背景:​​ 计算机科学、软件工程、人工智能或相关STEM领域的硕士及以上学历;
2. 技术基石:​​ 
   * 扎实的计算机科学基础和良好的工程实践能力;
   * 精通至少一种主流编程语言(如PythonC++),具备出色的编码和调试能力;
   * 熟悉主流大模型推理引擎和优化技术(如 vLLM, SGLang, TensorRT-LLM等);
2. 经验优先:​​
   * 拥有云计算系统、机器学习平台、分布式计算、中间件等领域的相关开发或落地经验者优先;
   * 在机器学习/系统领域顶级会议(如 ATC,ASPLOS, OSDI, MLSys,WWW等)发表论文;
   * 作为核心贡献者深度参与知名开源项目,如 vLLM, SGLang, TensorRT-LLM等;
   * 在相关国际竞赛中取得突出成绩;
4. 软性素质:​​
   * 沟通协作:​​ 具备出色的沟通表达能力和高效的团队协作精神;
   * ​技术追求:​​ 对技术有强烈的好奇心与钻研精神,追求卓越;
   * 解决问题:​​ 具备优秀的自驱力,能主动发现问题、分析问题并创造性地解决问题。

符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。

工作职责


1. 构建AI云推理架构:​​ 探索PD分离、KV池化、通信优化等技术,设计并实现适用于AI原生的分布式推理服务架构,应对高并发、低延迟挑战;
2. ​开发核心推理平台能力:​​ 打造AI原生网关及高可用系统,核心技术点包括但不限于:异构资源调度、身份认证与鉴权、请求智能限流、动态模型路由、推理容器/镜像加速、安全变更管控、系统深度可观测性等;
3. 参与推理全栈应用实践:​​ 积极涉足推理服务上下游应用开发,如构建RAG(检索增强生成)系统、探索提示词工程优化实践、参与AI模型市场(MCP)建设或AIGC应用落地等。
包括英文材料
学历+
Python+
C+++
大模型+
推理引擎+
vLLM+
SGLang+
TensorRT+
机器学习+
中间件+
相关职位

logo of xiaohongshu
实习后端开发

1、参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 2、参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 3、参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。

更新于 2025-08-05
logo of xiaohongshu
实习引擎

核心职责: 参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。

更新于 2025-10-14
logo of bytedance
社招A197948

团队介绍:TRAE(The Real AI Engineer),是字节跳动旗下产品,一个能理解需求、调动工具、独立完成开发任务的 AI 工程师,为用户提供端到端生成真实软件的服务。TRAE是当前国内最受欢迎的AI编程产品之一,也是全球首个端到端AI软件开发Agent产品,可覆盖简单到复杂全场景。我们正在寻找充满热情、富有创造力的人才。期待你的加入,与我们共同重塑开发范式,定义未来开发的形态。 1、服务稳定性保障:保障TRAE产品AI功能的模型服务稳定,处理线上报警、完成部署扩缩容,支撑ToC/ToB业务增长; 2、E2E性能及成本优化:端到端分析链路性能,协同客户端与服务端优化代码补全及Agent时延、吞吐;从业务视角优化模型部署成本,提升GPU利用率; 3、高性能推理部署优化:结合业务特性设计并迭代模型推理、部署方案,逼近硬件理论算力极限;基于高性能算子库扩展新模型结构支持,构建 “模型量化 - 推理加速 - 部署” 完整Pipeline并产品化落地(如MoE稀疏结构、Diffusion模型)。

更新于 2025-09-18
logo of mi
社招4年以上A179886

1、大模型推理优化和计算框架的设计和开发工作,提升大模型推理效率; 2、通过量化、并行计算、访存优化等方法,支持单卡、多卡、多机情况下模型推理时延和吞吐效率的提升; 3、进行模型性能分析和调优,识别和解决瓶颈问题,提升模型的推理速度; 4、实施并维护自动化工具和流程,简化模型推理部署过程; 5、跟踪最新的研究进展和技术趋势,提出改进和创新的想法,推动团队技术发展。

更新于 2025-05-13