京东大模型推理部署工程师
社招全职软件开发岗地点:北京状态:招聘
任职要求
1. 教育背景: 计算机科学、软件工程、人工智能或相关STEM领域的硕士及以上学历; 2. 技术基石: * 扎实的计算机科学基础和良好的工程实践能力; * 精通至少一种主流编程语言(如Python,C++),具备出色的编码和调试能力; * 熟悉主流大模型推理引擎和优化技术(如 vLLM, SGLang, TensorRT-LLM等); 2. 经验优先: * 拥有云计算系统、机器学习平台、分布式计算、中间件等领域的相关开发或落地经验者优先; * 在机器学习/系统领域顶级会议(如 ATC,ASPLOS, OSDI, MLSys,WWW等)发表论文; * 作为核心贡献者深度参与知名开源项目,如 vLLM, SGLang, TensorRT-LLM等; * 在相关国际竞赛中取得突出成绩; 4. 软性素质: * 沟通协作: 具备出色的沟通表达能力和高效的团队协作精神; * 技术追求: 对技术有强烈的好奇心与钻研精神,追求卓越; * 解决问题: 具备优秀的自驱力,能主动发现问题、分析问题并创造性地解决问题。 符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
1. 构建AI云推理架构: 探索PD分离、KV池化、通信优化等技术,设计并实现适用于AI原生的分布式推理服务架构,应对高并发、低延迟挑战; 2. 开发核心推理平台能力: 打造AI原生网关及高可用系统,核心技术点包括但不限于:异构资源调度、身份认证与鉴权、请求智能限流、动态模型路由、推理容器/镜像加速、安全变更管控、系统深度可观测性等; 3. 参与推理全栈应用实践: 积极涉足推理服务上下游应用开发,如构建RAG(检索增强生成)系统、探索提示词工程优化实践、参与AI模型市场(MCP)建设或AIGC应用落地等。
包括英文材料
学历+
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
推理引擎+
https://www.youtube.com/watch?v=_dvk75LEJ34
https://www.youtube.com/watch?v=XtT5i0ZeHHE
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
SGLang+
[英文] Install SGLang
https://docs.sglang.ai/get_started/install.html
SGLang is a fast serving framework for large language models and vision language models.
https://github.com/sgl-project/sgl-learning-materials
TensorRT+
https://docs.nvidia.com/deeplearning/tensorrt/latest/getting-started/quick-start-guide.html
This TensorRT Quick Start Guide is a starting point for developers who want to try out the TensorRT SDK; specifically, it demonstrates how to quickly construct an application to run inference on a TensorRT engine.
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
中间件+
https://www.youtube.com/watch?v=1oWPUpMheGk
相关职位
实习后端开发
1、参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 2、参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 3、参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。
更新于 2025-08-05
实习引擎
核心职责: 参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。
更新于 2025-10-14
社招A197948
团队介绍:TRAE(The Real AI Engineer),是字节跳动旗下产品,一个能理解需求、调动工具、独立完成开发任务的 AI 工程师,为用户提供端到端生成真实软件的服务。TRAE是当前国内最受欢迎的AI编程产品之一,也是全球首个端到端AI软件开发Agent产品,可覆盖简单到复杂全场景。我们正在寻找充满热情、富有创造力的人才。期待你的加入,与我们共同重塑开发范式,定义未来开发的形态。 1、服务稳定性保障:保障TRAE产品AI功能的模型服务稳定,处理线上报警、完成部署扩缩容,支撑ToC/ToB业务增长; 2、E2E性能及成本优化:端到端分析链路性能,协同客户端与服务端优化代码补全及Agent时延、吞吐;从业务视角优化模型部署成本,提升GPU利用率; 3、高性能推理部署优化:结合业务特性设计并迭代模型推理、部署方案,逼近硬件理论算力极限;基于高性能算子库扩展新模型结构支持,构建 “模型量化 - 推理加速 - 部署” 完整Pipeline并产品化落地(如MoE稀疏结构、Diffusion模型)。
更新于 2025-09-18