京东高性能大模型服务
任职要求
1、拥有本科及以上学历,计算机科学或STEM领域相关专业; 2、熟练掌握大模型基础以及vLLM/SGLang/TensorRT-LLM等主流…
工作职责
1、基于高性能注意力、模型压缩、并行解码、算子融合、计算通信重叠等软硬件一体优化技术,构建高吞吐低延迟推理能力; 2、面向海量业务诉求,探索PD分离、弹性容量、负载均衡、异构调度等技术,构建AI原生服务架构,提供高可用低成本的服务; 3、探索前沿算法与架构,通过顶会论文、社区开源等方式,提升团队影响力。
1.负责大模型推理集群的长期规划、架构设计与持续迭代,构建高可用、高性能的分布式推理基础设施; 2.参与大模型推理部署平台的建设,包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力; 3.构建大模型服务自动化部署工具链,支持一键式模型发布与集群扩缩容; 4.负责大语言模型PD分离架构下的集群优化,包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等; 5.负责大语言服务层流量调度,包括流量分发系统、负载均衡策略(如动态权重分配、请求优先级调度、KV Cache感知); 6.设计面向外部的高性能大模型调用API(REST/gRPC),实现请求鉴权、流量控制、请求计费、熔断降级等核心功能; 7.搭建端到端监控体系(QPS/延迟/错误率/GPU利用率),建立SLA保障机制与故障自愈能力; 8.解决多租户场景下的资源隔离和资源复用问题,保证用户需求的基础上,实现最大化集群利用率。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台,支撑国际化短视频大模型研发与高效迭代; 2、探索业界前沿的大模型工程研发(LLMOps)相关技术,覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向; 3、构建高性能大模型推理服务架构,降低推理成本,保障服务高可用运行。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、参与/研发业界领先、高效、易用的高性能大模型服务引擎框架,支撑大模型语音理解、语音合成、音乐生成以及端到端对话交互等场景核心能力落地; 2、参与/负责引擎深度优化,包括高性能计算引擎、语音理解/合成、音乐生成等常用引擎的极致优化; 3、参与/负责语音相关大模型(理解、合成、音乐、对话交互)能力工程化落地,支持抖音、剪映、豆包、猫箱、飞书,番茄小说、火山引擎等产品,用户规模数亿国内国际用户。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。 1、参与/研发业界领先、高效、易用的高性能大模型服务引擎框架,支撑大模型语音理解、语音合成、音乐生成以及端到端对话交互等场景核心能力落地; 2、参与/负责引擎深度优化,包括高性能计算引擎、语音理解/合成、音乐生成等常用引擎的极致优化; 3、参与/负责语音相关大模型(理解、合成、音乐、对话交互)能力工程化落地,支持抖音、剪映、豆包、猫箱、飞书,番茄、火山引擎等产品,用户规模数亿国内国际用户。