京东高性能大模型服务

校招全职高性能与云计算方向2025-07-24地点：北京状态：招聘

扫码手机上打开

任职要求

1、拥有本科及以上学历，计算机科学或STEM领域相关专业；
2、熟练掌握大模型基础以及vLLM/SGLang/TensorRT-LLM等主流…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、基于高性能注意力、模型压缩、并行解码、算子融合、计算通信重叠等软硬件一体优化技术，构建高吞吐低延迟推理能力；
2、面向海量业务诉求，探索PD分离、弹性容量、负载均衡、异构调度等技术，构建AI原生服务架构，提供高可用低成本的服务；
3、探索前沿算法与架构，通过顶会论文、社区开源等方式，提升团队影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理集群优化研发工程师

社招CSIG技术

1.负责大模型推理集群的长期规划、架构设计与持续迭代，构建高可用、高性能的分布式推理基础设施； 2.参与大模型推理部署平台的建设，包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力； 3.构建大模型服务自动化部署工具链，支持一键式模型发布与集群扩缩容； 4.负责大语言模型PD分离架构下的集群优化，包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等； 5.负责大语言服务层流量调度，包括流量分发系统、负载均衡策略（如动态权重分配、请求优先级调度、KV Cache感知）； 6.设计面向外部的高性能大模型调用API（REST/gRPC），实现请求鉴权、流量控制、请求计费、熔断降级等核心功能； 7.搭建端到端监控体系（QPS/延迟/错误率/GPU利用率），建立SLA保障机制与故障自愈能力； 8.解决多租户场景下的资源隔离和资源复用问题，保证用户需求的基础上，实现最大化集群利用率。

更新于 2025-06-17上海

大模型机器学习平台研发工程师-TikTok AI创新中心（北京/上海）

社招2年以上A241222

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心，是致力于AI基础设施建设和创新研究的部门，探索行业领先的人工智能技术，包括大语言模型，多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法，为用户带来更好的内容消费体验。在Code AI方向，我们利用大语言模型强大的代码理解与推理能力，提升程序性能与研发效率。 1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台，支撑国际化短视频大模型研发与高效迭代； 2、探索业界前沿的大模型工程研发（LLMOps）相关技术，覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向; 3、构建高性能大模型推理服务架构，降低推理成本，保障服务高可用运行。

更新于 2024-03-25北京

算法引擎实习生-Data语音

实习A01520A

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程，赋能内容创作和互动，并以中台形式支持集团多个业务，提供业界前沿的技术能力与解决方案。 1、参与/研发业界领先、高效、易用的高性能大模型服务引擎框架，支撑大模型语音理解、语音合成、音乐生成以及端到端对话交互等场景核心能力落地； 2、参与/负责引擎深度优化，包括高性能计算引擎、语音理解/合成、音乐生成等常用引擎的极致优化； 3、参与/负责语音相关大模型（理解、合成、音乐、对话交互）能力工程化落地，支持抖音、剪映、豆包、猫箱、飞书，番茄小说、火山引擎等产品，用户规模数亿国内国际用户。

更新于 2025-02-14上海

算法引擎实习生-Data语音

实习A146354

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程，赋能内容创作和互动，并以中台形式支持集团多个业务，提供业界前沿的技术能力与解决方案。 1、参与/研发业界领先、高效、易用的高性能大模型服务引擎框架，支撑大模型语音理解、语音合成、音乐生成以及端到端对话交互等场景核心能力落地； 2、参与/负责引擎深度优化，包括高性能计算引擎、语音理解/合成、音乐生成等常用引擎的极致优化； 3、参与/负责语音相关大模型（理解、合成、音乐、对话交互）能力工程化落地，支持抖音、剪映、豆包、猫箱、飞书，番茄、火山引擎等产品，用户规模数亿国内国际用户。

更新于 2025-05-27深圳