字节跳动高性能计算研发实习生-Data AML

实习兼职A520312025-02-14地点：北京状态：招聘

扫码手机上打开

任职要求

1、2026届本科及以上学历在读，计算机、软件工程等相关专业优先；
2、熟悉常见的算法、设计模式和数据结构，具备扎实的操作系统、计算机体系结构等知识；
3、独立分析问题和解决问题，自我驱动并对过程负责；
4、以下条件为加分项：
1）能够理解GPU硬件架构，熟悉GPU软…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。
团队介绍：Data AML是字节跳动公司的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外，AML还在AI for Science，科学计算等领域做一些前沿研究。

1、负责机器学习训练和推理系统的研发与性能优化，包括但不限于：超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等；
2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关，支撑公司内外千万客户流量需求；
3、负责大模型训练和推理前瞻性技术架构的调研和引入，技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等；
4、负责异构硬件的引入与训练推理框架的集成，包括但不限于GPU、NPU、TPU等；
5、面向全球多地域超大规模GPU算力集群，通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率；
6、与算法部门深度合作，分析性能瓶颈，通过软硬结合提升模型训推效率，支持AI工具链和技术生态建设，推动公司AI关键业务发展。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

设计模式+

数据结构+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

AI平台高级研发工程师（大模型专项）

社招3年以上机器学习平台

【业务介绍】我们是小红书内稠密类模型（LLM/MLLM/SD/CV/NLP）统一的AI平台QuickSilver，负责调度公司内所有稠密类模型训练与推理资源，基于自建的训推引擎，为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务；包括数据管理，模型管理，模型训练、压缩、推理、部署，服务管理，资源调度等一系列能力。工作职责： 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程，包括模型fine-tuning、推理服务化等 3、构建云原生架构，设计高可用、高性能的微服务体系 4、优化平台性能，提升系统稳定性和可扩展性

北京|上海|深圳

AI平台高级研发工程师（训练方向）

社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计，包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设，包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统，打造端到端训练解决方案 4、优化训练调度和资源管理，提升集群利用率和训练效率 5、开发模型训练监控诊断工具，建设可观测性体系

北京|上海|深圳