字节跳动后端研发实习生（统一存储）-集团信息系统

实习兼职A2258442026-01-26地点：深圳状态：招聘

扫码手机上打开

任职要求

1、2027届本科及以上学历在读，计算机、通信等相关专业者优先；
2、追求工程卓越，自驱，具备良好的业务抽象能力和系统化解决问题的能力；
3、扎实的数…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。
团队介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。

1、参与平台产品的服务端研发工作，推动业务的快速发展和高效迭代；
2、参与系统架构设计、优化，提升系统性能和开发效率，保证设计和编码的质量；
3、协助团队攻克各种高并发、系统解耦等方面的技术难关；
4、参与各专项技术调研，新技术引入等前瞻项目。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - AI Frameworks系统软件前沿研究

实习阿里云研究型实习

【我们是谁？】阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战： 1.超大规模预训练系统优化：追求极致效率与稳定性 ·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。 ·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。 ·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。 2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比 ·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务：敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。 ·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海

后端研发实习生（统一存储）-集团信息系统

实习A115038

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队及介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。 1、参与平台产品的服务端研发工作，推动业务的快速发展和高效迭代； 2、参与系统架构设计、优化，提升系统性能和开发效率，保证设计和编码的质量； 3、协助团队攻克各种高并发、系统解耦等方面的技术难关； 4、参与各专项技术调研，新技术引入等前瞻项目。

更新于 2026-01-26深圳

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

大模型后训练算法工程师/专家

社招引擎

中台稠密引擎组，是小红书负责建设通用深度学习训练推理引擎的团队，面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景，打造高效、易用、业界领先的训练与推理引擎，为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力，支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法（包括但不限于RFT、RLHF等），以适应多样化的业务场景； 2、结合业务数据和场景，评估选择最适合的微调算法，以支撑业务大语言模型（LLM）微调指标的提升； 3、与数据团队紧密合作，深入理解数据特性，参与设计实现数据提质算法引擎工具，产出高质量数据集提升模型微调效果； 4、与公司内各算法团队深度合作，参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地； 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文，并整合新技术和算法到训练引擎中，提升框架的领先性；

上海|北京