字节跳动计算引擎高级研发工程师-训练设施

社招全职A197733A2023-06-05地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机相关专业优先；
2、精通Python/C++/Go等编程语言；
3、具有Ray内核或者R…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与公司内基于Ray的分布式计算场景的方案设计以及研发，包括机器学习、图等场景；
2、参与Ray内核/Kuberay以及相关上层生态框架的功能开发&性能优化；
3、参与Ray在K8s上的弹性/潮汐资源集群稳定性/可观测性/平台化对接等能力建设；
4、参与Ray开源社区的建设。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

Go+

还有更多 •••

登录查看完整学习资料

相关职位

AI平台高级研发工程师（大模型专项）

社招3-5年大模型

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、负责大模型平台的架构设计和核心功能研发，构建云原生架构，设计高可用、高性能的微服务体系； 2、负责构建面向大模型全流程的DevOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地； 3、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段，提升GPU集群使用效率； 4、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率，涉及k8s/kubeflow、网络通信、分布式训练等； 5、优化各AI平台性能，提升系统稳定性和可扩展性，保障大规模并发场景下的服务质量与用户体验； 6、持续研究分析业内创新AI平台产品，优化技术方案，改进产品功能，提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州

阿里云智能-AI异构软硬件结合高级开发工程师-上海

社招3年以上云智能集团

1. 负责研发AI异构计算软件栈，通过结合不同加速芯片的特性，实现AI计算的全链路优化，助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景，开展软硬件协同优化和技术创新（包括但不限于算子优化与编译、量化压缩，计算通讯融合，系统调度、分布式推理优化等工程任务），为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势，积极参与下一代AI基础设施的设计与研发。

更新于 2025-08-08上海

AI平台高级研发工程师（大模型专项）

社招3年以上机器学习平台

【业务介绍】我们是小红书内稠密类模型（LLM/MLLM/SD/CV/NLP）统一的AI平台QuickSilver，负责调度公司内所有稠密类模型训练与推理资源，基于自建的训推引擎，为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务；包括数据管理，模型管理，模型训练、压缩、推理、部署，服务管理，资源调度等一系列能力。工作职责： 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程，包括模型fine-tuning、推理服务化等 3、构建云原生架构，设计高可用、高性能的微服务体系 4、优化平台性能，提升系统稳定性和可扩展性

北京|上海|深圳

训练推理一体化存储研发高级工程师-Data

社招3年以上A56142

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。 1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS）等多种介质进行数据的存储和迁移管理，实现近计算缓存+远端大容量存储的一体化分级系统； 2、负责优化推荐大模型KV Cache命中率，从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略，和业务方协作完成端到端推理性能加速； 3、负责建设搜广推通用用户行为数据存储，设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案，支撑EB级别训练和推理数据，提供高可用保障，在离在线混合负载下，高吞吐和低延时能力的分布式存储系统。

更新于 2025-08-05北京