字节跳动机器学习存储架构实习生-Data AML
任职要求
1、2027届本科及以上学历在读,计算机、软件工程等相关专业优先; 2、熟练掌握Linux环境下的C++/Python编程语言的使用; 3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发、维护和持续优化,能够识别复杂分布式系统中的潜在问题; 4、参与过推荐/搜索/机器学习等分布式系统工作,涉及过诸如资源调度、任务编排、模型训练、模型推理、特征抽取、MLSys、AIOps等内容; 5、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,具备良好的团队合作精神; 6、有强烈的工作责任心,较好的学习能力、沟通能力、自驱力和执行力,具备良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项 1、参与过类似ParameterServer系统优化,或者搜索系统的…
工作职责
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。 1、通用性/架构设计取舍:如何构建一个统一的中台系统,但同时可以支持多个业务在不同场景(低成本/高可用性/高吞吐/高性能/大空间)的诉求; 2、多级/分级存储的架构复杂度:不仅限于显存/内存/外存; 3、跟进前沿的软件/硬件架构演进与尝试; 4、作为站内中台,多代际/多机房/多套餐/不同库存大量资源的规划与利用率优化;对于模型规模/服务流量感应后做出的自动/动态调优问题; 5、多个子系统的多种目标的优化:训练部分的功能性、可用性、容错性;serving部分的成本、容量、性能;系统同步部分的数据一致性、实效性、带宽容量; 6、针对一些索引/存储结构不断追求更优:诸如无锁化/渐进式数据结构的无限追求;对于CAP定理不断的挑战与追求。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性