字节跳动机器学习系统研发工程师-Data AML
任职要求
1、熟悉Linux开发环境,具备良好扎实的算法基础、良好的编程风格和系统设计能力; 2、熟悉服务端基础技术(C++/Python/Golang/Java,数据库,消息队列,微服务,多…
工作职责
1、负责智能推荐机器学习系统的开发,支撑团队相关业务的算法生产与高效迭代; 2、设计和实现机器学习相关的基础设施/算法框架/工具链等,并推动落地到业务中; 3、探索业界前沿的机器学习相关技术,持续提升平台能力、降低算法使用成本。
1、负责大模型平台安全功能研发,聚焦安全功能的设计与研发,大模型安全功能全流程建设; 2、负责后台核心服务及通用组件开发、熟悉容器/K8s相关开发; 3、深入理解AI模型/数据全生命周期的安全和隐私保护需求,设计和研发安全保护方案,对AI平台进行安全增强; 4、具备一定的数据采集、处理、分析能力,能够以可视化的方法呈现系统的业务价值。
1、参与研发前沿算法、端云协同等下一代人工智能技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于搜索、推荐、广告、审核、联邦学习等; 3、深入调研和关注多模态/NLP/CV等方向的前沿技术。
1、veRL框架研发与优化:主导veRL架的核心功能设计与开发,聚焦性能优化与稳定性提升,推动框架在复杂场景(如Agent、Compute Use)下的规模化应用;同时深度参与开源社区生态建设(如技术贡献、文档维护、社区活动组织); 2、veOmini LLM/DiT训练框架研发与优化:负责veOmini中LLM与DiT训练模块的开发与优化,支持Wan2.1/Qwen/DeepSeek等热点模型的高效后训练和强化学习。
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理; 2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用; 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力; 4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载合理化分布。