快手大模型训练框架研发工程师-可灵
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题; 2、有深度学习基本知识,熟悉Transformer/Bert/GPT等模型结构更佳; 3、掌握Python/C++编程语言,熟练使用Pytorch训练框架; 4、具备分布式训练或HPC基础知识,了解集合通信和CUDA…
工作职责
1、参与AI大模型训练框架研发,面向内部提供混合并行、极致性能、易用好的框架; 2、调研最新技术和性能调优工具,持续提升框架的性能和易用性; 3、完成多种 AI 框架的对接工作。
1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练; 2、搭建 Data Centric 的多模态数据处理 pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节; 3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,持续优化多模态数据的存储以及检索效率。
负责 AReaL 开源框架的开发、迭代和生态建设,以及内部 AReaL-ASystem 框架的优化与部署。 1. 开源框架开发与维护:在 GitHub 上参与 AReaL 开源版本的迭代,编写清晰的文档和示例代码,响应社区问题和贡献; 2. 应用场景扩展:支持更多强化学习应用场景,包括SWE Agent、GUI Agent、多智能体协作等; 3. 推进融合开源软件生态:进一步集成开源工具和模型库(如 Amem,Awex,AEnvironment等),保持与社区前沿技术的同步; 4. 系统性能优化:针对大模型强化学习训练和推理场景,进行端到端性能分析和优化,包括分布式训练加速、显存优化、通信效率提升等,满足大规模 Agent 训练的性能要求。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责公司大模型系统研发、训练数据架构,主要为公司提供底层通用的训练数据框架(Dataloader); 2、设计并实现高吞吐、高稳定、简单易用、可扩展、灵活可定制的Dataloader ; 3、深入了解业务场景,持续迭代升级架构以应对大模型技术发展对Dataloader不断涌现的新需求; 4、推动模型训练向更大规模、高可用方向不断进步。