字节跳动多模态数据服务工程师-Seed
任职要求
1、3年以上数据服务相关开发经验,熟练掌握Python、Golang等一种以上编程语言,有高并发和异步编程经验的优先; 2、熟悉Hive, ClickHouse,Mysql、Mongo、ES等数据湖和数据仓库,了解底层原理,具备数据抽象和建模的能力; 3、熟悉Hadoop、Spark,Flink,Ray等大数据处理的相关经验; 4、具备出色的沟通和协作能力,注重细节、善于分析问题并解决问题。
工作职责
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量多模态数据的管理,包括视频、图像数据的存储,数据处理,数据安全,数据校验等等; 2、负责多模态数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持多模态数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、深度参与图像生成、视频生成、多模态视觉理解等视觉大模型训推一体化平台建设; 2、负责视觉大模型训练优化算法研究和落地,通过5D并行、通信优化、AutoCheckpointing等分布式训练手段提升模型的训练速度与效率; 3、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能大模型训推引擎; 4、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,优化和部署视觉大模型,支持AI工具链和技术生态建设,推动字节跳动AI关键业务发展。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。