字节跳动数据服务工程师-豆包大模型
任职要求
1、3年以上数据服务相关开发经验,熟练掌握Python、Golang等一种以上编程语言,有高并发和异步编程经验的优先; 2、熟悉Hudi,Hive, ClickHouse,Mysql、Mongo、ES等数据湖和数据仓库,了解底层原理,具备数据抽象和建模的能力; 3、熟悉Hadoop、Spark,Flink等大数据处理的相关经验; 4、了解Kafka、RocketMq等消息中间件的基本原理和使用; 5、 具备出色的沟通和协作能力,注重细节、善于分析问题并解决问题。
工作职责
1、负责千亿级别海量数据的管理,包括数据的存储,数据处理,数据安全,数据校验等等; 2、负责数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责开发和优化公司级的AIGC推理框架,通过编译优化、并行计算优化、图融合、高效 CUDA 算子开发、低精度计算、高并发服务请求优化等高性能优化技术打造业界领先的 AIGC 推理引擎; 2、负责 AIGC训练优化算法研究和落地,通过数据并行、模型并行、Pipeline并行、通信优化等基于 CUDA 的分布式训练框架大幅提升模型的训练速度与效率; 3、与公司各算法部门深度合作,分析业务性能瓶颈,通过软硬结合的方式,高效部署与优化AIGC核心业务模型,落地到字节各产品线,投入AI工具链开发及技术生态的建设,支撑字节AI方向重要业务的发展;
1、发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作,提高模型质量和适应性; 3、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果; 5、推进大模型效果评估,尤其是复杂场景(多轮对话、开放领域)评估集建设和自动化评估能力建设; 6、深入研究和探索大模型在ToB企业服务中的更多使用场景,拓展模型的应用范围,如搜索、推荐、广告、创作、客服和办公等各类场景。
1、发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作,提高模型质量和适应性; 3、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果; 5、推进大模型效果评估,尤其是复杂场景(多轮对话、开放领域)评估集建设和自动化评估能力建设; 6、深入研究和探索大模型在ToB企业服务中的更多使用场景,拓展模型的应用范围,如搜索、推荐、广告、创作、客服和办公等各类场景。
1、发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作,提高模型质量和适应性; 3、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果; 5、推进大模型效果评估,尤其是复杂场景(多轮对话、开放领域)评估集建设和自动化评估能力建设; 6、深入研究和探索大模型在ToB企业服务中的更多使用场景,拓展模型的应用范围,如搜索、推荐、广告、创作、客服和办公等各类场景。