字节跳动AI数据开发实习生-Seed
任职要求
1、本科及以上学历在读,计算机、软件工程等相关专业优先; 2、熟练掌握Python、Golang等一种以上编程语言,有高并发和异步编程经验的优先; 3、熟悉Hudi,Hive,ClickHouse,MySQL、Mongo、ES等数据湖和数据仓库,了解底层原理,具备数据抽象和建模的能力; 4、熟悉Hadoop、Spark,Flink等大数据处理的相关经验; 5、了解Kafka、RocketMq等消息中间件的基本原理和使用; 6、具备出色的沟通和协作能力,注重细节、善于分析问题并解决问题。
工作职责
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量数据的管理,包括数据的存储,数据处理,数据安全,数据校验等等; 2、负责数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责Seed-AI平台大模型规模化训练数据自动化处理全流程相关开发工作,包括但不限于数据搜集、预处理、打标、入库、检索等; 2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架,以支撑大模型数据集持续高效迭代,实现高质量数据集沉淀; 3、负责数据生成和数据增强,利用大模型工具生成来扩充和完善数据集。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与机器学习平台的设计、开发和维护; 3、持续提升平台效率、易用性、降低算法使用成本,探索业界前沿的机器学习相关技术,设计并实现到机器学习平台中。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与模型训练/推理优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练/推理速度及效率; 2、开发和优化AI研发场景下的工具和方法,持续改进并行训练/推理模型的框架和策略,以满足公司业务的需求; 3、对业务进行性能瓶颈分析,实施模型训练/推理性能优化措施,提升训练/推理效率,同时利用硬件特性最大化资源效用,并与业界技术进步保持同步。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与模型训练/推理优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练/推理速度及效率; 2、开发和优化AI研发场景下的工具和方法,持续改进并行训练/推理模型的框架和策略,以满足公司业务的需求; 3、对业务进行性能瓶颈分析,实施模型训练/推理性能优化措施,提升训练/推理效率,同时利用硬件特性最大化资源效用,并与业界技术进步保持同步。