字节跳动AI数据开发实习生-Seed
任职要求
1、硕士及以上学位在读,计算机、人工智能等专业优先; 2、熟练掌握文本、多模态等非结构化数据处理方法,熟悉数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题; 3、精通Python、Golang、Java等至少一种编程语言,具备良好的编码能力和代码质量意识,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法和流程; 4、熟悉大数据开发相关工具,如Spark/Flink/Hadoop/Ray等; 5、具备一定的数据建模以及数据开发经验,能够对结构化和非结构化数据场景进行统一的建模;具备优秀的分析问题和解决问题能力,勇于挑战困难问题,具备良好的团队协作意识; 6、有大模型或者离在线场景下海量图片和视频数据处理经验者优先。
工作职责
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责Seed-AI平台大模型规模化训练数据自动化处理全流程相关开发工作,包括但不限于数据搜集、预处理、打标、入库、检索等; 2、负责构建针对不同场景、不同数据类型、不同数据规模有足够的扩展性的数据处理技术链路和框架,以支撑大模型数据集持续高效迭代,实现高质量数据集沉淀; 3、负责数据生成和数据增强,利用大模型工具生成来扩充和完善数据集。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量数据的管理,包括数据的存储,数据处理,数据安全,数据校验等等; 2、负责数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与机器学习平台的设计、开发和维护; 3、持续提升平台效率、易用性、降低算法使用成本,探索业界前沿的机器学习相关技术,设计并实现到机器学习平台中。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与模型训练/推理优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练/推理速度及效率; 2、开发和优化AI研发场景下的工具和方法,持续改进并行训练/推理模型的框架和策略,以满足公司业务的需求; 3、对业务进行性能瓶颈分析,实施模型训练/推理性能优化措施,提升训练/推理效率,同时利用硬件特性最大化资源效用,并与业界技术进步保持同步。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与模型训练/推理优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练/推理速度及效率; 2、开发和优化AI研发场景下的工具和方法,持续改进并行训练/推理模型的框架和策略,以满足公司业务的需求; 3、对业务进行性能瓶颈分析,实施模型训练/推理性能优化措施,提升训练/推理效率,同时利用硬件特性最大化资源效用,并与业界技术进步保持同步。