快手机器学习平台工程师【数据方向】
任职要求
1、有算法模型领域经验,了解推荐领域主流模型结构,了解TensorFlow/Pytorch 等深度学习引擎; 2、编程技能:至少熟练掌握Java或C++中的一门编程语言,扎实的计算机基础功底; 3、大数据:熟悉 Flink/Hive/HDFS等数据系统的基本原理,有源码级经验者优先。 如果具备上述三种技能,你将会非常适合我们的岗位; 如果只具备上述两种,你需要有一颗爱学习的心,有投入到硬核AI科技领域的热情,我们会帮助你成长。
工作职责
1、参与研发快手的端到端机器学习平台,作为公司级的平台,支撑了包括推荐、广告、搜索等核心业务的算法迭代; 2、通过开源或自研的大数据系统,构建特征工程领域的高性能计算存储框架和统一开发平台,与训练引擎一起,支持算法团队的研发效率; 3、重点研究数据的存储与传输格式,分布式计算框架,算法DSL语言,TaskFlow 等技术,不断优化海量数据下的特征工程系统效率。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支持语音、音乐、多模态相关算法高效迭代; 2、构建大规模数据存储、处理、分析系统,保障Pretrain/SFT/RL各个阶段的训练数据生产,持续提升数据的规模、质量、多样性; 3、与算法同学深度合作,优化数据处理依赖的基础模型,并参与大模型的训练评测,通过数据驱动模型效果提升; 4、负责数据和AI Infrastructure前瞻技术的调研和引入,持续加强提升部门关键技术竞争力。
阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 负责智能信息基础技术平台系统相关研发,包括不限于以下方向: 1、构建高效可靠的云原生容器平台、提出资源优化模型以提升业务资源效率、参与机器学习工程平台的建设和优化,以及运用技术和标准化方案确保平台服务的稳定性和可维护性。 2、负责开发和优化大模型应用开发框架,创造高效的搜索应用解决方案,并深度参与智能信息系统的基础架构与组件开发,以确保技术的高效集成与实际落地。 3、开发和优化搜索引擎,高并发检索、大数据分布式存储及流批计算等系统,深入搜索业务需求设计实现解决方案,不断提高业务性能、系统稳定性,提升系统效率和成本效益。 4、开发和优化推荐引擎、模型预测和向量检索等基础系统,深入参与信息流推荐业务以实现业务需求,同时基于业务洞察设计新平台或改进现有系统,提升系统效率和成本效益。 5、开发和优化实验平台与系统,紧跟AB测试技术前沿,为业务提供精准的实验设计和分析、优化关键指标,并应用算法提高业务参数寻优的效果和效率。 6、具备数理统计基础,在数据科学、数据分析方向有经验者优先。