快手机器学习平台工程师【数据方向】
任职要求
1、有算法模型领域经验,了解推荐领域主流模型结构,了解TensorFlow/Pytorch 等深度学习引擎; 2、编程技能:至少熟练掌握Java或C++中的一门编程语言,扎实的计算机基础功底; 3、大数据:熟悉 F…
工作职责
1、参与研发快手的端到端机器学习平台,作为公司级的平台,支撑了包括推荐、广告、搜索等核心业务的算法迭代; 2、通过开源或自研的大数据系统,构建特征工程领域的高性能计算存储框架和统一开发平台,与训练引擎一起,支持算法团队的研发效率; 3、重点研究数据的存储与传输格式,分布式计算框架,算法DSL语言,TaskFlow 等技术,不断优化海量数据下的特征工程系统效率。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支持语音、音乐、多模态相关算法高效迭代; 2、构建大规模数据存储、处理、分析系统,保障Pretrain/SFT/RL各个阶段的训练数据生产,持续提升数据的规模、质量、多样性; 3、与算法同学深度合作,优化数据处理依赖的基础模型,并参与大模型的训练评测,通过数据驱动模型效果提升; 4、负责数据和AI Infrastructure前瞻技术的调研和引入,持续加强提升部门关键技术竞争力。
钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧餐饮、明厨亮灶、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI数据工程领域具备真正工程化落地经验的技术人才,你将参与视觉AI系统的数据全链路建设与优化,支撑边缘端视频AI服务的高效迭代。具体职责包括 1. 数据管理与运营 ● 数据需求分析与规划:根据算法团队的数据需求,协调整个数据闭环全流程工作(供应商对接、标注验收、测试benchmark) ○ 数据需求汇总:理解每个算法需要多少训练、测试数据,优先级分别是什么 ○ 制定数据采集、标注与质检计划,确保数据质量与交付时效 ● 数据渠道管理:外采(AIData等平台)、对接各个业务方和客户要数据 ○ 建立稳定的数据供应商合作关系,评估数据质量与成本 ○ 设计内部数据共享机制,打通业务侧真实场景数据 ● 外包工作管理:根据数据需求和优先级排工作以及工作验收 ○ 制定标注规范与验收标准,监控标注进度与质量 ○ 建立标注团队绩效评估体系 2. 数据挖掘与合成 ● 数据挖掘:根据算法需求在数据池中挖掘相关数据,或使用AIGC等手段进行数据合成 ○ 从海量视频数据中挖掘长尾场景、困难样本(如遮挡、小目标、极端光照等) ○ 设计数据筛选策略,提升训练数据的多样性与代表性 ● 数据合成与增强 ○ 利用AIGC、3D渲染、风格迁移等技术生成合成数据 ○ 设计针对边缘端场景的数据增强策略(模拟低分辨率、噪声、压缩失真等) 3. 评测开发 ● 评测体系建设:根据算法的测试需求,实现整个数据收集、脚本开发的CICD全流程 ○ 构建自动化评测平台,支持模型性能、精度、资源占用等多维度评估 ○ 实现测试数据集版本管理与可追溯性 ● 自动感知等功能的实现: ○ 开发数据质量自动检测工具(标注一致性、异常值检测) ○ 实现模型性能衰退自动告警机制 4. 数据平台&标准化工作 ● 数据平台建设:灵活应对各类数据需求 ○ 构建统一的数据管理平台,支持数据采集、标注、存储、检索、版本管理 ○ 实现数据血缘追踪,支持从原始数据到模型训练的全链路可追溯 ● 标准化规范: ○ 制定视觉AI数据标注标准与最佳实践 ○ 统一数据格式、元数据规范,降低跨项目数据复用成本 ○ 建立数据质量评估标准与SLA"
阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 负责智能信息基础技术平台系统相关研发,包括不限于以下方向: 1、构建高效可靠的云原生容器平台、提出资源优化模型以提升业务资源效率、参与机器学习工程平台的建设和优化,以及运用技术和标准化方案确保平台服务的稳定性和可维护性。 2、负责开发和优化大模型应用开发框架,创造高效的搜索应用解决方案,并深度参与智能信息系统的基础架构与组件开发,以确保技术的高效集成与实际落地。 3、开发和优化搜索引擎,高并发检索、大数据分布式存储及流批计算等系统,深入搜索业务需求设计实现解决方案,不断提高业务性能、系统稳定性,提升系统效率和成本效益。 4、开发和优化推荐引擎、模型预测和向量检索等基础系统,深入参与信息流推荐业务以实现业务需求,同时基于业务洞察设计新平台或改进现有系统,提升系统效率和成本效益。 5、开发和优化实验平台与系统,紧跟AB测试技术前沿,为业务提供精准的实验设计和分析、优化关键指标,并应用算法提高业务参数寻优的效果和效率。 6、具备数理统计基础,在数据科学、数据分析方向有经验者优先。