logo of honor

荣耀AI数据工程师

社招全职3年以上研发类地点:北京状态:招聘

任职要求


1、硕士及以上学历,计算机科学、数据科学、统计学等相关专业,三年以上视觉生成、多模态模型应用的背景优先;
2、精通python语言,有丰富的大规模数据处理实践经验;
3、能够熟练运用p…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责AI模型训练数据集构建,如视觉生成、多模态模型训练数据集,包括但不限于半自动化实现数据生产、数据处理、数据标注、数据质量评估等,实现数据闭环,构建稳定高性能pipeline,构建高质量数据集;
2、负责终端侧多源、多端、多形态的数据分析及数据管理,匹配业务需求,构建充足的数据和高质量数据,充分支撑AI能力构建及AI业务;
3、与算法、产品团队等相关方沟通协作,参与数据标准制定、数据构建方案设计;
4、探索更高效的半自动化标注方式,以及更高上限的智能化数据迭代路径。
包括英文材料
学历+
数据科学+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年J0012

1、参与设计与研发快手服务亿级用户的端到端机器学习平台,构建高性能、分布式、可扩展的AI数据计算/存储引擎,通过数据驱动模型生产,支撑包括推荐、广告、搜索、大模型等核心AI算法业务的高效迭代; 2、打造业界领先的AI数据引擎,包括高性能实时/离线分布式计算系统、流批一体化的AI数据湖存储系统、SQL化DSL描述的下一代数据处理平台,为百万核规模、EB级数据的高效计算、存储、迭代提供易用可靠的基础设施; 3、与算法工程师、研究员团队紧密配合,深刻理解端到端的AI模型研发流程,探索业界前沿的Data4AI技术,负责模型研究中数据工程方案的架构设计、实现、持续迭代和稳定性维护。

更新于 2025-08-28北京
logo of tencent
社招TEG技术

1.研发自动化数据标注工具链,覆盖文本、图像等多模态数据类型,实现标注流程标准化与效率提升; 2.设计基于生成模型的数据增强、合成策略,解决数据稀缺性与多样性问题,优化模型泛化能力; 3.构建数据质量评估体系,设计多维度的数据评估指标,开发自动化检测工具实现数据质量量化评估与问题定位。

更新于 2025-05-20北京
logo of bytedance
社招SYEP

1、负责剪映CapCut AI数据工程与系统,同算法、产品团队协作完成稳健高效的数据处理Pipeline和系统的设计和研发,支持数据的生产、管理以及洞察等,助力算法模型快速迭代; 2、负责搭建模型效果评测体系与系统,支持多层级和多类型AIGC模型评测,以及测试集的构建、管理等,快速评估和优化模型以及端到端链路效果; 3、负责构建算法迭代自动化系统,提高数据驱动的模型迭代效率,以及使用Prompt Engineering和RAG等技术来提高模型和产品效果等; 4、负责构建统一的数据框架和基座,结合Data-Centric AI的理念,为剪映Capcut多个业务场景打造通用可靠的数据体系,推动业务快速发展。

更新于 2021-07-27广州
logo of alibaba
社招3年以上

负责为大模型训练和Agent构建准备高质量数据,专注于海量数据收集、清洗、处理工作,为模型训练提供优质数据支撑。 1. 数据收集与获取:通过API接口、公开数据集、合作伙伴等多种方式收集文本、代码、多模态等训练数据 2. 数据清洗与预处理:进行数据去重、格式转换、质量筛选、内容过滤,处理HTML2Text、PDF2Text、OCR、ASR等格式转换 3. 数据标注与构建:设计数据标注方案,构建高质量的监督学习、强化学习训练数据集和评估数据集 4. 数据合成与生成:使用AI技术进行数据合成,包括文本生成、代码生成、多模态数据生成等,扩充训练数据规模 5. 需求对接与迭代:与模型训练团队、Agent开发团队密切协作,快速响应数据需求,持续优化数据质量 6. 工具开发与优化:开发数据处理工具和脚本,优化处理流程效率,确保大规模数据处理的稳定性

更新于 2025-08-25杭州