美团大模型数据运营专家
任职要求
1.本科及以上学历,计算机、数据科学、统计学、人工智能等相关专业优先。
2.3年以上数据运营或者AI数据相关工作经验,有大模型(L…工作职责
1.数据策略与规划:负责文本和多模态大模型训练数据(包括预训练和后训练)的数据建设统筹规划,包括数据调研、数据引入、数据质量标准制定、数据验收等。 2.渠道管理:管理相关数据渠道,通过合作引入相关数据。 3.数据创新:探索新的数据来源(如开源数据、合成数据、用户反馈数据),提升数据规模和质量。
1、基于产品研发运营和业务需要,在内容垂类方向产出高质量文本数据,用于相关大模型训练; 2、参与大模型垂类数据标注标准的制定和优化,在既定标注标准下,完成相关数据的生产任务,总结抽象各类问题,反哺产品、研发、运营及业务,持续优化、细化标注标准,保障数据质量; 3、对数据生产方法进行探索,推动尝试,持续提升标注数据的准确性和生产效率。
1. 预训练语料策略与体系搭建,负责大模型预训练阶段的数据策略,覆盖通用语料、垂直领域语料的全流程数据方案设计。 2. 主导数据评估:建立清晰可量化的数据评估标准,提高评估效率;验证数据有效性,推动模型迭代; 3. 数据驱动的模型迭代,深度理解预训练技术原理,通过数据分析定位模型能力短板,制定针对性数据补充策略,推动模型技术迭代升级。 4. 前沿探索,保持对开源模型(如DeepSeek、Qwen等)及学术前沿的敏锐度,沉淀可复用的数据方法论,为团队提供中短期数据策略规划。 5. 与算法、技术团队合作开发数据工具链,主动发现问题,发起项目,管理数据生产团队,把控数据质量与项目进度,推动跨团队高效协作,确保数据按时高质交付。 6. 主导垂直领域语料体系的从0到1搭建(包括但不限于人文/学科/code等体系),能够定义各体系的质量标准,并设计可量化的评估指标。
1、与顶尖算法团队紧密协作,深入理解VLA模型训练方法,负责具身智能数据采集、清洗、标注、评估生产管理全流程,包括视觉、敏锐度、运动等多模态数据,提供数据支持和建议; 2、定义并规划数据采集、标注标准与高效执行流程,主导采标平台设计和优化,确保数据处理的高效性和稳定性; 3、引入主动学习、自动标注、仿真数据合成等技术手段,大幅提升数据采集标注效率与数据价值密度,为模型训练提供高质量数据支撑。