小红书模型标注-模型数据策略运营
任职要求
1、本科以上学历,具备1年以上互联网内容产品相关的AI模型训练经历,熟知模型训练的常用方法、训练过程中的模型效果调优和问题解决办法,成功交付过业务模型; 2、熟知标注业务全链路,至少具备1个垂类(搜索/商业化/交易/安全/内容理解等)的业务执行及策略经验,具备整体数据解决方案的能力; 3、具备大模型应用的实战经验,有过以大模型应用…
工作职责
1、对业务模型训练效果的数据负责,与算法进行专业对话,结合模型能力要求进行数据策略的制定,为模型效果提供最优解决方案,支持从模型冷启、样本设计、数据生产、效果优化、线上监控的全过程,推动策略迭代提升模型效果; 2、负责搜索、安全生态、内容理解、大模型、商业交易等业务板块的模型需求,基于业务场景模型的应用效果设计运营链路,从模型实际应用收益出发,推动模型的策略、规则、数据链路的优化; 3、基于行业常见智能化应用手段,例如agent、rag、pe等,进行智能化标注策略设计,提供专业的智能化数据方案,搭建人机协同、智能化标注等数据链路,拿到效率、成本的收益; 4、保持数据行业前沿的视角和前瞻性的专业思考,持续推进智能化标注策略迭代,同时辅助内部工具平台、组织与业务交付流程的优化,提出有效建议,提高团队整体业务效率。
1、利用内容理解技术帮助社区推荐完成实时推荐、互动生态、内容创作、兴趣探索、用户多样性等场景需求; 2、通过基座模型的优化及迭代,内容标签体系的建设,承接并健全社区生态里各维度的内容体系,完成透视及业务刻画的目标; 3、制定增长or生态策略持续优化用户的浏览体验,完成对于社区业务的发展及创新。
1.全流程搭建与管理 • 主导文本对话、TTS音频数据的标注流程设计,制定多模态标注规范与质控体系(含预标注策略、自动化质检)。 2.团队与外包管理 • 组建、管理标注团队(含全职/外包),负责招募、培训、绩效考核及成本优化。 3.数据质量与模型迭代闭环 • 建立数据质量监控指标,分析模型缺陷,推动标注策略迭代反哺模型优化。 4.跨团队协作 • 联动算法、产品、语音技术团队,对齐标注需求与训练目标,确保数据驱动虚拟人交互体验提升。 5.效率工具开发 • 推动智能标注工具开发(如基于大模型的自动预标注、批量质检),提升标注效率30%+。
方向一: 1. 负责支付宝行业运营平台内流量投放、增长相关的数据服务,包括:数据仓库(离线、实时)设计和研发、数据赋能业务的方案设计和推进运营场景需要的数据诉求; 2. 研究支付宝亿级用户的相关行为及数据,并基于分类、标注、聚类等机器学习手段,挖掘不同业务场景的业务标签; 3. 负责相关域的数据架构治理,包括集群管理、数仓架构管理、需求流程管理等。 方向二: 负责支付宝用户业务数据体系和增长解决方案建设,通过数据技术和数据科学手段为业务决策及策略落地提供支持,助力业务增长。 1、负责支C侧业务核心数据体系的设计,基于业务理解业务洞察指标体系,及时发现业务问题和机会,并沉淀数据资产和数据产品; 2、深入理解业务的战略和策略打法,敏锐洞察业务痛点,利用数据技术和数据科学手段为业务决策、产品方向、增长策略提供业务建议和方案; 3、协同技术和算法团队打造可持续数据解决方案,通过效果和效率的提升助力业务增长,推动业务模式和产品不断创新。
大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。