蚂蚁金服蚂蚁集团-内容数据质量专家-内容技术
任职要求
1、本科或以上学历,计算机科学、数据科学、数学、统计学或相关专业; 2、至少2年系统级的保障相关工作经验,熟练使用Scala、Java或Python等编程语言,熟练掌握SQL、Python或R等数据分析工具; 3、有集群或大型系统优化经验,有Spark、Flink、ClickHouse、离线实时链路或者开源组件保障经验 4、具有良好的沟通和团队合作能力,能够有效地与各个部门合作,推动问题解决,拿到预期结果; 5、有稳定性、高可用方向建设经验,促等重大运营活动技术保障经验的优先考虑。
工作职责
1、负责支付宝内容域推荐链路数据质量保障工作,包括但不限于监控、巡检、资源成本治理等; 2、负责高可用质量保障工作,进行业务稳定性和平台的中长期规划,保证推荐系统在高并发的前提下可安全、稳定、高效运行; 3、负责线上风险和问题的问题发现、应急、跟进、复盘,对复杂问题进行快速定位和优化,保障系统稳定运行。
1、主要负责审核、理解、搜广推相关模型的评测工作,通过制定科学的评测方法和数据分析方法,挖掘模型效果上的badcase并推动链路上的优化; 2、负责流量分析、异常洞察、数据质量评估等通用数据分析能力开发; 3、有评测经验,熟悉搜推等相关数据产品的评测方法并有落地业务的经验; 4、深入理解公司产品及算法策略,通过数据挖掘,提出有实效的建议,驱动产品及技术迭代。
1、基于产品研发运营和业务需要,在内容垂类方向产出高质量文本数据,用于相关大模型训练; 2、参与大模型垂类数据标注标准的制定和优化,在既定标注标准下,完成相关数据的生产任务,总结抽象各类问题,反哺产品、研发、运营及业务,持续优化、细化标注标准,保障数据质量; 3、对数据生产方法进行探索,推动尝试,持续提升标注数据的准确性和生产效率。
1. 主导专题攻关,持续提升核心系统在高并发、海量请求数下的高处理性能以及用户体验,保证系统的安全、稳定、快速运行;持续提升面向领域业务的建模、体系化技术产品抽象设计合理性,提升业务需求响应的效率与能力。 2. 核心功能的设计与代码模板编写,开发与维护系统核心模块。 3. 负责系统的规划设计,持续完善和优化,制定产品的技术发展路线。 4. 审核开发人员的系统设计和代码质量,书写技术文档和制定开发规范,辅导团队成员的技术能力提升。
研究领域: 数据挖掘与内容检索 项目简介: 近年来,深度学习和人工智能技术快速发展,大模型自然语言处理在机器翻译、文本生成、情感分析等领域展现出强大能力,蚂蚁也在金融、生活、医疗领域等落地丰富的消费场景。数据作为大模型发展的三大基石之一,语料的规模、质量、多样性对模型质量起到至关重要的作用。尽管许多大模型已经相继开源,但其训练数据几乎全部闭源并视其为重要的商业机密,因此研究和建设高质数据集成为有利于提升模型精度、鲁棒性和泛化能力,是大模型发展的重要方向。 蚂蚁当前训练语料包括文本、图文和视频场景,现有方法主要依赖于人类专家制定的启发式规则来提高语料库质量,仍缺乏一个整体、多维度、易用的语料质量评估体系;此外,是否可以通过数据修复和增强等手段,剔除数据中的低质内容,提升数据多样性和代表性,从而获取更多的优质训练样本?数据质量与模型能力之间的联系如何?又如何设计统一的优化手段来增强数据质量?这些问题都是提升模型性能亟需解决的关键。