小红书数据平台专家
任职要求
1、本科及以上学历,3-5年数据平台研发经验,有实时数据平台开发经验的优先; 2、精通java后端开发,对微服务系统设计和架构有一定的理解 3、熟悉大数据生态,包…
工作职责
1、负责实时计算平台的整体架构设计、开发和运维,打造业界一流的实时数据平台 2、 负责Flink on k8s 架构下容灾,具备集群、机房级别故障的双链路容灾和逃逸能力 3、规范和管理flink计算资源,降低运维成本,提高计算资源的利用率 4、支持流批一体的数据开发新范式
1、负责实时计算平台的整体架构设计、开发和运维,打造业界一流的实时数据平台 2、 负责Flink on k8s 架构下容灾,具备集群、机房级别故障的双链路容灾和逃逸能力 3、规范和管理flink计算资源,降低运维成本,提高计算资源的利用率 4、支持流批一体的数据开发新范式

1、负责大数据平台(包括离线/实时平台,数据湖)的建设及维护,保障平台的稳定可用性; 2、跟进大数据技术发展及行业实践演变,规划大数据平台的增强迭代 ; 3、负责推进数据平台的重要项目,达成团队kpi;

1、负责大数据平台(包括离线/实时平台,数据湖)的建设及维护,保障平台的稳定可用性; 2、跟进大数据技术发展及行业实践演变,规划大数据平台的增强迭代 ; 3、负责推进数据平台的重要项目,达成团队kpi;
1、团队愿景:在大模型进入深水区的今天,真正拉开差距的,不再只是模型结构,而是数据的质量、成本与评测方法。 我们对标 Scale AI,正在建设主权模型时代的 AI 数据基础设施:以最低的总体成本,持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。 在这里,你将参与决定用什么样的数据能真正塑造模型能力,把分散、复杂、真实的业务数据,转化为可 规模、可验证、可复用的模型竞争力,参与定义 AI 时代最底层、也最关键的基础设施。 2、 主导多模态模型训练数据的生产项目:作为算法与标注资源的“连接器”,将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队(包括外包/众包资源),把控项目进度与成本,确保大规模数据交付的准时率与合格率。 3、流程设计与工程优化:设计 SFT、 RLHF 等数据流转机制,搭建高效的 Workflow。协同多方团队,优化标注效率和质量。 4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统,解决多模态数据的清洗与结构化难题。 5、利用模型生成数据等方式,构建自动化数据扩充流水线,降低对人工标注的依赖,突破数据规模瓶颈。 6、建立数据质量评估体系,系统性分析标注数据的质量分布特征,提升标注效率。