钉钉钉钉-AI数据工程师-杭州
任职要求
1、本科及以上学历,人工智能、计算机、统计学、软件工程、信息安全、通信等相关专业优先; 2、扎实的软件工程和数据处理能力,精通JAVA、Python、SQL其中一种语言;有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关开发经验,有Spark/Flink的开发经验尤佳 3、熟悉…
工作职责
1、负责钉钉数据体系的建设,通过数据+工程化,赋能业务,提供全链路、可分析的业务服务能力;配置化、可复用的数据技术能力;更直观、更具指导性的产品化能力 2、大模型多模态AIData数据工程体系建设,探索并实践面向各领域的高质量数据自动化合成技术(如Self-Instruct, Constitutional AI等),设计并构建高效可扩展的数据飞轮(Data-Flywheel)闭环系统,为模型训练和行业专属模型应用提供高质量数据集 3、构建湖仓一体数据底座、智能问数Data Agent等核心能力,提升Data + AI 方面的技术竞争力
1. 负责搭建面向企业信息服务场景的数据仓库体系,设计高可用、可扩展的数据存储与计算架构,支撑AI搜索产品的多维度数据需求 2. 构建企业关系知识图谱,挖掘企业信息中的人企关系、股权穿透、关联网络等复杂关系 3. 解析非结构化数据(如招投标文件、财报文本),提取商业机会信号与风险特征 4. 搭建覆盖用户行为、搜索质量、商业价值的全链路数据监控系统 5. 与算法团队深度协作,将NLP、知识图谱等AI技术应用于企业信息结构化处理与价值挖掘
1.数据采集方案设计 根据影像算法需求,设计多场景、多维度数据采集方案,覆盖不同光照条件、设备类型及环境变量。 制定传感器参数配置标准,确保原始数据的高信噪比与色彩保真度。 2.数据增强与合成 开发基于物理模型的数据增强工具,扩充数据多样性; 利用生成式AI技术(如GAN、NeRF)合成稀缺场景数据,解决长尾数据分布问题。 数据质量评估与闭环 设计数据质量评价体系,通过算法预筛选+人工复核确保数据质量达标; 建立数据-算法协同优化闭环,根据模型训练效果反向迭代数据采集策略。 3.数据资产管理与合规 构建企业级影像数据库,设计高效检索系统,实现数据版本化管理与权限控制; 确保数据采集符合隐私保护与版权合规要求,制定数据安全使用规范。
1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。