logo of antgroup

蚂蚁金服蚂蚁集团-多模态语料质量评估与优化工程师-杭州/上海

社招全职2年以上技术-开发地点:上海 | 杭州状态:招聘

任职要求


1.  教育背景:计算机、数学、人工智能、自然语言处理或相关领域本科及以上学历,硕士/博士优先。
2.  专业经验:
     1)2年以上自然语言处理、多模态数据处理或数据科学研发经验,有大模型预训练/微调语料治理经验者优先;
     2)深入掌握信息抽取(实体/关系/属性)、数据清洗、标注一致性评估、数据合成中的至少一项核心技术;3)具备多模态对齐分析或跨模态质量度量项目实践。
3.  技术能力:
     1)精通PyTorch/TensorFlow,熟练使用Transformers、LangChain等工具链;
     2)熟悉大规模数据处理框架及分布式计算优化;
     3)有基于LLM或Diffusion模型的合成数据生成与验证实践经验。
4.  数据质量能力:
     1)具备数据敏感度,能从多模态数据分布中识别系统性偏差、噪声模式…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.  多模态语料质量评估体系建设 :
     1)设计覆盖文本、图像、音频、视频等多模态数据的质量评估维度(如一致性、完整性、跨模态对齐度等),建立可量化、自动化的质量度量框架,定义多模态场景下的质量验收基线与SOP;
     2)研发基于语义理解的自动化质检算法,开发可视化质检平台与诊断工具,支持跨团队(算法/数据/工程)协同的数据质量分析决策。
2.  结构化语料优化与增强:
     构建从非结构化多模态数据到高质量结构化知识(图谱、合成链路等)的生成与验证闭环,利用可控Agent生成技术检测高保真、多样化逻辑推理样本,提升数据的逻辑密度与可解释性,并通过对抗验证与消融实验评估其对模型泛化能力的增益。
3.  数据-模型质量飞轮驱动:
     通过质量导向的数据消融实验,量化分析语料结构质量、分布均衡性、噪声水平对模型推理能力与知识记忆的影响边界,建立“低质样本诊断->清洗/合成策略迭代->模型性能验证”的闭环流程,推动以数据质量为核心的模型持续优化。
包括英文材料
NLP+
学历+
数据科学+
大模型+
PyTorch+
TensorFlow+
还有更多 •••